近期,擴散語言模型備受矚目,提供了一種不同于自回歸模型的文本生成解決方案。為使模型能夠在生成過程中持續(xù)修正與優(yōu)化中間結(jié)果,西湖大學(xué) MAPLE 實驗室齊國君教授團(tuán)隊成功訓(xùn)練了具有「再掩碼」能力的擴散語言模型(Remasking-enabledDiffusion Language Model,RemeDi9B)。在擴散去噪的多步過程中,通過進(jìn)行再掩碼 SFT 和 RL 訓(xùn)練,為每個 token 輸出一個去掩碼置信度,RemeDi 能夠從序列中已經(jīng)生成的內(nèi)容中識別無法確定的位置進(jìn)行再掩碼(remask),從而修正錯誤內(nèi)容并提升文本質(zhì)量,在各方面都超越了現(xiàn)有的擴散語言模型。該模型還具有可變長生成(variable-length generation)能力,打破了現(xiàn)有中大規(guī)模擴散語言模型僅支持定長生成的限制,提高了模式能力的靈活性。
