網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

螞蟻集團(tuán)發(fā)布LLaDA2.1：讓AI文本生成既快又準(zhǔn)的新技術(shù)

2026-02-10 17:25:23　來(lái)源: 科技行者

北京舉報(bào)

分享至

這項(xiàng)由螞蟻集團(tuán)、浙江大學(xué)、西湖大學(xué)等機(jī)構(gòu)聯(lián)合完成的研究發(fā)表于2026年2月，研究編號(hào)為arXiv:2602.08676v1。想要深入了解技術(shù)細(xì)節(jié)的讀者可以通過(guò)這個(gè)編號(hào)查詢完整論文。

在人工智能快速發(fā)展的今天，讓機(jī)器像人一樣寫(xiě)作已經(jīng)不再是天方夜譚。不過(guò)，就像人類寫(xiě)作時(shí)會(huì)遇到"要么寫(xiě)得快但質(zhì)量不高，要么寫(xiě)得好但速度太慢"的困擾一樣，AI文本生成也面臨同樣的難題。螞蟻集團(tuán)的研究團(tuán)隊(duì)最近提出了一個(gè)巧妙的解決方案：讓AI學(xué)會(huì)"邊寫(xiě)邊改"，就像我們用Word寫(xiě)文檔時(shí)可以隨時(shí)修改已經(jīng)寫(xiě)好的內(nèi)容一樣。

傳統(tǒng)的AI文本生成就像用老式打字機(jī)寫(xiě)文章，一旦敲下某個(gè)字母就無(wú)法修改，只能繼續(xù)往下寫(xiě)。而新的擴(kuò)散語(yǔ)言模型雖然可以"并行寫(xiě)作"（同時(shí)考慮多個(gè)位置該寫(xiě)什么），但就像多個(gè)人同時(shí)在不同段落寫(xiě)作卻無(wú)法互相溝通一樣，經(jīng)常出現(xiàn)前后不一致的問(wèn)題。研究團(tuán)隊(duì)的創(chuàng)新在于給這種并行寫(xiě)作系統(tǒng)加上了"實(shí)時(shí)編輯"功能，讓AI不僅能快速起草內(nèi)容，還能在發(fā)現(xiàn)錯(cuò)誤時(shí)及時(shí)修正。

這個(gè)技術(shù)突破的核心在于創(chuàng)造了一套"雙重標(biāo)準(zhǔn)"的生成機(jī)制。簡(jiǎn)單來(lái)說(shuō)，AI在生成文本時(shí)會(huì)設(shè)定兩個(gè)不同的信心閾值：一個(gè)用于決定什么時(shí)候從空白填入新詞（從掩碼到詞語(yǔ)），另一個(gè)用于決定什么時(shí)候替換已經(jīng)寫(xiě)好但可能有問(wèn)題的詞語(yǔ)（從詞語(yǔ)到詞語(yǔ)）。這樣的設(shè)計(jì)讓AI可以在"快速模式"下大膽地快速起草，然后通過(guò)"編輯修正"來(lái)保證質(zhì)量，也可以在"質(zhì)量模式"下更加謹(jǐn)慎地生成，同時(shí)保持一定的編輯靈活性。

為了讓AI學(xué)會(huì)這種"邊寫(xiě)邊改"的技能，研究團(tuán)隊(duì)設(shè)計(jì)了一套特殊的訓(xùn)練方法。他們不僅讓AI學(xué)習(xí)如何填空（傳統(tǒng)的掩碼語(yǔ)言建模），還特意讓AI練習(xí)如何從含有錯(cuò)誤的文本中恢復(fù)出正確內(nèi)容。這就像讓學(xué)生既練習(xí)寫(xiě)作文，又練習(xí)改錯(cuò)別字和語(yǔ)法問(wèn)題，最終培養(yǎng)出既能創(chuàng)作又能編輯的綜合能力。

在訓(xùn)練的最后階段，研究團(tuán)隊(duì)還引入了強(qiáng)化學(xué)習(xí)技術(shù)。由于擴(kuò)散模型的特殊性質(zhì)，傳統(tǒng)的強(qiáng)化學(xué)習(xí)方法很難直接應(yīng)用，就像給一個(gè)復(fù)雜的樂(lè)隊(duì)指揮打分比給單個(gè)歌手打分要困難得多。研究團(tuán)隊(duì)巧妙地運(yùn)用了"證據(jù)下界"這一數(shù)學(xué)工具，將復(fù)雜的序列評(píng)估問(wèn)題轉(zhuǎn)化為可以高效處理的塊級(jí)別評(píng)估問(wèn)題，成功實(shí)現(xiàn)了大規(guī)模的強(qiáng)化學(xué)習(xí)訓(xùn)練。

實(shí)驗(yàn)結(jié)果相當(dāng)令人振奮。在編程任務(wù)中，LLaDA2.1-Flash（1000億參數(shù)模型）在HumanEval+基準(zhǔn)測(cè)試中達(dá)到了驚人的892 TPS（每秒生成892個(gè)詞元），在BigCodeBench上達(dá)到801 TPS，在LiveCodeBench上也有663 TPS的表現(xiàn)。要知道，傳統(tǒng)的自回歸模型每秒只能生成一個(gè)詞元，這意味著新方法在速度上有數(shù)百倍的提升。

更令人驚喜的是，這種速度提升并沒(méi)有以犧牲質(zhì)量為代價(jià)。通過(guò)引入編輯機(jī)制，模型在快速生成的同時(shí)還能保持相當(dāng)高的準(zhǔn)確性。研究團(tuán)隊(duì)通過(guò)33個(gè)不同的基準(zhǔn)測(cè)試驗(yàn)證了模型的性能，涵蓋了知識(shí)問(wèn)答、邏輯推理、代碼生成、數(shù)學(xué)問(wèn)題求解以及指令跟隨等各個(gè)方面。

在技術(shù)架構(gòu)方面，這項(xiàng)研究最大的創(chuàng)新在于打破了傳統(tǒng)擴(kuò)散模型"吸收態(tài)"的限制。以前的擴(kuò)散語(yǔ)言模型只允許從掩碼狀態(tài)轉(zhuǎn)換到具體詞語(yǔ)，就像只能在空白處填詞而不能修改已寫(xiě)內(nèi)容。新的方法引入了"可編輯狀態(tài)演化"機(jī)制，允許在已生成的詞語(yǔ)之間進(jìn)行轉(zhuǎn)換，大大增加了生成過(guò)程的靈活性。

為了確保這種編輯能力的有效性，研究團(tuán)隊(duì)還開(kāi)發(fā)了多輪前向傳播技術(shù)，通過(guò)在訓(xùn)練數(shù)據(jù)中加入各種編輯場(chǎng)景，讓模型能夠適應(yīng)不同類型的修正需求。這就像讓學(xué)生不僅練習(xí)寫(xiě)新文章，還要練習(xí)修改各種類型的文章錯(cuò)誤，從拼寫(xiě)錯(cuò)誤到邏輯問(wèn)題都要涵蓋。

在實(shí)際應(yīng)用中，這項(xiàng)技術(shù)展現(xiàn)出了極強(qiáng)的適應(yīng)性。用戶可以根據(jù)具體需求選擇不同的工作模式：需要快速生成大量?jī)?nèi)容時(shí)可以選擇"極速模式"，需要高質(zhì)量輸出時(shí)可以選擇"質(zhì)量模式"。這種靈活性使得同一個(gè)模型可以適應(yīng)不同場(chǎng)景的需求，從快速原型制作到精品內(nèi)容創(chuàng)作都能勝任。

值得注意的是，這種編輯能力不僅限于單個(gè)文本塊內(nèi)部的修正，還擴(kuò)展到了多個(gè)文本塊之間的協(xié)調(diào)。研究團(tuán)隊(duì)開(kāi)發(fā)的"多塊編輯"機(jī)制允許模型在生成新內(nèi)容時(shí)回頭修正之前的部分，確保整個(gè)文本的連貫性和一致性。這種全局優(yōu)化能力是傳統(tǒng)生成方法難以實(shí)現(xiàn)的。

在基礎(chǔ)設(shè)施支持方面，研究團(tuán)隊(duì)也做了大量?jī)?yōu)化工作。他們使用了定制版本的SGLang推理框架，集成了Alpha-MoE優(yōu)化技術(shù)和FP8量化技術(shù)，進(jìn)一步提升了推理效率。同時(shí)，通過(guò)塊級(jí)因果掩碼注意力機(jī)制，模型能夠在長(zhǎng)文本生成時(shí)保持高效的計(jì)算性能。

從技術(shù)發(fā)展的角度來(lái)看，LLaDA2.1代表了擴(kuò)散語(yǔ)言模型發(fā)展的一個(gè)重要里程碑。它不僅解決了并行生成中的一致性問(wèn)題，還為未來(lái)的文本生成研究開(kāi)辟了新的方向。這種"生成-編輯"結(jié)合的范式可能會(huì)影響未來(lái)AI寫(xiě)作工具的設(shè)計(jì)思路。

當(dāng)然，這項(xiàng)技術(shù)也還有一些需要改進(jìn)的地方。研究團(tuán)隊(duì)誠(chéng)實(shí)地指出，在某些對(duì)話場(chǎng)景中，過(guò)于激進(jìn)的生成設(shè)置可能會(huì)產(chǎn)生不理想的輸出。此外，不同應(yīng)用領(lǐng)域?qū)λ俣群唾|(zhì)量的平衡要求不同，需要針對(duì)性地調(diào)整參數(shù)設(shè)置。在結(jié)構(gòu)化內(nèi)容（如代碼和數(shù)學(xué)公式）生成中表現(xiàn)更好，而在開(kāi)放性對(duì)話中還需要更細(xì)致的參數(shù)調(diào)優(yōu)。

盡管存在這些挑戰(zhàn)，LLaDA2.1的出現(xiàn)標(biāo)志著AI文本生成技術(shù)邁入了一個(gè)新階段。通過(guò)巧妙地結(jié)合快速并行生成和智能編輯修正，這項(xiàng)技術(shù)為解決長(zhǎng)期困擾該領(lǐng)域的速度-質(zhì)量權(quán)衡問(wèn)題提供了一條可行的路徑。隨著技術(shù)的進(jìn)一步完善和應(yīng)用場(chǎng)景的擴(kuò)展，我們有理由期待更加智能、高效的AI寫(xiě)作助手很快就會(huì)進(jìn)入我們的日常生活。

對(duì)于普通用戶而言，這項(xiàng)技術(shù)的成熟意味著未來(lái)的AI寫(xiě)作工具將能夠更好地理解我們的需求，既能在需要時(shí)快速產(chǎn)出大量?jī)?nèi)容，又能在關(guān)鍵時(shí)刻提供高質(zhì)量的精品輸出。無(wú)論是學(xué)生寫(xiě)作業(yè)、職場(chǎng)人士準(zhǔn)備報(bào)告，還是內(nèi)容創(chuàng)作者生產(chǎn)文章，都將從這種技術(shù)進(jìn)步中受益。說(shuō)到底，這項(xiàng)研究讓我們看到了AI寫(xiě)作的美好前景：不再是簡(jiǎn)單的文字堆砌，而是真正具備了類似人類的思考、創(chuàng)作和修改能力的智能助手。

Q&A

Q1：LLaDA2.1的核心創(chuàng)新是什么？

A：LLaDA2.1的核心創(chuàng)新是引入了"邊寫(xiě)邊改"的文本生成機(jī)制，也就是Token-to-Token編輯功能。傳統(tǒng)AI只能從空白填入新詞，而LLaDA2.1還能修改已經(jīng)生成的詞語(yǔ)，通過(guò)雙重信心閾值實(shí)現(xiàn)快速起草和質(zhì)量修正的平衡。

Q2：LLaDA2.1在速度上有多大提升？

A：LLaDA2.1在代碼生成任務(wù)中表現(xiàn)尤其出色，1000億參數(shù)的Flash版本在HumanEval+測(cè)試中達(dá)到892 TPS，在BigCodeBench上達(dá)到801 TPS。相比傳統(tǒng)自回歸模型每秒只能生成1個(gè)詞元，這是數(shù)百倍的速度提升。

Q3：為什么LLaDA2.1能做到既快又準(zhǔn)？

A：LLaDA2.1采用了"先快速起草，再編輯修正"的策略。它可以在"極速模式"下降低生成閾值快速產(chǎn)出內(nèi)容，然后通過(guò)編輯機(jī)制糾正錯(cuò)誤。同時(shí)在"質(zhì)量模式"下采用保守閾值確保輸出質(zhì)量，這種靈活的雙模式設(shè)計(jì)實(shí)現(xiàn)了速度與質(zhì)量的平衡。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.