![]()
大數(shù)據(jù)文摘出品
最近,字節(jié)跳動發(fā)布了一款全新的AI代碼生成模型“Seed Diffusion Preview”。
這款模型采用了完全不同于以往的生成方式,不再是“一個詞一個詞”地慢慢生成,而是整段代碼并行生成,一次生成多個片段。
據(jù)官方披露,Seed Diffusion Preview在Nvidia H20 GPU上的生成速度高達2146個token每秒,比傳統(tǒng)模型提升了最多5.4倍。
![]()
與傳統(tǒng)的自回歸模型不同,這款新模型采用“離散狀態(tài)擴散”(discrete-state diffusion)的方法,將圖像擴散模型的思路移植到了文字和代碼領域。
它的工作原理是:先制造一段帶有噪聲和占位符的初始代碼,然后一步步地“復原”出真實的代碼,而不是從頭開始一個字符一個字符地拼湊。
這樣的結構,使得模型可以一次性生成多個部分,再通過Transformer建模依賴關系,并結合因果順序與軌跡蒸餾來提升一致性。
在多項基準測試中,Seed Diffusion Preview的表現(xiàn)不輸其它主流模型,在代碼編輯等任務中表現(xiàn)尤為突出。
01 雙階段訓練機制
為了兼顧速度和質量,字節(jié)跳動為Seed Diffusion Preview設計了一套雙階段訓練機制。
第一階段采用遮罩訓練,將部分代碼替換為特殊的占位符,訓練模型還原這些被遮罩的內容。但單靠這一階段會產(chǎn)生一個問題:模型可能忽視未被遮罩的部分,只是盲目復制原文而不加檢驗。(前 80%)
獨立性假設:
![]()
邊際概率分布:
![]()
為此,團隊加入了第二階段:基于編輯的訓練,引入插入和刪除操作,強迫模型檢查并修正所有部分,不只是那些被遮擋的片段。
此外,字節(jié)跳動還優(yōu)化了代碼的生成順序。
模型通過約束順序訓練引導模型遵循依賴關系(如先聲明后使用),以提升完整性與可執(zhí)行性。
訓練語料是,在常規(guī)代碼語料基礎上,額外用預訓練擴散模型生成軌跡并篩選蒸餾,以提升順序與一致性。
02 瞄準谷歌,進軍復雜推理領域
Seed Diffusion Preview不僅是一個技術展示,它的推出也有明確的對標對象。
谷歌在今年5月推出了Gemini Diffusion模型,同樣主打代碼生成。字節(jié)跳動此舉,正面迎戰(zhàn)谷歌。
從性能對比看,Seed Diffusion Preview在推理速度上全面領先,并且在代碼編輯、生成結構完整代碼方面也能與之抗衡甚至超越。(即在作者給定設置下速度更快,由于硬件與評測差異,跨模型直接對比需謹慎)
特別是在并行解碼方面,Seed Diffusion Preview采用了“自我優(yōu)化生成機制”(同策略學習(on-policy)。
在訓練中引入驗證器的同策略目標,以減少生成步數(shù)并維持質量。
此外,字節(jié)跳動針對擴散生成流程開發(fā)了內部的框架支持工具鏈,優(yōu)化了整個軟件棧。
生成過程中,雖然各個代碼塊并行生成,但整體上仍然保持邏輯順序,保證變量依賴關系和執(zhí)行順序的正確性。
未來,字節(jié)跳動計劃繼續(xù)擴大模型規(guī)模,并嘗試將這種并行擴散架構推廣到更復雜的推理任務中。
![]()
目前,該模型已有在線演示版本。不過因為太火,顯示服務繁忙。
https://studio.seed.ai/exp/seed_diffusion/
作者長期關注 AI 產(chǎn)業(yè)與學術,歡迎對這些方向感興趣的朋友添加微信Q1yezi,共同交流行業(yè)動態(tài)與技術趨勢!
GPU 訓練特惠!
H100/H200 GPU算力按秒計費,平均節(jié)省開支30%以上!
![]()
掃碼了解詳情?
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.