![]()
哈嘍,大家好,今天小墨要給大家拆解 AI 圈的重磅突破,伯克利+UIUC 團隊用開源框架 dLLM,讓經典 BERT 模型學會對話,50GPU小時訓練就比肩主流小模型,這波操作直接打破擴散模型高門檻的魔咒!
最近,伯克利和UIUC的聯合團隊扔出了一顆 “炸彈”,他們用自己開發的dLLM框架,讓原本只會 “讀文本” 的 BERT 模型,學會了像ChatGPT一樣聊天。
更夸張的是整個訓練只花了50個GPU小時,成本不到常規擴散模型的三分之一,還把所有代碼都公開了。
![]()
破解擴散模型兩大痛點
作為支撐BERT Chat 的核心,dLLM框架的設計初衷就是 “降低擴散模型的使用門檻”。
與傳統工具庫不同,這個開源框架實現了訓練、推理、評測的全流程封裝,不僅結構清晰,還提供了可直接運行的 “Hello World” 示例,即便是筆記本電腦也能復現核心實驗。
更值得關注的是,dLLM具備極強的兼容性,支持Dream、LLaDA、RND 等主流擴散模型,還首次公開了Edit Flows等論文算法的實現,讓原本停留在理論層面的技術真正落地。
![]()
這一突破恰逢其時,當前擴散模型領域正面臨效率瓶頸,螞蟻集團此前發布的dInfer推理框架雖實現了10倍速度提升,但主要聚焦推理優化。
而dLLM則從全流程出發,構建了從模型訓練到應用落地的完整生態。
這種“易用性 + 擴展性” 的設計,不僅讓初學者能快速入門,也為研究者提供了靈活的實驗平臺,進一步推動了擴散模型的民主化。
![]()
![]()
8192token窗口成關鍵
在基座模型的選擇上,團隊沒有跟風主流生成式模型,而是盯上了ModernBERT,這款BERT變體最大的優勢的是將上下文窗口從原始BERT的512token擴展到8192token,且在非生成任務中表現突出。
通過在Wikitext-103-v1數據集上的預訓練測試,答案浮出水面,ModernBERT在對比模型中取得了最低的訓練損失,證明其在生成式訓練中同樣具備優勢。
![]()
這一選擇也為后續的高效訓練奠定了基礎,畢竟更長的上下文窗口意味著模型能處理更復雜的對話場景,而原始BERT的語言知識積累則減少了額外預訓練的成本。
相比之下,同類擴散模型常選用專用生成基座,不僅訓練難度大,還存在知識遷移不足的問題。
![]()
實驗過程中團隊意外發現了一個關鍵結論,對ModernBERT而言,額外的擴散式預訓練幾乎沒有收益。
![]()
他們分別測試了三個版本的模型,無生成式預訓練版、Wikitext-103-v1 預訓練版、OpenWebText 預訓練版。
結果顯示盡管預訓練模型初期損失更低,但最終三者的訓練和評測效果幾乎一致。
這一發現顛覆了擴散模型的常規訓練邏輯。
團隊據此調整策略,直接將allenai/tulu-3-sft-mixture 與 HuggingFaceTB/smoltalk 數據集拼接,進行離散擴散指令微調(SFT)。
![]()
最終0.1B參數的 ModernBERT-base-chat-v0 能生成流暢語言,0.4B參數的 large 版本在 LAMBADA 語言理解、GSM8K 數學推理、CEVAL-valid 中文測評中,性能逼近阿里開源的 Qwen1.5-0.5B 模型,而整個訓練過程僅耗時約50 GPU 小時,成本大幅降低。
![]()
推動社區共同進步
不同于追求商業落地的模型,BERT Chat 系列更像是一份 “擴散模型入門教程”。
團隊不僅開源了模型權重,還公開了完整的訓練腳本、參數設置、訓練曲線和消融實驗數據,所有信息可通過 W&B 報告查詢。
![]()
這種透明化的研究方式,讓初學者能一步步復現實驗,真正理解擴散模型的去噪生成機制。
更貼心的是,團隊還提供了性能優化小貼士:減少擴散步數可顯著提升生成速度,因為擴散模型支持并行生成多個 token。
這一細節也體現了框架的實用性,在實際應用中,用戶可根據需求在速度和效果間靈活平衡。
目前dLLM 框架已在 GitHub 開源,吸引了大量開發者關注,進一步豐富了擴散模型的生態。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.