我看了下 Github 上發布詳情,發現這次百度這次的開源模型反而不是重點,它的胃口主要在于生態。
簡單來說,AI大模型必定會有一代更比一代強,但是生態基礎不一樣,它更像是挖金礦的鏟子,用戶忠誠度極高。
文心 4.5 的 Github 鏈接: https://github.com/PaddlePaddle/ERNIE
文心 Ernie4.5 ,這次一共發布了 10 款大模型,但實際上涵蓋了三個品類:
LLM :傳統的大語言模型,也就是純文字的那種,主流的 MoE 混合專家模型,有兩個 size ,一個大的 300B ,一個小的 21B ,跨度很大。
VLM :視覺語言模型,也就是現在主流的多模態模型,可以無縫的處理文字 / 圖片 / 視頻,但是目前只能輸出文字,比如讓它描述個圖片視頻什么的。
Dense Model :這個是跟 MoE 相對的稠密模型,也就是這種模型每推理一次,就會用到所有的參數,代價就是消耗的計算量大,所以這個類目只有 0.3B 的模型,非常適合跑在端側。
![]()
異構MoE
單純從發布的 10 個大模型來看,可以很清晰地看到百度在盡可能的探索 AI 大模型的所有主流方向, Reasoning 推理, MoE , Dense ,端側等等。
但是它這個 MoE 有亮點,那就是 Multimodal Heterogeneous MoE Pre-Training , MoE 我們大家應該都不陌生,像 DeepSeek R1 就是一個 MoE 的混合專家模型,也就是大模型,但是推理的時候只執行一部分,所以兼備了質量和速度。
而 Ernie 的這個 MoE ,首先它是多模態的,可以處理除了文本之外的圖片和視頻,這就要求在訓練的時候適配多模態,其次更重要的是 Heterogeneous 異構這個詞,一般來說,之前的多模態大模型,訓練的時候就像是一口 “ 大熔爐 ” ,所有的內容進行都先 encoding ,換句話說,各種模型的數據最終都會轉換成數學里面的向量。
再簡單一點兒,那就是不管你是普通話還是什么方言,最終都要轉換成英文表達。
![]()
這里面就有問題了,因為圖像和文字本來就是兩種不同的表達方式,那么用這種 “ 一鍋燴 ” 的方式,為了學好圖像,可能會犧牲一些語言的精細度;為了更好地理解語法,可能會忽略圖像的細節。最終得到的可能是一個 “ 折中 ” 的模型,而不是一個 “ 雙料冠軍 ” 。
文心 4.5 做的事其實直覺上很簡單,它不再是簡單地將圖像和文本數據 “ 攪拌 ” 在一起喂給模型,而是設計了一個 分工明確、調度智能、訓練有方 的 “ 專家委員會 ” 系統。通過 異構結構 實現物理隔離,通過 隔離路由 實現任務的精準分配,再通過 兩種特殊的損失函數 從數學上保證了專家團隊的專業性和學習過程的公平性。
最終達到的效果是 “ 相互促進 (mutual reinforcement)” ,即文本知識的學習可以幫助模型更好地理解圖像,反過來也一樣。
性能
性能大家可以自己去對比,畢竟都是些打榜的 benchmark 結果,不能當成使用效果來看,具體怎么樣,得看自己的需求,沒有什么模型十全十美。
![]()
生態
我甚至覺得這部分才是大頭,因為百度其實一直做的深度學習框架 飛槳( PaddlePaddle ) ,在國內還是挺有基礎的,因為模型可能會過時,但是生態可是一個長期主義的典型代表。
![]()
這次隨模型一同發布的,還有文心大模型開發套件 ERNIEKit 和高效部署套件 FastDeploy 。 ERNIEKit 覆蓋了從微調( SFT )、對齊( DPO )到量化的全流程開發,而 FastDeploy 則解決了多硬件平臺(如各種芯片)的高效推理部署問題。
這一整套 “ 全家桶 ” 式的解決方案,極大地降低了開發者使用文心大模型的門檻。
對于百度來說,我一直是跟 Google 對標的,畢竟大家都是做搜索引擎出身,再加上本身有的大量語料資源,計算資源,是可以下盤大棋的,如果一旦習慣了這套從開發到部署的流暢體驗,就會自然而然地被留在飛槳的生態系統中。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.