今天是百度世界大會,文心 5.0 發布
對于這個模型,要點歸結如下:
? 2.4 萬億參數 :MoE架構,激活參數低于 3%
? 原生全模態 :不同的路線選擇, 我覺得這是最大的發布,會細說
? 40 余測試領先 :語言與多模態的綜合能力,與 Gemini-2.5-Pro、GPT-5-High 等模型持平
這次發布最大的信息點,是原生全模態這個架構
要理解全模態,得從多模態說起
這個詞,大家不陌生,最基礎的就是 AI 能看圖,后續還有能聽聲音、能看視頻,乃至能畫圖,這是怎么做的呢?
最開始:假裝多模態
最開始是純工程技巧,看圖靠 OCR、看視頻靠識別字幕、聽聲音靠 ASR(語音轉文字,然后再理解)
![]()
OpenAI 的手搓規范: 讓 GPT 假裝學會多模態 接下來:學會多模態
再之后,來到了「多模態」時代,廠商們也各自推出了「多模態模型」,一種做法是采用“后期融合”(Late Fusion),或者...我愿稱之為稱之為“拼好模”的策略
簡單來說,就是為不同的信息模態(如文本、圖像、音頻)分別訓練獨立的編碼器(Encoder)。這就像是為不同的語言分別找了專家翻譯(差不多就這個意思)。一個圖像專家負責把圖片“翻譯”成機器能理解的數字特征,一個文本專家負責處理文字
![]()
這事兒,最典型的就是當年的 GPT4-Vision,圖片到代碼
舉個例子,當模型接到一個圖文任務時,它會先把這些專家的“翻譯稿”收集起來,再交給一個更高層的模塊進行整合,最終輸出結果。當然了,在多次“翻譯”和“整合”的過程中,信息不可避免地會產生損耗和偏差
到現在:成為全模態(還在進行)
原生全模態,則是想從根上解決問題,讓大模型能夠融合的處理各種信息
![]()
換句話說:只有融合了全模態,才能把 AI 真當個人用
這個方向,從原生多模態開始,Google 的 Gemini 是第一個大規模商業化并強調 原生多模態(natively multimodal) 概念的主流大模型,支持多模態的輸入,和文字的輸出。再之前,OpenAI 的 GPT-4V、Google 自己的 PaLM 等都是后期融合方式
百度也在這個方向進行了探索,理論上還更進一步,就是這個文心 5.0,是按原生全模態來做的,架構上支持全模態的理解和輸出(文字、圖像、聲音和視頻)
原生全模態 不同于業界多數的多模態模型采用后期融合的方式,文心 5.0 的技術路線是采用統一的自回歸架構進行原生全模態建模,理解與生成一體化。 ——王海峰,百度首席技術官
這里面有幾個硬骨頭要啃:
第一個:理解生成一體化
多模態的理解和生成,在技術上是兩種不同的任務,需要模型在學習生成一張圖片的同時,也在提升它對圖片的理解能力,反之亦然
第二個:統一架構下的訓練效率
把不同模態的數據硬塞進一個統一的自回歸架構,需要極強的工程能力,也需要非常多的試錯(這個免不了)
第三個:推理成本優化
這事兒我還去專門問了,以百度這個為例,干了很多臟活累活辛苦活,包括不僅限于多模態編碼器分離異步訓練、動態自適應顯存卸載、FP8 混合精度訓練等
沒辦法...搞模型的也是得為了用,控制好計算與推理成本,才能讓東西有上線的可能
當然,理想和現實總有差距,大家都在往這個方向嘗試,但迄今為止,誰都沒完整放出來
期待 全模態輸入+全模態輸出(能輸出各類內容) 目前 全模態輸入+多模態輸出(輸出圖片+文字)
順便說下 MoE
這里額外提一下,國內最早公開大規模落地 MoE 架構的,是“悟道”團隊(北京智源研究院)2021年,他們訓練了一個 1.75 萬億參數的模型
![]()
悟道2.0...這是許多東西,開始的地方
這兩年 MoE 也是體量模型的主流,從 Mistral-8x22B (還有人記得這個么)到 DeepSeek 671B、到 Kimi K2 和 MiniMax M2(這倆萬億參數),反正一個比一個大
![]()
去年初的 Mistral,恍如隔世...
百度這個文心5.0,參數又翻了一倍,到了2.4 萬億,應該是目前業界已公開參數的模型中,體量最大的
能力表現
這塊分為兩部分,先說說多模態帶來能力提升,再說說官方給到的評分榜單
多模態能力
音視頻理解
先給大家洗洗耳朵,這首歌我聽了好多遍
真的,這首《遇害》,我聽了好多好多遍,希望你也喜歡
![]()
多圖/視頻比較
這里有一個非常獨特的 case:圖片找不同
![]()
在【找不同】的場景下,如果大模型是工程做法,則難以完成,比如:先把圖片轉化成文字描述,像這樣
[第一張圖片:一只貓在玩球,背后是xxxx]
[第二張圖片:一只貓在玩球,背后是xxxx]
工程做法中,大模型會把這兩個描述塞進上下文里,然后對這兩個這兩個描述詞進行比較。自然的,完成不了【找不同】的這個任務
但你會發現,如果 AI 能過全模態的進行理解,是會把我的文字提問、兩張圖的信息,都進行處理,并得到正確的結果
![]()
細節捕捉&推理
我們都知道,華強喜歡吃西瓜
但華強不是孔融,西瓜肯定得拿大的
那么,劈開的瓜中,是左邊大,還是右邊大?
![]()
這里我也校驗了一下,確實是左邊瓜大
![]()
評分榜單
語言的相關榜單,對比 Deepseek-V3.2-Exp/Gemini-2.5-Pro/GPT-5(high),從左往右依次為:
(平均值)
知識:SimpleQA、ChineseSimpleQA
指令遵循:IFEval、MultiChallenge
學科綜合:MMLU-Pro、Hulmanity's Last Exam
邏輯推理:ZebraLogic、BBEH
數學:AIME 2025、HMMT 2025
代碼:LiveCodeBench v6(24.08-25.05)、HumanEval+、MBPP+
智能體:TAU2-Bench、ACEBbench-en、ACEBbench-zh、BFCL V4、terminal-benc@1.0、BrowseComp-zh、SpreadSheetBench
多語言:MMMLU-Lite、Multi-IF
音頻理解的相關榜單,對比 GPT-4o Audio/Gemini 2.5 Pro,從左往右依次為:
音頻理解:MMAU、TUT2017、CochScene
文本語音對話:OpenAudioBench-AlpacaEval、OpenAudioBench-Llama Questions、OpenAudioBench-Reasoning QA、OpenAudioBench-TriviaQA、OpenAudioBench-Web Question
語音識別(數值越低越好):LibriSpeech(avg)-EN、Fleurs-EN、Fleurs-ZH、AISHELL-2-ZH
視覺理解的相關榜單,對比 Gemini-2.5-Pro,GPT-5(high),從左往右依次為
(平均值)
理科&推理:MathVista、MathVerse、MathVision、MMMU、VLM are Blind、VisuLogic、VisualPuzzle
文檔理解:ChartQA、AI2D、DocVQA(val)、OCRBench、CharXiv-RQ、CharXiv-DQ
通用視覺問答:SimpleVQA、HallusionBench、MMStar、BLINK、CV-Bench、CountBench
講個冷知識,百度是第一批整大模型的
在 2019 年 3 月,百度弄了文心1.0
![]()
https://arxiv.org/abs/1904.09223
在 ChatGPT 誕生后,百度也是發布了文心一言
![]()
2023年3月16日
后續幾年,節奏似乎就放緩了..
到了 2025,有點抬頭的意思了,能感到是開始重新做了投入,包括PaddleOCR-VL和這次的模型發布,就給人一種感覺(也不知道對不對)
百度回歸牌桌
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.