網易首頁 > 網易號 > 正文申請入駐

細說｜文心5.0 ：2.4萬億參數、原生全模態架構

2025-11-13 20:51:33　來源: 賽博禪心

北京舉報

分享至

今天是百度世界大會，文心 5.0 發布

對于這個模型，要點歸結如下：

? 2.4 萬億參數 ：MoE架構，激活參數低于 3%
? 原生全模態 ：不同的路線選擇， 我覺得這是最大的發布，會細說
? 40 余測試領先 ：語言與多模態的綜合能力，與 Gemini-2.5-Pro、GPT-5-High 等模型持平

語言能力 BenchMark “原生全模態”

這次發布最大的信息點，是原生全模態這個架構

要理解全模態，得從多模態說起

這個詞，大家不陌生，最基礎的就是 AI 能看圖，后續還有能聽聲音、能看視頻，乃至能畫圖，這是怎么做的呢？

最開始：假裝多模態

最開始是純工程技巧，看圖靠 OCR、看視頻靠識別字幕、聽聲音靠 ASR（語音轉文字，然后再理解）

OpenAI 的手搓規范： 讓 GPT 假裝學會多模態 接下來：學會多模態

再之后，來到了「多模態」時代，廠商們也各自推出了「多模態模型」，一種做法是采用“后期融合”（Late Fusion），或者...我愿稱之為稱之為“拼好模”的策略

簡單來說，就是為不同的信息模態（如文本、圖像、音頻）分別訓練獨立的編碼器（Encoder）。這就像是為不同的語言分別找了專家翻譯（差不多就這個意思）。一個圖像專家負責把圖片“翻譯”成機器能理解的數字特征，一個文本專家負責處理文字

這事兒，最典型的就是當年的 GPT4-Vision，圖片到代碼

舉個例子，當模型接到一個圖文任務時，它會先把這些專家的“翻譯稿”收集起來，再交給一個更高層的模塊進行整合，最終輸出結果。當然了，在多次“翻譯”和“整合”的過程中，信息不可避免地會產生損耗和偏差

到現在：成為全模態（還在進行）

原生全模態，則是想從根上解決問題，讓大模型能夠融合的處理各種信息

換句話說：只有融合了全模態，才能把 AI 真當個人用

這個方向，從原生多模態開始，Google 的 Gemini 是第一個大規模商業化并強調 原生多模態(natively multimodal) 概念的主流大模型，支持多模態的輸入，和文字的輸出。再之前，OpenAI 的 GPT-4V、Google 自己的 PaLM 等都是后期融合方式

百度也在這個方向進行了探索，理論上還更進一步，就是這個文心 5.0，是按原生全模態來做的，架構上支持全模態的理解和輸出（文字、圖像、聲音和視頻）

原生全模態不同于業界多數的多模態模型采用后期融合的方式，文心 5.0 的技術路線是采用統一的自回歸架構進行原生全模態建模，理解與生成一體化。 ——王海峰，百度首席技術官

這里面有幾個硬骨頭要啃：

第一個：理解生成一體化
多模態的理解和生成，在技術上是兩種不同的任務，需要模型在學習生成一張圖片的同時，也在提升它對圖片的理解能力，反之亦然

第二個：統一架構下的訓練效率
把不同模態的數據硬塞進一個統一的自回歸架構，需要極強的工程能力，也需要非常多的試錯（這個免不了）

第三個：推理成本優化
這事兒我還去專門問了，以百度這個為例，干了很多臟活累活辛苦活，包括不僅限于多模態編碼器分離異步訓練、動態自適應顯存卸載、FP8 混合精度訓練等

沒辦法...搞模型的也是得為了用，控制好計算與推理成本，才能讓東西有上線的可能

當然，理想和現實總有差距，大家都在往這個方向嘗試，但迄今為止，誰都沒完整放出來

期待全模態輸入+全模態輸出（能輸出各類內容）目前全模態輸入+多模態輸出（輸出圖片+文字）

順便說下 MoE

這里額外提一下，國內最早公開大規模落地 MoE 架構的，是“悟道”團隊（北京智源研究院）2021年，他們訓練了一個 1.75 萬億參數的模型

悟道2.0...這是許多東西，開始的地方

這兩年 MoE 也是體量模型的主流，從 Mistral-8x22B （還有人記得這個么）到 DeepSeek 671B、到 Kimi K2 和 MiniMax M2（這倆萬億參數），反正一個比一個大

去年初的 Mistral，恍如隔世...

百度這個文心5.0，參數又翻了一倍，到了2.4 萬億，應該是目前業界已公開參數的模型中，體量最大的

能力表現

這塊分為兩部分，先說說多模態帶來能力提升，再說說官方給到的評分榜單

多模態能力

音視頻理解
先給大家洗洗耳朵，這首歌我聽了好多遍

真的，這首《遇害》，我聽了好多好多遍，希望你也喜歡

多圖/視頻比較
這里有一個非常獨特的 case：圖片找不同

在【找不同】的場景下，如果大模型是工程做法，則難以完成，比如：先把圖片轉化成文字描述，像這樣

[第一張圖片：一只貓在玩球，背后是xxxx]
[第二張圖片：一只貓在玩球，背后是xxxx]

工程做法中，大模型會把這兩個描述塞進上下文里，然后對這兩個這兩個描述詞進行比較。自然的，完成不了【找不同】的這個任務

但你會發現，如果 AI 能過全模態的進行理解，是會把我的文字提問、兩張圖的信息，都進行處理，并得到正確的結果

細節捕捉&推理
我們都知道，華強喜歡吃西瓜

但華強不是孔融，西瓜肯定得拿大的

那么，劈開的瓜中，是左邊大，還是右邊大？

這里我也校驗了一下，確實是左邊瓜大

評分榜單

語言的相關榜單，對比 Deepseek-V3.2-Exp/Gemini-2.5-Pro/GPT-5(high)，從左往右依次為：

(平均值)
知識：SimpleQA、ChineseSimpleQA
指令遵循：IFEval、MultiChallenge
學科綜合：MMLU-Pro、Hulmanity's Last Exam
邏輯推理：ZebraLogic、BBEH
數學：AIME 2025、HMMT 2025
代碼：LiveCodeBench v6(24.08-25.05)、HumanEval+、MBPP+
智能體：TAU2-Bench、ACEBbench-en、ACEBbench-zh、BFCL V4、terminal-benc@1.0、BrowseComp-zh、SpreadSheetBench
多語言：MMMLU-Lite、Multi-IF

語言相關榜單

音頻理解的相關榜單，對比 GPT-4o Audio/Gemini 2.5 Pro，從左往右依次為：

音頻理解：MMAU、TUT2017、CochScene
文本語音對話：OpenAudioBench-AlpacaEval、OpenAudioBench-Llama Questions、OpenAudioBench-Reasoning QA、OpenAudioBench-TriviaQA、OpenAudioBench-Web Question
語音識別(數值越低越好)：LibriSpeech(avg)-EN、Fleurs-EN、Fleurs-ZH、AISHELL-2-ZH

音頻理解相關榜單

視覺理解的相關榜單，對比 Gemini-2.5-Pro，GPT-5(high)，從左往右依次為

（平均值）
理科&推理：MathVista、MathVerse、MathVision、MMMU、VLM are Blind、VisuLogic、VisualPuzzle
文檔理解：ChartQA、AI2D、DocVQA(val)、OCRBench、CharXiv-RQ、CharXiv-DQ
通用視覺問答：SimpleVQA、HallusionBench、MMStar、BLINK、CV-Bench、CountBench

視覺理解相關榜單最后

講個冷知識，百度是第一批整大模型的

在 2019 年 3 月，百度弄了文心1.0

https://arxiv.org/abs/1904.09223

在 ChatGPT 誕生后，百度也是發布了文心一言

2023年3月16日

后續幾年，節奏似乎就放緩了..

到了 2025，有點抬頭的意思了，能感到是開始重新做了投入，包括PaddleOCR-VL和這次的模型發布，就給人一種感覺（也不知道對不對）

百度回歸牌桌

聲明：包含AI生成內容

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.