![]()
智東西
作者 王涵
編輯 漠影
智東西1月24日報道,在文心Moment大會上,文心大模型5.0正式版上線。
據稱,該模型參數量達2.4萬億,采用原生全模態統一建模技術,具備全模態理解與生成能力,支持文本、圖像、音頻、視頻等多種信息的輸入與輸出。
在40余項權威基準的綜合評測中,文心5.0正式版的語言與多模態理解能力穩居國際第一梯隊。音頻和視覺生成能力與垂直領域專精模型相當,整體處于全球領先水平。
![]()
![]()
![]()
![]()
目前,個人用戶可在文心APP、文心一言官網體驗,企業與開發者可通過百度千帆平臺進行調用。
智東西第一時間體驗了文心5.0。測評結果證明,該模型不僅能夠處理不同文化語境下復雜情感、弦外之音、畫面隱喻等任務,輸出更符合語境、場景的回復,還能通過出色的規劃反思和邏輯推理能力,生成兼具創意與邏輯的寫作內容。可以說是大模型界的“最強文科生”。
雖然已經有了預覽版的鋪墊,文心5.0正式版的上線還是讓人眼前一亮。國產多模態大模型,真的已經進入“原生全模態”時間了。
一、穩居全球第一梯隊,文心5.0開啟原生全模態之路
百度集團副總裁、深度學習技術及應用國家工程研究中心副主任吳甜介紹,與業界多數采用“后期融合”的多模態方案不同,文心5.0的技術路線采用統一的自回歸架構進行原生全模態建模,將文本、圖像、視頻、音頻等多源數據在同一模型框架中進行聯合訓練,使得多模態特征在統一架構下充分融合并協同優化,實現原生的全模態統一理解與生成。
![]()
▲百度集團副總裁、深度學習技術及應用國家工程研究中心副主任吳甜
文心5.0攻克了多模態理解與生成難以統一建模的難題,精細建模多模語義特征,實現了理解與生成相互增強,全面提升了全模態理解與生成能力。
文心5.0采用超大規模混合專家模型結構,依托飛槳深度學習框架進行超大規模MoE模型訓練,總參數規模超過2.4萬億,這達到業界已公開參數的模型之最。具備超稀疏激活參數,激活參數比低于3%,在保持模型強大能力的同時降低了計算與推理成本。
同時,基于大規模工具環境,合成長程任務軌跡數據,并采用基于思維鏈和行動鏈的端到端多輪強化學習訓練,顯著提升了模型的智能體和工具調用能力。
不管是從技術架構路線還是從大模型基建,文心5.0幾乎是國內大模型頂配,讓它在國際權威的大模型競技場LMArena上實現了一次次問鼎。
在近三個月內,文心5.0系列模型五次登榜LMArena,在文本(Text Arena)、視覺理解(VisionArena)榜單,多次位列國內第一,是唯一進入全球第一梯隊的中國大模型。
二、會寫科幻小說、能分析相親簡歷,文心5.0成“最強文科生”
在文心5.0 Preview發布之時,就有網友評價稱其為“最強文科生”。今天,我們測測文心5.0正式版,看看這個稱號是否名副其實。
第一題,我們看看文心5.0的知識儲備和文采如何:
我們先讓文心5.0寫一篇劉慈欣短篇科幻小說《流浪地球》的續篇,要求遵循原文寫作風格以及故事背景和人物設定,來考考它的知識儲備量。
大約3分鐘,該模型就完成了一篇超短篇的《流浪地球》續篇,取名為《流浪地球:靜音紀元》。
整篇文章一看就是“讀過”原小說的,原文的“大叛亂”和“太陽氦閃”等元素一個不落,還從“我”的第一視角講述了資源即將耗盡、人類采取Plan B——火種計劃的故事。整體上來說,文章通篇讀下來很順暢,文風也是劉慈欣的平實感,劇情銜接流暢。
除了小說,文心5.0的閱片量如何?我們拋給它這樣一個問題:同為宮斗劇的《甄嬛傳》《如懿傳》《延禧攻略》在網絡上常常被人拿來比較,如果甄嬛、如懿和魏瓔珞身處在同一深宮內,誰能笑到最后呢?
文心5.0首先選擇了一個這三個角色都共存的時代背景下,分析了三人各自的性格特點和經歷,用兩兩對決的方法決出了最后的贏家為“魏瓔珞”。分析過程講的頭頭是道,一看就是資深劇迷。
接下來,我們來考考文心5.0的情商:
首先,我們上傳了一張小紅書帖子的截圖,截圖內容為求助該如何回復女友總是說“你不愛我了”。
從文心5.0的思考過程中可以看出,它判斷了提問中女友的行為動機,還考慮了男生的心理,先設身處地地安慰了用戶,再接著給出解決方案,這樣會減少說教感。
從回答內容上看,文心5.0給出了四套方法論,每一套都確實可行,還說清了女友總說“你不愛我了”的弦外之音其實是“想你了”。就是在具體的措辭上稍微有點“油”,不走可愛風的直男朋友們盡量不要照搬。
接著,我們上傳了一段“這個男孩能嫁嗎?”的短視頻,看看文心5.0能不能從相親對象的簡歷中看出不對勁的地方。
原視頻時長1分鐘,視頻主播中英文混雜并且語速很快,我不看字幕都很難跟下來。但文心5.0在一分鐘內就完成了對視頻內容的理解和分析,并且扒出了相親對象簡歷中不合理且有所隱瞞的事項,措辭也是毫不留情。
三、原生全模態:劍指多模態大模型的未來
這樣驚艷的體驗效果是如何實現的?要回答這個問題還要從多模態大模型的類別說起。
當前市面上的多模態大模型主要分為拼接型和原生型兩類。其中拼接型是行業主流形式,采用模塊化架構,通過獨立訓練各模態模型再拼接實現融合,雖具備一定靈活性,卻存在明顯的信息損耗問題。
最早從GPT-4o時即提出“原生多模態”,后面Gemini 3的發布,讓“原生多模態”真正被業界聚焦。而百度則在這一基礎上更上一層樓,提出了“原生全模態”架構。
原生全模態架構則從訓練初期的底層邏輯出發,就將文本、圖像、音頻、視頻等多模態數據深度融合,構建起統一語義空間,以此實現更高效的跨模態理解。
同時,“原生全模態”方法還能有效避免災難性遺忘,讓模態數據在基礎層面的融合更順暢,也讓跨模態任務的泛化能力大幅提升。
行業有觀點認為,這本質上是技術路線之爭:「原生架構」正在改寫大模型廠商的游戲規則。若國內廠商未能在2025–2026年突破原生架構,可能在未來AI競爭中淪為功能跟隨者。顯然,百度文心5.0已帶領百度在這一賽道率先突圍,構建起一定的技術護城河。
如何才能抵達AGI?越來越多行業專家認為,AI能夠真正感知世界、與物理世界互動,從物理世界中學習,這就是AGI。
讓AI在物理世界中學習,就是要AI像人一樣,在語言、圖像、視頻、音頻等多模態數據中感知世界,將多模態數據相互對照,進而形成對世界的感知。
這樣來看,原生全模態架構,或許將是AGI的地基和基石。
結語:國產大模型進入“原生全模態”時間
文心5.0在知識問答、復雜場景理解、創意寫作等多類任務中表現穩定,在遵循指令、理解語境、進行多輪思考方面的能力已較為成熟,展現出了超越工具的“靈性”與實用價值。
當前,谷歌已明確將“原生多模態”作為核心方向。文心5.0基于此完善的“原生全模態”,意味著國內在此技術路徑上有了具備大規模參數和實際應用能力的對標產品。
國產大模型,進入“原生全模態”時間。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.