![]()
1月22日,百度發布并上線原生全模態大模型文心5.0正式版。該模型參數達2.4萬億,采用原生全模態統一建模技術,具備全模態理解與生成能力,支持文本、圖像、音頻、視頻等多種信息的輸入與輸出。
目前,個人用戶可在文心APP、文心一言官網體驗,企業與開發者可通過百度千帆平臺進行調用。在40余項權威基準的綜合評測中,文心 5.0 正式版的語言與多模態理解能力超越Gemini-2.5-Pro、GPT-5-High等模型,穩居國際第一梯隊。圖像與視頻生成能力與垂直領域專精模型相當,整體處于全球領先水平。此前,百度文心助手月活已突破2億。
拒絕“拼接”,告別轉譯,原生全模態理解輸出
據百度集團副總裁、深度學習技術及應用國家工程研究中心副主任吳甜介紹,與業界多數采用“后期融合”的多模態方案不同,文心5.0的技術路線采用統一的自回歸架構進行原生全模態建模,將文本、圖像、視頻、音頻等多源數據在同一模型框架中進行聯合訓練,使得多模態特征在統一架構下充分融合并協同優化,實現原生的全模態統一理解與生成。
![]()
此外,文心5.0采用超大規模混合專家結構,具備超稀疏激活參數,激活參數比低于 3%,在保持模型強大能力的同時,有效提升推理效率。同時,基于大規模工具環境,合成長程任務軌跡數據,并采用基于思維鏈和行動鏈的端到端多輪強化學習訓練,顯著提升了模型的智能體和工具調用能力。
“應用模型的價值不在模型里,而在應用里”
現場,百度應用模型研發部負責人賈磊分享了文心應用模型的最新進展。他指出,應用模型的價值不在模型里,而在應用里,希望讓模型在真實應用場景里“跑得穩、答得對、用得起”。
![]()
基于文心基礎大模型,百度構建了矩陣模型和專精模型。矩陣模型面向產品級應用和通用場景快速落地,包括文心Lite模型、視頻大模型和語音大模型;專精模型面向行業應用和垂直場景,包括搜索閃電專精模型、電商蒸汽機模型、文心數字人大模型及行業大模型。
賈磊在現場分享了三項技術突破:基于聲音 Token 的端到端合成大模型、5分鐘超越真人的直播技術、實時交互數字人技術。
基于聲音Token的端到端合成大模型由滿幀語音token的離散表示來定義token,以MoE大語言模型來建模韻律,基于flow的后處理來描述聲音的譜分布,基于Unet的自重構特征的vocoder來描述刻畫聲音。
5分鐘超越真人的直播技術通過對目標音色的少量采樣,經過臉譜和化妝,通過檢索增強匹配不同文體和場景的韻律模式,使合成語音具備直播帶貨所需的情緒、節奏與感染力。
實時交互數字人技術采用三態Token聯動架構,實現文本、語音、視頻的流式控制,突破傳統數字人三個模態串聯的制作模式。在此基礎上,系統自動完成動作銜接、動作編排與狀態重組,并由聲音Token實時驅動表情與口型,輸出三態合一的視頻流,具有低延遲、低成本和高表現力的特點,百度羅永浩數字人即是基于這項技術開發。
全流程支持,百度千帆助力大模型落地產業
百度的數字人生成技術,此前已廣泛應用于直播帶貨等場景,2025年羅永浩數字人直播就曾打破行業記錄。在模型應用賦能行業的背后,是百度基于多年積累的全棧自研實力,打通“芯云模體”的全鏈技術架構。
![]()
在文心Moment大會當天,百度千帆平臺產品負責人張婷詳細介紹了千帆專為行業落地打造的Agent Infra,平臺提供包括文心5.0及全場景150+SOAT模型服務,集成包括百度AI搜索在內的眾多工具及MCP和Agent工具鏈,并結合數據管理和企業級服務,可以為企業提供全周期、穩定支持多場景業務的運行環境,顯著降低企業Agent創新門檻。
目前,千帆平臺上已累計開發超130萬個Agents,以百度獨家能力“百度AI搜索”為代表的工具日均調用量已突破千萬次。
基于強大的原生全模態統一建模技術,與2.4萬億參數的海量算力,“文心5.0”已具備讓AI應用走進真實行業與復雜場景,提供更高效解決方案的能力。全球AI行業經歷過去幾年快速發展,正進入一個新的快車道,但在AI應用領域,以對話或文字輸入為主的Chatbot仍是主流形式。AI如何應用于真實世界與行業,從而進一步產生價值,是行業都在探索的方向。
作為國內最早發布大模型的企業之一,百度正基于多年積累的技術實力,形成以芯片為底座,智能云為平臺框架,以模型支撐各類智能體應用的“芯云模體”全棧自研生態閉環,持續探索賦能行業的AI解決方案。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.