1月22日,百度發(fā)布并上線原生全模態(tài)大模型文心5.0正式版。該模型參數(shù)達(dá)2.4萬億,采用原生全模態(tài)統(tǒng)一建模技術(shù),具備全模態(tài)理解與生成能力,支持文本、圖像、音頻、視頻等多種信息的輸入與輸出。
目前,個(gè)人用戶可在文心APP、文心一言官網(wǎng)體驗(yàn),企業(yè)與開發(fā)者可通過百度千帆平臺(tái)進(jìn)行調(diào)用。在40余項(xiàng)權(quán)威基準(zhǔn)的綜合評測中,文心 5.0 正式版的語言與多模態(tài)理解能力超越Gemini-2.5-Pro、GPT-5-High等模型,穩(wěn)居國際第一梯隊(duì)。圖像與視頻生成能力與垂直領(lǐng)域?qū)>P拖喈?dāng),整體處于全球領(lǐng)先水平。此前,百度文心助手月活已突破2億。
拒絕“拼接”,告別轉(zhuǎn)譯,原生全模態(tài)理解輸出
據(jù)百度集團(tuán)副總裁、深度學(xué)習(xí)技術(shù)及應(yīng)用國家工程研究中心副主任吳甜介紹,與業(yè)界多數(shù)采用“后期融合”的多模態(tài)方案不同,文心5.0的技術(shù)路線采用統(tǒng)一的自回歸架構(gòu)進(jìn)行原生全模態(tài)建模,將文本、圖像、視頻、音頻等多源數(shù)據(jù)在同一模型框架中進(jìn)行聯(lián)合訓(xùn)練,使得多模態(tài)特征在統(tǒng)一架構(gòu)下充分融合并協(xié)同優(yōu)化,實(shí)現(xiàn)原生的全模態(tài)統(tǒng)一理解與生成。
![]()
此外,文心5.0采用超大規(guī)模混合專家結(jié)構(gòu),具備超稀疏激活參數(shù),激活參數(shù)比低于 3%,在保持模型強(qiáng)大能力的同時(shí),有效提升推理效率。同時(shí),基于大規(guī)模工具環(huán)境,合成長程任務(wù)軌跡數(shù)據(jù),并采用基于思維鏈和行動(dòng)鏈的端到端多輪強(qiáng)化學(xué)習(xí)訓(xùn)練,顯著提升了模型的智能體和工具調(diào)用能力。
“應(yīng)用模型的價(jià)值不在模型里,而在應(yīng)用里”
現(xiàn)場,百度應(yīng)用模型研發(fā)部負(fù)責(zé)人賈磊分享了文心應(yīng)用模型的最新進(jìn)展。他指出,應(yīng)用模型的價(jià)值不在模型里,而在應(yīng)用里,希望讓模型在真實(shí)應(yīng)用場景里“跑得穩(wěn)、答得對、用得起”。
![]()
基于文心基礎(chǔ)大模型,百度構(gòu)建了矩陣模型和專精模型。矩陣模型面向產(chǎn)品級應(yīng)用和通用場景快速落地,包括文心Lite模型、視頻大模型和語音大模型;專精模型面向行業(yè)應(yīng)用和垂直場景,包括搜索閃電專精模型、電商蒸汽機(jī)模型、文心數(shù)字人大模型及行業(yè)大模型。
賈磊在現(xiàn)場分享了三項(xiàng)技術(shù)突破:基于聲音 Token 的端到端合成大模型、5分鐘超越真人的直播技術(shù)、實(shí)時(shí)交互數(shù)字人技術(shù)。
基于聲音Token的端到端合成大模型由滿幀語音token的離散表示來定義token,以MoE大語言模型來建模韻律,基于flow的后處理來描述聲音的譜分布,基于Unet的自重構(gòu)特征的vocoder來描述刻畫聲音。
5分鐘超越真人的直播技術(shù)通過對目標(biāo)音色的少量采樣,經(jīng)過臉譜和化妝,通過檢索增強(qiáng)匹配不同文體和場景的韻律模式,使合成語音具備直播帶貨所需的情緒、節(jié)奏與感染力。
實(shí)時(shí)交互數(shù)字人技術(shù)采用三態(tài)Token聯(lián)動(dòng)架構(gòu),實(shí)現(xiàn)文本、語音、視頻的流式控制,突破傳統(tǒng)數(shù)字人三個(gè)模態(tài)串聯(lián)的制作模式。在此基礎(chǔ)上,系統(tǒng)自動(dòng)完成動(dòng)作銜接、動(dòng)作編排與狀態(tài)重組,并由聲音Token實(shí)時(shí)驅(qū)動(dòng)表情與口型,輸出三態(tài)合一的視頻流,具有低延遲、低成本和高表現(xiàn)力的特點(diǎn),百度羅永浩數(shù)字人即是基于這項(xiàng)技術(shù)開發(fā)。
全流程支持,百度千帆助力大模型落地產(chǎn)業(yè)
百度的數(shù)字人生成技術(shù),此前已廣泛應(yīng)用于直播帶貨等場景,2025年羅永浩數(shù)字人直播就曾打破行業(yè)記錄。在模型應(yīng)用賦能行業(yè)的背后,是百度基于多年積累的全棧自研實(shí)力,打通“芯云模體”的全鏈技術(shù)架構(gòu)。
![]()
在文心Moment大會(huì)當(dāng)天,百度千帆平臺(tái)產(chǎn)品負(fù)責(zé)人張婷詳細(xì)介紹了千帆專為行業(yè)落地打造的Agent Infra,平臺(tái)提供包括文心5.0及全場景150+SOAT模型服務(wù),集成包括百度AI搜索在內(nèi)的眾多工具及MCP和Agent工具鏈,并結(jié)合數(shù)據(jù)管理和企業(yè)級服務(wù),可以為企業(yè)提供全周期、穩(wěn)定支持多場景業(yè)務(wù)的運(yùn)行環(huán)境,顯著降低企業(yè)Agent創(chuàng)新門檻。
目前,千帆平臺(tái)上已累計(jì)開發(fā)超130萬個(gè)Agents,以百度獨(dú)家能力“百度AI搜索”為代表的工具日均調(diào)用量已突破千萬次。
基于強(qiáng)大的原生全模態(tài)統(tǒng)一建模技術(shù),與2.4萬億參數(shù)的海量算力,“文心5.0”已具備讓AI應(yīng)用走進(jìn)真實(shí)行業(yè)與復(fù)雜場景,提供更高效解決方案的能力。全球AI行業(yè)經(jīng)歷過去幾年快速發(fā)展,正進(jìn)入一個(gè)新的快車道,但在AI應(yīng)用領(lǐng)域,以對話或文字輸入為主的Chatbot仍是主流形式。AI如何應(yīng)用于真實(shí)世界與行業(yè),從而進(jìn)一步產(chǎn)生價(jià)值,是行業(yè)都在探索的方向。
作為國內(nèi)最早發(fā)布大模型的企業(yè)之一,百度正基于多年積累的技術(shù)實(shí)力,形成以芯片為底座,智能云為平臺(tái)框架,以模型支撐各類智能體應(yīng)用的“芯云模體”全棧自研生態(tài)閉環(huán),持續(xù)探索賦能行業(yè)的AI解決方案。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.