百度文心Moment大會(huì)開幕文心大模型5.0正式發(fā)布

2026-01-22 16:37:53　來源: 互聯(lián)網(wǎng)坊間八卦

上海舉報(bào)

分享至

1月22日，百度發(fā)布并上線原生全模態(tài)大模型文心5.0正式版。該模型參數(shù)達(dá)2.4萬億，采用原生全模態(tài)統(tǒng)一建模技術(shù)，具備全模態(tài)理解與生成能力，支持文本、圖像、音頻、視頻等多種信息的輸入與輸出。

目前，個(gè)人用戶可在文心APP、文心一言官網(wǎng)體驗(yàn)，企業(yè)與開發(fā)者可通過百度千帆平臺(tái)進(jìn)行調(diào)用。在40余項(xiàng)權(quán)威基準(zhǔn)的綜合評測中，文心 5.0 正式版的語言與多模態(tài)理解能力超越Gemini-2.5-Pro、GPT-5-High等模型，穩(wěn)居國際第一梯隊(duì)。圖像與視頻生成能力與垂直領(lǐng)域?qū)＞Ｐ拖喈?dāng)，整體處于全球領(lǐng)先水平。此前，百度文心助手月活已突破2億。

拒絕“拼接”，告別轉(zhuǎn)譯，原生全模態(tài)理解輸出

據(jù)百度集團(tuán)副總裁、深度學(xué)習(xí)技術(shù)及應(yīng)用國家工程研究中心副主任吳甜介紹，與業(yè)界多數(shù)采用“后期融合”的多模態(tài)方案不同，文心5.0的技術(shù)路線采用統(tǒng)一的自回歸架構(gòu)進(jìn)行原生全模態(tài)建模，將文本、圖像、視頻、音頻等多源數(shù)據(jù)在同一模型框架中進(jìn)行聯(lián)合訓(xùn)練，使得多模態(tài)特征在統(tǒng)一架構(gòu)下充分融合并協(xié)同優(yōu)化，實(shí)現(xiàn)原生的全模態(tài)統(tǒng)一理解與生成。

此外，文心5.0采用超大規(guī)模混合專家結(jié)構(gòu)，具備超稀疏激活參數(shù)，激活參數(shù)比低于 3%，在保持模型強(qiáng)大能力的同時(shí)，有效提升推理效率。同時(shí)，基于大規(guī)模工具環(huán)境，合成長程任務(wù)軌跡數(shù)據(jù)，并采用基于思維鏈和行動(dòng)鏈的端到端多輪強(qiáng)化學(xué)習(xí)訓(xùn)練，顯著提升了模型的智能體和工具調(diào)用能力。

“應(yīng)用模型的價(jià)值不在模型里，而在應(yīng)用里”

現(xiàn)場，百度應(yīng)用模型研發(fā)部負(fù)責(zé)人賈磊分享了文心應(yīng)用模型的最新進(jìn)展。他指出，應(yīng)用模型的價(jià)值不在模型里，而在應(yīng)用里，希望讓模型在真實(shí)應(yīng)用場景里“跑得穩(wěn)、答得對、用得起”。

基于文心基礎(chǔ)大模型，百度構(gòu)建了矩陣模型和專精模型。矩陣模型面向產(chǎn)品級應(yīng)用和通用場景快速落地，包括文心Lite模型、視頻大模型和語音大模型；專精模型面向行業(yè)應(yīng)用和垂直場景，包括搜索閃電專精模型、電商蒸汽機(jī)模型、文心數(shù)字人大模型及行業(yè)大模型。

賈磊在現(xiàn)場分享了三項(xiàng)技術(shù)突破：基于聲音 Token 的端到端合成大模型、5分鐘超越真人的直播技術(shù)、實(shí)時(shí)交互數(shù)字人技術(shù)。

基于聲音Token的端到端合成大模型由滿幀語音token的離散表示來定義token，以MoE大語言模型來建模韻律，基于flow的后處理來描述聲音的譜分布，基于Unet的自重構(gòu)特征的vocoder來描述刻畫聲音。

5分鐘超越真人的直播技術(shù)通過對目標(biāo)音色的少量采樣，經(jīng)過臉譜和化妝，通過檢索增強(qiáng)匹配不同文體和場景的韻律模式，使合成語音具備直播帶貨所需的情緒、節(jié)奏與感染力。

實(shí)時(shí)交互數(shù)字人技術(shù)采用三態(tài)Token聯(lián)動(dòng)架構(gòu)，實(shí)現(xiàn)文本、語音、視頻的流式控制，突破傳統(tǒng)數(shù)字人三個(gè)模態(tài)串聯(lián)的制作模式。在此基礎(chǔ)上，系統(tǒng)自動(dòng)完成動(dòng)作銜接、動(dòng)作編排與狀態(tài)重組，并由聲音Token實(shí)時(shí)驅(qū)動(dòng)表情與口型，輸出三態(tài)合一的視頻流，具有低延遲、低成本和高表現(xiàn)力的特點(diǎn)，百度羅永浩數(shù)字人即是基于這項(xiàng)技術(shù)開發(fā)。

全流程支持，百度千帆助力大模型落地產(chǎn)業(yè)

百度的數(shù)字人生成技術(shù)，此前已廣泛應(yīng)用于直播帶貨等場景，2025年羅永浩數(shù)字人直播就曾打破行業(yè)記錄。在模型應(yīng)用賦能行業(yè)的背后，是百度基于多年積累的全棧自研實(shí)力，打通“芯云模體”的全鏈技術(shù)架構(gòu)。

在文心Moment大會(huì)當(dāng)天，百度千帆平臺(tái)產(chǎn)品負(fù)責(zé)人張婷詳細(xì)介紹了千帆專為行業(yè)落地打造的Agent Infra，平臺(tái)提供包括文心5.0及全場景150+SOAT模型服務(wù)，集成包括百度AI搜索在內(nèi)的眾多工具及MCP和Agent工具鏈，并結(jié)合數(shù)據(jù)管理和企業(yè)級服務(wù)，可以為企業(yè)提供全周期、穩(wěn)定支持多場景業(yè)務(wù)的運(yùn)行環(huán)境，顯著降低企業(yè)Agent創(chuàng)新門檻。

目前，千帆平臺(tái)上已累計(jì)開發(fā)超130萬個(gè)Agents，以百度獨(dú)家能力“百度AI搜索”為代表的工具日均調(diào)用量已突破千萬次。

基于強(qiáng)大的原生全模態(tài)統(tǒng)一建模技術(shù)，與2.4萬億參數(shù)的海量算力，“文心5.0”已具備讓AI應(yīng)用走進(jìn)真實(shí)行業(yè)與復(fù)雜場景，提供更高效解決方案的能力。全球AI行業(yè)經(jīng)歷過去幾年快速發(fā)展，正進(jìn)入一個(gè)新的快車道，但在AI應(yīng)用領(lǐng)域，以對話或文字輸入為主的Chatbot仍是主流形式。AI如何應(yīng)用于真實(shí)世界與行業(yè)，從而進(jìn)一步產(chǎn)生價(jià)值，是行業(yè)都在探索的方向。

作為國內(nèi)最早發(fā)布大模型的企業(yè)之一，百度正基于多年積累的技術(shù)實(shí)力，形成以芯片為底座，智能云為平臺(tái)框架，以模型支撐各類智能體應(yīng)用的“芯云模體”全棧自研生態(tài)閉環(huán)，持續(xù)探索賦能行業(yè)的AI解決方案。

聲明：個(gè)人原創(chuàng)，僅供參考

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.