![]()
作者 | Yoky
郵箱 | yokyliu@pingwest.com
AI Agent正陷入一個(gè)矛盾的處境:技術(shù)突飛猛進(jìn),應(yīng)用卻支離破碎。
市面上的主流Agent大多是單點(diǎn)突破的“專家型”產(chǎn)品——有的擅長(zhǎng)文案寫(xiě)作,有的專攻圖像生成,有的聚焦客戶服務(wù),但彼此孤立,用戶需要手動(dòng)串聯(lián)各個(gè)環(huán)節(jié)。更為關(guān)鍵的是,這些Agent往往存在嚴(yán)重的“端側(cè)割裂”:Web端體驗(yàn)無(wú)法延續(xù)到移動(dòng)端,PC客戶端的任務(wù)進(jìn)度無(wú)法在手機(jī)上查看,每一次交互都像“重新開(kāi)始”, 同一個(gè)問(wèn)題哪怕是中斷后想再追問(wèn),都需要用戶反復(fù)解釋需求。
更深層的問(wèn)題在于,當(dāng)前Agent缺乏統(tǒng)一的認(rèn)知和記憶中樞。它們往往是“黑箱”式運(yùn)作,過(guò)程不可控,結(jié)果質(zhì)量不穩(wěn)定,用戶既無(wú)法干預(yù)過(guò)程,也難以建立持續(xù)的交互記憶。這種現(xiàn)狀讓人不禁思考:AI Agent的終極形態(tài),難道就是讓用戶管理一堆零散的“工具人”?真正的智能助手,能否像人腦一樣實(shí)現(xiàn)統(tǒng)一指揮、無(wú)縫適應(yīng)不同場(chǎng)景和終端?
8月18日,百度文庫(kù)聯(lián)合百度網(wǎng)盤(pán)發(fā)布GenFlow 2.0,這是全球首個(gè)“全端通用”Agent,正試圖破解這一困局。它預(yù)備了100+專家團(tuán)并行工作、跨端一致體驗(yàn),同時(shí)過(guò)程可干預(yù)、記憶可追溯。GenFlow2.0指向了一種全新的技術(shù)范式,類似于具身智能領(lǐng)域一腦多形的概念,即一個(gè)統(tǒng)一的智能中樞控制不同的表現(xiàn)形態(tài)。正如具身智能的最終構(gòu)想:同一個(gè)大腦驅(qū)動(dòng)四足、雙足或人形等不同構(gòu)型,GenFlow 2.0試圖用統(tǒng)一的Agent中樞,在不同設(shè)備、不同場(chǎng)景下提供無(wú)縫的智能服務(wù)體驗(yàn)。
![]()
這種范式轉(zhuǎn)變,或許正在重新定義下一代AI Agent的標(biāo)準(zhǔn)。
實(shí)測(cè)文庫(kù)GenFlow 2.0,什么是Agent的“一腦多形”?
GenFlow 2.0的核心創(chuàng)新在于構(gòu)建了類似于“一腦多形”架構(gòu)。這不是簡(jiǎn)單的多模型堆砌,而是通過(guò)統(tǒng)一智能中樞實(shí)現(xiàn)多端自適應(yīng)的系統(tǒng)性突破。
GenFlow 2.0的“腦”是一個(gè)復(fù)雜的調(diào)度與認(rèn)知中樞系統(tǒng),其核心是自研Multi-Agent基礎(chǔ)架構(gòu)。GenFlow2.0本身是個(gè)多輪對(duì)話的框架,要想對(duì)用戶意圖做精準(zhǔn)理解,那就不僅僅是了解當(dāng)前一個(gè)問(wèn)題的意圖,需要結(jié)合用戶個(gè)人畫(huà)像,及其過(guò)去一段時(shí)間,一個(gè)時(shí)間窗里的多輪交互的背景信息,去判斷他的一些個(gè)人傾向。
系統(tǒng)采用動(dòng)態(tài)混合推理(MoE)架構(gòu),能夠基于不同任務(wù)、步驟來(lái)調(diào)用不同模型,在成本、性能和效率上實(shí)現(xiàn)最優(yōu)平衡。與傳統(tǒng)“大而全”模型不同,GenFlow 2.0維護(hù)著100+個(gè)專業(yè)化Agent池,每個(gè)Agent都在特定領(lǐng)域經(jīng)過(guò)深度優(yōu)化。
更關(guān)鍵的是,系統(tǒng)構(gòu)建了完整的“臨短長(zhǎng)記憶中樞”。 GenFlow 2.0打造了獨(dú)創(chuàng)的“記憶庫(kù)”,可以記住并運(yùn)用用戶在文庫(kù)網(wǎng)盤(pán)溝通的歷史記錄、上傳下載文件,可完整交付更懂用戶的個(gè)性化內(nèi)容。這個(gè)記憶系統(tǒng)整合了用戶行為記憶、對(duì)話記憶、個(gè)性化偏好記憶等多源數(shù)據(jù)融合,形成持續(xù)積累的認(rèn)知基礎(chǔ)。
在“形”的層面,文庫(kù)GenFlow 2.0實(shí)現(xiàn)了真正的全端通用體驗(yàn)。用戶可以在百度文庫(kù)Web端、App端等多個(gè)終端無(wú)縫切換,任務(wù)進(jìn)度、交互記憶、文件關(guān)聯(lián)都保持完全一致。這種一致性不僅體現(xiàn)在功能層面,更體現(xiàn)在交互邏輯的統(tǒng)一:用戶在任意端點(diǎn)發(fā)起的任務(wù),都可以在其他端點(diǎn)查看進(jìn)度、進(jìn)行干預(yù)、獲取結(jié)果。
移動(dòng)端體驗(yàn)的優(yōu)化尤其值得關(guān)注。GenFlow 2.0在手機(jī)上提供了直觀的并行任務(wù)視圖,用戶可以通過(guò)并列式進(jìn)度條實(shí)時(shí)看到多個(gè)Agent的工作狀態(tài),支持隨時(shí)暫停特定任務(wù)、補(bǔ)充新需求、調(diào)用云端文件。這種設(shè)計(jì)充分考慮了移動(dòng)場(chǎng)景下的碎片化使用特點(diǎn),讓用戶能夠有效利用通勤、等待等零散時(shí)間推進(jìn)復(fù)雜任務(wù)。
![]()
系統(tǒng)的智能模式切換功能進(jìn)一步提升了使用體驗(yàn)。GenFlow 2.0能夠自動(dòng)識(shí)別用戶需求的復(fù)雜程度,在簡(jiǎn)單問(wèn)答與復(fù)雜多任務(wù)并行模式間無(wú)縫切換,無(wú)需用戶手動(dòng)指定。當(dāng)檢測(cè)到單一問(wèn)題時(shí),系統(tǒng)會(huì)快速給出直接回答;當(dāng)識(shí)別到復(fù)合需求時(shí),會(huì)自動(dòng)啟動(dòng)多Agent協(xié)作模式,用戶完全感知不到模式切換的存在。
我們測(cè)試了Genflow2.0的并行任務(wù)能力和全端配合能力。第一個(gè)任務(wù),我們讓它設(shè)計(jì)5個(gè)類似labubu的盲盒ip,畫(huà)出原型圖,并要求:有可能會(huì)火。
![]()
在進(jìn)行了大量的市場(chǎng)分析和調(diào)研之后,大概在3分鐘左右,Genflow2.0同時(shí)生成了5種不同風(fēng)格盲盒ip,包括結(jié)合了傳統(tǒng)文化的山海經(jīng)異獸、像素風(fēng)手辦等等。
![]()
(大家也可以投出自己喜歡的形象)
在下班回家的路上,我想更多了解一些Labubu設(shè)計(jì)背后的設(shè)計(jì)理念,于是在移動(dòng)端讓Genflow2.0根據(jù)我們之前的討論,生成了一份《原創(chuàng)盲盒IP概念設(shè)計(jì)方案》。可見(jiàn),Genflow2.0在手機(jī)端也可以一鍵將報(bào)告生成ppt,并根據(jù)報(bào)告對(duì)上述生成內(nèi)容進(jìn)行二次修改,隨時(shí)隨地完善任務(wù)。
![]()
我們發(fā)現(xiàn)在輸出能力上,GenFlow 2.0依托已經(jīng)過(guò)市場(chǎng)驗(yàn)證的專業(yè)Agent,能夠并行生成PPT、分析報(bào)告、配圖、數(shù)據(jù)圖表,甚至交互式H5頁(yè)面等多種形態(tài)的內(nèi)容。這種多模態(tài)一站式輸出能力切實(shí)好用,讓用戶從復(fù)雜的工具鏈中解脫出來(lái),通過(guò)單一入口就能獲得完整的解決方案。
為什么“全端通用”定義了下一代Agent標(biāo)準(zhǔn)?
從當(dāng)前市場(chǎng)碎片化的單點(diǎn)工具到統(tǒng)一的智能中樞,這種范式轉(zhuǎn)變,正在為Agent打開(kāi)一種新的可能。
傳統(tǒng)Agent產(chǎn)品采用串行處理模式,用戶往往需要等待數(shù)十分鐘甚至數(shù)小時(shí),才能獲得完整結(jié)果。文庫(kù)GenFlow 2.0的“百個(gè)AI Agent專家團(tuán)并行”模式徹底改變了這一現(xiàn)狀。當(dāng)用戶提出復(fù)雜需求時(shí),系統(tǒng)能夠同時(shí)調(diào)動(dòng)PPT專家、研報(bào)專家、繪圖專家等多個(gè)Agent并行工作,將原本需要數(shù)小時(shí)的工作壓縮到3分鐘內(nèi)完成,實(shí)現(xiàn)了生產(chǎn)力的質(zhì)的飛躍。
此次AIDAY上,百度方面還詳細(xì)解釋了并行調(diào)度的技術(shù)難點(diǎn)。總結(jié)來(lái)說(shuō),一個(gè)最大的點(diǎn)就是狀態(tài)的管理。因?yàn)樽铋_(kāi)始對(duì)意圖做拆解以后,會(huì)呈一個(gè)子任務(wù)序列,所謂的動(dòng)態(tài)任務(wù)編排,每個(gè)任務(wù)調(diào)度具體的底層Agent不一樣,任務(wù)本身內(nèi)部的環(huán)節(jié)節(jié)點(diǎn)也有所差異,所以,文庫(kù)GenFlow2.0會(huì)有一個(gè)消息通訊總控,會(huì)同步協(xié)調(diào)它整個(gè)的進(jìn)度。
這種并行模式帶來(lái)了顯著的性能提升。GenFlow 2.0平均3分鐘生成,比主流Agent快5-10倍,而且一個(gè)480p生成1分鐘的視頻,是行業(yè)水平整個(gè)成本的十分之一。
![]()
“全端可用”特別是移動(dòng)端的深度整合,讓Agent的能力范圍大大提高。傳統(tǒng)Agent產(chǎn)品往往局限于PC端或Web端,移動(dòng)端體驗(yàn)嚴(yán)重缺失。GenFlow 2.0在手機(jī)上提供了直觀的并行任務(wù)視圖,用戶可以通過(guò)并列式進(jìn)度條實(shí)時(shí)查看多個(gè)Agent的工作狀態(tài),支持隨時(shí)暫停、補(bǔ)充需求、調(diào)用文件。
同時(shí),“過(guò)程可干預(yù)、記憶可追溯”將傳統(tǒng)AI的黑箱運(yùn)作模式轉(zhuǎn)變?yōu)橥该鞯陌紫潴w驗(yàn),這是建立人機(jī)協(xié)作信任的關(guān)鍵。用戶不再被動(dòng)接受AI的輸出結(jié)果,而可以全程參與、實(shí)時(shí)調(diào)整、深度干預(yù)。系統(tǒng)支持在任何環(huán)節(jié)暫停任務(wù)、追問(wèn)細(xì)節(jié)、補(bǔ)充要求,甚至修改思考內(nèi)容。
這種深度的人機(jī)協(xié)作模式,極大提升了AI的可用性和用戶的信任度。當(dāng)用戶擁有控制權(quán)和知情權(quán)時(shí),他們更愿意將重要任務(wù)交給AI處理,從而釋放出更多的創(chuàng)造性時(shí)間。
在Agent的擴(kuò)展邊界上,GenFlow 2.0兼容MCP協(xié)議,意味著其“中樞大腦”可以靈活接入更多第三方服務(wù)、工具,甚至硬件設(shè)備。這種開(kāi)放架構(gòu)避免了對(duì)單一技術(shù)路線的依賴,為未來(lái)的功能擴(kuò)展和生態(tài)合作奠定了基礎(chǔ)。
榮耀作為全球首批接入MCP生態(tài)的硬件廠商,已經(jīng)將GenFlow 2.0原生接入榮耀智能助理YOYO,實(shí)現(xiàn)了AI Agent與硬件廠商的系統(tǒng)級(jí)原生調(diào)度。這種合作模式預(yù)示著AI Agent正在從軟件應(yīng)用向操作系統(tǒng)級(jí)服務(wù)演進(jìn)。
對(duì)于用戶而言,百度文庫(kù)的公域知識(shí)庫(kù)與用戶授權(quán)后的百度網(wǎng)盤(pán)私域數(shù)據(jù)解決了Agent記憶的關(guān)鍵問(wèn)題,為Agent提供了強(qiáng)大的個(gè)性化認(rèn)知基座。系統(tǒng)可以同時(shí)調(diào)用超14億專業(yè)內(nèi)容資源、6.8億篇學(xué)術(shù)文獻(xiàn),以及用戶個(gè)人的文件、歷史記錄、偏好設(shè)定,實(shí)現(xiàn)真正的個(gè)性化智能服務(wù)。
對(duì)比當(dāng)前主流的單點(diǎn)工具型Agent和Copilot類助手,GenFlow 2.0在統(tǒng)一調(diào)度、多端適應(yīng)、生態(tài)開(kāi)放等方面展現(xiàn)出的組合優(yōu)勢(shì),正在定義一個(gè)更接近下一代AI Agent標(biāo)準(zhǔn)。
回歸本質(zhì):“好用”才是終極奧義
GenFlow 2.0的問(wèn)世,根植于百度文庫(kù)(AI MAU 9700萬(wàn))和百度網(wǎng)盤(pán)(10億+用戶)兩大國(guó)民級(jí)應(yīng)用的深厚積累。海量用戶在跨端、多任務(wù)、個(gè)性化場(chǎng)景中的真實(shí)需求,直接推動(dòng)了"統(tǒng)一調(diào)度中樞"和"全端自適應(yīng)"架構(gòu)的誕生,這是百度“讓AI真正有用”的另一種體現(xiàn)。
可以說(shuō),GenFlow 2.0的突破性表現(xiàn),很大程度上得益于百度獨(dú)特的AI全棧布局優(yōu)勢(shì)。
![]()
這種"芯片-框架-模型-應(yīng)用"的垂直整合體系,為復(fù)雜Agent系統(tǒng)提供了端到端的深度優(yōu)化能力。昆侖芯在芯片層提供的強(qiáng)大算力支撐,確保了上百個(gè)Agent并行調(diào)度的實(shí)時(shí)響應(yīng);飛槳框架層的動(dòng)態(tài)圖與分布式訓(xùn)練能力,成為實(shí)現(xiàn)復(fù)雜Multi-Agent動(dòng)態(tài)調(diào)度的技術(shù)中軸;文心大模型層通過(guò)MoE架構(gòu)的靈活集成,構(gòu)建起專業(yè)Agent的智能內(nèi)核;而文庫(kù)網(wǎng)盤(pán)應(yīng)用層既是需求源頭,也是能力沉淀與數(shù)據(jù)融合的載體。
相比依賴第三方API或模型的競(jìng)品,百度能夠在算力調(diào)度、模型推理、數(shù)據(jù)流轉(zhuǎn)等關(guān)鍵環(huán)節(jié)進(jìn)行系統(tǒng)級(jí)優(yōu)化,從而實(shí)現(xiàn)更低的延遲、更高的穩(wěn)定性和更精準(zhǔn)的個(gè)性化體驗(yàn)。這也是百度區(qū)別于純模型廠商或純應(yīng)用廠商的核心差異化優(yōu)勢(shì)。
從概念驗(yàn)證走向?qū)嵱霉ぞ撸瑥膯吸c(diǎn)應(yīng)用走向系統(tǒng)能力。當(dāng)Agent系統(tǒng)變得日益復(fù)雜,涉及多模態(tài)處理、實(shí)時(shí)協(xié)同、跨端同步等高難度技術(shù)挑戰(zhàn)時(shí),考驗(yàn)的,正是廠商技術(shù)積累的厚度與廣度。
而百度憑借十余年AI全棧布局與億級(jí)用戶場(chǎng)景沉淀,正在這場(chǎng)長(zhǎng)跑中,展現(xiàn)出獨(dú)特的競(jìng)爭(zhēng)優(yōu)勢(shì)。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.