允中 發(fā)自 凹非寺
量子位 | 公眾號 QbitAI
在大模型的多種應(yīng)用形態(tài)中,執(zhí)行專業(yè)功能的行業(yè)Agent,無疑是提升生產(chǎn)效率、實現(xiàn)價值創(chuàng)造的利器。
然而,千行百業(yè)包含著大量的私域知識、專家經(jīng)驗和工具使用邏輯,使得智能體的行業(yè)應(yīng)用構(gòu)建存在各類門檻。
為了提升開發(fā)效率,業(yè)界提出了諸如Skills、OpenClaw等優(yōu)秀的工程框架,使得專業(yè)Agent的開發(fā)門檻日益降低,也讓針對Agent應(yīng)用的多維度算法優(yōu)化需求愈發(fā)凸顯。
在此背景,華為諾亞方舟實驗室近期在官網(wǎng)更新了面向行業(yè)應(yīng)用的算法包MindScale,這一項目融合了實驗室的算法創(chuàng)新基因與華為行業(yè)智能化業(yè)務(wù)實踐經(jīng)驗。
其系統(tǒng)性梳理了Agent時代將“大模型”轉(zhuǎn)化為“生產(chǎn)力”的算法技術(shù)挑戰(zhàn),并給出了對應(yīng)的技術(shù)論文昇騰代碼實現(xiàn),為行業(yè)用戶與開發(fā)者提供了直接的“上手指南”。
![]()
制約行業(yè)Agent發(fā)展的四大核心挑戰(zhàn)
在MindScale項目中,研究人員識別了在行業(yè)普及Agent應(yīng)用的四大挑戰(zhàn):
- 工作流手工維護:依賴專家將業(yè)務(wù)規(guī)則“翻譯”為Agent工作流;
- 歷史知識復(fù)用難:歷史推理路徑與反饋無法有效使Agent系統(tǒng)自演進(jìn);
- 訓(xùn)推效率瓶頸:大量模型部署與迭代需求+思考路徑變長,成本壓力陡升;
- 復(fù)雜推理測評:多步、多工具交織推理,單精度指標(biāo)無法準(zhǔn)確反映模型效果。
實現(xiàn)工作流自進(jìn)化與提示詞自動化閉環(huán)
為了應(yīng)對這些挑戰(zhàn),諾亞的研究人員與多所合作單位一道,給出了自己的解決方案。
例如,面向行業(yè)Agent開發(fā)中最常見的工作流(Workflow)開發(fā)場景,算法包中包含了自進(jìn)化的Agent算法EvoFabric
與手動提取工作流高度依賴專家經(jīng)驗不同,使用SOP2Workflow可以快速從自然語言文檔與歷史工具庫,直接生成可執(zhí)行的Workflow。
![]()
△由用戶書寫的網(wǎng)頁功能測試SOP→自動生成的整個Workflow
為了實現(xiàn)這樣靈活的Workflow生成,研究人員采用了基于狀態(tài)圖引擎內(nèi)核的Agent實現(xiàn),原生支持混編Agent、工具等多種圖節(jié)點,支持狀態(tài)的改寫和分組融合處理,實現(xiàn)多智能體、多工具、多記憶形態(tài)的深度混編,圖引擎還支持DSL文件的導(dǎo)入與導(dǎo)出,實現(xiàn)復(fù)雜智能流程的快速復(fù)制、遷移與部署。
同時,該算法框架還可以實現(xiàn)基于記憶的演進(jìn)——多輪執(zhí)行時,記憶模塊利用軌跡記憶,以及當(dāng)時的評估結(jié)果形成經(jīng)驗優(yōu)化上下文,實現(xiàn)Agent越用越好。
另一個有趣的功能,是讓模型開始自己進(jìn)行“prompt優(yōu)化”
首先,基于前期已經(jīng)先行發(fā)布的prompt在線優(yōu)化算法SCOPE,開發(fā)者可以實現(xiàn)在每步推理之間進(jìn)行prompt在線優(yōu)化,通過注入萃取歷史路徑中的有效信息實現(xiàn)提示詞的快速優(yōu)化,在HLE和GAIA等agentic reasoning的場景里可以取得20%以上的精度提升。
此外,研究人員還提出了“大模型prompt優(yōu)化器”C-MOP,通過創(chuàng)新的樣本選取與梯度更新策略,解決了“文本梯度”的沖突問題,實現(xiàn)了基于正負(fù)例反饋的prompt自動優(yōu)化,真正做到了“反饋->演進(jìn)”的prompt優(yōu)化閉環(huán)。
△C-MOP:融合正誤雙向樣本感知與時序動量梯度的提示詞優(yōu)化器。
![]()
榨干算力潛能并適配國產(chǎn)硬件生態(tài)
除了精度提升,MindScale也注重面向行業(yè)場景模型的訓(xùn)推效率優(yōu)化,例如:
- 其中的TrimR用一個已預(yù)訓(xùn)練、指令微調(diào)的輕量驗證器在線檢測并截斷無用中間思路,全程無需微調(diào)大模型或驗證器;
- 配套工業(yè)級異步在線系統(tǒng),適配大并發(fā)生產(chǎn)場景。
在MATH、AIME、GPQA等基準(zhǔn)與多款LRM上,TrimR在幾乎不影響準(zhǔn)確率的前提下,將推理時延顯著降低,大并發(fā)場景最高可達(dá)約70%提速,實現(xiàn)實際應(yīng)用場景中的Test Time Scaling。
![]()
△TrimR:工業(yè)級思維鏈動態(tài)壓縮算法框架
此外,為了適配行業(yè)場景高并發(fā)的推理壓力,MindScale還提供了新的基于KV Cache的推理方案。
與通用方案中KV Cache只是用來加速解碼的“幕后工具”不同,研究人員提出KV-Embeddings,把KV Cache視作一種“免費附贈”的輕量表示,無需額外計算或存儲完整隱狀態(tài),可以在鏈?zhǔn)奖硎就评恚–hain-of-Embedding)和快慢思考切換等關(guān)鍵場景中,基于多款主流模型上實現(xiàn)性能持平或反超專用embedding模型,同時將生成token數(shù)最高減少5.7×
這些結(jié)果表明——KV Cache不只是加速器,更是一塊尚未被充分利用的“思考緩存”,為大模型推理階段的表示復(fù)用打開了新的想象空間。
此外,諾亞方舟實驗室與相關(guān)合作團隊還在任務(wù)記憶、Agentic RAG、通用算法發(fā)現(xiàn)框架等多個方向上,沉淀了大量經(jīng)過實戰(zhàn)檢驗的、圍繞行業(yè)智能優(yōu)化的創(chuàng)新算法技術(shù)架構(gòu)。
同時,MindScale還也包含了適配昇騰硬件的代碼實現(xiàn),可以讓行業(yè)開發(fā)的小伙伴們,基于國產(chǎn)算力實現(xiàn)高精度、高效的Agent構(gòu)建。
https://noah-mindscale.github.io/
華為諾亞方舟實驗室主頁:
https://www.noahlab.com.hk/#/home
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.