機(jī)器之心發(fā)布
機(jī)器之心編輯部
隨著大模型推理和 Agent 工具調(diào)用能力的快速發(fā)展,其通過反復(fù)搜索處理復(fù)雜信息需求的效果愈發(fā)受到業(yè)界關(guān)注。近日,第三方評(píng)測(cè)機(jī)構(gòu) SuperCLUE 發(fā)布 11 月 DeepSearch 評(píng)測(cè)報(bào)告,國(guó)產(chǎn)大模型 openPangu-R-72B 憑借在長(zhǎng)鏈推理、復(fù)雜信息檢索領(lǐng)域的卓越表現(xiàn),在模型榜單中名列第一,體現(xiàn)了基于國(guó)產(chǎn)昇騰算力的大模型研發(fā)實(shí)力。
![]()
這款 MoE 架構(gòu)模型,究竟藏著哪些技術(shù)秘密,能在激烈競(jìng)爭(zhēng)中脫穎而出?
硬核技術(shù)底座:
MoE 架構(gòu)下的效率與性能平衡術(shù)
openPangu-R-72B 為考慮效率和性能平衡,重新設(shè)計(jì)了模型底座架構(gòu)。作為基于昇騰集群訓(xùn)練的 MoE(混合專家)模型,它采用 80 選 8 的專家選擇機(jī)制,在 74B 總參數(shù)量的基礎(chǔ)上,將激活參數(shù)量控制在 15B,既保留了大模型的復(fù)雜推理能力,又有效降低了計(jì)算開銷。24T tokens 的訓(xùn)練數(shù)據(jù)與 128k 長(zhǎng)序列處理能力,為其處理深度搜索任務(wù)中的長(zhǎng)文本信息奠定了基礎(chǔ)。
為實(shí)現(xiàn)穩(wěn)定收斂與效果提升,openPangu 團(tuán)隊(duì)在預(yù)訓(xùn)練技術(shù)上完成了以下優(yōu)化。
![]()
圖. openPangu-R-72B 模型架構(gòu)
1)注意力機(jī)制層面引入?yún)?shù)式 Sink Token 技術(shù):有效緩解了極大激活值問題,不僅提升了訓(xùn)練過程的穩(wěn)定性,也對(duì)后續(xù)量化更加親和;
2)采用 K-Norm 與 Depth-Scaled Sandwich-Norm 組合的架構(gòu),其中 K-Norm 僅對(duì) attention 的 key 施加 RMS Norm,在達(dá)到與 QK-Norm 相當(dāng)穩(wěn)定性的同時(shí),降低計(jì)算開銷,還保留了 Query 更靈活的表達(dá)能力。
3)注意力架構(gòu)的優(yōu)化兼顧了精度與效率:通過增加 Query 頭數(shù)和注意力頭維度,讓模型能從更多角度捕獲細(xì)粒度語義關(guān)系;引入 Partial RoPE 機(jī)制,僅對(duì) Query 和 Key 中 1/3 維度應(yīng)用位置編碼。通過將 KV 組數(shù)量減半,在 Key 頭維度增加的情況下,仍實(shí)現(xiàn)了 37.5% 的 KV cache 縮減,平衡了推理階段的顯存占用、速度與模型效果。
4)Adaptive Aux Free 負(fù)載優(yōu)化技術(shù):Aux free 升級(jí)版本,通過自適應(yīng)調(diào)整各個(gè)專家負(fù)載 bias 的更新幅度,有效減少均衡震蕩,讓專家負(fù)載分布更均衡。
DeepSearch 專項(xiàng)突破:
三大優(yōu)化破解復(fù)雜搜索難題
如果說技術(shù)底座是基礎(chǔ),那么針對(duì)深度搜索任務(wù)的后訓(xùn)練優(yōu)化則是 openPangu-R-72B 登頂?shù)年P(guān)鍵。深度搜索作為大模型訪問互聯(lián)網(wǎng)獲取深度信息的核心能力,其長(zhǎng)鏈推理與工具調(diào)用水平直接決定模型的實(shí)用價(jià)值。openPangu-R-72B 通過后訓(xùn)練階段進(jìn)行長(zhǎng)鏈難題合成、非索引信息處理、快慢思考融合三大策略,顯著提升了模型 DeepSearch 能力。
![]()
圖.openPangu-R-72B 模型深度搜索任務(wù)執(zhí)行流程,該流程同時(shí)用于模型訓(xùn)練和評(píng)測(cè)
1)在長(zhǎng)鏈 QA 難題合成方面,openPangu 團(tuán)隊(duì)在 DeepDiver-V2 和 WebExplorer 技術(shù)基礎(chǔ)上,通過 query 條件模糊化將問題平均難度提升 10%,同時(shí)借鑒《Pushing Test-Time Scaling Limits of Deep Search with Asymmetric Verification》工作的思想,引入 verification agent,大幅提升用于訓(xùn)練問答對(duì)的準(zhǔn)確性,讓模型在復(fù)雜推理場(chǎng)景中 “見多識(shí)廣”。
2)針對(duì)傳統(tǒng)搜索引擎難以覆蓋的非索引知識(shí)問答 —— 如官網(wǎng)附件中的財(cái)務(wù)數(shù)據(jù)、學(xué)術(shù)論文引文信息獲取等場(chǎng)景,模型訓(xùn)練過程中注入了 “Planner 聚焦關(guān)鍵 URL+ URL_crawler 爬取網(wǎng)頁 + Document_QA 識(shí)別下一步瀏覽鏈接” 的循環(huán)工作流,通過同一站點(diǎn)內(nèi)的多跳瀏覽實(shí)現(xiàn)了深度信息搜集,突破了傳統(tǒng)搜索引擎的信息邊界。
3)步驟級(jí)快慢融合策略則讓模型的 “思考” 更具效率。DeepSearch 的 ReACT 執(zhí)行過程中,不同步驟的思考強(qiáng)度差異顯著 ——Document_QA 需分析海量網(wǎng)頁數(shù)據(jù)與表格,對(duì)推理精度要求更高;而普通工具調(diào)用步驟更側(cè)重效率。為此,模型為不同步驟匹配不同思考模式:Document_QA 啟用慢思考保障精度,其他步驟采用快思考提升速度,實(shí)現(xiàn)了精度與效率的平衡。
國(guó)產(chǎn)算力賦能:
openPangu 系列模型彰顯集群優(yōu)勢(shì)
此次 SuperCLUE DeepSearch 評(píng)測(cè)登頂,不僅是 openPangu-R-72B 模型能力的體現(xiàn),也彰顯了國(guó)產(chǎn)算力與大模型研發(fā)深度融合的成效。作為基于昇騰集群訓(xùn)練的代表模型,openPangu-R-72B 證明了國(guó)產(chǎn)算力平臺(tái)在支撐大參數(shù)量、高復(fù)雜度模型研發(fā)方面的堅(jiān)實(shí)能力。
值得關(guān)注的是,openPangu-R-72B 的兄弟模型openPangu-718B在同期 SuperCLUE 通用榜單中斬獲第二名,展現(xiàn)了該系列在不同任務(wù)場(chǎng)景下的全面實(shí)力。從深度搜索的 “單點(diǎn)突破” 到通用能力的 “全面開花”,openPangu 系列正以昇騰算力為根基,為國(guó)產(chǎn)大模型生態(tài)注做出更多貢獻(xiàn)。
隨著大模型在企業(yè)服務(wù)、學(xué)術(shù)研究、政務(wù)處理等領(lǐng)域的深度落地,深度搜索能力將成為模型實(shí)用化的核心競(jìng)爭(zhēng)力。未來,隨著 openPangu 系列模型的持續(xù)迭代,我們期待國(guó)產(chǎn)大模型在更多全球頂級(jí)評(píng)測(cè)中綻放光彩。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.