<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

      QwenLong-L1.5發(fā)布:讓30B MoE模型長文本推理能力媲美GPT-5

      0
      分享至



      作為大模型從業(yè)者或研究員的你,是否也曾為一個模型的 “長文本能力” 而興奮,卻在實際應(yīng)用中發(fā)現(xiàn)它并沒有想象中那么智能?

      你大概率也遇到過以下困境之一:

      虛假的繁榮: 模型在 “大海撈針” (Needle-in-a-Haystack) 測試中輕松取得高分,營造了一種長文本能力已經(jīng)解決的 “虛假繁榮”。但一旦任務(wù)從簡單的信息定位,升級為需要串聯(lián)分散證據(jù)、整合全局信息的多跳推理 (multi-hop reasoning) 時,模型的表現(xiàn)便會急轉(zhuǎn)直下,難以構(gòu)建起完整的邏輯鏈條,暴露出其在深度理解上的真實短板。

      訓(xùn)練的噩夢: 長文本、多任務(wù)的訓(xùn)練數(shù)據(jù)就像一個成分復(fù)雜的 “大雜燴”,其多源、多域的特性,讓標(biāo)準(zhǔn)的 RL 算法嚴(yán)重 “水土不服”。你精心設(shè)計的獎勵函數(shù)(Reward Function)很可能因為數(shù)據(jù)分布的劇烈變化而產(chǎn)生偏差,導(dǎo)致模型性能不升反降。最終,監(jiān)控圖上那劇烈震蕩的獎勵和熵(Entropy)曲線,無情地宣告著訓(xùn)練過程的 “翻車” 與崩潰。

      窗口的天花板: 即使上下文窗口被擴(kuò)展到 256K,1M 甚至更長,它也終究是一個有限的 “物理內(nèi)存”。然而,現(xiàn)實世界的知識流 —— 分析整個代碼倉庫、研讀一份完整的年度財報、或是精讀一部專業(yè)巨著 —— 其信息量輕易就能突破這個上限。這使得模型在處理這些 “超框”(Out-of-Window)任務(wù)時,不得不依賴分塊處理等妥協(xié)方案,最終導(dǎo)致關(guān)鍵全局信息的丟失和端到端推理能力的降級。

      如果這些場景讓你倍感熟悉,那么問題很可能不在于你不夠努力,而在于業(yè)界缺少一套完整、端到端的長文本推理后訓(xùn)練 “配方”(Post-training Recipe)。

      針對這一系列挑戰(zhàn),通義文檔智能團(tuán)隊正式推出QwenLong-L1.5—— 一個基于 Qwen3-30B-A3B 打造的長文本推理專家。我們的核心貢獻(xiàn),正是提供了這套缺失的 “配方”,它系統(tǒng)性地統(tǒng)一了:

      • 可擴(kuò)展的高質(zhì)量數(shù)據(jù)合成管線
      • 為長文本定制的強(qiáng)化學(xué)習(xí)方法
      • 突破物理窗口的智能體架構(gòu)

      這套組合拳,旨在一次性解決從 “學(xué)不好” 到 “用不了” 的全鏈路難題。



      • 技術(shù)報告: https://huggingface.co/papers/2512.12967
      • GitHub 倉庫: https://github.com/Tongyi-Zhiwen/Qwen-Doc

      深入拆解:我們的三大「法寶」

      要讓模型真正掌握長文本推理,零敲碎打的優(yōu)化是遠(yuǎn)遠(yuǎn)不夠的。我們提出了一套系統(tǒng)性的 “組合拳”,包含三大核心法寶,從根本上重塑模型的學(xué)習(xí)與思考方式。

      法寶一:高質(zhì)量 “精神食糧” —— 多跳推理數(shù)據(jù)合成流水線

      模型的 “食糧” 決定了它的 “智商”。如果只給模型投喂簡單的 “大海撈針” 式任務(wù),就如同只讓學(xué)生做單選題,卻期望他能寫出長篇論述文。

      為了教會模型真正的 “思考”,我們打造了一條新穎的數(shù)據(jù)合成流水線。其核心思想是 “先拆解,后組合”,專造需要 “多跳溯源 (multi-hop grounding) 和全局推理” 的難題。這就像用樂高積木拼城堡:我們先把一本巨著拆解成一個個知識 “積木”(原子事實),再根據(jù)復(fù)雜的 “圖紙”(如知識圖譜、多文檔表格),把這些分布在不同章節(jié)的積木拼成一個宏偉的 “城堡”(復(fù)雜問題)。



      這條流水線由三大 “出題引擎” 驅(qū)動,能程序化地生成無窮無盡的高質(zhì)量挑戰(zhàn):

      • 知識圖譜引導(dǎo) (KG-Guided): 自動挖掘文檔間的深層邏輯鏈,生成環(huán)環(huán)相扣的多跳推理題,強(qiáng)制模型進(jìn)行跨段落、跨文檔的關(guān)聯(lián)思考。
      • 跨文檔表格引擎 (Cross-document Table Engine): 從多個非結(jié)構(gòu)化文檔中自動抽取出數(shù)據(jù),整合成統(tǒng)一的結(jié)構(gòu)化表格,據(jù)此生成需要聚合、統(tǒng)計與復(fù)雜計算的數(shù)值推理題。
      • 多智能體自我進(jìn)化 (MASE): 設(shè)計一個由 “出題者”、“解題者”、“檢驗者” 組成的多智能體框架,基于無標(biāo)簽文檔自動合成通用長文本任務(wù),通過 “出題 - 解題 - 檢驗” 的循環(huán),結(jié)合歷史合成任務(wù)提升任務(wù)難度和廣度。

      法寶二:穩(wěn)定高效的 RL 優(yōu)化策略

      強(qiáng)化學(xué)習(xí)(RL)是提升模型推理能力的關(guān)鍵,但在長文本、多任務(wù)場景下,標(biāo)準(zhǔn)的 RL 方法會面臨兩大嚴(yán)峻挑戰(zhàn),極易導(dǎo)致訓(xùn)練崩潰。

      第一個挑戰(zhàn)源于數(shù)據(jù)分布的異構(gòu)性。我們的長文本訓(xùn)練數(shù)據(jù)來自代碼、學(xué)術(shù)文獻(xiàn)、財報等多個領(lǐng)域,任務(wù)類型也涵蓋了問答、計算、分析等。這種復(fù)雜性導(dǎo)致在訓(xùn)練的每個批次(mini-batch)內(nèi),數(shù)據(jù)分布都會發(fā)生劇烈偏移(distributional drift)。



      這種偏移會嚴(yán)重干擾獎勵信號(reward)的穩(wěn)定性,并對優(yōu)勢函數(shù)(advantage function)的估計引入巨大噪聲,使得梯度更新方向變得極不可靠。為解決此問題,我們采取了雙重策略:

      任務(wù)均衡采樣(Task-balanced Sampling): 在構(gòu)建每個訓(xùn)練批次時,強(qiáng)制從不同的任務(wù)類型(如多跳推理、數(shù)值計算、對話記憶等)中均勻抽取樣本,從源頭上保證了批次內(nèi)數(shù)據(jù)分布的相對均衡。

      任務(wù)專屬優(yōu)勢估計(Task-specific Advantage Estimation): 在計算優(yōu)勢函數(shù)時,我們不再對整個批次的獎勵進(jìn)行標(biāo)準(zhǔn)化,而是在每個任務(wù)類型內(nèi)部獨(dú)立進(jìn)行。這能有效隔離不同任務(wù)間迥異的獎勵分布(如 0/1 的稀疏獎勵與 0-1 的密集獎勵),從而為每個任務(wù)提供更準(zhǔn)確、更穩(wěn)定的優(yōu)勢信號。

      第二個挑戰(zhàn)是長文本推理中的信用分配難題(Credit Assignment Problem)。在生成式任務(wù)中,一個最終錯誤的答案(negative response)往往包含了大量完全正確的中間推理步驟。傳統(tǒng)的 RL 算法通過一個單一的負(fù)向獎勵來懲罰整個序列,這種 “一刀切” 的做法會錯誤地懲罰那些正確的、具有探索價值的步驟,不僅壓制了模型的探索能力,甚至可能導(dǎo)致 “熵坍塌”(entropy collapse)和訓(xùn)練早停。



      為此,我們提出了自適應(yīng)熵控制策略優(yōu)化(Adaptive Entropy-Controlled Policy Optimization, AEPO)算法。AEPO 的核心是一種基于模型自身不確定性(以策略熵衡量)的動態(tài)梯度屏蔽機(jī)制:

      當(dāng)模型在高不確定性(高熵)狀態(tài)下生成了錯誤答案時,AEPO 會主動屏蔽(mask)其負(fù)向梯度。這保護(hù)了模型的探索性行為,避免因懲罰不成熟的嘗試而喪失學(xué)習(xí)潛力。

      反之,當(dāng)模型在高置信度(低熵)狀態(tài)下依然犯錯時,負(fù)向梯度會被正常施加,以堅決糾正這些高置信度的錯誤。

      通過這種動態(tài)的、智能的梯度控制,AEPO 將模型策略的熵穩(wěn)定在一個健康的區(qū)間,完美平衡了探索與利用,從根本上解決了長文本 RL 中的不穩(wěn)定性問題。

      法寶三:突破極限的 “外置大腦”—— 記憶管理框架

      256K 的上下文窗口,本質(zhì)上是一種有限的 “短期記憶”。當(dāng)面對浩如煙海的真實世界知識流時,我們需要的不是一個更大的窗口,而是一個全新的工作模式。

      為此,我們?yōu)槟P驮O(shè)計了一套記憶管理框架 (Memory Management Framework),這相當(dāng)于給了它一個可無限擴(kuò)展的 “智能筆記本”。在閱讀超長文檔時,模型不再試圖將所有內(nèi)容硬塞進(jìn) “短期記憶”,而是學(xué)會了邊讀邊記要點(diǎn)(迭代式記憶更新),形成結(jié)構(gòu)化的記憶,并在需要時高效檢索和利用這些 “筆記”。

      但這并非一個孤立的工具。通過巧妙的多階段融合 RL 訓(xùn)練 (multi-stage fusion RL training),我們將這種 “筆記能力” 與模型與生俱來的 “過目不忘”(窗口內(nèi)推理)能力無縫地融合在了一起。最終得到的,是一個統(tǒng)一的模型 —— 一個既能 “深思” 又能 “博覽” 的全能選手,真正突破了物理窗口的束縛。

      效果展示

      性能全面飛躍,30B moe 模型實現(xiàn)媲美頂級旗艦的效果!



      QwenLong-L1.5 在多個權(quán)威長文本推理基準(zhǔn)上取得了令人矚目的成績,其表現(xiàn)可以總結(jié)為:

      • 整體性能飛躍: 相比基線模型 Qwen3-30B-A3B-Thinking,QwenLong-L1.5 的平均分暴漲 9.9 分!這證明了我們?nèi)缀笥?xùn)練 “配方” 的巨大成功。
      • 比肩頂級旗艦: 在多個權(quán)威長文本榜單上,我們的 30B-A3B 模型取得了與 GPT-5、Gemini-2.5-Pro 等業(yè)界頂級閉源模型相媲美的性能,展現(xiàn)了極強(qiáng)的競爭力。
      • 精準(zhǔn)的能力躍升: 更值得注意的是,我們的性能提升精準(zhǔn)地體現(xiàn)在了最能考驗深度推理能力的復(fù)雜任務(wù)上。在需要多跳推理和全局信息整合的 MRCR、CorpusQA 和 LongBench-V2 等基準(zhǔn)上,我們分別取得了+31.72、+9.69 和 +6.16 的性能增長!

      這并非巧合,而是精準(zhǔn)地驗證了我們 “高質(zhì)量精神食糧”(可編程數(shù)據(jù)合成)的有效性 —— 我們專門為模型打造了什么樣的難題,它就在解決這些難題上獲得了最強(qiáng)的能力!

      意外之喜:通用能力不降反升!

      訓(xùn)練 “專才” 是否會犧牲 “通才” 能力?這是大模型微調(diào)中常見的 “蹺蹺板” 難題。

      我們的答案是:不僅不會,反而會相互促進(jìn)!



      實驗結(jié)果顯示,經(jīng)過長文本強(qiáng)化訓(xùn)練后,QwenLong-L1.5 不僅沒有出現(xiàn) “偏科” 或 “遺忘”,反而在一系列通用能力上也獲得了顯著提升:

      • 在數(shù)學(xué)推理 (AIME25) 任務(wù)上表現(xiàn)更優(yōu);
      • 在智能體記憶 (BFCL) 任務(wù)中展現(xiàn)出更強(qiáng)的狀態(tài)追蹤能力;
      • 在長對話 (LongMemEval) 場景下,記憶和理解能力大幅增強(qiáng)。

      這有力地證明了,提升長程信息整合能力,是一種基礎(chǔ)性的 “認(rèn)知升級”,其收益會輻射到模型的各項核心能力之中。

      挑戰(zhàn)極限:征服 1M~4M Token 超長文本!

      當(dāng)任務(wù)長度遠(yuǎn)超物理上下文窗口時,模型真正的擴(kuò)展能力才得以體現(xiàn)。

      借助我們的 “外置大腦”(記憶管理框架),QwenLong-L1.5 在處理百萬、甚至四百萬級別的超長任務(wù)時,展現(xiàn)出了卓越的性能。



      結(jié)果顯示,QwenLong-L1.5 在這些極限挑戰(zhàn)中,性能遠(yuǎn)超同類智能體方法,充分驗證了我們框架強(qiáng)大的可擴(kuò)展性。這表明,我們不僅提升了模型在窗口內(nèi)的能力,更賦予了它突破物理窗口限制、處理無限信息流的巨大潛力。

      總結(jié)


      總結(jié):我們提出的 QwenLong-L1.5 及其背后的 “數(shù)據(jù)合成 + RL 優(yōu)化 + 記憶管理” 三位一體的后訓(xùn)練框架,為解決大模型長文本推理難題提供了一條經(jīng)過驗證的、可復(fù)現(xiàn)的路徑。

      開源呼吁:我們相信開放與共享的力量。相關(guān)技術(shù)細(xì)節(jié)已在論文中公布,代碼也在 https://github.com/Tongyi-Zhiwen/Qwen-Doc 開源。歡迎大家下載使用、交流探討,共同推動長文本技術(shù)的發(fā)展!

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點(diǎn)推薦
      主教練炮轟外援:來到中國別太囂張 我們不是伺候你的 少作威作福

      主教練炮轟外援:來到中國別太囂張 我們不是伺候你的 少作威作福

      林子說事
      2026-04-02 03:39:44
      德云社大洗牌:郭麒麟榜上除名,欒云平意想不到,他才是最大贏家

      德云社大洗牌:郭麒麟榜上除名,欒云平意想不到,他才是最大贏家

      老鼜尾聲電影解說
      2026-03-31 21:33:51
      上海蘇州兩地政府迎來新領(lǐng)導(dǎo),均為金融老將

      上海蘇州兩地政府迎來新領(lǐng)導(dǎo),均為金融老將

      觀察者網(wǎng)
      2026-04-01 11:28:03
      我嫁給不能生育的迪拜富商,不到3個月我竟孕吐不止,醫(yī)生:恭喜

      我嫁給不能生育的迪拜富商,不到3個月我竟孕吐不止,醫(yī)生:恭喜

      千秋文化
      2026-03-25 21:42:08
      賈巴爾恨死詹姆斯了?41歲詹皇總勝場超天勾,成NBA歷史第一!

      賈巴爾恨死詹姆斯了?41歲詹皇總勝場超天勾,成NBA歷史第一!

      仰臥撐FTUer
      2026-04-01 20:19:09
      1950年李彌撤臺受冷落、妻失聯(lián),蔣召見質(zhì)問:為何留精銳于金三角

      1950年李彌撤臺受冷落、妻失聯(lián),蔣召見質(zhì)問:為何留精銳于金三角

      嘮叨說歷史
      2026-03-27 18:28:49
      伊朗第86輪猛攻,美國全境爆發(fā)大規(guī)模動蕩,新一輪政治洗牌開始

      伊朗第86輪猛攻,美國全境爆發(fā)大規(guī)模動蕩,新一輪政治洗牌開始

      馬鞄戶外釣魚哥
      2026-03-31 15:08:24
      慈禧看中33歲侍衛(wèi)那爾蘇并召其入宮,二人交往最終令他結(jié)局凄慘

      慈禧看中33歲侍衛(wèi)那爾蘇并召其入宮,二人交往最終令他結(jié)局凄慘

      嘮叨說歷史
      2026-03-23 16:58:35
      黑龍江鶴哈高速發(fā)生多車相撞起火事故,目擊者稱公路邊焚燒秸稈,明火蔓延至路面,事故車輛中包含一輛警車

      黑龍江鶴哈高速發(fā)生多車相撞起火事故,目擊者稱公路邊焚燒秸稈,明火蔓延至路面,事故車輛中包含一輛警車

      臺州交通廣播
      2026-04-01 21:52:46
      伊朗沖突進(jìn)入第二個月,出現(xiàn)兩個關(guān)鍵信號!

      伊朗沖突進(jìn)入第二個月,出現(xiàn)兩個關(guān)鍵信號!

      界面新聞
      2026-04-01 11:05:44
      央視主持人吞300顆安眠藥自殺,搶救七天后生活現(xiàn)狀如何?

      央視主持人吞300顆安眠藥自殺,搶救七天后生活現(xiàn)狀如何?

      最美的巧合
      2026-04-01 06:07:03
      即將更名!天津最后一家伊勢丹,也沒了!

      即將更名!天津最后一家伊勢丹,也沒了!

      天津人
      2026-04-01 19:27:10
      瞞不住了!美軍戰(zhàn)死人數(shù)被曝光,內(nèi)部嘩變:絕不替以色列送命!

      瞞不住了!美軍戰(zhàn)死人數(shù)被曝光,內(nèi)部嘩變:絕不替以色列送命!

      達(dá)文西看世界
      2026-04-01 10:53:10
      41歲哈爾濱網(wǎng)紅羋朵去世,熬夜吃麻辣燙或為主要原因

      41歲哈爾濱網(wǎng)紅羋朵去世,熬夜吃麻辣燙或為主要原因

      無處遁形
      2026-04-01 09:36:09
      首例! 新加坡女童入境中國確診BA.3.2變異毒株!東南亞病例飆升

      首例! 新加坡女童入境中國確診BA.3.2變異毒株!東南亞病例飆升

      新加坡萬事通
      2026-03-31 18:49:02
      當(dāng)山東人曬出精心準(zhǔn)備的下午茶讓人笑麻了,網(wǎng)友:魯國公主真優(yōu)雅

      當(dāng)山東人曬出精心準(zhǔn)備的下午茶讓人笑麻了,網(wǎng)友:魯國公主真優(yōu)雅

      房產(chǎn)衫哥
      2026-04-01 12:44:39
      終于定了!中國移動正式發(fā)通知:自4月30日起,全國統(tǒng)一執(zhí)行

      終于定了!中國移動正式發(fā)通知:自4月30日起,全國統(tǒng)一執(zhí)行

      大魚簡科
      2026-03-31 19:29:10
      國際油價,突然跳水!發(fā)生了什么?

      國際油價,突然跳水!發(fā)生了什么?

      金融界
      2026-04-01 17:33:04
      早期于謙一家與德云社成員的合影,多樸實的畫面,孫越已經(jīng)夠胖了

      早期于謙一家與德云社成員的合影,多樸實的畫面,孫越已經(jīng)夠胖了

      大江
      2026-03-30 15:07:52
      利物浦血虧!克洛普 1700 萬賣掉的瑰寶,如今身價暴漲三倍

      利物浦血虧!克洛普 1700 萬賣掉的瑰寶,如今身價暴漲三倍

      瀾歸序
      2026-04-02 04:17:05
      2026-04-02 06:00:49
      機(jī)器之心Pro incentive-icons
      機(jī)器之心Pro
      專業(yè)的人工智能媒體
      12657文章數(shù) 142602關(guān)注度
      往期回顧 全部

      科技要聞

      甲骨文血洗3萬人,47人團(tuán)隊僅留3人

      頭條要聞

      伊朗自殺無人機(jī)突進(jìn)北印度洋 逼退“林肯”號航母

      頭條要聞

      伊朗自殺無人機(jī)突進(jìn)北印度洋 逼退“林肯”號航母

      體育要聞

      NBA擴(kuò)軍,和籃球無關(guān)?

      娛樂要聞

      張婉婷已決定離婚 找律師討論婚變事宜

      財經(jīng)要聞

      電商售械三水光針 機(jī)構(gòu)倒貨or假貨猖獗?

      汽車要聞

      三電可靠 用料下本 百萬公里的蔚來ES6 拆開看

      態(tài)度原創(chuàng)

      親子
      藝術(shù)
      游戲
      本地
      軍事航空

      親子要聞

      女性易孕體質(zhì)的5個特征,了解一下你中幾條?

      藝術(shù)要聞

      齊白石這兩幅梅花,絕了!

      三國望神州:孫尚香抽取價值分析!數(shù)值+機(jī)制都拉滿是個啥表現(xiàn)?

      本地新聞

      從學(xué)徒到世界冠軍,為什么說張雪的底氣在重慶?

      軍事要聞

      特朗普:將很快撤出伊朗戰(zhàn)事

      無障礙瀏覽 進(jìn)入關(guān)懷版