<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

      讓LLM不再話癆,快手HiPO框架來了

      0
      分享至



      當(dāng)用戶向大語言模型提出一個簡單問題,比如「單詞 HiPPO 里有幾個字母 P?」,它卻正襟危坐,開始生成一段冗長的推理鏈:「首先,讓我們分析 HiPPO 這個詞,河馬的英文單詞為 hippo,河馬是一種半水生哺乳動物,這里用戶用了大寫字母,可能有特殊的含義,對于單詞 HiPPO,我們可以將其拆分為 H-i-P-P-O,字母 P 出現(xiàn)在第 3 與第 4 個位置,因此有 2 個字母 P... 讓我們簡化問題,HiPO 可以拆分為...」

      面對這樣的「嚴(yán)謹(jǐn)」,用戶難免哭笑不得,既浪費了計算資源,也增加了等待時間,甚至更壞的情況是模型被自己冗長的推理鏈「繞暈了過去」,最終給出了錯誤的答案,用戶只得捶胸頓足地大喊:「這合理嗎?」



      這種現(xiàn)象,正是當(dāng)前追求強大推理能力的 LLM 們普遍面臨的「過度思考」(Overthinking)困境。

      無論是數(shù)學(xué)計算、代碼生成還是邏輯問答,模型似乎習(xí)慣了「啟動即深思」的模式,即使面對本可直觀回答的簡單問題,也要展開一番鏈?zhǔn)剿伎迹–hain-of-Thought, CoT),導(dǎo)致 token 使用量激增、推理延遲變長、部署成本高昂。如何在保持復(fù)雜問題解決準(zhǔn)確性的同時,避免在簡單任務(wù)上「空轉(zhuǎn)」、在復(fù)雜任務(wù)上高效「運轉(zhuǎn)」,成為 LLM 走向?qū)嵱没囊淮箨P(guān)鍵挑戰(zhàn)。

      如今,快手 KwaiKAT 團隊與南京大學(xué)劉佳恒老師 NJU-LINK 實驗室、張煜群教授實驗室 ARiSE合作重磅推出HiPO(Hybrid Policy Optimization)框架,為 LLM 裝上了智能的「思考開關(guān)」。該框架通過創(chuàng)新的混合數(shù)據(jù)冷啟動與混合強化學(xué)習(xí)獎勵系統(tǒng),使模型能夠自主、動態(tài)地決策何時該啟動詳細推理(Think-on),何時該直接給出答案(Think-off)。

      這不僅顯著提升了推理效率,更在多個核心基準(zhǔn)測試上實現(xiàn)了準(zhǔn)確率的同步提升,為構(gòu)建高效、實用的下一代推理大模型提供了解決方案。



      • 論文鏈接:https://arxiv.org/abs/2509.23967
      • 項目鏈接:https://huggingface.co/Kwaipilot/HiPO-8B

      困境之源:LLM 的「思考」代價與「過度思考」頑疾

      大語言模型在復(fù)雜認(rèn)知任務(wù)上的巨大成功,很大程度上歸功于鏈?zhǔn)剿伎迹–oT) 推理范式的引入。讓模型像人一樣「一步一步想問題」,極大地提升了其在數(shù)學(xué)、編程、科學(xué)問題解決等領(lǐng)域的表現(xiàn)。然而,這套強大的推理機制也帶來了「認(rèn)知慣性」:模型傾向于對所有問題都「一視同仁」地進行深度推理。

      • 效率與成本的矛盾:始終生成冗長的推理軌跡是低效的。它直接轉(zhuǎn)化為極高的 Token 使用量,意味著更慢的響應(yīng)速度(延遲)和更昂貴的 API 調(diào)用或自建推理成本。在追求交互體驗和成本控制的真實應(yīng)用場景中,這成為了一個致命的短板。
      • 「過度思考」的普遍性:近期多項研究都明確指出,LLM 存在普遍的過度思考現(xiàn)象。即使是最先進的模型,也常常在簡單問題上「小題大做」,生成大量冗余推理步驟,造成了計算資源的巨大浪費。在復(fù)雜問題上,模型也常常出現(xiàn)反復(fù)冗余思考的現(xiàn)象,導(dǎo)致回答出錯。

      現(xiàn)有的解決方案試圖緩解這一問題,但各有局限:

      • 基于訓(xùn)練的自適應(yīng)推理:通過強化學(xué)習(xí)(RL)引入長度懲罰或簡潔性獎勵,或通過監(jiān)督微調(diào)(SFT)偏好更短的推理。但這類方法信號粗糙,可能因單調(diào)的 「縮短」激勵而損害模型處理難題的能力。
      • 外部控制:通過精心設(shè)計的提示詞或動態(tài)指令來限制推理步驟。這種方法靈活但依賴人工設(shè)計,難以規(guī)?;曳夯芰Υ嬉伞?/li>
      • 事后優(yōu)化:在推理鏈生成后進行剪枝或重構(gòu)。這屬于「事后補救」,無法從根源上改變模型的思考模式。

      核心問題在于,缺乏一個原則性的機制,來精細地平衡準(zhǔn)確性、回答效率之間的權(quán)衡,讓模型學(xué)會「具體問題,具體分析」。

      HiPO 破局之道:雙輪驅(qū)動的「智能思考開關(guān)」

      HiPO 框架的核心思想是將「是否思考」的決策權(quán)交給模型自身,并通過系統(tǒng)性的訓(xùn)練方法,確保其決策的智能性與平衡性。其創(chuàng)新性主要體現(xiàn)在兩大核心組件上:

      組件一:混合數(shù)據(jù)冷啟動—— 為模型裝上「智能思考開關(guān)」

      要讓模型學(xué)會選擇,首先需要讓它見識過「思考」和「不思考」兩種模式下的高質(zhì)量回答是什么樣的。HiPO 設(shè)計了一套精密的自動化數(shù)據(jù)構(gòu)建流程,并使用混合數(shù)據(jù)進行冷啟動。



      1.數(shù)據(jù)收集與分類:研究團隊整合了多個高質(zhì)量的公開及專有數(shù)學(xué)與代碼推理數(shù)據(jù)集(如 AM-Thinking-v1-Distilled, AceReason-Math, II-Thought-RL, Skywork-OR1-RL-Data),構(gòu)建了一個高質(zhì)量的訓(xùn)練語料庫。

      2.雙模式響應(yīng)生成與優(yōu)選:對于每個問題,使用一個強大的推理模型(如 DeepSeek-V3)分別生成 N 個「Think-on」(帶推理)和 N 個「Think-off」(直接回答)的響應(yīng)。然后,自動驗證所有回答的正確性。

      • 關(guān)鍵優(yōu)選策略:比較兩種模式的通過率(Pass Rate)。如果「Think-on」模式的通過率顯著高于「Think-off」,則選擇「Think-on」模式;反之則選擇 「Think-off」。特別巧妙的是,當(dāng)兩種模式通過率相差無幾(低于閾值 δ)時,策略會傾向于選擇「Think-off」模式。這一設(shè)計直接鼓勵模型在深度思考不能帶來明顯收益時,優(yōu)先選擇更簡潔的回答,從數(shù)據(jù)源頭注入效率意識。
      • 最短正確響應(yīng):在獲勝的模式下,選擇最短的正確響應(yīng)作為最終樣本,進一步強化簡潔性。

      3.引入模式解釋信號:為了強化模型對模式選擇的理解,HiPO 還引入了一個輔助解釋信號。對于每個優(yōu)選出的問答對,會使用 DeepSeek-V3 生成一段理由(Justification),解釋「為什么這個問題適合(或不適合)進行深度推理」。這為模型提供了寶貴的元認(rèn)知信號,幫助其將模式選擇與問題內(nèi)在的復(fù)雜性對齊。

      這套管道最終產(chǎn)出的數(shù)據(jù),每條都包含了問題、最終回答、以及關(guān)于思考模式的理由。在這些數(shù)據(jù)上對模型進行冷啟動,使得模型初步具有了「智能思考」的能力。

      組件二:混合強化學(xué)習(xí)獎勵系統(tǒng) —— 精細化引導(dǎo)模型的「決策天平」

      有了高質(zhì)量的數(shù)據(jù)進行「冷啟動」(Cold-Start)訓(xùn)練后,HiPO 通過一個設(shè)計精巧的混合強化學(xué)習(xí)(RL)階段,對模型進行微調(diào),使其決策能力臻于完善。該獎勵系統(tǒng)的核心目標(biāo)是防止模型過度依賴看似更可靠的「Think-on」模式,實現(xiàn)真正的自適應(yīng)。

      1.基礎(chǔ)獎勵:每個生成的回答會根據(jù)其答案正確性(ACC)和格式正確性(FORMAT)獲得一個基礎(chǔ)獎勵分。

      2.偏差調(diào)整機制 —— 防止「思考」慣性:這是 HiPO 的一個關(guān)鍵創(chuàng)新。由于 「Think-on」模式通常更準(zhǔn)確,模型在 RL 過程中容易產(chǎn)生偏向,無論問題難易都選擇「思考」。為了解決這一問題,HiPO 引入了動態(tài)的偏差調(diào)整機制。

      • 它會計算「Think-on」模式響應(yīng)的平均獎勵,然后為「Think-off」模式設(shè)定一個偏置項(bias_off),該偏置項是「Think-on」平均獎勵的一個比例(由 ω 控制,通常設(shè)為 0.01)。
      • 當(dāng)「Think-off」模式的性能不顯著優(yōu)于「Think-on」,但差距在一定范圍內(nèi)時,會啟動調(diào)整,適當(dāng)提升「Think-off」模式的評估得分。
      • 這一機制有效防止了模型通過「無腦」選擇冗長推理來獲取獎勵的投機行為,確保了訓(xùn)練穩(wěn)定性,并維護了深度與效率之間的 intended balance。

      3.混合優(yōu)勢函數(shù) —— 雙重監(jiān)督:HiPO 設(shè)計了兩個獨特的優(yōu)勢(Advantage)函數(shù)來提供更精細的指導(dǎo)信號:

      • 評判優(yōu)勢(A_judge):關(guān)注于模式選擇的合理性。它結(jié)合了「所選模式的全局平均優(yōu)勢」和「當(dāng)前響應(yīng)在其模式內(nèi)的相對質(zhì)量」,確保模型選擇某個思考模式的理由(即之前生成的 Justification)與其實際表現(xiàn)一致。
      • 回答優(yōu)勢(A_answer):聚焦于回答本身的質(zhì)量。它在同一思考模式內(nèi)進行局部歸一化,鼓勵模型在既定模式下生成更好的回答,而不與模式選擇的偏好混淆。

      最終,這兩個優(yōu)勢信號被分別賦予給回答中對應(yīng)的「理由」部分和「答案」部分的每個令牌,實現(xiàn)令牌級別的精細化優(yōu)化。整個 RL 過程采用類似 PPO 的算法,在最大化期望獎勵的同時,約束策略更新幅度,防止偏離太遠。

      實驗結(jié)果:不僅更快,而且更準(zhǔn)

      HiPO 在基于 Qwen3 系列模型(如 8B 參數(shù)版本)的實驗中,取得了令人矚目的成果。在 AIME2024/2025、HumanEval、LiveCodeBench(v6)、MATH-500、GPQA-Diamond 等多個權(quán)威基準(zhǔn)測試上,與多種基線方法進行了全面對比,并進行了充分的消融實驗。



      • 顯著提升效率:與僅使用「Think-on」數(shù)據(jù)訓(xùn)練的模型相比,最終HiPO 模型在平均令牌長度上減少了 30%,思考率(RatioT)降低了 37%。這意味著模型在處理大量問題時,能智能地跳過不必要的推理,直接輸出答案,帶來了實實在在的成本和延遲收益。
      • 同步提升準(zhǔn)確率:更令人驚喜的是,HiPO 在實現(xiàn)效率飛躍的同時,平均準(zhǔn)確率提升了 6.3%。這證明其自適應(yīng)機制不僅沒有損害性能,反而通過優(yōu)化決策,讓模型在難題上更「專注」地思考,在簡單題上更高效地回答,實現(xiàn)了雙贏。
      • 超越現(xiàn)有方法:實驗表明,HiPO 在準(zhǔn)確性和效率的綜合表現(xiàn)上,優(yōu)于 AdaptThink、AutoThink 等現(xiàn)有的自適應(yīng)推理方法。

      動態(tài)決策分析:研究團隊還深入追蹤了模型在訓(xùn)練和推理過程中的行為演變。



      • 如上圖 (a) 所示,隨著 RL 訓(xùn)練的進行,模型激活「Think-on」和「Think-off」的頻率差距逐漸縮小,從初期的 89.5% 降至最終的 53.1%,說明模型確實學(xué)會了更精細地切換模式。
      • 上圖 (b) 顯示,在不同數(shù)據(jù)集上,模型的思考模式激活率與任務(wù)特性高度相關(guān)。在 AIME2024、LiveCodeBench 等需要強推理的任務(wù)上,「Think-on」率始終保持在 70% 以上;而在 HumanEval 等相對簡單的代碼任務(wù)上,“Think-on” 率則隨訓(xùn)練明顯下降,體現(xiàn)了良好的任務(wù)適應(yīng)性。



      • 上圖 (a) 和上圖 (b) 清晰地展示了 RL 訓(xùn)練過程中以及在不同數(shù)據(jù)集上,模型輸出令牌數(shù)量的持續(xù)下降趨勢,直觀反映了 HiPO 在提升效率方面的有效性。

      強泛化性:HiPO 的成功不僅在 Qwen3-8B 上得到驗證,在 Qwen3-1.7B 和 Qwen3-32B 等不同規(guī)模的模型上也展現(xiàn)出一致的性能提升,證明了其方法的普適性。



      未來展望:HiPO 如何重塑高效 LLM 生態(tài)

      HiPO 框架的提出,不僅僅是一項技術(shù)突破,更是為 LLM 的發(fā)展方向提供了一個重要的思路轉(zhuǎn)變:從一味追求「更強思考」到追求「更智能地思考」。

      1. 推動 LLM 實用化落地:對于需要大規(guī)模部署 LLM 的應(yīng)用(如搜索引擎、智能客服、代碼助手),HiPO 能直接降低計算成本和響應(yīng)延遲,使高性能 LLM 服務(wù)變得更加「親民」。
      2. 為模型輕量化提供新路徑:通過讓模型學(xué)會「停止思考」,可能在保持相當(dāng)性能的前提下,為模型壓縮和蒸餾開辟新的可能性。
      3. 增強模型的「元認(rèn)知」能力:HiPO 訓(xùn)練模型對自身認(rèn)知過程進行監(jiān)控和決策,這是向具備更高層次智能的 AI 系統(tǒng)邁出的重要一步。

      結(jié)語

      當(dāng)大語言模型陷入「為思考而思考」的認(rèn)知慣性時,其巨大的潛力被低效的運作方式所束縛。快手與南大團隊的 HiPO 框架,如同一位高明的教練,不是粗暴地限制模型的「思考」,而是教會它判斷「何時該深思熟慮,何時可一擊即中」。

      這項研究巧妙地平衡了推理的「質(zhì)」與「效」,為構(gòu)建真正高效、可靠、適用于真實世界的下一代人工智能助手奠定了堅實的基礎(chǔ)。在 LLM 競速發(fā)展的下半場,「智能效率」 或許將是比「暴力計算」更重要的決勝籌碼。

      目前,HiPO 的相關(guān)模型和資源已在Hugging Face 平臺開源,供社區(qū)研究和使用。

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點推薦
      大滿貫400勝第一人!德約橫掃晉級澳網(wǎng)16強,一戰(zhàn)創(chuàng)多項紀(jì)錄

      大滿貫400勝第一人!德約橫掃晉級澳網(wǎng)16強,一戰(zhàn)創(chuàng)多項紀(jì)錄

      全景體育V
      2026-01-24 19:01:36
      郭晶晶代言品牌被立案調(diào)查 跳水女皇退役15年年代言收入超5000萬

      郭晶晶代言品牌被立案調(diào)查 跳水女皇退役15年年代言收入超5000萬

      勁爆體壇
      2026-01-23 13:18:04
      奪冠!溫瑞博4-3戰(zhàn)勝弗朗西斯,關(guān)鍵球大心臟,王皓收獲一員大將

      奪冠!溫瑞博4-3戰(zhàn)勝弗朗西斯,關(guān)鍵球大心臟,王皓收獲一員大將

      騎馬寺的少年
      2026-01-24 21:51:22
      不到24小時,格蘭陵島被賣,特朗普來不及高興,就收到一個壞消息

      不到24小時,格蘭陵島被賣,特朗普來不及高興,就收到一個壞消息

      牛鍋巴小釩
      2026-01-25 03:12:10
      遠華集團老總賴昌星,在獄中對董文華的回憶,讓無數(shù)人咋舌

      遠華集團老總賴昌星,在獄中對董文華的回憶,讓無數(shù)人咋舌

      曉艾故事匯
      2025-01-09 22:01:49
      多省份公布去年結(jié)婚登記數(shù)據(jù)

      多省份公布去年結(jié)婚登記數(shù)據(jù)

      第一財經(jīng)資訊
      2026-01-24 16:02:10
      光速翻臉?6萬噸菜籽油剛賣給中國,電車就遭針對,卡尼直搖頭

      光速翻臉?6萬噸菜籽油剛賣給中國,電車就遭針對,卡尼直搖頭

      娛樂八卦木木子
      2026-01-23 12:39:27
      官方:日本門將荒木琉偉獲得本屆U23亞洲杯最佳門將

      官方:日本門將荒木琉偉獲得本屆U23亞洲杯最佳門將

      懂球帝
      2026-01-25 01:41:11
      浙江省文化產(chǎn)業(yè)投資集團有限公司黨委副書記、董事、總經(jīng)理蔣國興接受審查調(diào)查

      浙江省文化產(chǎn)業(yè)投資集團有限公司黨委副書記、董事、總經(jīng)理蔣國興接受審查調(diào)查

      界面新聞
      2026-01-24 20:05:31
      南部戰(zhàn)區(qū)新聞發(fā)言人發(fā)表談話

      南部戰(zhàn)區(qū)新聞發(fā)言人發(fā)表談話

      界面新聞
      2026-01-20 22:21:05
      寧德時代官宣:鈉電池量產(chǎn)!成本比鋰電低10% 車價還要降?

      寧德時代官宣:鈉電池量產(chǎn)!成本比鋰電低10% 車價還要降?

      網(wǎng)上車市
      2026-01-22 23:32:10
      早安太空 · 網(wǎng)羅天下 | 解放軍報社論:堅決打贏軍隊反腐敗斗爭攻堅戰(zhàn)持久戰(zhàn)總體戰(zhàn)

      早安太空 · 網(wǎng)羅天下 | 解放軍報社論:堅決打贏軍隊反腐敗斗爭攻堅戰(zhàn)持久戰(zhàn)總體戰(zhàn)

      我們的太空
      2026-01-25 05:59:13
      發(fā)現(xiàn)馬上扔!一家四口吃了被放倒!醫(yī)生:煮熟也沒用

      發(fā)現(xiàn)馬上扔!一家四口吃了被放倒!醫(yī)生:煮熟也沒用

      路醫(yī)生健康科普
      2025-12-12 14:56:15
      面對上甘嶺遍地敵尸,為活命,8連4班提出大膽想法,最終全員生還

      面對上甘嶺遍地敵尸,為活命,8連4班提出大膽想法,最終全員生還

      興趣知識
      2026-01-24 14:50:07
      委內(nèi)瑞拉民眾示威要求釋放馬杜羅

      委內(nèi)瑞拉民眾示威要求釋放馬杜羅

      參考消息
      2026-01-24 11:54:04
      一天之內(nèi),重磅政策罕見三連發(fā)…

      一天之內(nèi),重磅政策罕見三連發(fā)…

      大碗樓市
      2026-01-24 08:04:07
      撈金失敗!2個劣跡藝人下鄉(xiāng)商演被舉報,官媒發(fā)文,后路要斷了

      撈金失敗!2個劣跡藝人下鄉(xiāng)商演被舉報,官媒發(fā)文,后路要斷了

      不寫散文詩
      2026-01-24 19:37:52
      92年,成都軍區(qū)司令員張?zhí)闳ケ本╅_會,卻被中央降職調(diào)去了南京

      92年,成都軍區(qū)司令員張?zhí)闳ケ本╅_會,卻被中央降職調(diào)去了南京

      禾所思
      2024-12-30 11:39:32
      我和老伴退休金1萬1,兒子要拿走我們的工資卡,我說:想都別想

      我和老伴退休金1萬1,兒子要拿走我們的工資卡,我說:想都別想

      荷蘭豆愛健康
      2026-01-24 10:23:15
      醫(yī)生直言:患糖尿病的人,天冷寧可出門散步,也不要去做這6件事

      醫(yī)生直言:患糖尿病的人,天冷寧可出門散步,也不要去做這6件事

      荊醫(yī)生科普
      2026-01-25 05:55:05
      2026-01-25 06:28:49
      機器之心Pro incentive-icons
      機器之心Pro
      專業(yè)的人工智能媒體
      12179文章數(shù) 142549關(guān)注度
      往期回顧 全部

      科技要聞

      黃仁勛現(xiàn)身上海菜市場

      頭條要聞

      張又俠、劉振立被查 解放軍報發(fā)布社論

      頭條要聞

      張又俠、劉振立被查 解放軍報發(fā)布社論

      體育要聞

      當(dāng)家球星打替補,他們在故意擺爛?

      娛樂要聞

      回歸還是頂流 鳳凰傳奇將現(xiàn)身馬年春晚

      財經(jīng)要聞

      “百年老字號”張小泉遭60億債務(wù)壓頂

      汽車要聞

      有增程和純電版可選 日產(chǎn)NX8或于3-4月間上市

      態(tài)度原創(chuàng)

      藝術(shù)
      手機
      教育
      數(shù)碼
      親子

      藝術(shù)要聞

      18位西方畫家筆下的女人,美得驚艷了時光!

      手機要聞

      追覓首款手機狂攬億元訂單:自研芯片+模塊化影像,硬剛?cè)A為小米

      教育要聞

      電氣工程選科別慌!物理化學(xué)是關(guān)鍵

      數(shù)碼要聞

      UnifyDrive UC250/450 Pro家庭存儲NAS發(fā)布,配置與價格曝光

      親子要聞

      哄睡新妙招!吹風(fēng)機聲+束帶,寶寶一會兒就睡著了,網(wǎng)友:為什么孩子大了才告訴我!

      無障礙瀏覽 進入關(guān)懷版 主站蜘蛛池模板: 伊人性网| 国产熟女网站| 老妇free性videosxx| 久久99精品国产自在现线小黄鸭| 婷婷久久五月天| AV一区在线| 亚洲成人综合导航| 欧美成人午夜精品免费福利| 国产内射性高湖| 国产在线精品综合色区| 我把护士日出水了视频90分钟| 临潭县| 本道久久综合无码中文字幕 | 亚洲av综合永久无码精品天堂| 99久久伊人精品综合观看| 999国产精品| 无码人妻中文字幕| 妺妺窝人体色www看美女| 欧美福利一区| 亚洲一本在线| 视频一区视频二区在线视频| 亚洲av国产成人精品区| 亚洲av网一区天堂福利| 久久6久久66热这里只是精品| 久久久亚洲精品成人| 亚洲第一区欧美国产综合| 人妻少妇乱子伦精品| 楚雄市| 日韩欧美亚洲综合久久| 天天躁夜夜躁狠狠躁AV| 久久久久久av无码免费看大片| 亚洲无码色| 色狠狠一区二区| 久久av一区二区三区| 天天干夜夜操| 中文无码热在线视频| v天堂中文在线| 成人午夜免费无码视频在线观看| 在线 国产 精品 蜜芽| 国产在线拍偷自揄观看视频网站 | 亚洲精品视频免费看|