<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      QueST框架:讓AI自己生成困難編程題,訓練更強大的代碼推理模型

      0
      分享至


      人工智能在編程和數學推理方面已經取得了令人矚目的成就,一些模型甚至能夠解決競賽級別的編程難題。但隨著模型能力的不斷提升,一個新的瓶頸逐漸顯現:缺乏足夠多、足夠難的訓練數據。這項由蘇黎世大學的胡瀚旭(Hanxu Hu)、微軟研究院的張星星(Xingxing Zhang)等研究人員共同開展的研究,發表于2025年1月,提出了一個名為QueST的創新框架來解決這一關鍵問題。

      傳統上,訓練這些AI模型需要大量由人類專家精心設計的編程題目。然而,隨著模型變得越來越聰明,現有的題庫很快就不夠用了。目前最大的編程競賽數據集也只包含幾萬道題目,而且要讓博士級別的專家來設計真正能難倒最新AI模型的題目,不僅成本極高,而且在規模和難度上都難以滿足需求。

      面對這個挑戰,研究團隊提出了一個頗具創意的解決方案:讓AI模型自己學會生成困難的編程題目。QueST框架的核心思想就是訓練一個專門的"出題器",這個出題器不僅能夠創造新的編程問題,還能確保這些問題具有足夠的挑戰性,能夠有效提升其他模型的推理能力。

      整個QueST框架就像是建立了一個智能的題目工廠。這個工廠有兩個關鍵的生產環節:第一個是"難度感知的概念圖采樣",第二個是"難度感知的拒絕式微調"。前者負責選擇合適的概念組合來構建題目的基礎框架,后者則負責訓練出題器生成真正有挑戰性的問題。

      在難度感知的概念圖采樣環節中,研究團隊首先分析現有的編程題目,提取出其中包含的各種概念和知識點。這就像是在分析一本食譜集,找出每道菜用到的食材和烹飪技巧。然后,他們構建了一個概念圖,其中每個節點代表一個概念,節點之間的連接表示這些概念在實際題目中的共現關系。與傳統方法不同的是,QueST在構建這個概念圖時,不僅考慮概念的共現頻率,還會考慮包含這些概念的題目的平均難度。

      具體來說,他們重新定義了概念圖中邊的權重公式。傳統的權重只基于兩個概念在同一題目中出現的頻率,而QueST的權重公式還加入了難度因子。這意味著,如果兩個概念經常在困難題目中一起出現,那么它們之間的連接權重會更高。當系統進行隨機游走來選擇概念組合時,就更有可能選擇那些通常出現在困難題目中的概念搭配。

      在難度感知的拒絕式微調環節中,研究團隊設計了一個巧妙的難度評估機制。他們發現,可以通過觀察模型對同一道題目的多次解答的一致性來判斷題目的難度。這個思路很直觀:如果一道題目很簡單,那么模型每次解答時都會給出相同或相似的答案;但如果題目很困難,模型就會在不同的嘗試中給出不一致的答案。

      具體的實施過程是這樣的:對于每道生成的題目,研究團隊會讓GPT-4o生成一系列測試用例,然后讓模型多次嘗試解決這道題目。通過比較這些解答在測試用例上的輸出結果,他們計算出一個"多數投票率"。如果大多數解答都給出相同的結果,說明題目相對簡單;如果解答結果分歧很大,說明題目具有挑戰性。基于這個原理,他們定義了難度分數:難度分數等于1減去平均多數投票率。

      有了這個難度評估機制,研究團隊就可以實施拒絕式微調了。對于每個給定的概念組合提示,他們讓模型生成多道候選題目,然后只保留其中難度分數最高的那一道。這樣的訓練數據被用來進一步微調出題器模型,使其逐漸學會生成更加困難的題目。

      為了驗證QueST框架的有效性,研究團隊進行了大規模的實驗。他們使用TACO數據集作為種子數據,這個數據集包含約2.5萬個帶有人工標注難度標簽的編程題目。通過QueST框架,他們成功生成了10萬道新的編程題目,每道題目都配有來自強大推理模型的詳細解答鏈。

      實驗結果令人印象深刻。研究團隊使用他們的訓練好的出題器(基于Qwen2.5-14B-Instruct模型微調)生成題目,然后用這些題目訓練一個8B參數的學生模型。結果顯示,即使只使用10萬道QueST生成的題目進行訓練,學生模型在LiveCodeBench基準測試上的表現就超過了原始的Qwen3-8B模型。更令人驚訝的是,當他們將10萬道QueST生成的題目與11.2萬道來自人類編寫題目的訓練樣本結合時,這個8B參數的模型竟然達到了與6710億參數的DeepSeek-R1-671B模型相當的性能水平。

      研究團隊還進行了詳細的消融實驗來驗證框架中各個組件的有效性。他們發現,難度感知的圖采樣和拒絕式微調都對最終性能有顯著貢獻。特別是在處理困難題目時,使用QueST框架訓練的模型表現出了明顯的優勢。

      除了監督學習,研究團隊還驗證了QueST生成的數據在強化學習中的效果。他們使用GRPO算法,在包含QueST生成題目的數據集上訓練模型,同樣取得了良好的效果。這表明QueST生成的題目不僅適用于傳統的監督學習,也能在更高級的訓練范式中發揮作用。

      為了確保研究的科學性,團隊還進行了數據污染檢測。他們計算了生成數據集與評估基準之間的50-gram Jaccard相似度,結果顯示相似度為0,證明了生成的數據沒有泄露評估信息。

      從技術角度來看,QueST框架的創新性主要體現在幾個方面。首先,它是第一個專門訓練模型來生成困難編程題目的方法,而不是簡單地使用固定的模型來生成。其次,它巧妙地結合了概念圖采樣和拒絕式微調,形成了一個端到端的訓練流程。最后,它提出的基于模型輸出一致性的難度評估方法既簡單又有效。

      這項研究的意義不僅僅局限于編程領域。隨著AI模型在各個推理任務上的能力不斷提升,如何生成足夠多、足夠有挑戰性的訓練數據將成為一個普遍問題。QueST框架提供的思路可能為其他領域的類似問題提供啟發。

      當然,這項研究也存在一些局限性。目前的難度計算方法在計算上比較昂貴,需要為每道題目生成多個解答和測試用例,這在實時強化學習環境中可能不太實用。研究團隊在論文中也提到了這一點,并建議未來可以探索訓練專門的難度預測模型或其他更高效的方法。

      從更廣闊的視角來看,QueST框架反映了AI發展中一個有趣的趨勢:AI不僅在解決問題,也在學習如何提出問題。這種"自我出題"的能力可能會成為未來AI系統的一個重要特征,幫助它們在缺乏人類標注數據的情況下持續改進自己的能力。

      總的來說,這項由蘇黎世大學和微軟研究院合作完成的研究為大語言模型的訓練提供了一個新的思路。通過讓AI學會生成困難的編程題目,QueST框架不僅解決了訓練數據稀缺的問題,還為未來更強大的代碼推理模型的開發鋪平了道路。對于關注AI發展的人來說,這項研究展示了如何通過創新的方法論突破現有的技術瓶頸,值得深入了解和思考。

      Q&A

      Q1:QueST框架是什么?

      A:QueST是蘇黎世大學和微軟研究院開發的一個AI框架,專門用來訓練模型自動生成困難的編程題目。它通過難度感知的概念圖采樣和拒絕式微調技術,讓AI學會創造具有挑戰性的編程問題,從而為訓練更強大的代碼推理模型提供高質量的訓練數據。

      Q2:QueST如何判斷編程題目的難度?

      A:QueST使用一個基于模型輸出一致性的評估方法。具體來說,它讓模型多次解答同一道題目,然后比較這些解答結果的一致性。如果模型每次都給出相似答案,說明題目較簡單;如果解答結果差異很大,說明題目有挑戰性。最終的難度分數是1減去平均多數投票率。

      Q3:使用QueST訓練的模型效果如何?

      A:效果非常顯著。研究顯示,僅用10萬道QueST生成的題目訓練的8B參數模型就超越了原始Qwen3-8B的性能。當結合11.2萬道人類編寫的訓練樣本時,這個8B模型甚至達到了6710億參數DeepSeek-R1-671B模型的性能水平,展現了該框架的強大效果。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      朱婷沒想到,和75歲老公國外養老的郎平,已走上另一條“上坡路”

      朱婷沒想到,和75歲老公國外養老的郎平,已走上另一條“上坡路”

      草莓解說體育
      2025-12-12 04:44:57
      這才是40歲左右的女性該有的穿搭

      這才是40歲左右的女性該有的穿搭

      牛彈琴123456
      2025-12-10 20:51:18
      一個壞消息:小米SU7銷量創18個月新低!好消息是,YU7創新高

      一個壞消息:小米SU7銷量創18個月新低!好消息是,YU7創新高

      互聯網.亂侃秀
      2025-12-10 10:03:38
      湖南母親送兒子18歲成人禮物,被丈夫回家看見后,釀成一場悲劇

      湖南母親送兒子18歲成人禮物,被丈夫回家看見后,釀成一場悲劇

      曉艾故事匯
      2024-10-29 20:58:22
      國民黨主席,調轉槍口揮刀向統一,但竟然盯上黨內“暗獨”勢力!

      國民黨主席,調轉槍口揮刀向統一,但竟然盯上黨內“暗獨”勢力!

      眼界看視野
      2025-11-26 18:08:53
      中國一級戰備多可怕?千萬預備役被召回,14億人立即切換戰爭模式

      中國一級戰備多可怕?千萬預備役被召回,14億人立即切換戰爭模式

      諦聽骨語本尊
      2025-11-20 16:06:12
      解鎖夫妻性生活之秘:探求高潮的技巧與體驗

      解鎖夫妻性生活之秘:探求高潮的技巧與體驗

      精彩分享快樂
      2025-12-12 00:05:04
      三峽大壩還能撐多少年?美專家:已出現裂紋,一枚導彈直接瓦解?

      三峽大壩還能撐多少年?美專家:已出現裂紋,一枚導彈直接瓦解?

      顧史
      2025-12-05 19:57:35
      國家隊一位成員說出真相:見到樊振東,大家都不敢做世界冠軍夢了

      國家隊一位成員說出真相:見到樊振東,大家都不敢做世界冠軍夢了

      籃球看比賽
      2025-12-11 11:38:54
      世界銀行上調今明兩年中國經濟增速預期

      世界銀行上調今明兩年中國經濟增速預期

      貝殼財經
      2025-12-11 10:55:07
      外交部:歐盟駐華代表團發表的涉華人權聲明,罔顧事實,顛倒黑白

      外交部:歐盟駐華代表團發表的涉華人權聲明,罔顧事實,顛倒黑白

      環球網資訊
      2025-12-11 16:17:33
      高詩巖獻絕殺后,邱彪底氣更足了,山東高速男籃有抗衡強隊的資本

      高詩巖獻絕殺后,邱彪底氣更足了,山東高速男籃有抗衡強隊的資本

      春日筆記
      2025-12-12 03:00:48
      特朗普又敲打日本,美專家第3次警告:再不拴住日本,美國會滅亡

      特朗普又敲打日本,美專家第3次警告:再不拴住日本,美國會滅亡

      博覽歷史
      2025-12-10 18:41:15
      摩納哥王室圣誕全家福,親王夫婦攜龍鳳胎與愛犬同框,氣場拉滿

      摩納哥王室圣誕全家福,親王夫婦攜龍鳳胎與愛犬同框,氣場拉滿

      述家娛記
      2025-12-09 11:07:34
      美女美圖7569期

      美女美圖7569期

      草莓解說體育
      2025-12-11 03:39:09
      肚子大到藏不住還去公司慶典!馬筱梅憑啥讓老公寵、婆婆認?

      肚子大到藏不住還去公司慶典!馬筱梅憑啥讓老公寵、婆婆認?

      高潔之冬
      2025-12-11 07:51:04
      笑岔氣了!濮存昕為外孫女進娛樂圈宣傳,本人評論區已淪陷

      笑岔氣了!濮存昕為外孫女進娛樂圈宣傳,本人評論區已淪陷

      糊咖娛樂
      2025-12-11 18:46:20
      是不是覺得奇怪:日軍幾乎侵占了大半個中國,卻為何沒有染指陜西

      是不是覺得奇怪:日軍幾乎侵占了大半個中國,卻為何沒有染指陜西

      浩渺青史
      2025-11-14 21:15:06
      91大神秦先生是什么地位,為何那么多女神讓他屢屢得手?

      91大神秦先生是什么地位,為何那么多女神讓他屢屢得手?

      挪威森林
      2025-10-26 06:10:06
      異性關系再好,一旦“偷偷”做了這3件事,關系就很難純潔了

      異性關系再好,一旦“偷偷”做了這3件事,關系就很難純潔了

      熱心市民小黃
      2025-12-12 02:57:58
      2025-12-12 05:40:49
      至頂AI實驗室 incentive-icons
      至頂AI實驗室
      一個專注于探索生成式AI前沿技術及其應用的實驗室。
      751文章數 151關注度
      往期回顧 全部

      科技要聞

      豆包剛被微信淘寶們"群毆" ,又有人來搶位

      頭條要聞

      村支書賣小米被小米法務投訴下架:希望給我們條活路

      頭條要聞

      村支書賣小米被小米法務投訴下架:希望給我們條活路

      體育要聞

      你最看不上的人,關鍵時刻卻最想救你...

      娛樂要聞

      黃慧頤曝保劍鋒出軌細節!

      財經要聞

      明年經濟工作怎么干 中央經濟工作會議定調

      汽車要聞

      長途穿越更輕松 二代哈弗H9穿越版限時售23.29萬

      態度原創

      本地
      親子
      數碼
      藝術
      公開課

      本地新聞

      打工人夢想中的生活,寵物已經提前過上了

      親子要聞

      母女倆又鬧掰了

      數碼要聞

      華為Sound X獲HarmonyOS 6.0 Beta升級,新增AI搜歌等功能

      藝術要聞

      嶺南畫派畫雪

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 欧美肥妇bwbwbwbxx| 99国产精品免费视频观看8| 亚洲做第3页| 亚洲aⅴ天堂av天堂无码麻豆| 国精品99久9在线 | 免费| 亚洲精品美女久久久久9999| 精品国产91久久久久久亚瑟| 天峨县| 国产97色在线 | 免| 人妻少妇精品中文字幕av蜜桃| 国产97人人超碰CAO蜜芽PROM| 亚洲avav| 色偷偷资源网| 国产精品人妻系列21p| 久久无码人妻热线精品| 亚洲色欲在线播放一区| 久久久久久久久无码| 潮喷视频在线播放| 久久人爽人人爽人人片av| 手机在线国产精品| 日本久久香蕉一本一道| 亚洲国产精品成人网站| 天天摸天天碰天天添| 乱中年女人伦| 99热门精品一区二区三区无码| 撸色网| 快好爽射给我视频| 亚洲欧美在线观看| 日本人妻丰满熟妇久久久久久| 丰满熟妇高潮一二三区| 亚洲日韩中文字幕在线播放| 国产精品亚洲一区二区三区| 久久人人97超碰人人澡爱香蕉| 国产19p| 少妇的丰满3中文字幕| 国产精品白浆一区二小说| 欧美日视频| 南京市| 豆国产97在线 | 亚洲| 国产真人性做爰久久网站 | 妇女bbbbb撒尿正面视频|