網易首頁 > 網易號 > 正文申請入駐

QueST框架：讓AI自己生成困難編程題，訓練更強大的代碼推理模型

2025-12-09 23:37:02　來源: 至頂AI實驗室

北京舉報

分享至

人工智能在編程和數學推理方面已經取得了令人矚目的成就，一些模型甚至能夠解決競賽級別的編程難題。但隨著模型能力的不斷提升，一個新的瓶頸逐漸顯現：缺乏足夠多、足夠難的訓練數據。這項由蘇黎世大學的胡瀚旭（Hanxu Hu）、微軟研究院的張星星（Xingxing Zhang）等研究人員共同開展的研究，發表于2025年1月，提出了一個名為QueST的創新框架來解決這一關鍵問題。

傳統上，訓練這些AI模型需要大量由人類專家精心設計的編程題目。然而，隨著模型變得越來越聰明，現有的題庫很快就不夠用了。目前最大的編程競賽數據集也只包含幾萬道題目，而且要讓博士級別的專家來設計真正能難倒最新AI模型的題目，不僅成本極高，而且在規模和難度上都難以滿足需求。

面對這個挑戰，研究團隊提出了一個頗具創意的解決方案：讓AI模型自己學會生成困難的編程題目。QueST框架的核心思想就是訓練一個專門的"出題器"，這個出題器不僅能夠創造新的編程問題，還能確保這些問題具有足夠的挑戰性，能夠有效提升其他模型的推理能力。

整個QueST框架就像是建立了一個智能的題目工廠。這個工廠有兩個關鍵的生產環節：第一個是"難度感知的概念圖采樣"，第二個是"難度感知的拒絕式微調"。前者負責選擇合適的概念組合來構建題目的基礎框架，后者則負責訓練出題器生成真正有挑戰性的問題。

在難度感知的概念圖采樣環節中，研究團隊首先分析現有的編程題目，提取出其中包含的各種概念和知識點。這就像是在分析一本食譜集，找出每道菜用到的食材和烹飪技巧。然后，他們構建了一個概念圖，其中每個節點代表一個概念，節點之間的連接表示這些概念在實際題目中的共現關系。與傳統方法不同的是，QueST在構建這個概念圖時，不僅考慮概念的共現頻率，還會考慮包含這些概念的題目的平均難度。

具體來說，他們重新定義了概念圖中邊的權重公式。傳統的權重只基于兩個概念在同一題目中出現的頻率，而QueST的權重公式還加入了難度因子。這意味著，如果兩個概念經常在困難題目中一起出現，那么它們之間的連接權重會更高。當系統進行隨機游走來選擇概念組合時，就更有可能選擇那些通常出現在困難題目中的概念搭配。

在難度感知的拒絕式微調環節中，研究團隊設計了一個巧妙的難度評估機制。他們發現，可以通過觀察模型對同一道題目的多次解答的一致性來判斷題目的難度。這個思路很直觀：如果一道題目很簡單，那么模型每次解答時都會給出相同或相似的答案；但如果題目很困難，模型就會在不同的嘗試中給出不一致的答案。

具體的實施過程是這樣的：對于每道生成的題目，研究團隊會讓GPT-4o生成一系列測試用例，然后讓模型多次嘗試解決這道題目。通過比較這些解答在測試用例上的輸出結果，他們計算出一個"多數投票率"。如果大多數解答都給出相同的結果，說明題目相對簡單；如果解答結果分歧很大，說明題目具有挑戰性。基于這個原理，他們定義了難度分數：難度分數等于1減去平均多數投票率。

有了這個難度評估機制，研究團隊就可以實施拒絕式微調了。對于每個給定的概念組合提示，他們讓模型生成多道候選題目，然后只保留其中難度分數最高的那一道。這樣的訓練數據被用來進一步微調出題器模型，使其逐漸學會生成更加困難的題目。

為了驗證QueST框架的有效性，研究團隊進行了大規模的實驗。他們使用TACO數據集作為種子數據，這個數據集包含約2.5萬個帶有人工標注難度標簽的編程題目。通過QueST框架，他們成功生成了10萬道新的編程題目，每道題目都配有來自強大推理模型的詳細解答鏈。

實驗結果令人印象深刻。研究團隊使用他們的訓練好的出題器（基于Qwen2.5-14B-Instruct模型微調）生成題目，然后用這些題目訓練一個8B參數的學生模型。結果顯示，即使只使用10萬道QueST生成的題目進行訓練，學生模型在LiveCodeBench基準測試上的表現就超過了原始的Qwen3-8B模型。更令人驚訝的是，當他們將10萬道QueST生成的題目與11.2萬道來自人類編寫題目的訓練樣本結合時，這個8B參數的模型竟然達到了與6710億參數的DeepSeek-R1-671B模型相當的性能水平。

研究團隊還進行了詳細的消融實驗來驗證框架中各個組件的有效性。他們發現，難度感知的圖采樣和拒絕式微調都對最終性能有顯著貢獻。特別是在處理困難題目時，使用QueST框架訓練的模型表現出了明顯的優勢。

除了監督學習，研究團隊還驗證了QueST生成的數據在強化學習中的效果。他們使用GRPO算法，在包含QueST生成題目的數據集上訓練模型，同樣取得了良好的效果。這表明QueST生成的題目不僅適用于傳統的監督學習，也能在更高級的訓練范式中發揮作用。

為了確保研究的科學性，團隊還進行了數據污染檢測。他們計算了生成數據集與評估基準之間的50-gram Jaccard相似度，結果顯示相似度為0，證明了生成的數據沒有泄露評估信息。

從技術角度來看，QueST框架的創新性主要體現在幾個方面。首先，它是第一個專門訓練模型來生成困難編程題目的方法，而不是簡單地使用固定的模型來生成。其次，它巧妙地結合了概念圖采樣和拒絕式微調，形成了一個端到端的訓練流程。最后，它提出的基于模型輸出一致性的難度評估方法既簡單又有效。

這項研究的意義不僅僅局限于編程領域。隨著AI模型在各個推理任務上的能力不斷提升，如何生成足夠多、足夠有挑戰性的訓練數據將成為一個普遍問題。QueST框架提供的思路可能為其他領域的類似問題提供啟發。

當然，這項研究也存在一些局限性。目前的難度計算方法在計算上比較昂貴，需要為每道題目生成多個解答和測試用例，這在實時強化學習環境中可能不太實用。研究團隊在論文中也提到了這一點，并建議未來可以探索訓練專門的難度預測模型或其他更高效的方法。

從更廣闊的視角來看，QueST框架反映了AI發展中一個有趣的趨勢：AI不僅在解決問題，也在學習如何提出問題。這種"自我出題"的能力可能會成為未來AI系統的一個重要特征，幫助它們在缺乏人類標注數據的情況下持續改進自己的能力。

總的來說，這項由蘇黎世大學和微軟研究院合作完成的研究為大語言模型的訓練提供了一個新的思路。通過讓AI學會生成困難的編程題目，QueST框架不僅解決了訓練數據稀缺的問題，還為未來更強大的代碼推理模型的開發鋪平了道路。對于關注AI發展的人來說，這項研究展示了如何通過創新的方法論突破現有的技術瓶頸，值得深入了解和思考。

Q&A

Q1：QueST框架是什么？

A：QueST是蘇黎世大學和微軟研究院開發的一個AI框架，專門用來訓練模型自動生成困難的編程題目。它通過難度感知的概念圖采樣和拒絕式微調技術，讓AI學會創造具有挑戰性的編程問題，從而為訓練更強大的代碼推理模型提供高質量的訓練數據。

Q2：QueST如何判斷編程題目的難度？

A：QueST使用一個基于模型輸出一致性的評估方法。具體來說，它讓模型多次解答同一道題目，然后比較這些解答結果的一致性。如果模型每次都給出相似答案，說明題目較簡單；如果解答結果差異很大，說明題目有挑戰性。最終的難度分數是1減去平均多數投票率。

Q3：使用QueST訓練的模型效果如何？

A：效果非常顯著。研究顯示，僅用10萬道QueST生成的題目訓練的8B參數模型就超越了原始Qwen3-8B的性能。當結合11.2萬道人類編寫的訓練樣本時，這個8B模型甚至達到了6710億參數DeepSeek-R1-671B模型的性能水平，展現了該框架的強大效果。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.