你有沒有過這種經歷:做數學題時,自己順著思路算半天得出錯誤答案,可看到同學的錯題后,反而一眼看穿問題所在?現在,清華大學的研究團隊把這個 “人類小技巧” 用在了大模型上,居然讓 AI 的推理能力暴漲 ——關鍵是,不用額外訓練、不用多花錢,只是換個提問方式!
論文《Asking LLMs to Verify First is Almost Free Lunch》就進行了這項研究。
![]()
核心思想特別簡單:給大模型提問題時,別讓它直接 “一步一步想答案”,而是先扔給它一個候選答案(哪怕是隨機猜的、無關緊要的),讓它先驗證 “這個答案對不對”,再自己寫正確答案。就這么一個小改動,大模型的邏輯錯誤率直接下降,還沒增加多少計算成本~
![]()
圖 1:反向推理路徑(驗證過程)更易構建,且包含與正向推理路徑(標準思維鏈,CoT)互補的信息。
原來大模型答題,也有 “自我中心” 的小毛病
我們先搞懂:為啥大模型明明很聰明,卻總在簡單推理題上翻車?
比如這道經典題:“蝙蝠和球一共1.1美元,蝙蝠比球貴1美元,球多少錢?” 很多人(包括大模型)會脫口而出 “0.1美元”—— 順著 “1.1-1=0.1” 的思路走,完全沒發現邏輯漏洞。
這就是大模型的 “老毛病”:現在主流的推理方法叫 CoT(逐步思考),讓 AI “一步一步推導”。但 AI 是 “ autoregressive(自回歸)” 生成的,簡單說就是 “順著自己的思路往下說”,更在乎表達流暢,反而容易忽略邏輯嚴謹性—— 就像人太相信自己的第一判斷,陷入 “自我中心”,看不到錯誤。
而且之前想提升 AI 推理能力,要么得花大價錢訓練模型,要么讓 AI 多算幾十遍采樣答案,成本高得嚇人。
“先挑錯” 策略:給 AI 一個 “錯題”,它反而更會做!?
清華團隊的 VF(Verification-First,先驗證)策略,剛好戳中了 AI 的 “軟肋”,還不用多花錢。核心是兩個超有趣的認知規律:
驗證答案,比自己算答案簡單多了!
就像老師批改作業比自己做題快 —— 假設答案是 A,你只要倒著推 “這個答案能不能滿足題目條件”,比從零開始推導簡單太多。哪怕給的是錯答案,AI 在驗證時也會理清 “題目該怎么解”,相當于提前搭好了思路框架。從數學上來說,其實是讓大模型的回答事先收斂到相關領域的大的特征空間里,再從大的特征空間里尋找準確的部分進行檢索和回答。而非直接讓大模型跳進最小的特征空間找答案。
讓 AI “挑別人的錯”,能激活批判性思維!
人在評價別人時,會不自覺跳出自己的思維定式;AI 也一樣~ 讓它先驗證一個 “外部答案”,能避免它順著自己的錯誤思路一條道走到黑,減少 “想當然” 的錯誤。
![]()
圖 2:帶有隨機 / 簡單答案的 VF 提示(右側),與標準的 CoT 提示(左側)對比
這張圖直接對比了 “普通 CoT” 和 “VF 策略” 的區別,兩道題就能看出差距:
左欄是普通 CoT:AI 順著思路推導,蝙蝠和球的題答錯(算成 0.1 美元),“一年有幾個月有 28 天” 也答錯(只想到 2 月,忘了所有月份都有 28 號)。
右欄是 VF 策略:先給一個隨機答案 “1”,讓 AI 先驗證——? 驗證蝙蝠和球的題:“如果球是 1 美元,蝙蝠就是 2 美元,總價 3 美元,不對!” 然后順理成章列出方程,算出正確答案 0.05 美元;? 驗證月份題:“如果答案是 1,意味著只有 1 個月有 28 天,但題目問的是‘有 28 天’,不是‘只有 28 天’,所有 12 個月都符合!” 直接糾正錯誤。
是不是很神奇?一個隨機的 “錯題”,反而幫 AI 理清了思路~
升級款 Iter-VF:讓 AI 自己迭代 “挑錯”,越算越準
如果遇到復雜題,給一個隨機答案不夠用怎么辦?團隊又搞出了 “迭代版”——Iter-VF。
簡單說就是:讓 AI 自己生成第一個答案,然后用 VF 策略驗證這個答案、生成新答案;再用新答案當 “候選答案”,重復驗證 - 生成的過程,循環幾次(次數可以控制,不浪費算力)。
![]()
圖3:(a)使用先前生成的答案進行VF提示的說明,以及將此過程迭代為(b)用于測試時擴展的Iter-VF的說明。
圖 3 左邊展示了 “用 AI 之前的答案做驗證”(比如編程題,沒法給隨機答案,就用 AI 第一次寫的代碼當候選),右邊是 Iter-VF 的循環流程:從初始答案開始,迭代驗證 - 生成,最后得到最優解。
關鍵優勢是:AI 每次只關注上一個答案,不糾結之前的推導過程,不會因為 “想太多” 導致邏輯混亂(這是很多其他迭代方法的通病),還能控制計算成本~
實驗結果:準確率暴漲,成本幾乎可以忽略!
團隊在數學題(GSM8K、MATH500)、研究生級科學題(GPQA)、編程題(HumanEval)、API 調用等多個任務上測試,結果超亮眼:
這里要貼論文圖 4 和表 1
![]()
圖4:VF提示法始終優于標準的CoT提示法。
圖 4 能看到:不管是 10 億參數的小模型,還是 720 億參數的大模型,VF 策略都比普通 CoT 準確率高,數學題上的提升尤其明顯(畢竟數學最需要邏輯嚴謹);
![]()
表1:推理基準測試的輸出標記數量。
表 1 顯示:VF 只比 CoT 多輸出 20%-50% 的文字(token),計算成本幾乎可以忽略—— 對比其他需要多算幾十倍的方法,這簡直是 “白嫖” 級提升!
![]()
表2:編碼和API任務的性能比較。具有可比性結果的行未用水平線分隔。“HEval”是“HumanEval”的縮寫。
表 2 證明:在編程、API 調用這些 “沒法給隨機答案” 的實際任務中,VF 用 AI 之前的答案做驗證,表現也比 “讓 AI 算兩次”“讓 AI 自己修改” 好,甚至 “算兩次 VF” 的正確率能沖到 99.4%;
![]()
表3:與隱藏思維的大語言模型服務的性能對比。準確率%(輸出令牌數量)。
表 3 更厲害:哪怕是 GPT-5 這種 “隱藏思考過程” 的商業大模型(我們看不到它怎么推導,沒法讓它 “修改思路”),用 VF 策略也能提升準確率,而且只多花一點點算力~
總結:簡單卻強大的 “答題技巧”,未來可期!
清華團隊的這個方法,本質上是 “借力打力”:不用改模型、不用多花錢,只是利用 “驗證比生成簡單”“批判性思維能避坑” 的認知規律,就大幅提升了大模型的推理能力。
對我們來說,以后用 AI 做題、寫代碼、解決問題時,或許可以試試:先給 AI 一個 “隨便猜的答案”,讓它先挑錯,再要正確結果 —— 說不定正確率會翻倍~
感興趣的同學可以去看原文,里面還有更多實驗細節和案例~ 不得不說,把人類的學習技巧用在 AI 上,真的太妙了!
? 科研不一定都要 “高大上”,有時候一個簡單的思路轉變,就能帶來巨大突破~ 為研究團隊點贊!
原標題:大模型答題總翻車(幻覺)?清華大學新方法:先挑錯再寫答案,正確率飆升還不花錢!
來源:計算科學
編輯:丁香葉子
轉載內容僅代表作者觀點
不代表中科院物理所立場
如需轉載請聯系原公眾號
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.