<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

      大模型答題總翻車(幻覺)?先挑錯再寫答案,正確率飆升還不花錢!

      0
      分享至

      你有沒有過這種經(jīng)歷:做數(shù)學(xué)題時(shí),自己順著思路算半天得出錯誤答案,可看到同學(xué)的錯題后,反而一眼看穿問題所在?現(xiàn)在,清華大學(xué)的研究團(tuán)隊(duì)把這個(gè) “人類小技巧” 用在了大模型上,居然讓 AI 的推理能力暴漲 ——關(guān)鍵是,不用額外訓(xùn)練、不用多花錢,只是換個(gè)提問方式!

      論文《Asking LLMs to Verify First is Almost Free Lunch》就進(jìn)行了這項(xiàng)研究。


      核心思想特別簡單:給大模型提問題時(shí),別讓它直接 “一步一步想答案”,而是先扔給它一個(gè)候選答案(哪怕是隨機(jī)猜的、無關(guān)緊要的),讓它先驗(yàn)證 “這個(gè)答案對不對”,再自己寫正確答案。就這么一個(gè)小改動,大模型的邏輯錯誤率直接下降,還沒增加多少計(jì)算成本~


      圖 1:反向推理路徑(驗(yàn)證過程)更易構(gòu)建,且包含與正向推理路徑(標(biāo)準(zhǔn)思維鏈,CoT)互補(bǔ)的信息。

      原來大模型答題,也有 “自我中心” 的小毛病

      我們先搞懂:為啥大模型明明很聰明,卻總在簡單推理題上翻車?

      比如這道經(jīng)典題:“蝙蝠和球一共1.1美元,蝙蝠比球貴1美元,球多少錢?” 很多人(包括大模型)會脫口而出 “0.1美元”—— 順著 “1.1-1=0.1” 的思路走,完全沒發(fā)現(xiàn)邏輯漏洞。

      這就是大模型的 “老毛病”:現(xiàn)在主流的推理方法叫 CoT(逐步思考),讓 AI “一步一步推導(dǎo)”。但 AI 是 “ autoregressive(自回歸)” 生成的,簡單說就是 “順著自己的思路往下說”,更在乎表達(dá)流暢,反而容易忽略邏輯嚴(yán)謹(jǐn)性—— 就像人太相信自己的第一判斷,陷入 “自我中心”,看不到錯誤。

      而且之前想提升 AI 推理能力,要么得花大價(jià)錢訓(xùn)練模型,要么讓 AI 多算幾十遍采樣答案,成本高得嚇人。

      “先挑錯” 策略:給 AI 一個(gè) “錯題”,它反而更會做!?

      清華團(tuán)隊(duì)的 VF(Verification-First,先驗(yàn)證)策略,剛好戳中了 AI 的 “軟肋”,還不用多花錢。核心是兩個(gè)超有趣的認(rèn)知規(guī)律:

      1. 驗(yàn)證答案,比自己算答案簡單多了!

      2. 就像老師批改作業(yè)比自己做題快 —— 假設(shè)答案是 A,你只要倒著推 “這個(gè)答案能不能滿足題目條件”,比從零開始推導(dǎo)簡單太多。哪怕給的是錯答案,AI 在驗(yàn)證時(shí)也會理清 “題目該怎么解”,相當(dāng)于提前搭好了思路框架。從數(shù)學(xué)上來說,其實(shí)是讓大模型的回答事先收斂到相關(guān)領(lǐng)域的大的特征空間里,再從大的特征空間里尋找準(zhǔn)確的部分進(jìn)行檢索和回答。而非直接讓大模型跳進(jìn)最小的特征空間找答案。

      3. 讓 AI “挑別人的錯”,能激活批判性思維!

      4. 人在評價(jià)別人時(shí),會不自覺跳出自己的思維定式;AI 也一樣~ 讓它先驗(yàn)證一個(gè) “外部答案”,能避免它順著自己的錯誤思路一條道走到黑,減少 “想當(dāng)然” 的錯誤。

      舉兩個(gè)例子,一看就懂!


      圖 2:帶有隨機(jī) / 簡單答案的 VF 提示(右側(cè)),與標(biāo)準(zhǔn)的 CoT 提示(左側(cè))對比

      這張圖直接對比了 “普通 CoT” 和 “VF 策略” 的區(qū)別,兩道題就能看出差距:

      左欄是普通 CoT:AI 順著思路推導(dǎo),蝙蝠和球的題答錯(算成 0.1 美元),“一年有幾個(gè)月有 28 天” 也答錯(只想到 2 月,忘了所有月份都有 28 號)。

      右欄是 VF 策略:先給一個(gè)隨機(jī)答案 “1”,讓 AI 先驗(yàn)證——? 驗(yàn)證蝙蝠和球的題:“如果球是 1 美元,蝙蝠就是 2 美元,總價(jià) 3 美元,不對!” 然后順理成章列出方程,算出正確答案 0.05 美元;? 驗(yàn)證月份題:“如果答案是 1,意味著只有 1 個(gè)月有 28 天,但題目問的是‘有 28 天’,不是‘只有 28 天’,所有 12 個(gè)月都符合!” 直接糾正錯誤。

      是不是很神奇?一個(gè)隨機(jī)的 “錯題”,反而幫 AI 理清了思路~

      升級款 Iter-VF:讓 AI 自己迭代 “挑錯”,越算越準(zhǔn)

      如果遇到復(fù)雜題,給一個(gè)隨機(jī)答案不夠用怎么辦?團(tuán)隊(duì)又搞出了 “迭代版”——Iter-VF。

      簡單說就是:讓 AI 自己生成第一個(gè)答案,然后用 VF 策略驗(yàn)證這個(gè)答案、生成新答案;再用新答案當(dāng) “候選答案”,重復(fù)驗(yàn)證 - 生成的過程,循環(huán)幾次(次數(shù)可以控制,不浪費(fèi)算力)。


      圖3:(a)使用先前生成的答案進(jìn)行VF提示的說明,以及將此過程迭代為(b)用于測試時(shí)擴(kuò)展的Iter-VF的說明。

      圖 3 左邊展示了 “用 AI 之前的答案做驗(yàn)證”(比如編程題,沒法給隨機(jī)答案,就用 AI 第一次寫的代碼當(dāng)候選),右邊是 Iter-VF 的循環(huán)流程:從初始答案開始,迭代驗(yàn)證 - 生成,最后得到最優(yōu)解。

      關(guān)鍵優(yōu)勢是:AI 每次只關(guān)注上一個(gè)答案,不糾結(jié)之前的推導(dǎo)過程,不會因?yàn)?“想太多” 導(dǎo)致邏輯混亂(這是很多其他迭代方法的通?。?/strong>還能控制計(jì)算成本~

      實(shí)驗(yàn)結(jié)果:準(zhǔn)確率暴漲,成本幾乎可以忽略!

      團(tuán)隊(duì)在數(shù)學(xué)題(GSM8K、MATH500)、研究生級科學(xué)題(GPQA)、編程題(HumanEval)、API 調(diào)用等多個(gè)任務(wù)上測試,結(jié)果超亮眼:

      這里要貼論文圖 4 和表 1


      圖4:VF提示法始終優(yōu)于標(biāo)準(zhǔn)的CoT提示法。

      圖 4 能看到:不管是 10 億參數(shù)的小模型,還是 720 億參數(shù)的大模型,VF 策略都比普通 CoT 準(zhǔn)確率高,數(shù)學(xué)題上的提升尤其明顯(畢竟數(shù)學(xué)最需要邏輯嚴(yán)謹(jǐn));


      表1:推理基準(zhǔn)測試的輸出標(biāo)記數(shù)量。

      表 1 顯示:VF 只比 CoT 多輸出 20%-50% 的文字(token),計(jì)算成本幾乎可以忽略—— 對比其他需要多算幾十倍的方法,這簡直是 “白嫖” 級提升!


      表2:編碼和API任務(wù)的性能比較。具有可比性結(jié)果的行未用水平線分隔。“HEval”是“HumanEval”的縮寫。

      表 2 證明:在編程、API 調(diào)用這些 “沒法給隨機(jī)答案” 的實(shí)際任務(wù)中,VF 用 AI 之前的答案做驗(yàn)證,表現(xiàn)也比 “讓 AI 算兩次”“讓 AI 自己修改” 好,甚至 “算兩次 VF” 的正確率能沖到 99.4%;


      表3:與隱藏思維的大語言模型服務(wù)的性能對比。準(zhǔn)確率%(輸出令牌數(shù)量)。

      表 3 更厲害:哪怕是 GPT-5 這種 “隱藏思考過程” 的商業(yè)大模型(我們看不到它怎么推導(dǎo),沒法讓它 “修改思路”),用 VF 策略也能提升準(zhǔn)確率,而且只多花一點(diǎn)點(diǎn)算力~

      總結(jié):簡單卻強(qiáng)大的 “答題技巧”,未來可期!

      清華團(tuán)隊(duì)的這個(gè)方法,本質(zhì)上是 “借力打力”:不用改模型、不用多花錢,只是利用 “驗(yàn)證比生成簡單”“批判性思維能避坑” 的認(rèn)知規(guī)律,就大幅提升了大模型的推理能力。

      對我們來說,以后用 AI 做題、寫代碼、解決問題時(shí),或許可以試試:先給 AI 一個(gè) “隨便猜的答案”,讓它先挑錯,再要正確結(jié)果 —— 說不定正確率會翻倍~

      感興趣的同學(xué)可以去看原文,里面還有更多實(shí)驗(yàn)細(xì)節(jié)和案例~ 不得不說,把人類的學(xué)習(xí)技巧用在 AI 上,真的太妙了!

      ? 科研不一定都要 “高大上”,有時(shí)候一個(gè)簡單的思路轉(zhuǎn)變,就能帶來巨大突破~ 為研究團(tuán)隊(duì)點(diǎn)贊!

      原標(biāo)題:大模型答題總翻車(幻覺)?清華大學(xué)新方法:先挑錯再寫答案,正確率飆升還不花錢!

      來源:計(jì)算科學(xué)

      編輯:丁香葉子

      轉(zhuǎn)載內(nèi)容僅代表作者觀點(diǎn)

      不代表中科院物理所立場

      如需轉(zhuǎn)載請聯(lián)系原公眾號

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點(diǎn)推薦
      你身邊有把一手好牌打的稀爛的人嗎?網(wǎng)友:都是上輩子欠人家的

      你身邊有把一手好牌打的稀爛的人嗎?網(wǎng)友:都是上輩子欠人家的

      帶你感受人間冷暖
      2026-01-21 00:15:05
      24 小時(shí)內(nèi),中美爆發(fā)兩波爭端,美軍艦硬闖臺海,解放軍火速出手

      24 小時(shí)內(nèi),中美爆發(fā)兩波爭端,美軍艦硬闖臺海,解放軍火速出手

      議紀(jì)史
      2026-01-23 14:25:03
      哈馬斯正式放下槍,交2000公里隧道圖換免死金牌,以色列立馬翻臉

      哈馬斯正式放下槍,交2000公里隧道圖換免死金牌,以色列立馬翻臉

      科普100克克
      2026-01-24 18:11:25
      祝賀國乒!一場3-1,林詩棟、黃友政打敗德國組合,斬獲男雙冠軍

      祝賀國乒!一場3-1,林詩棟、黃友政打敗德國組合,斬獲男雙冠軍

      齊帥
      2026-01-24 18:41:12
      特朗普:考慮全面封鎖!油價(jià)大漲!

      特朗普:考慮全面封鎖!油價(jià)大漲!

      魯中晨報(bào)
      2026-01-24 09:55:02
      《小城大事》直到解春來以死謝罪,鄭德誠方知,李秋萍入獄的真相

      《小城大事》直到解春來以死謝罪,鄭德誠方知,李秋萍入獄的真相

      娛樂傾城巷
      2026-01-24 16:50:31
      蒯曼做夢也沒想到,不被國乒重視的她,這次被7歲的妹妹找回來

      蒯曼做夢也沒想到,不被國乒重視的她,這次被7歲的妹妹找回來

      以茶帶書
      2026-01-24 13:17:20
      南海撞機(jī)王偉成功跳傘,咋10萬人都找不到他?直到20多年后才明白

      南海撞機(jī)王偉成功跳傘,咋10萬人都找不到他?直到20多年后才明白

      鶴羽說個(gè)事
      2025-12-12 14:31:49
      日本真子公主找到新工作!律師老公負(fù)責(zé)帶娃,比哈里和大布強(qiáng)太多

      日本真子公主找到新工作!律師老公負(fù)責(zé)帶娃,比哈里和大布強(qiáng)太多

      手工制作阿殲
      2026-01-24 02:55:57
      每天2包煙,頓頓8兩白酒,70歲李琦跟去世前楊少華狀態(tài)如出一轍

      每天2包煙,頓頓8兩白酒,70歲李琦跟去世前楊少華狀態(tài)如出一轍

      以茶帶書
      2026-01-11 13:55:14
      玻璃中鋒!打破隊(duì)史紀(jì)錄!湖人取消交易后悔嗎?

      玻璃中鋒!打破隊(duì)史紀(jì)錄!湖人取消交易后悔嗎?

      籃球教學(xué)論壇
      2026-01-24 17:27:39
      最新研究:烹飪3天,可引發(fā)肺炎,持續(xù)7天重創(chuàng)腸道;助推癌癥和心血管疾病,但這些方法可緩解

      最新研究:烹飪3天,可引發(fā)肺炎,持續(xù)7天重創(chuàng)腸道;助推癌癥和心血管疾病,但這些方法可緩解

      腫瘤醫(yī)學(xué)論壇
      2026-01-22 18:54:02
      普京:烏克蘭不割地,和平毫無可能;澤連斯基:沒有100萬烏軍,歐洲無法獨(dú)自面對 | 狼叔看世界

      普京:烏克蘭不割地,和平毫無可能;澤連斯基:沒有100萬烏軍,歐洲無法獨(dú)自面對 | 狼叔看世界

      狼叔看世界
      2026-01-24 15:41:25
      今晚第4次奪冠?中國男足曾3奪亞洲冠軍:高洪波金靴 王大雷MVP

      今晚第4次奪冠?中國男足曾3奪亞洲冠軍:高洪波金靴 王大雷MVP

      林子說事
      2026-01-24 14:07:34
      68歲反派專業(yè)戶程煜,私下財(cái)富狀況令人咋舌

      68歲反派專業(yè)戶程煜,私下財(cái)富狀況令人咋舌

      噶噶香的晚餐
      2026-01-23 06:12:14
      賣維尼修斯或貝林,TA:皇馬內(nèi)部有人認(rèn)為球隊(duì)需要激進(jìn)的重建

      賣維尼修斯或貝林,TA:皇馬內(nèi)部有人認(rèn)為球隊(duì)需要激進(jìn)的重建

      懂球帝
      2026-01-24 19:03:13
      錢再多有什么用?79歲身家525億的特朗普,給全部中老年人提了醒

      錢再多有什么用?79歲身家525億的特朗普,給全部中老年人提了醒

      阿器談史
      2026-01-19 19:33:57
      玄學(xué)提醒:若有余錢,不要不舍得,給自己添置這幾樣?xùn)|西“養(yǎng)老”

      玄學(xué)提醒:若有余錢,不要不舍得,給自己添置這幾樣?xùn)|西“養(yǎng)老”

      木言觀
      2026-01-23 06:16:13
      范志毅英籍女兒男友:一任沒錢,二任太老,三任才是老范心中貴婿

      范志毅英籍女兒男友:一任沒錢,二任太老,三任才是老范心中貴婿

      小熊侃史
      2025-12-10 07:05:13
      冬天最該吃的是它,而不是蘿卜白菜!清肝明目,一覺睡到大天亮

      冬天最該吃的是它,而不是蘿卜白菜!清肝明目,一覺睡到大天亮

      江江食研社
      2026-01-23 14:30:08
      2026-01-24 21:00:49
      中科院物理所 incentive-icons
      中科院物理所
      愛上物理,改變世界。
      9802文章數(shù) 136433關(guān)注度
      往期回顧 全部

      教育要聞

      傅佩榮:這對父子的對話,揭開了時(shí)下多數(shù)家庭的傷疤

      頭條要聞

      安徽女教師校內(nèi)宿舍病亡2天后才被發(fā)現(xiàn) 學(xué)校:建議起訴

      頭條要聞

      安徽女教師校內(nèi)宿舍病亡2天后才被發(fā)現(xiàn) 學(xué)校:建議起訴

      體育要聞

      當(dāng)家球星打替補(bǔ),他們在故意擺爛?

      娛樂要聞

      回歸還是頂流 鳳凰傳奇將現(xiàn)身馬年春晚

      財(cái)經(jīng)要聞

      “百年老字號”張小泉遭60億債務(wù)壓頂

      科技要聞

      特斯拉Cybercrab即將落地 每公里不到1塊錢

      汽車要聞

      有增程和純電版可選 日產(chǎn)NX8或于3-4月間上市

      態(tài)度原創(chuàng)

      本地
      教育
      旅游
      時(shí)尚
      公開課

      本地新聞

      云游中國|格爾木的四季朋友圈,張張值得你點(diǎn)贊

      教育要聞

      高三生注意!2026年四川高校體育單招簡章發(fā)布

      旅游要聞

      在積木王國感受中國年味,上海樂高樂園新春主題盛典即將啟幕

      冬天最佳“顯瘦”公式:上短+下長

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進(jìn)入關(guān)懷版 主站蜘蛛池模板: 中文无码热在线视频| 日本高清在线一区二区三区| 国产亚洲成人网站| 95在线一区| 免费看视频的网站| 午夜免费国产体验区免费的| 国产精品免费麻豆入口| 久久综合精品无码AV一区二区三区| 精品无码a久久| 成人AV一区二区三区| 国产亚洲精品VA片在线播放| 韩国一级毛片中文字幕| 亚洲三区在线观看内射后入| 国产成人综合在线观看不卡| 91福利社| 亚洲人成网站在线在线观看| 亚洲AVAV天堂Av在线播放| 日本熟妇色视频hamster| 妺妺窝人体色WWW看人体| 西西444WWW大胆无码视频| 特大巨黑吊av在线播放| 久久综合精品无码AV一区二区三区| 人妻熟女一区二区aⅴ向井蓝| 精品无码一区二区三区| 亚洲精品无amm毛片| 亚洲天堂中文字幕| 亚洲国产人妻| 五月婷婷久久中文字幕| 日韩亚洲欧美在线com| 让少妇高潮无乱码高清在线观看| 亚洲精品国产成人无码区在线| 广饶县| 日本一区不卡高清更新二区| 欧美色欧美亚洲高清在线视频| 国语精品国内自产视频| wwww亚洲熟妇久久久久| 亚洲一区二区免费日韩| 国产精品激情| 左贡县| 精品国产一区二区三区香蕉| 000000亚洲|