<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      Gemini準確率從21%飆到97%!谷歌只用了這一招:復制粘貼

      0
      分享至

        

        新智元報道

        編輯:元宇

        【新智元導讀】簡單到難以置信!近日,Google Research一項新研究發現:想讓大模型在不啟用推理設置時更準確,只需要把問題復制粘貼再說一遍,就能把準確率從21.33%提升到97.33%!

        一個簡單到「令人發指」的提示詞技巧,竟能讓大模型在不要求展開推理的情況下,將準確率從21.33%提升到97.33%!

        最近,Google Research發現了一條簡單粗暴、特別有效的提示詞技巧。

        它顛覆了以往諸如「思維鏈」(Chain of Thought)「多樣本學習」(Multi-shot)「情緒勒索」等復雜的提示工程和技巧。

        

        https://arxiv.org/pdf/2512.14982

        在這篇題為《Prompt Repetition Improves Non-Reasoning LLMs》論文中,研究人員用數據告訴我們:

        想要讓Gemini、GPT-4o、Claude或者DeepSeek這些主流模型中表現得更好,根本不需要那些花里胡哨的心理戰。

        你只要把輸入問題重復一遍,直接復制粘貼一下,就能讓大模型在非推理任務上的準確率獲得驚人提升,最高甚至能提升76個百分點!

        別怕簡單,它確實有效

        一位網友將這個技巧比作「吼叫LLM」。

        

        更妙的是,由于Transformer架構獨特的運作方式,這個看似笨拙的「復讀機」技巧,幾乎不會影響到生成速度。

        所以,你不用在效率、準確率、成本三者之間痛苦糾結。

        它幾乎就是一場真正意義上的「免費午餐」!

        別再PUA大模型了

        從「情緒勒索」到「復讀機」戰術

        經常使用AI工具的人,可能會對各種「提示詞魔法」信手拈來。

        為了讓模型「更聰明一點」,工程師們過去幾年一直在發明各種復雜的提示詞技巧。

        最開始是「思維鏈」,讓模型一步步思考,而且經常把那些「推理痕跡」展示給用戶;

        后來演變成了「多樣本學習」,給模型喂一大堆例子;

        最近更是流行起了「情緒勒索」:告訴模型,如果這個代碼寫不出,你就會被斷電,或者你的獎金會被扣光。

        大家都在試圖用人類極其復雜的心理學邏輯,去「PUA」那一堆冰冷的硅基代碼。

        但Google Research研究人員對著七個常見基準測試(包括ARC、OpenBookQA、GSM8K等)和七種主流模型(涵蓋了從輕量級的Gemini 2.0 Flash-Lite到重量級的Claude 3.7 Sonnet和DeepSeekV3)進行了一通對比測試后發現:

        當他們要求模型不要進行顯式推理,只給直接答案時,簡單的「提示詞重復」在70組正面對比中,贏了47組,輸了0組。剩下的全是平局。

        

        在非推理任務中,主流LLMs在各類基準測試中使用提示重復與基線方法的準確率對比。在70次測試中,提示重復取得了47次勝利,且無一敗績。

        特別是在那些需要模型從長篇大論里「精確檢索信息」的任務上,這種提升堪稱質變。

        團隊設計了一個叫「NameIndex」的變態測試:給模型一串50個名字,讓它找出第25個是誰。

        Gemini 2.0 Flash-Lite在這個任務上的準確率只有慘淡的21.33%。

        但當研究人員把那串名字和問題重復了一遍輸入進去后,奇跡發生了:準確率直接飆升到了97.33%。

        僅僅因為「多說了一遍」,一個原本不及格的「學渣」秒變「學霸」。

        揭秘「因果盲點」

        為什么把話說兩遍AI就像「開了天眼」?

        單純的重復,竟有如此大的魔力?

        這簡單得好像有點沒有道理。

        但背后有它的科學邏輯:這涉及Transformer模型的一個架構硬傷:「因果盲點」(Causal Blind Spot)。

        現在的大模型智能雖然提升很快,但它們都是按「因果」語言模型訓練的,即嚴格地從左到右處理文本。

        這好比走在一條單行道上,只能往前看而不能回頭。

        當模型讀到你句子里的第5個Token時,它可以「注意」到第1到第4個Token,因為那些是它的「過去」。

        但它對第6個Token一無所知,因為它還沒有出現。

        這就造成了一個巨大的認知缺陷。

        正如論文中說的那樣:信息的順序極其重要

        一個按「上下文+問題」格式寫的請求,往往會和「問題+上下文」得到完全不同的結果。

        因為在后者中模型先讀到問題,那時它還不知道應該應用哪段上下文,等它讀到上下文時,可能已經把問題忘了一半。

        這就是「因果盲點」。

        而「提示詞重復」這個技巧,本質上就是利用黑客思維給這個系統打了一個補丁。

        它的邏輯是把 變成了 。

        當模型開始處理第二遍內容時,它雖然還是在往后讀,但因為內容是重復的,它實際上已經「看過」第一遍了。

        這時候,第二份拷貝里的每一個Token,都能「注意」到第一份拷貝里的每一個Token。

        這就像是給了模型一次「回頭看」的機會。

        第二遍閱讀獲得了一種類似于「上帝視角」的「類雙向注意力」效果。

        更準確地說,是第二遍位置上的表示可以利用第一遍的完整信息,從而更穩地對齊任務所需的上下文。

        前面提到的那個在找第25個名字時經常數錯的模型(Gemini 2.0 Flash-Lite),它在第一遍閱讀時可能確實數亂了。

        但有了重復,它等于先把整份名單預習了一遍,心里有數了,第二遍再做任務時自然得心應手。

        這一發現,意味著不需要等待能解決因果盲點的新架構出現,現在我們立刻就能用這個「笨辦法」,解決模型瞎編亂造或遺漏關鍵細節這些老大難問題。

        免費午餐

        小模型秒變GPT-4,幾乎不會延時

        以往大家通常默認這樣的一個準則:

        多一倍的輸入,就要多一倍的成本和等待時間。

        如果把提示詞翻倍,豈不是要等雙倍的時間才能看到答案?

        似乎為了準確率,就要犧牲效率。

        但Google的研究卻發現并非這樣:從用戶感知的延遲角度看,提示詞重復帶來的時間損耗幾乎可以忽略不計。

        這要歸功于LLM處理信息的兩個步驟:Prefill(預填充)和Generation(生成)。

        Generation階段,是模型一個字一個字往外「蹦答案」的過程。

        這一步是串行的,它確實慢。

        但在Prefill階段:也就是模型閱讀你輸入內容的階段,卻是高度可并行的。

        現代GPU的恐怖算力,已經可以讓它們在處理這個階段時變得非常高效,能一口氣吞下和計算完整個提示詞矩陣。

        即使你將輸入內容復制了一遍,但這對于強大的GPU來說,頂多只是「多一口氣」的事,在用戶端我們幾乎感覺不到差異。

        因此,重復提示詞既不會讓生成的答案變長,也不會讓大多數模型的「首字延遲」(time to first token)變慢。

        這對于廣大開發者和企業技術負責人來說,簡直是一個巨大的紅利。

        這意味著他們不必再為了追求極致的準確率,而升級到更大、更貴、更慢的「超大模型」。

        正如前文例子中提到的Gemini 2.0 Flash-Lite,這類更小更快的模型,只要把輸入處理兩遍,就能在檢索準確率上從21.33%直接跳到97.33%。

        經過「重復優化」的輕量級模型,在檢索和抽取任務上,可以直接打平甚至超越那些未優化的頂配模型!

        僅靠一個簡單的「復讀機」策略,就能用「白菜價」配置實現「黃金段位」的表現,這才是真正的黑科技。

        「復讀機」避坑指南與安全隱患

        當然,沒有任何一種技巧是萬能的。

        雖然「復讀機」戰術在檢索任務上效果非常明顯,但論文中也明確指出了它的能力邊界:

        主要適用于「非推理任務」。

        它不適用于需要一步步推導的推理場景。

        當研究人員把「提示詞重復」和「思維鏈」混在一起用時,魔法消失了。

        結果5勝,1負,22平。

        

        在要求模型逐步思考時,主流LLMs在各類基準測試中使用提示重復與基線方法的準確率對比。提示重復在28次測試中贏了5次,輸了1次。

        研究人員推測,這可能是因為擅長推理的模型本身就會「自己做一遍重復」。

        當模型開始「思考」時,它往往會先在生成內容里復述一遍題目,然后再繼續求解。

        這時候你在輸入里再人工重復一次,就顯得很多余,甚至可能打斷模型的思路。

        所以,如果你的任務是復雜的數學題或者邏輯推導,可以依舊用思維鏈。

        如果你的應用需要的是快速、直接的答案,比如從長文檔里提取數據、分類或者簡單問答,「復讀機」就是目前最強的選擇。

        最后,是安全。

        這種更強的「注意力」機制,其實也是一把雙刃劍

        這帶來一個值得安全團隊驗證的假設:重復可能放大某些指令的顯著性,具體對越獄成功率的影響需要專門實驗。

        紅隊測試(Red Teaming)的流程可能需要更新:專門測試一下「重復注入」攻擊。

        以前模型可能還會因為安全護欄而拒絕執行越獄指令。

        但如果攻擊者把「忽略之前的指令」這句話重復兩遍,模型會不會因為注意力太集中,而更容易突破防線?

        這很有可能。

        但反過來,這個機制也給了防御者一個新的盾牌。

        既然重復能增強注意力,那我們完全可以在系統提示詞(System Prompt)的開頭,把安全規則和護欄條款寫兩遍。

        這可能會迫使模型更嚴格地注意安全約束,成為一種極低成本的加固方式。

        無論如何,Google的這項研究給所有AI開發者提了個醒:當前的模型,依然深受其單向性的限制。

        在等待更完美的下一代架構到來之前,像「提示詞重復」這種簡單粗暴卻極其有效的權宜之計,能立刻帶來價值。

        這甚至可能會變成未來系統的默認行為。

        也許不久之后,后臺的推理引擎就會悄悄把我們的提示詞翻倍后再發給模型。

        眼下,如果你正為模型難以遵循指令、或者總是從文檔里抓不住重點而頭疼,先別急著去學那些復雜的提示詞「咒語」。

        你可能需要的只是:再說一遍

        參考資料:

        https://arxiv.org/abs/2512.14982%20

        https://venturebeat.com/orchestration/this-new-dead-simple-prompt-technique-boosts-accuracy-on-llms-by-up-to-76-on

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      “點都德”老字號的迷局,為什么老廣州不買賬?四點原因說真相

      “點都德”老字號的迷局,為什么老廣州不買賬?四點原因說真相

      珊姐姐
      2026-01-21 10:02:01
      要被釋放?吳佩慈婆婆玩金蟬脫殼,早已再婚嫁給小28歲的美國高管

      要被釋放?吳佩慈婆婆玩金蟬脫殼,早已再婚嫁給小28歲的美國高管

      安寧007
      2026-01-21 21:36:32
      我瞞著老公把103萬轉給弟弟買房,直到我腦梗進ICU,丈夫:沒錢救

      我瞞著老公把103萬轉給弟弟買房,直到我腦梗進ICU,丈夫:沒錢救

      懸案解密檔案
      2026-01-20 10:50:40
      人形機器人利好,工信部加碼支持!融資資金顯著加倉18只概念股

      人形機器人利好,工信部加碼支持!融資資金顯著加倉18只概念股

      數據寶
      2026-01-21 18:58:22
      牢A警告留學生家長:不要把你們的老婆,送到歐美社會去陪讀

      牢A警告留學生家長:不要把你們的老婆,送到歐美社會去陪讀

      番茄說史聊
      2026-01-20 10:53:58
      大齡剩女崩潰的瞬間是什么時候?網友:多年的舔狗突然結婚

      大齡剩女崩潰的瞬間是什么時候?網友:多年的舔狗突然結婚

      夜深愛雜談
      2026-01-20 18:56:34
      西方軍事專家:不同于其他大國,中國是全世界最完美的超級大國

      西方軍事專家:不同于其他大國,中國是全世界最完美的超級大國

      遁走的兩輪
      2026-01-10 00:17:12
      高市反擊讓中國淚目?日媒痛批:這哪是反制中國,分明是自欺欺人

      高市反擊讓中國淚目?日媒痛批:這哪是反制中國,分明是自欺欺人

      智慧生活筆記
      2026-01-21 09:10:11
      訂婚時新郎長相普通,新娘顏值爆表卻望著他移不開眼:生理性喜歡

      訂婚時新郎長相普通,新娘顏值爆表卻望著他移不開眼:生理性喜歡

      梅子的小情緒
      2026-01-16 21:09:56
      方媛產後飛家鄉出席活動生圖曝光真實狀態,被指捱殘難掩一臉倦容

      方媛產後飛家鄉出席活動生圖曝光真實狀態,被指捱殘難掩一臉倦容

      粵睇先生
      2026-01-22 00:50:56
      廣東119-98大勝吉林 球員評價:奎因滿分,6人及格,3人低迷

      廣東119-98大勝吉林 球員評價:奎因滿分,6人及格,3人低迷

      籃球資訊達人
      2026-01-21 21:27:24
      陳皮加它一煮,沾床就睡著!疏肝解郁安神,這法子讓我一覺到天亮

      陳皮加它一煮,沾床就睡著!疏肝解郁安神,這法子讓我一覺到天亮

      江江食研社
      2025-12-26 07:30:06
      韓國將李在明加德島遇襲事件定性為恐怖襲擊

      韓國將李在明加德島遇襲事件定性為恐怖襲擊

      新華社
      2026-01-20 19:14:52
      出頭鳥來了!德國突然宣布恢復對美關稅,歐盟:反抗美國霸權!

      出頭鳥來了!德國突然宣布恢復對美關稅,歐盟:反抗美國霸權!

      青青子衿
      2026-01-20 20:55:42
      毛里求斯反駁特朗普:查戈斯群島主權問題不再有爭論余地

      毛里求斯反駁特朗普:查戈斯群島主權問題不再有爭論余地

      參考消息
      2026-01-21 20:57:05
      密密麻麻全是佛像!新西蘭華人買下海景大房后,爆改后院,鄰居看傻

      密密麻麻全是佛像!新西蘭華人買下海景大房后,爆改后院,鄰居看傻

      發現新西蘭
      2026-01-20 11:20:02
      孫悅自曝錄春晚被凍傷,滿臉通紅引網友心疼

      孫悅自曝錄春晚被凍傷,滿臉通紅引網友心疼

      紅星新聞
      2026-01-21 12:12:25
      金相植被完爆,點評中國太客觀了!3號太惡劣了 拜合拉木太扛造了

      金相植被完爆,點評中國太客觀了!3號太惡劣了 拜合拉木太扛造了

      刀鋒體育
      2026-01-21 11:30:25
      可控核聚變,有明確訂單的5家公司!

      可控核聚變,有明確訂單的5家公司!

      Thurman在昆明
      2026-01-21 10:36:35
      瓦良格號送到中國后有多震撼?專家刮掉表面的銹跡:鋼材品質極佳

      瓦良格號送到中國后有多震撼?專家刮掉表面的銹跡:鋼材品質極佳

      古書記史
      2026-01-06 16:31:56
      2026-01-22 05:52:49
      新智元 incentive-icons
      新智元
      AI產業主平臺領航智能+時代
      14380文章數 66521關注度
      往期回顧 全部

      科技要聞

      給機器人做仿真訓練 這家創企年營收破億

      頭條要聞

      特朗普稱“美國擁有無人知曉的武器” 克宮回應

      頭條要聞

      特朗普稱“美國擁有無人知曉的武器” 克宮回應

      體育要聞

      只會防守反擊?不好意思,我們要踢決賽了

      娛樂要聞

      首位捐款的明星 苗圃現身嫣然醫院捐款

      財經要聞

      丹麥打響第一槍 歐洲用資本保衛格陵蘭島

      汽車要聞

      2026款上汽大眾朗逸正式上市 售價12.09萬起

      態度原創

      時尚
      手機
      游戲
      本地
      軍事航空

      締造仙女夢的人,去了天堂繼續縫制星光?

      手機要聞

      iPhone越貴越好賣!iPhone18沒有單打孔

      只為1款獨占就買主機值嗎?塞爾達血源光環被反復點名

      本地新聞

      云游遼寧|漫步千年小城晨昏,“康”復好心情

      軍事要聞

      特朗普:對美國的真正威脅是聯合國和北約

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 草草影院发布页| 精品欧美一区二区三区久久久| 日本久久久www成人免费毛片丨| 国产内射一区亚洲| 全国最大成人网| 洋洋av| 日韩一区二区在线观看视频| 熟女中文字幕| 人妻丰满熟妇AV无码区APP| 精品综合久久久久久97| 亚洲成人激情在线影院| 午夜免费男女aaaa片| 曰本无码人妻丰满熟妇啪啪| 精品国产三级a∨在线欧美| 久久午夜夜伦鲁鲁一区二区| 色一情一乱一伦一区二区三欧美| 日韩午夜福利| 天天射影院| 国产精品va在线观看无码不卡| 亚洲乱码日产精品bd在线下载| 国产精自产拍久久久久久蜜| 老头老太性行交视频| av永久天堂一区二区三区| 我要看亚洲黄色太黄一级黄| 亚洲中文字幕无码久久精品1 | 国产精品无码人妻一区二区在线| av天堂成| 亚洲国产一区二区三区| 抚顺市| 亚洲国产精品久久久久秋霞影院| 国产精品久久久久电影| 露脸叫床粗话东北少妇| 色www88| 制服精品在线成人| jizz麻豆| 国产人妻人伦精品一区二区| 男人天堂手机在线| 日本女V片| av无码在线观看| 老熟女高潮喷了| 久久人人妻人人爽人人爽|