<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      Rebuttal是帶著鐐銬舞蹈?港科RebuttalAgent心智理論讀懂審稿人

      0
      分享至



      面對同行評審,許多作者都有過這樣的經歷:明明回答了審稿人的每一個問題,態度也足夠謙卑,為什么最終還是沒能打動對方?

      現有的通用大模型在處理這類任務時,往往陷入一種 “表面禮貌” 的陷阱:它們擅長生成流暢、委婉的 “Thank you for your insightful comment”,卻缺乏對審稿人言外之意的深度洞察,導致回復雖然客氣,但缺乏直擊痛點的說服力。

      究竟什么樣的回復策略,才能在有限的篇幅內,有效消除誤解、贏得共識?

      針對這一問題,來自香港科技大學的研究團隊提出了一種全新的框架 ——RebuttalAgent。該研究首次將認知科學中的心智理論(Theory of Mind, ToM)引入學術 Rebuttal 任務,讓 AI 能夠像資深學者一樣 “讀懂” 審稿人,從而生成兼具戰略性與說服力的回復。

      目前,該論文已被ICLR 2026接收。



      • 論文標題:Dancing in Chains: Strategic Persuasion in Academic Rebuttal via Theory of Mind
      • 論文鏈接:https://arxiv.org/pdf/2601.15715
      • 代碼鏈接:https://github.com/Zhitao-He/RebuttalAgent

      Rebuttal 需要怎樣的博弈智慧?


      在學術界的博弈論視角下,Rebuttal 是一個典型的“不完全信息動態博弈”(Dynamic Game of Incomplete Information)。作者不僅要面對審稿人顯性的質疑,還要應對隱性的信息不對稱,你不知道審稿人的知識背景、潛在偏見,也不知道你的解釋會引發怎樣的連鎖反應。

      現有的基于監督微調的模型,大多止步于對人類回復的‘語言學擬態’。它們精準復刻了禮貌的‘外殼’,卻未能觸及審稿人意圖的‘內核’,即缺乏對審稿人的深度建模。 針對這一痛點,研究者提出了 RebuttalAgent,其核心洞察:有效的說服機制,必須建立在對他人的‘心智理論’建模之上。



      圖一:RebuttalAgent 框架總覽圖,展示 Data Preparation, TSR Framework 和 Agent Training 三個階段

      TSR 框架 —— 先 “讀心” 再 “落筆”,

      重構 AI 的思考鏈路


      RebuttalAgent 并沒有直接端到端地生成回復,而是模擬了人類專家的思維過程,通過ToM-Strategy-Response (TSR)框架來拆解這一復雜任務:

      1. ToM(心智理論建模):不僅僅是讀文本 AI 首先充當一名 “分析師”,對審稿意見進行分層剖析。

      • 宏觀層面(Macro-level): 判斷審稿人的整體立場(接受 / 拒絕)、態度(建設性 / 消極)以及領域專業度。
      • 微觀層面(Micro-level): 拆解每一條評論背后的核心關切(是方法論缺陷?還是單純的表達不清?)。 這種建模讓 AI 不再盲目回復,而是先構建出審稿人的 “心理畫像”。

      2. Strategy(謀定而后動):基于上述畫像,AI 會生成一個明確的戰略計劃。例如,面對一個 “專業度高但態度懷疑” 的審稿人,策略可能是 “先承認局限性以建立信任,再用補充實驗數據進行強力反擊”;而面對 “誤解型” 評論,策略則是 “澄清概念,重述核心貢獻”。

      3. Response(精準打擊):最后,AI 結合原始論文片段、戰略計劃和審稿人畫像,生成最終的回復。



      表一:評估的一致性:Rebuttal-RM 在對齊人類偏好上超越 GPT-4.1

      無需外部導師,

      “自我博弈” 中習得說服的藝術


      為了訓練這樣一個能夠 “運籌帷幄” 的 Agent,研究團隊面臨的最大挑戰是數據的稀缺與主觀性。為此,他們構建了RebuttalBench,包含超過 7 萬條高質量的 “分析 - 策略 - 回復” 鏈條數據。

      更進一步,研究者引入了Self-Reward 機制的強化學習策略。與傳統的依賴外部獎勵模型不同,RebuttalAgent 利用自身生成的評價信號進行迭代:

      • 格式與邏輯獎勵: 確保 AI 真的在進行思考和布局,而不是形式主義。
      • 多樣性獎勵: 這是一個關鍵設計。為了防止 AI 偷懶生成 “萬金油” 式的套話(如反復使用 "We thank the reviewer..." 模板),研究者設計了多樣性懲罰,迫使模型探索更多樣、更像人類專家的表達方式。

      從 “辭藻堆砌” 到 “攻心為上”:

      當 AI 學會了換位思考


      為了量化評估效果,研究團隊開發了Rebuttal-RM,這是一個專門針對學術反駁場景訓練的獎勵模型。在與人類專家評分的一致性測試中,Rebuttal-RM 的表現超越了 GPT-4.1。

      在這一評估體系下,RebuttalAgent 展現出了顯著優勢:

      • 在綜合得分上,RebuttalAgent 達到了9.42,顯著優于 GPT-4.1 和 O3 。
      • 在說服力(Persuasiveness)這一核心指標上,提升尤為明顯,表明引入 “心智理論” 確實增強了模型在觀點交鋒中的有效性。



      表二:RebuttalAgent 與其他強基線的性能對比

      “即插即用” 的思維外掛:

      讓小模型也能像專家一樣思考

      RebuttalAgent 生成的 “分析(Analysis)” 和 “策略(Strategy)” 是否具有普適性?研究者設計了一個巧妙的實驗:將 RebuttalAgent 生成的策略作為上下文(Context),喂給參數量較小的基礎模型(如 Qwen3-8B 和 Llama-3.1-8B),觀察它們的表現變化 (Average Score)。

      實驗發現,這是一個通用的 “思維外掛”。僅需引入 RebuttalAgent 的策略指導,Qwen3-8B 在 “表達清晰度” 上的得分就暴漲了 21.0%,這有力地證明了 TSR 框架的可遷移性。



      做科研路上的 “理性副駕駛”,

      而非 “幽靈寫手”


      RebuttalAgent 的提出,展示了 LLM 在處理高階認知任務,特別是涉及復雜人際博弈和戰略溝通場景的巨大潛力。但 Agent 無法替你完成實驗,也不會憑空捏造數據,模型在訓練之初就刻意剝離了涉及實驗結果生成的指令,杜絕了 “幻覺造假” 的可能。

      • 打破 “新手墻”:對于許多剛踏入學術圈的新手而言,面對犀利甚至尖銳的審稿意見,往往容易陷入恐慌或產生防御性心態。RebuttalAgent 的價值正是在于提供戰略性的建議與實用的技巧,幫助作者克服情緒干擾,理清邏輯脈絡,組織得體的語言。

      • 促進學術交流:論文的核心價值在于 “提升學術對話的清晰度與建設性”。它致力于消除因表達不當或溝通策略缺失而造成的誤解,讓審稿人與作者的對話回歸真理本身,而非陷入情緒對抗或單純的語言技巧博弈。

      RebuttalAgent 本質上是對大語言模型在嚴重信息不對稱條件下戰略說服能力的一次探索性研究。最終的科學判斷與責任,始終掌握在人類作者手中。

      作者介紹:

      何致濤,香港科技大學計算機系博士生,導師 Yi R. (May) Fung。曾在中國科學院自動化研究所、清華大學 AIR、螞蟻集團從事研究,并在 ACL、NeurIPS、COLM、ICLR 等機器學習與自然語言處理頂級會議上發表多篇論文。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      特斯拉的電池革命會殺死寧德時代嗎?買新能源汽車電池選擇很重要

      特斯拉的電池革命會殺死寧德時代嗎?買新能源汽車電池選擇很重要

      趣味萌寵的日常
      2026-02-04 10:03:51
      原來有這么多工作需要保密!網友:犧牲12年的爸爸竟然回來了!

      原來有這么多工作需要保密!網友:犧牲12年的爸爸竟然回來了!

      另子維愛讀史
      2026-01-16 18:29:22
      莫言:你細心觀察一下身邊的人,往往人品越差,就越愛說這幾句話

      莫言:你細心觀察一下身邊的人,往往人品越差,就越愛說這幾句話

      木言觀
      2026-01-02 21:17:41
      “藍衣戰神”確診癌癥,病因曝光:別放縱了,真的會后悔!

      “藍衣戰神”確診癌癥,病因曝光:別放縱了,真的會后悔!

      情感大頭說說
      2026-02-03 18:54:23
      4換7大交易達成!沒想到,他比莫蘭特先離隊!

      4換7大交易達成!沒想到,他比莫蘭特先離隊!

      德譯洋洋
      2026-02-04 12:41:31
      2換2!綠軍一箭雙雕:既得到了空間型內線,又開啟了一項簽人資格

      2換2!綠軍一箭雙雕:既得到了空間型內線,又開啟了一項簽人資格

      移動擋拆
      2026-02-04 07:23:40
      小叔子接26歲寡嫂回家過年,網友齊喊:不如結婚,親上加親!

      小叔子接26歲寡嫂回家過年,網友齊喊:不如結婚,親上加親!

      農村情感故事
      2026-02-01 21:42:54
      官方:費內巴切簽下坎特;此前球員已與吉達聯合解約

      官方:費內巴切簽下坎特;此前球員已與吉達聯合解約

      懂球帝
      2026-02-04 09:02:13
      王樹國:我做了一輩子機器人,也不得不承認王興興做得比我好

      王樹國:我做了一輩子機器人,也不得不承認王興興做得比我好

      新浪財經
      2026-02-03 11:44:29
      牢A命中,被一窩端16人都是女留學生

      牢A命中,被一窩端16人都是女留學生

      雪中風車
      2026-01-28 13:23:54
      醫院直播給女性患者做手術,隱私部位被全程直播!觀看人數超5萬

      醫院直播給女性患者做手術,隱私部位被全程直播!觀看人數超5萬

      火山詩話
      2026-02-03 18:44:11
      從年薪百萬到月入2000,中年夫妻失業的絕境,被這部紀錄片血淋淋地揭開

      從年薪百萬到月入2000,中年夫妻失業的絕境,被這部紀錄片血淋淋地揭開

      閱讀第一
      2026-02-03 08:35:55
      領導是如何看待不卑不亢下屬的?網友:太監遇到完整男人的感覺

      領導是如何看待不卑不亢下屬的?網友:太監遇到完整男人的感覺

      帶你感受人間冷暖
      2026-02-01 06:20:47
      廣州白云機場工作人員集體換漢服火出圈,網友:沒想到安檢也這么有儀式感

      廣州白云機場工作人員集體換漢服火出圈,網友:沒想到安檢也這么有儀式感

      極目新聞
      2026-02-03 18:00:45
      17歲女孩吐槽媽媽洗澡后光著出衛生間:半遮不遮的樣子,很惡心

      17歲女孩吐槽媽媽洗澡后光著出衛生間:半遮不遮的樣子,很惡心

      仙仙先生
      2026-01-27 09:38:41
      官宣!第七筆交易達成,哈登加盟騎士,加蘭遠赴快船!馬刺贏麻了

      官宣!第七筆交易達成,哈登加盟騎士,加蘭遠赴快船!馬刺贏麻了

      體育大朋說
      2026-02-04 09:42:28
      少年天才,卡里克讓15歲的JJ-加布里埃爾加入曼聯一線隊訓練

      少年天才,卡里克讓15歲的JJ-加布里埃爾加入曼聯一線隊訓練

      懂球帝
      2026-02-04 12:24:18
      我們贏了!中方拿下50億噸,價值24000億全球最大鐵礦,澳美礦牌失勢

      我們贏了!中方拿下50億噸,價值24000億全球最大鐵礦,澳美礦牌失勢

      劉曠
      2026-02-03 14:39:57
      聽說老領導出來散步了!

      聽說老領導出來散步了!

      梳子姐
      2026-02-02 16:55:43
      馬斯克徹底搞定大圓柱電池!發布五年終落地,獨家專利破解量產難題

      馬斯克徹底搞定大圓柱電池!發布五年終落地,獨家專利破解量產難題

      車東西
      2026-02-02 18:52:55
      2026-02-04 13:44:49
      機器之心Pro incentive-icons
      機器之心Pro
      專業的人工智能媒體
      12248文章數 142562關注度
      往期回顧 全部

      科技要聞

      太煩人遭投訴!元寶紅包鏈接被微信屏蔽

      頭條要聞

      月銷暴跌至不到50輛 小米SU7 Ultra專屬銷售團隊解散

      頭條要聞

      月銷暴跌至不到50輛 小米SU7 Ultra專屬銷售團隊解散

      體育要聞

      “也許我的一小步,會成為中國足球的一大步”

      娛樂要聞

      姜元來在大S墓碑前哭泣,與具俊曄擁抱

      財經要聞

      35歲入行,先被考證“割韭菜”

      汽車要聞

      全偽裝雪地現身 一汽-大眾純電車型線索曝光

      態度原創

      旅游
      本地
      家居
      游戲
      時尚

      旅游要聞

      白天鵝賓館“故鄉水”新春換“新裝”

      本地新聞

      云游中國|撥開云霧,巫山每幀都是航拍大片

      家居要聞

      灰白意境 光影奏鳴曲

      老牌MMO迎第二春?《激戰2》這次更新為何誠意拉滿?

      狀態比10年前更好,她到底做對了什么?

      無障礙瀏覽 進入關懷版