![]()
![]()
編輯|張倩、陳陳
過去兩年,大模型的推理能力出現了一次明顯的躍遷。在數學、邏輯、多步規劃等復雜任務上,推理模型如 OpenAI 的 o 系列、DeepSeek-R1、QwQ-32B,開始穩定拉開與傳統指令微調模型的差距。直觀來看,它們似乎只是思考得更久了:更長的 Chain-of-Thought、更高的 test-time compute,成為最常被引用的解釋。
但如果把問題繼續往深處追問:推理能力的本質,真的只是多算幾步嗎?
谷歌、芝加哥大學等機構的研究者最近發表的一篇論文給出了一個更具結構性的答案,推理能力的提升并非僅源于計算步數的增加,而是來自模型在推理過程中隱式模擬了一種復雜的、類多智能體的交互結構,他們稱之為「思維社會」(society of thought)。
簡單理解就是,這項研究發現,為了解決難題,推理模型有時會模擬不同角色之間的內部對話,就像他們數字大腦中的辯論隊一樣。他們爭論、糾正對方、表達驚訝,并調和不同觀點以達成正確答案。人類智能很可能是因為社交互動而進化的,而類似的直覺似乎也適用于人工智能!
![]()
通過對推理輸出進行分類,以及結合作用于推理軌跡的機制可解釋性方法,研究發現,諸如 DeepSeek-R1 和 QwQ-32B 等推理模型,相較于基線模型和僅進行指令微調的模型,展現出顯著更高的視角多樣性。在推理過程中,它們會激活更廣泛、異質性更強的、與人格和專業知識相關的特征,并在這些特征之間產生更充分的沖突。
這種類多智能體的內部結構具體表現為一系列對話式行為,包括提問 — 回答序列、視角切換以及對沖突觀點的整合;同時還體現在刻畫激烈往返互動的社會情緒角色之中。這些行為通過直接與間接兩種路徑,共同促進了關鍵認知策略的運作,從而解釋了推理任務中準確率優勢的來源。
進一步的受控強化學習實驗顯示,即便僅以推理準確率作為獎勵信號,基礎模型也會自發地增加對話式行為;而在訓練中引入對話式腳手架(conversational scaffolding),相較于未微調的基礎模型以及采用獨白式推理微調的模型,能夠顯著加速推理能力的提升。
這些結果表明,思維的社會化組織形式有助于對解空間進行更高效的探索。谷歌認為,推理模型在計算層面建立了一種與人類群體中的集體智能相對應的機制:在結構化的條件下,多樣性能夠帶來更優的問題求解能力。
基于此,谷歌提出了通過智能體組織形式來系統性利用「群體智慧」的新研究方向。
![]()
論文地址:https://arxiv.org/pdf/2601.10825
同時,這一研究也給社區提供了一些啟發。
![]()
方法概覽
對話行為
本研究采用以 Gemini-2.5-Pro 模型作為評估器的方法,從推理軌跡中識別出四類對話行為:
1. 問答行為:指對話中先提出問題后給出回答的語列,例如「為什么……?因為……」「倘若…… 會怎樣?那么……」
2. 視角轉換:指對話過程中切換至新的想法、觀點、假設或分析方法的行為。
3. 觀點沖突:指表達出與其他觀點不一致、糾正對方觀點或觀點間存在矛盾張力的情況,例如「等等,這肯定不對……」「這與…… 相矛盾」。
4. 觀點調和:指將存在沖突的觀點整合或梳理為連貫結論的情形,例如 「因此,若滿足…… 條件,或許兩種觀點都成立」「結合這些見解……」以及「這就化解了觀點間的矛盾……」
針對每條推理軌跡,大語言模型評估器會統計各類會話行為的獨立出現次數,輸出整數計數結果(無對應行為時計為 0)。
在這四類會話行為的標注上,Gemini-2.5-Pro 與 GPT-5.2 的結果展現出高度一致性。此外,Gemini-2.5-Pro 的標注結果與人工評分也具有一致性。
社會情感角色
本研究基于 Bales 互動過程分析(IPA)框架,對推理軌跡中社會情感角色的呈現情況展開分析。該框架將話語劃分為 12 種互動角色類型,每種類型均在提示詞中通過具體行為描述進行操作性定義。以 Gemini-2.5-Pro 模型構建的 LLM-as-judge 評估器,會分別統計這 12 類角色的獨立出現次數;在核心分析環節,作者將這些統計結果進一步歸總為四大高階類別,具體如下:
- 信息給予類角色:包括提出建議、表達觀點、提供導向。
- 信息征詢類角色,包括征詢建議、征詢觀點、征詢導向。
- 積極情感類角色,包括展現團結、釋放緊張、表示認同。
- 消極情感類角色,包括表現對抗、顯露緊張、表示異議。
在核心分析采用的四大高階 IPA 類別中,評分者間信度均達到較高水平。
為衡量推理軌跡中社會情感角色是否存在交互共現特征,作者針對兩組角色組合計算 Jaccard 指數。該指數用于衡量模型是否會在同一條推理軌跡中協調互補性角色,而非孤立地使用單一角色。Jaccard 指數越高,代表模型的互動模式越均衡、趨近于對話形態;指數越低,則說明其推理過程更偏向單向、獨白式的表達。
認知行為
本研究采用 Gemini-2.5-Pro 作為 LLM-as-judge 評估器,識別出四類此前已被證實對語言模型推理準確率存在影響的認知行為。
在測量環節,作者沿用了 Gandhi 等人使用的提示詞與示例,該套材料的有效性已通過多名人工評分者驗證。每類認知行為均在提示詞中附帶具體示例,以操作性定義的方式指導標注工作,具體如下:
- 結果核驗:指推理鏈中明確將當前推導結果與目標答案進行比對的情形。提示詞中給出的典型示例包括:「該推導過程得出結果 1,與目標值 22 不符」「由于計算結果 25 不等于目標值 22」。
- 路徑回溯:指模型意識到當前推理路徑無法得到正確結果,進而明確返回并嘗試其他方法的情形。
- 子目標拆解:指模型將原問題分解為若干更小、可分步完成的中間目標的情形。
- 逆向推理:指模型從目標答案出發,反向推導至初始問題的情形。
在這四類認知推理行為的標注上,Gemini-2.5-Pro 與 GPT-5.2 的一致性處于良好至極佳區間。Gemini-2.5-Pro 的標注結果與人工評分也呈現出高度一致性。
上述信度評估的計算基于兩類推理軌跡樣本:一類是用于解決通用推理問題的 30 條推理軌跡,另一類是 Qwen-2.5-3B 模型在強化學習過程中生成的 50 條推理軌跡。
特征干預
為探究會話行為在推理過程中發揮的作用,作者采用稀疏自編碼器(SAE),對模型激活空間內具有可解釋性的特征進行識別與操控。稀疏自編碼器可將神經網絡的激活值分解為一組稀疏的線性特征,從而能夠在不修改模型權重的前提下,對特定行為維度實施定向干預。本研究使用的稀疏自編碼器,基于 DeepSeek-R1-Llama-8B 模型第 15 層的殘差流激活值訓練得到。
從候選特征中,作者最終選定了特征 30939。經大語言模型評估器歸納,該特征的定義為「用于表達驚訝、頓悟或認同的話語標記」。在涉及話輪轉換與社交互動的語境中,當出現「Oh!」這類 token 時,該特征會被激活。特征 30939 的會話占比為 65.7%(在所有特征中處于第 99 百分位),同時具備高度稀疏性(僅在 0.016% 的 token 上激活),這表明該特征是會話現象所特有的,而非適用于通用語言模式的特征。
在文本生成階段,作者通過激活值添加法對特征 30939 進行調控:在每個 token 的生成步驟中,將該特征的解碼器向量按調控強度系數 s 進行縮放后,疊加至模型第 15 層的殘差流激活值中。
實驗結果
先說主要結論,本文證明了,即便在推理軌跡長度相近的條件下,推理模型依然表現出更高頻率的對話式行為和社會情緒角色。
對話行為和社會情感角色
DeepSeek-R1 的推理過程中明顯出現了視角切換和觀點沖突,并通過諸如「不同意」「給出觀點」「提供解釋」等社會情緒角色加以體現,例如:「但這里是環己 - 1,3 - 二烯,而不是苯。」「另一種可能是高溫會導致酮失去 CO 之類的反應,但不太可能。」
相比之下,DeepSeek-V3 在同一問題上的推理軌跡中,既沒有視角沖突,也沒有視角切換,更不存在分歧表達,只是以單線獨白的方式連續給出觀點和解釋,且缺乏自我修正,缺少不完整的推理。
在一個創造性句子改寫任務中,DeepSeek-R1 同樣通過視角沖突展開不同寫作風格之間的討論,并伴隨「不同意」「提出建議」等社會情緒角色,例如:「但那樣加入了‘根深蒂固’,原句里并沒有,我們應該避免添加新想法。」「等等,那不是一個詞。」「不過要注意,‘cast’ 的力度不如 ‘flung’,所以我們用 ‘hurled’ 更合適。」
而 DeepSeek-V3 幾乎沒有出現沖突或分歧,只是給出若干建議,缺乏 DeepSeek-R1 中那種反復比較、逐步修正的過程。
![]()
如圖 1a 結果表明,DeepSeek-R1 和 QwQ-32B 的對話式行為出現頻率顯著高于各類指令微調模型。與 DeepSeek-V3 相比,DeepSeek-R1 在提問 — 回答(=0.345)、視角切換(=0.213)以及整合與調和(=0.191)方面均顯著更頻繁。QwQ-32B 相對于 Qwen-2.5-32B-IT 也呈現出高度一致的趨勢,在提問 — 回答、視角切換、視角沖突和整合行為上均顯著更多。值得注意的是,無論模型參數規模大小(8B、32B、70B 或 671B),所有指令微調模型的對話式行為出現頻率都始終處于較低水平。
如圖 1b 所示,與對應的指令微調模型相比,DeepSeek-R1 和 QwQ-32B 均展現出更具互惠性的社會情緒角色結構:它們既會提出問題、請求指引、意見和建議,也會給予回應,同時還表現出負向與正向的情緒角色。
指令微調模型主要以單向方式給出指引、觀點和建議,幾乎不進行反向提問,也缺乏情緒層面的互動,其推理過程更像是一段獨白,而非對話的模擬。
本文進一步使用 Jaccard 指數來量化社會情緒角色的互惠平衡性。表明,DeepSeek-R1 在推理過程中更傾向于以互相協調的方式組織不同角色,而不是將它們孤立地、零散地使用。QwQ-32B 相對于 Qwen-2.5-32B-IT 也表現出一致的趨勢。
進一步考察發現,當 DeepSeek-R1 面對更高難度的問題時,對話式行為和社會情緒角色會更加明顯。
例如,在復雜度最高的任務中,如研究生水平的科學推理(GPQA)以及高難度數學題,模型展現出非常明顯的對話特征;而在布爾表達式、基礎邏輯推理等較為簡單、程序化的任務中,對話行為則非常有限。
對話特征引導可提升推理準確率
在觀察到推理軌跡中廣泛存在對話式行為之后,作者進一步提出一個問題:這些與對話相關的行為,是否真的有助于提升模型的推理表現?
具體實驗選用了 Countdown 游戲,如圖 2b 所示,對對話式驚訝特征進行正向引導(+10),會使 Countdown 任務的準確率從 27.1% 提升至 54.8%,幾乎翻倍;而進行負向引導(?10)則會將準確率降低至 23.8%。
當引導強度從 0 增加到 +10 時,四類對話式行為均顯著增強;相反,當引導強度從 0 降至 ?10 時,這些對話行為會被系統性抑制。
![]()
例如,擴展數據表 1 所示,正向引導(+10)會誘發模型在推理過程中主動質疑先前的解法(如「等等,讓我再看看…… 另一個思路是……」),體現出明顯的視角切換和觀點沖突;而負向引導(?10)則會生成相對平鋪直敘的推理文本,缺乏內部討論和自我辯論的過程。
![]()
綜合來看,這些發現表明:對話特征通過兩條路徑提升推理能力:一方面,它們直接幫助模型更有效地探索解空間;另一方面,它們通過腳手架式地支持驗證、回溯和子目標分解等認知策略,推動系統性的問題求解過程。
強化學習實驗
為進一步檢驗:當只獎勵正確答案時,大模型是否會自發強化對話式行為,為此,作者設計并實施了一項自教式強化學習(self-taught RL)實驗。結果顯示對話式結構本身,能夠在強化學習過程中促進推理策略的自發涌現與加速形成。
![]()
了解更多內容,請參考原論文。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.