大數據文摘受權轉載自學術頭條
整理:瀟瀟
大語言模型(LLM)普遍存在幻覺問題,即生成與客觀事實不符的內容。針對這一問題,已有多種抑制幻覺的技術被提出。
在科研活動中,創造力是提出科學假設與構建科學構想的關鍵要素。隨著 LLM 日益深入科研輔助工作中,這種依賴非常規聯想的創造性思維在表現形式上往往與模型幻覺相似。
然而,抑制幻覺的技術是否會削弱模型的創造力,業內仍缺乏系統性認知。
基于此,南洋理工大學研究團隊運用兩個創造力測評基準,對抑制幻覺方法與模型創造力之間的關系進行了研究,為科學應用場景中如何選擇合適的抑制幻覺技術提供了重要參考。
![]()
論文鏈接:https://arxiv.org/pdf/2512.11509
他們選取了兩個創造力評測基準。
NeoCoder,通過逐步增加約束條件的編程任務來評估模型的創造力,其高度規則化的任務環境可類比于在固定自然規律約束下開展的科學實驗。
CS4,聚焦于開放式故事生成,更強調發散性聯想與想象能力,貼近科學假設生成所需的創造性思維過程。
在兩個基準測試上,他們對三種抑制幻覺技術進行系統評估,包括:驗證鏈(CoVe)、對比層解碼(DoLa)和檢索增強生成(RAG)。
![]()
圖|實驗框架示意圖
CoVe提升發散性創造力
實驗結果顯示,CoVe 能顯著提升大模型的發散性創造力,也就是讓模型在思考問題時產生更多新穎、多樣的答案。
在不同模型與基準上的實驗中,CoVe 整體表現穩定,尤其在某些小模型上提升更為明顯。
這說明,CoVe 通過引入“驗證—質詢”式的解碼過程,引導模型探索更多潛在推理路徑,而不是沿著單一方向快速得出結論。
CoVe 的效果不僅體現在性能指標上,也體現出類人的發散思維訓練的價值,通過持續發問與多方向思考,有助于打破思維定勢,刺激“頭腦風暴式”的創意思考。
![]()
圖|解碼方法對發散性創造力的影響(NeoCoder)
RAG對發散性創造力影響有限
另一邊,RAG 對模型的發散性創造力基本沒有實質影響。無論是在不同模型規模還是不同基準上,RAG 的結果都僅呈現出輕微且隨機的波動,整體圍繞基線上下浮動。
但研究團隊也解釋了潛在可能,如果檢索系統能提供模型訓練之外的策略或新鮮知識,RAG 可能在創造性上發揮積極作用。例如,高質量檢索內容可幫助模型提升事實性判斷,這一能力與創造力趨同,同時還可能通過引入新視角來激發新思路,提高發散性創造力。
![]()
圖|解碼方法對發散創造力的影響(CS4)
DoLa抑制發散性創造力
與上述兩種技術相反,DoLa 會系統性降低模型的發散性創造力。在兩個基準上,基于 DoLa 的大多數模型的表現均略低于基線,這表明,創造力下降來自 DoLa 本身,而非模型結構差異。
研究團隊推測,DoLa 削弱了負責創造力的層級結構。DoLa 的機制是通過將早期層預測從后期層預測中相減以提升事實性,如果早期層包含更多探索性與發散性特征,那么對其進行對比運算時,就可能抹除創造生成所需的信息。
進一步實驗顯示,通過在解碼時增強與創造力相關的層級、抑制負相關層級,可以在不損害趨同創造力的前提下提升發散性創造力。這說明兩類創造力可能是可分離的,未來可針對性地提升發散性創造潛力。
![]()
圖|通過增強與創造力正相關的層級并抑制與創造力負相關的層級來提升發散創造力
局限性
當然,這項研究也存在一定的局限性。
第一,創造力評估具有局限性。實驗只能間接衡量科學假設生成能力,并不等同真實科研中的創造力表現,所以結果的外推性有限。
第二,CoVe 機制解釋不足。雖然 CoVe 能提升發散創造力,但沒做消融實驗,也沒有揭示具體機制,因此無法確定其發揮作用的因果路徑。
第三,RAG 結論不夠穩固。關于 RAG 對創造力影響弱的解釋,缺乏對檢索質量和不同檢索策略的測量,因此結論需要更系統驗證。
隨著 LLM 變得越來越聰明,釋放它們在科學發現方面的潛力變得越來越重要。展望未來,研究人員希望 LLM 不僅是被動的工具,更能成為科研工作中的積極協作者。
GPU 訓練特惠!
H100/H200 GPU算力按秒計費,平均節省開支30%以上!
掃碼了解詳情?
點「贊」的人都變好看了哦!
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.