![]()
來源:中科院物理所
作者:Marianne Freiberger & ChatGPT-5
翻譯:Aegon
審校:virens
原文鏈接:Talking about truth with ChatGPT
我通常會忽略搜索引擎結果頁面頂部出現的 AI 回答。它們以前出過錯,所以我最多也只是把它們當作一種模糊的參考。
不過,蘋果機器學習研究部門的西尼德·威廉姆森(Sinead Williamson)最近在艾薩克·牛頓數學科學研究所(INI)的做了一場報告。他的報告引發了我對“大語言模型(LLMs)與真理之間關系”的興趣,也促成了一次與 ChatGPT 的有趣對話。
你確定嗎?
我從威廉姆森的報告中學到的第一件事是:你可以要求一個大語言模型對自己的回答給出一個“置信度評估”。我在ChatGPT上試了一下,讓它告訴我法國的首都是哪里,并說明它對這個答案有多確定。“巴黎,”它回答說,“我對此完全確定。”嗯,這個結果確實理所當然。
但當我把同樣的問題換成赤道幾內亞時,結果就更有意思了:ChatGPT 只對“馬拉博”(Malabo,赤道幾內亞的首都)這個答案有 99% 的把握。它解釋說,這是因為赤道幾內亞正籌劃將首都從馬拉博遷往“拉巴斯城”(Ciudad de la Paz),因此存在一種可能:遷都已經完成,但ChatGPT 還沒有注意到。
但如果事情的利害關系更大呢?如果我是醫生,希望從大語言模型那里獲得除了本人之外的第二份診斷建議,我會希望它:
a)是正確的;b)或者至少能夠正確評估自己答案的可信程度。
如果是 99% 的置信度,我會感到安心;但如果只有 65%,我就會去請教人類專家。
要理解上述 a)和 b)這兩個問題,有必要先看看大語言模型究竟是如何運作的。顧名思義,大語言模型處理的是“語言”:它們從海量文本中學習統計模式。當一個大語言模型告訴你“赤道幾內亞的首都是馬拉博”時,這是因為它學到,在統計意義上,“馬拉博”極有可能出現在“赤道幾內亞的首都”這句話之后。
問題在于,大語言模型訓練所用的文本是由人類寫成的,而人類會犯錯。如果某個錯誤的說法在訓練數據中頻繁出現,模型就可能將這個錯誤延續下去。我讓 ChatGPT 舉個例子,它給了我這樣一個問題:“澳大利亞的首都是哪里?” 一個常見的誤解是認為首都是悉尼。如果這種錯誤在訓練數據中反復出現,模型就可能給出錯誤答案,或者即便給出正確答案(堪培拉),也會表現出比實際合理程度更高的不確定性。(這只是一個簡化的例子。任何“有自尊”的大語言模型都知道各國首都,后文會再提。)
讓人類來把關
因此,僅僅模仿文本的統計規律(也就是生成“流暢”的語言)并不足夠。這種訓練方式教會模型去說那些“聽起來像是真的”,而不是“確實是對的”的話。 這種對流暢性的學習發生在所謂的“預訓練”階段。我問 ChatGPT:在預訓練之后,還使用了哪些方法來提高模型的準確性。為了確認,我反復問了同一個問題,結果卻令人困惑——我得到了多種不同的回答。這恰恰說明:大語言模型本質上是概率性的。
不過,有兩種方法在我得到的每一個回答中都出現了。我將這一點視為它們重要性的體現,并對其進行了進一步了解。第一種方法稱為監督微調(supervised fine-tuning,簡稱 SFT)。在這一過程中,人類首先為大量可能的輸入提示配對“理想輸出”。我讓 ChatGPT 舉一個這樣的配對示例,它給出了如下內容:
輸入(提示):“用簡單的語言解釋引力是如何起作用的。” 輸出(理想答案):“引力是一種使物體相互吸引的力。”
在預訓練階段(模型在這一階段學習如何生成流暢的語言)之后,這些“理想輸入–輸出”配對會被用于對模型進行進一步訓練。粗略地說,模型會生成自己的輸出,隨后由算法衡量這些輸出與理想答案之間的差異,模型再通過調整內部參數來最小化這種差異(更準確地說,是最小化一個損失函數)。通過大量這樣的訓練樣本,模型內部的概率分布會被逐步調整,使得那些被理想輸入–輸出配對標記為“正確”的回答,在統計意義上變得更有可能被生成。
在 SFT 之后,ChatGPT 還向我介紹了第二種方法,稱為基于人類反饋的強化學習(reinforcement learning with human feedback,簡稱 RLHF)。在這一過程中,人類會與模型互動,并對模型生成的成千上萬、甚至上百萬條輸出進行評分。利用這些評分數據,會訓練出一個獎勵模型,用于預測人類偏好:在給定一個提示和一個回答的情況下,它會輸出一個分數,反映人類偏好該回答的可能性。隨后,這個獎勵模型會通過所謂的“強化學習”機制,用于對原始模型進行微調:原始模型生成輸出,獎勵模型對其打分,原始模型再更新自身的內部參數,以最大化獲得的獎勵。
經過大量這樣的訓練,大語言模型逐漸學會生成那些人類會給予高評分的輸出。這有助于模型與人類價值觀保持一致。而既然“真實性”很可能正是這些價值觀之一,那么這種方法也就有助于模型在事實性問題上給出更準確的答案。
看到在人類輸入不僅在這兩種方法中至關重要,而且在 ChatGPT 提到的其他一些(盡管并非全部)提升準確性的技術中同樣如此,我既感到寬慰,又不免有些失望。(其中有一種我特別喜歡的方法,稱為紅隊測試。在這種方法中,人類充當“對手”,刻意設法讓模型出錯,從而發現并修復其弱點。)
在了解了這些方法之后,我接著詢問 ChatGPT 自身的準確性。經過一番來回討論,它給出了如下回答:
![]()
從chatGPT獲取的截圖
你有多確定?
這就引出了前文中的第 b)點:我們能否信任 ChatGPT 對自身準確性的評估?大語言模型在判斷自身不確定性方面,到底表現如何?這個問題與“模型本身有多準確”并不相同。一種可能是:模型經常出錯,但卻能夠準確地表達自己出錯的概率。另一種可能則是:模型大多數時候是對的,但卻錯誤地評估了自己正確的概率。
如果一個模型善于判斷自身的置信度,那么就稱它具有良好的校準性。粗略來說,這意味著:如果你向模型提出大量問題,而模型對這些回答都表示自己有 x% 的把握,那么最終大約應有 x% 的回答確實是正確的。
我問 ChatGPT 自己是否具有良好的校準性,它的回答是:“大體上是的,但并不完美。” 隨后,它進一步拆解了這個回答,與前面對自身準確性的描述相呼應:
![]()
從chatGPT獲取的截圖
這倒也說得通——無論是人類還是人工智能,在預測未來時,我都不會指望它們具有很高的確定性。
但問題在于,大語言模型究竟是如何給出這樣的置信度估計的?比如,它在判斷赤道幾內亞首都是馬拉博時所給出的 99%。起初我以為,這只是模型內部概率的直接體現:也就是說,在預訓練過程中,當模型見到“赤道幾內亞的首都是”這句話時,有 99% 的情況下接下來出現的都是“馬拉博”,或是類似這樣的機制。
但 ChatGPT 告訴我,這種理解是錯誤的。它表示,這個 99% 是一種定性的估計,基于它所稱的“推理”(reasoning)過程得出:
![]()
從chatGPT獲取的截圖
然而,即便是這種“推理”過程,其根本仍然建立在訓練數據中所蘊含的統計模式之上。我就這一點向 ChatGPT 進一步追問,它也確認了這一結論。
![]()
從chatGPT獲取的截圖
鑒于 ChatGPT 的一切行為都建立在統計模式之上,它居然具有如此良好的校準性,著實讓我感到驚訝。Williamson 在 INI 的報告中也證實,總體而言,大語言模型具有良好的校準性——它們在評估自身輸出的置信度方面表現得相當不錯。Williamson 還表示,她正與同事們一起研究這一現象背后的原因,相關研究成果將于不久后發表。
但如果你所關心的信息更加復雜,又會怎樣呢?總體而言,大語言模型是否能夠用語言準確概括其內部所包含的完整概率分布?Williamson 及其同事在一篇最新論文中研究了這一問題——而他們給出的答案是一個斷然的“不”。
他們寫道:“現代的大語言模型在整體上都無法揭示自身究竟在哪些方面存在不確定性——無論是通過推理、思維鏈,還是通過顯式微調,都做不到。”他們還進一步指出:“模型的輸出或許表面上采用了總結式的格式,但其中提到的只是隨便某種可能性,而非大語言模型真正‘相信’的那些可能性。”
大語言模型無法總結自身真正“相信”的內容,這一點令人頗感震驚。不過,Williamson 及其同事也發現,存在一些相對簡單的方法,可以幫助大語言模型在這一方面取得改進,因此未來的研究方向也相當清晰。他們寫道:“我們預計,從自我反思(SelfReflect)基準指標出發,相關研究將取得進一步進展,從而解鎖更加誠實、也更值得信賴的大語言模型的交互過程。”如果你希望了解更多細節,可以參閱他們的論文。
至此,我決定結束這次關于真理、不確定性以及大語言模型的探究。我曾詢問 ChatGPT 這篇文章是否準確,并根據它的反饋做了一些修改;但與此同時,我也同樣按照自己一貫的標準,采用傳統的研究方法進行了核查。至少在目前,我仍然沒有準備好完全信任 ChatGPT。
閱讀最新前沿科技趨勢報告,請訪問歐米伽研究所的“未來知識庫”
https://wx.zsxq.com/group/454854145828
![]()
未來知識庫是“ 歐米伽 未來研究所”建立的在線知識庫平臺,收藏的資料范圍包括人工智能、腦科學、互聯網、超級智能,數智大腦、能源、軍事、經濟、人類風險等等領域的前沿進展與未來趨勢。目前擁有超過8000篇重要資料。每周更新不少于100篇世界范圍最新研究資料。 歡迎掃描二維碼或訪問https://wx.zsxq.com/group/454854145828進入。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.