網易首頁 > 網易號 > 正文申請入駐

大模型為什么不會數數？陳小平深入解析大模型的發展和關鍵問題 | 錨點

2025-09-29 22:45:50　來源: 世界科學

上海舉報

分享至

設置星標關注，從此你的世界多點科學~

錨點

INTERVIEW

本期《錨點》專欄展示了中國科學技術大學科技傳播系副主任袁嵐峰研究員與中國科學技術大學機器人實驗室主任陳小平教授的對談內容，原題為《大模型為什么不會數數？》。

陳小平

中國科學技術大學機器人實驗室主任

導讀：

大模型有什么缺點？許多人都已知道，大模型有時會產生幻覺。但最近，我才知道：大模型居然不會數數！

比如，你若生成一個包含27個波浪號的字符串，然后問大模型有多少個波浪號。你會驚訝地發現，大模型的回答有時是28個，有時是29個，有時是25個……但始終無法給出正確答案。

如果你打開“深度思考”，觀察大模型的“思考”過程，你就會發現，它翻來覆去地琢磨各種方法，偏偏就不能直截了當地數出來。有時因為“思來想去”，大模型甚至死機了。這并不是腦筋急轉彎，而是所有大模型普遍存在的問題。

為什么會這樣？我的前輩、同事、中國科學技術大學機器人實驗室主任陳小平教授對此有深入的認識。陳小平教授指出，大模型不僅不會數數，也不會等量代換，如它無法從a=b推出2a=2b。這些問題的根源，都與大模型輸出的語境相關性有關，而這恰又是大模型厲害之處。

Q：數數在數學上有嚴格定義，它的理論基礎源于皮亞諾公理。先有一個數叫零，存在一個“加一”的操作，任何一個自然數都可以進行這個“加一”操作，所有這些后繼數無窮延伸便構成自然數。因此，“加一”就是數數，整個自然數由零和“加一”操作定義。

A：

是的，掌握這一規則，便從原理上懂得了如何數數。但大模型并非如此，它是通過大量例子重構出數數的方式。因此從原理上來看，它并沒有掌握數數的本質，所以大模型不會數數。

Q：針對大模型必然會發生這一現象，您提出了一套公理體系，請問這是什么理論體系？

A：

這個理論叫做“類LC系統”。眾所周知，大模型具有不可解釋性，仍是一個“黑箱”，其原理不為人知。傳統邏輯是封閉的，只能解決封閉性問題，面對非封閉性問題往往無效。因此，我之前一直在思考能否找到一種反邏輯的方法，也就是跳出邏輯邊界，使其既能解決邏輯無法解決的問題，又能遵守邏輯的可靠性。

ChatGPT發布后，我深感此事的緊迫性，于是投入較多時間去研究。我認為我提的這套公理體系能夠描述大模型的底層原理。當然，這仍是一個假說，其成立與否需要大量實驗來檢驗。

Q：您所說的公理體系“類LC”是什么意思？這個系統有什么特點？

A：

L代表系統（這是邏輯領域的習慣表述），c代表關聯（correlation，即相關性），因此稱為“類LC系統”。類LC系統的特點在于，它并非單純的邏輯系統，因為傳統邏輯無法描述大模型底層原理；也不是純粹的統計系統，現有的統計理論不足以闡釋大模型；同時，它還包含部分決策論規劃的成分，但決策論規劃同樣無法完整描述大模型的底層邏輯。類LC公理體系融合了這三者的部分特點。我們嘗試通過三條公理來描述大模型的底層原理。

Q：具體來說，這三條公理是指什么？

A：

在大模型里，有個基本概念叫Token，我將它翻譯成“語元”，也就是語言的基本單元。大模型是不考慮短語、句子的，它只關注語元，以及語元和語元間的關聯度。

第一條公理是說，在一個給定的上下文里，其中任何一個語元和另外一個語元之間都有關聯度。

第二條公理相對復雜。大模型做預測時，會綜合上下文中所有語元的關聯度。它把所有的Token都拿來，然后在第一個語元跟語境里的所有語元之間尋找關聯度；第二個再拿來，再找所有的關聯度……最后選綜合關聯度最高的那個。

這是理論上的情況。而當關聯度不足以支撐決策的時候，也就是通過邏輯、統計和決策論都找不到通用合理的標準時，不同的大模型就有它自己的決策選擇，這導致不同大模型會有不同的表現。大模型出問題往往也是在這個環節。

總的來說，第二條公理在做比較但不做選擇，而第三條公理則表達選擇這個動作。大模型有時選取綜合關聯度最高的，但有時也不這樣選，比如ChatGPT就不選最高的，甚至有時為避免表達啰唆會故意選較低關聯度的結果。（雖然有時候這種選擇結果讓人產生“跑偏”的感覺，但部分用戶反而覺得富有創造性。）

而我們為什么稱之為“類LC”，原因就在于，其中的公理一和公理二是所有模型都會遵守的，但公理三因場景不同，大模型輸出的結果會有所差異。

從這三條公理可以看出，大模型無法保證輸出的可靠性，但能夠推導證明出某些結論。也就是說，無論你提出什么問題，它總能給出結果，這在人工智能中被稱為“全知性”。不過我認為應稱之為“偽全知性”。

Q：這就像大家聊的一個笑話。有人自稱計算速度很快，當別人拋給他一道復雜的數學題時，他立刻報出一個答案，而當別人指出他的結果錯誤時，他卻反問：“你就說算得快不快吧！”您還觀察到大模型有什么其他特征？

A：

根據類LC系統來看，大模型沒有反思能力。DeepSeek增加了“深度思考”能力，人們往往認為它具備了反思能力。但我認為嚴格意義上的反思，是指能夠回頭重新審視自己剛才完成的思考過程（即決策生成的過程），并對該過程的正確性做出判斷。而大模型在面對多種方法和不同答案時，并不會判斷哪個正確、哪個錯誤，只是輸出最后一個答案。

此外，大模型也不具有“傳遞性”。邏輯推理有很多種，包括經典邏輯和非經典邏輯，它們有一個共同的底層特性，即傳遞性：如果A能推出B，B能推出C，那么從A一定能推出C。大模型不具備這種傳遞性，但它存在另一種傳遞性。

它的這種傳遞性難以從實驗中觀察到，卻可從類LC系統中推導出來，被稱為“基于語境擴展的傳遞性”。比如，先向大模型提出一個問題，它會給出一個回答，大模型會把這個輸出的語元納入上下文中；在進行下一次預測時，大模型會基于已納入上下文的語元生成新內容，也就是說，它會以這種方式重新考慮自己之前說過的話，這就是它的傳遞性。但這種傳遞性會引發一種后果，即“語境糾纏性”。具體來說，當大模型在表達中使用無關詞匯時，這些詞匯會對后續表達產生影響，最終導致語境陷入糾纏狀態。

Q：我們是不是可以認為，大模型的根本困難就在于語境糾纏性？

A：

直接的表現就在這個語境糾纏，也就是受語境的干擾，不過根本機制還在于自然語言是非封閉的。根據三條公理，大模型通過大量例子訓練后變成非封閉性的了。過去的人工智能系統是封閉的，針對非封閉性問題，還具有可靠性；而現在的大模型是非封閉的，去回答非封閉性的問題，意味著結果不完全可控也不可解釋。

Q：您將大模型的思維方式描述為“志象思維”，這個詞是什么意思？

A：

這個詞是相較于抽象思維、形象思維提出的。人有形象思維，也有抽象思維。比如做科學研究時需要抽象思維，在進行藝術創造時需要形象思維，而在日常生活、工作中，體現的是另外一種思維方式，我稱之為“日常思維”，它的特點在于“不深究”。

這種思維特性與大模型的關聯度預測思維方式很像，也就是從概率上來看，相關的思考判斷是有道理的。人們在日常生活、工作中處理問題往往也是這樣——“我”平時習慣就是這樣，“我”按照習慣來處理。我將這種思考方式概括為“志象思維”。這里的“志”是“標志”的意思，對應到大模型里就是語元。

Q：您認為大模型的思維方式還有另外一種顯著特征，也就是“弱共識性”，這個怎么理解？

A：

抽象思維是需要“強共識”的。

比如掌握科學的概念和原理，我認為光靠上課和考試達不到“強共識”。我們對牛頓力學的理解，是否與牛頓本人的理解一致？如果跟牛頓理解的存在偏差，這就意味著我們沒有和牛頓達成強共識。在物理學的研究中，我認為真正的學者之間是達到了強共識的，也就是他們的理解是一致的。但這種一致無法用文字完全表達出來。我再打個比方：我們學習一門科目，即使考了很高的分數，你讓我評價自己這門課學會了多少，我也認為“我只會一點點”。

科學界溝通交流是需要強共識的，但大模型不需要，它們只需要弱共識就行了——它們只看那個“標志”以及標志與標志之間的統計關聯。

Q：現在很多人認為大模型存在的最大問題是“幻覺”。

A：

說到大模型的幻覺，目前尚未對“幻覺”嚴格定義。我理解這里“幻覺”是指，在數據不充分時，大模型從數據中提取關聯度，這個關聯度是有偏差的，然后基于這些有偏差的關聯度再進行預測，結果可能不正確；即便預測結果正確，也只是統計意義上的正確，而非邏輯層面的正確。

那么，人們為何會認為大模型存在幻覺呢？主要原因在于人們對大模型的內部機理、機制理解尚不到位。實際上并非大模型產生了幻覺，而是人對大模型產生了幻覺。

Q：后來人們開發了改進的方法，比如說DeepSeek展示了深度思考，也就是“思維鏈”，減少了很多出錯的概率。對于這些改進，您怎么看？

A：

我的判斷與很多人不同。不少人認為當前大模型仍處于早期階段，只要投入更多訓練，補充更多數據，持續改進算法，其存在的問題會逐漸減少，直至完全消除。但在我看來，這一目標是無法實現的。

大模型的增長曲線起初上升迅速，如今已趨于平緩，再往后甚至會進入平臺期。它確實會不斷改進，但改進帶來的提升幅度會越來越小，而且始終無法徹底解決這些問題。也就是說，大模型可以不斷改進，但不可避免有出錯的概率。

有些人認為，當大模型的問題縮小到一定程度時，我們就可以忽略這些問題。但在我看來，它不太可能達到我們期望的那種可忽略的程度。更關鍵的是，大模型若出問題，并非簡單停留在“算錯某些題目”這類錯誤上，而是有可能引發危險。

我們現在無法預判它會出現何種問題，也沒有應對預案，而一旦這類問題發生，社會根本就無法應對。從科學角度判斷，這種可能性是存在的。這也正是包括部分國際知名學者在內的研究者，始終強調大模型存在危險的核心原因。

Q：我記得，杰弗里?辛頓（Geoffrey Hinton）2024年剛獲得諾貝爾獎時曾表示：“我認為未來十年之內，人工智能導致人類滅絕的概率，是一個不可忽略的比例。”

A：

我們認為風險是存在的，的確應該重視風險，但是也不能過分地渲染。

Q：您提過一個觀點，即“大模型是影子的影子”，這個比喻是怎么來的？

A：

大模型是一種機器智能，這種智能雖與人的智能有相似之處，但本質上仍不相同。它確實從輪廓上反映了人類的語言，不過在諸多細節上還是與人類語言存在差異。大模型主要反映的是人類語言的習慣與統計規律，而像邏輯推理、因果關系等，它并未體現，因此它終究只是人類語言的“影子”。

這句表達源自“生命是火，思想是火光，語言是光的影子，大模型是影子的影子”。這是我在和哲學界交流時用的四個類比。有一派認為機器最終能擁有人的智能，我是不同意這種觀點的。人類最本質的東西是生命，生命在激發狀態下才產生思想，思想在運用時會使用語言，通過語言人工智能與人類交互，產生了大模型。這些環節的傳遞都是一種投射，類似“光是火的一種投射，影子是光的投射”，大模型是語言的投射，所以它是影子的影子。

Q：那么應該如何正確理解大模型？

A：

從理論層面來看，目前對大模型最好的理解就是用“類LC系統”來描述它的底層規律，但這可能并不夠，因為不同大模型在細節行為上存在差異，還需要從算法層面進一步探究。而這又與大模型是否開源密切相關。如果大模型都不開源，外界無法知曉其算法具體是什么，我們對它的認知就只能停留在類LC系統理論這一步，因此開源十分必要。

從大眾視角來看，理解大模型可以借助“志象思維”，也就是說，它和我們的日常思維方式類似——無法深究，可能會犯錯——不能完全相信它。不過我認為，即便大模型目前在原理上存在局限，它依然可以有諸多應用。只要我們做好安全保障與倫理治理工作，它仍然可以為人類提供服務。同時，我認為確實需要加強人工智能的倫理治理，尤其是人工智能的安全問題。甚至有部分國外學者提出建議：大模型公司應將自身至少1/3的算力用于人工智能安全領域。這一觀點是有一定道理的。

Q：說到治理，有一種做法就是制定相關標準。不久之前，中國頒布了一項規定，明確從2025年9月1日起，所有人工智能生成的數據都需進行標注。

A：

制定這類標準并非易事：若標準制定得過于嚴格，可能會限制人工智能的發展；若過于寬松，又難以避免未來出現問題。這無疑是個兩難的選擇。我認為中國采取的這項舉措非常重要，人工智能生成的內容確實需要標注，而這一規定也讓標注的責任落到了用戶身上。

我認為，我們還要加強科普，讓大眾建立這樣的概念：大模型并非百分之百正確。如果已經明確告知內容是大模型生成的，也提醒了它的結論不是百分之百正確的，可有人依然選擇百分之百相信，那么由此產生的后果，理應由其自身承擔。

Q：說到人工智能，現在人們想到的幾乎全是大模型，卻忘了其實還有許多大模型之外的人工智能應用。

A：

現在大家了解較多的人工智能類型是“生成式人工智能”，其中就包括大模型。第二類目前已應用得非常普遍，我稱之為“規劃式人工智能”。它最典型的例子就是外賣、快遞配送規劃等。仔細想想，外賣場景設計其實極為復雜：短時間內有大量訂單、眾多商家與騎手，要完成訂單分配和騎手任務規劃。若靠人工幾乎無法實現，而借助人工智能就能快速完成分配工作。

第三大類是“分析式人工智能”，更通用的說法是“科學智能”（AI for Science）。各個學科在研究中引入人工智能技術，不僅包括大模型，更多是深度學習或其他人工智能技術，以此發現科學數據中復雜的模式。

第四大類是“智能裝備”，涵蓋智能機器人，以及一些形態上雖非機器人但應用了機器人技術的設備。以工業領域為例，除了傳統工業機器人，不少設備因配備傳感器而新增了感知功能，使其能根據實際情況變化做出決策，無人機就是典型代表。這類智能裝備在工業、農業、交通運輸等多個領域都有應用場景。

人工智能至少可分為這四大類。其中，大模型吸引了大部分的注意力，但當下其他三類實際應用效果可能更好。

Q：您覺得在大模型領域，下一個“錨點”（關鍵突破點）是什么？

A：

我認為在于邏輯增強。當前大模型雖具備極強的能力，但其缺陷也十分明顯，在諸多應用場景中，尤其是垂直領域，這些缺陷會成為實質性的障礙。為消除這一障礙，我們需要對大模型進行邏輯增強，即通過邏輯手段，讓大模型的輸出達到高可信度。

袁嵐峰

《錨點》科學對談人

-本文刊載于《世界科學》雜志2025年第9期“錨點”專欄-

《世界科學》雜志版在售中歡迎訂閱

月刊定價

15元/期

全年訂閱價

180元

點擊左側圖片或以下方訂閱方式選購

方式一：

掃描二維碼，“雜志鋪”訂閱有折扣～

方式二：

全國各地郵局訂閱郵發代號：4-263

方式三：

機構訂閱，請撥打

021-53300839；

021-53300838

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.