網易首頁 > 網易號 > 正文申請入駐

當我們談論大模型的參數時，到底在談論什么？

2026-01-08 20:43:54　來源: DeepTech深科技

北京舉報

分享至

（來源：麻省理工科技評論）

這篇文章隸屬于《麻省理工科技評論》技術解讀專題。讓我們的作者為您梳理復雜紛繁的技術世界，助您洞察未來趨勢。

寫這篇文章的起因很有趣。聽聞我的一位編輯同事在半夜醒來，在筆記本上潦草地寫下了一句話：“什么是參數？”凌晨四點產生的想法通常不太靠譜，但這卻是一個非常好的問題——它直擊了大語言模型運作原理的核心。

大語言模型的參數通常被比作控制模型行為的刻度盤和操縱桿。你可以試著想象一臺行星般大小的彈球機，幾十億個擋板和緩沖器經過精確設置，將球從一端彈射到另一端。而只需要微調這些設置，球的運動軌跡就會發生變化。

OpenAI 于 2020 年發布的 GPT-3 擁有 1750 億個參數。Google DeepMind 最新的大語言模型 Gemini 3 可能至少擁有一萬億個參數，有人甚至估計這個數字可能高達 7 萬億，但該公司并未透露具體數據。（鑒于目前激烈的競爭環境，AI 公司不再分享關于其模型構建方式的信息。）

盡管模型各異，但參數的基本定義，以及參數如何賦予大語言模型驚人能力的原理是通用的。如果你想知道大語言模型真正運轉的機制，想了解那個多彩的彈球機比喻背后到底如何運作，讓我們一起來深入探討。

什么是參數？回想一下中學代數，比如 2a + b。這些字母就是參數：給它們賦值，你就能得到一個結果。在數學或編程中，參數用于設定界限或決定輸出。大語言模型內部參數的運作方式與之類似，只是規模大得驚人。

它們的數值是如何確定的？一言以蔽之：算法。當模型開始訓練時，每個參數都被設定為一個隨機值。隨后的訓練過程包含一系列迭代計算（稱為訓練步數），用于更新這些數值。

在訓練初期，模型會犯錯。訓練算法會檢查每一個錯誤，并在模型中進行回溯，微調眾多參數的數值。這樣一來，下一次出現同樣情況時，誤差就會減小。這個過程會不斷重復，直到模型的行為符合設計者的預期。此時訓練停止，模型參數的數值也就此固定下來。

盡管理論上來說很簡單，但在實踐中，由于大語言模型使用海量數據進行訓練，且包含海量參數，訓練過程需要極其龐大的步驟和令人咋舌的計算量。

在訓練期間，像 GPT-3 這種中等規模的大語言模型，其內部的 1750 億個參數每一個都會被更新數萬次。總計下來，這涉及千萬億次（1 后跟 15 個 0）的獨立計算。這也是訓練大語言模型消耗如此多能源的原因。這需要數千臺專用的高速計算機連續運行數月。

這些參數到底有什么用？大語言模型內部主要有三種類型的參數，它們的數值通過訓練來確定：嵌入（Embeddings）、權重（Weights）和偏置（Biases）。讓我們逐一了解。

什么是嵌入？

嵌入是單詞（或單詞的一部分，稱為 Token）在大語言模型詞表中的數學表示。大語言模型的詞表可能包含多達幾十萬個獨立的 Token，這些是由設計者在訓練開始前設定的。但此時這些單詞沒有任何含義。含義是在訓練過程中賦予的。

模型訓練時，詞表中的每個單詞都會被分配一個數值。這個數值基于單詞在海量訓練數據中的出現方式，捕捉該單詞相對于所有其他單詞的含義。

是的。但情況還要復雜一些。代表每個單詞的數值實際上是一串數字列表。列表中的每個數字代表了模型從訓練數據中提取出的不同含義側面。這個數字列表的長度是設計者在訓練前指定的另一個參數，其中的每一個數字都在訓練過程中經過了微調。一個常見的長度是 4,096。如果一個大語言模型的嵌入長度為 4,096 個數字，我們就說該模型擁有 4,096 個維度。

這個數字看起來可能很奇怪。但大語言模型（像任何在計算機芯片上運行的東西一樣）處理 2 的冪次方效率最高——比如 2、4、8、16、32、64 等等。工程師們發現，4,096 這個 2 的冪次方在能力和效率之間達到了最佳平衡點。維度更少的模型能力較弱；維度更多的模型則訓練和運行成本過高或速度過慢。

使用更多的數字，大語言模型就能捕捉到非常精細的信息，包括一個單詞在不同語境下的用法、它可能包含的微妙含義，以及它與其他單詞的關聯等等。

今年二月，OpenAI 發布了其迄今為止最大的模型 GPT-4.5（有估算稱其參數量超過 10 萬億）。曾參與該模型研發的 OpenAI 研究科學家 Nick Ryder 當時告訴我，更大的模型能夠處理額外的信息，比如情緒線索。例如，當說話者的言辭表現出敵意時，他解釋道：“人類對話中所有這些微妙的模式，正是這些越來越大的模型能夠捕捉到的信息點。”

結果就是，大語言模型內部的所有單詞都被編碼進了一個高維空間。想象一下，成千上萬個單詞漂浮在你周圍的空中。距離較近的單詞具有相似的含義。例如，“桌子”和“椅子”之間的距離，會比它們與“宇航員”的距離更近；而“宇航員”則靠近“月球”和“馬斯克”。在遙遠的另一端，你可能會看到“變戲法（prestidigitation）”這個詞。這與模型內部的情形有點類似，只不過這些單詞不是在三維空間中相互關聯，而是在 4,096 個維度上相互關聯。

這確實讓人頭暈目眩。實際上，大語言模型將整個互聯網壓縮成了一個巨大的數學結構，其中編碼了海量且互相關聯的信息。這也解釋了為什么大語言模型能做到驚人的事情，同時也解釋了為什么我們無法完全理解它們。

什么是權重？

權重這一參數代表了模型不同部分之間連接的強度。它是調整模型行為最常見的旋鈕之一。當大語言模型處理文本時，就會用到權重。

當大語言模型讀取一個句子（或一章書）時，它首先會查找所有單詞的嵌入，然后將這些嵌入輸入到一系列被稱為 Transformer 的神經網絡中。Transformer 專為一次性處理序列數據（如文本）而設計。句子中的每個單詞都會結合其他所有單詞的關系進行處理。

這就是權重發揮作用的地方。嵌入代表了一個單詞在沒有上下文情況下的含義。當一個單詞出現在特定句子中時，Transformer 使用權重來處理該單詞在這個新語境下的含義。（在實際操作中，這涉及到將每個嵌入與所有其他單詞的權重相乘。）

什么是權重？

偏置是另一種類型的調節旋鈕，它用于補充權重的作用。權重設定了模型不同部分被激活（從而將數據傳遞給下一部分）的閾值。偏置則用于調整這些閾值，使得一個嵌入即便數值較低也能觸發活動。（偏置是加在嵌入上的數值，而不是與之相乘。）

通過移動模型各部分激活的閾值，偏置讓模型能夠捕捉到那些原本可能被錯過的樣信息。想象一下，你試圖在嘈雜的房間里聽清某人說話。權重會最大程度地放大最大的聲音；而偏置則像監聽設備上的一個旋鈕，可以提高混合音效中那些微弱聲音的音量。

簡單總結一下：權重和偏置是大語言模型從給定文本中盡可能提取信息的兩種不同方式。這兩種類型的參數在訓練過程中都會被反復調整，以確保它們能夠有效地完成這項任務。

神經元也是一種參數嗎？

不，神經元更多是組織這些數學運算的方式。它們是承載權重和偏置的容器，通過網絡路徑相互連接。這一切的靈感非常寬泛地來源于動物大腦中的生物神經元，即一個神經元的信號會觸發下一個神經元產生新信號，依此類推。

模型中的每個神經元包含一個偏置，以及針對模型每個維度的權重。換句話說，如果一個模型有 4,096 個維度——因此其嵌入是包含 4,096 個數字的列表——那么該模型中的每個神經元將包含一個偏置和 4,096 個權重。

神經元按層排列。在大多數大語言模型中，一層的每個神經元都與上一層的所有神經元相連。像 GPT-3 這樣擁有 1750 億參數的模型大約有 100 層，每層包含數萬個神經元。并且，每個神經元同時運行著數萬次計算。

這一切是如何運作的？

當大語言模型處理一段文本時，該文本的數值表示會穿過模型的多個層級。在每一層中，嵌入的數值（那串 4,096 個數字）會通過一系列涉及模型權重和偏置（附著在神經元上）的計算進行多次更新，直到到達最后一層。

其核心理念是，輸入文本的所有含義、細微差別和上下文，在經歷這一系列令人難以置信的計算后，都會被嵌入的最終數值所捕獲。隨后，該數值被用來計算大語言模型應該輸出的下一個單詞。

這比聽起來要復雜得多，這不足為奇：實際上，模型會針對其詞表中的每一個單詞，計算它作為下一個詞出現的可能性，并對結果進行排序。然后，它會選擇排名第一的詞。

這個選出的單詞會被追加到之前的文本塊中，整個過程不斷重復，直到大語言模型計算出最可能的下一個詞是標志輸出結束的信號為止。

大語言模型的設計者還可以指定其他幾個參數，稱為“超參數”。其中主要包括溫度（Temperature）、Top-p 和 Top-k。

溫度是一個充當創造力旋鈕的參數。它影響模型對下一個單詞的選擇。我剛才說模型會對詞表中的單詞進行排序并選擇排名第一的那個。但是，利用溫度參數可以推動模型去選擇概率最高的那個詞，使其輸出更加符合事實且相關；或者去選擇一個概率較低的詞，使輸出更具驚喜感，減少機械感。

Top-p 和 Top-k 也是控制模型選擇下一個單詞的旋鈕。這兩個設置強制模型從一組概率最高的備選詞中隨機選擇一個，而不是直接選擇排名第一的詞。這些參數影響著模型的表現風格——是古怪且富有創造力，還是可靠但枯燥。

小模型是如何用更少的參數做到這一點的？

這是目前 AI 領域最熱門的問題之一。實現這一點的途徑有很多。研究人員發現，訓練數據的數量起著巨大的作用。首先，你需要確保模型見過了足夠多的數據：如果一個大語言模型訓練所用的文本太少，它就無法充分利用其所有參數，而一個使用相同數據量訓練的小模型可能會超越它。

研究人員發現的另一個技巧是過度訓練（指使用遠超常規的數據量進行訓練）。給模型展示比原先認為必要的更多的數據，似乎能提升其性能。結果是，使用大量數據訓練的小模型可以超越使用較少數據訓練的大模型。以 Meta 的 Llama 系列模型為例。擁有 700 億參數的 Llama 2 使用了約 2 萬億個單詞的文本進行訓練；而擁有 80 億參數的 Llama 3 則使用了約 15 萬億個單詞。體量小得多的 Llama 3 卻是更好的模型。

第三種技術被稱為蒸餾，即利用一個大模型來訓練一個小模型。小模型不僅使用原始訓練數據，還利用大模型內部計算的輸出進行訓練。其思路是，將大模型參數中編碼的來之不易的經驗“滲透”到小模型的參數中，從而提升小模型的能力。

事實上，單一巨型模型的時代可能已經結束。即便是市場上最大的模型，如 OpenAI 的 GPT-5 和 Google DeepMind 的 Gemini 3，也可以被看作是“穿在一件風衣里的幾個小模型”。通過一種稱為“混合專家”（MoE）的技術，大模型可以僅激活處理特定文本所需的那部分（即“專家”）。這種方式結合了大模型的能力與小模型的速度及低功耗優勢。

但這還不是全部。研究人員仍在探索如何充分利用模型參數。隨著單純擴大規模帶來的收益逐漸遞減，增加參數數量似乎不再像以前那樣具有決定性作用。參數的數量不再是唯一的決定因素，如何利用這些參數才是關鍵。

https://www.technologyreview.com/2026/01/07/1130795/what-even-is-a-parameter/

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.