<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      當我們談論大模型的參數時,到底在談論什么?

      0
      分享至


      (來源:麻省理工科技評論)

      這篇文章隸屬于《麻省理工科技評論》技術解讀專題。讓我們的作者為您梳理復雜紛繁的技術世界,助您洞察未來趨勢。

      寫這篇文章的起因很有趣。聽聞我的一位編輯同事在半夜醒來,在筆記本上潦草地寫下了一句話:“什么是參數?”凌晨四點產生的想法通常不太靠譜,但這卻是一個非常好的問題——它直擊了大語言模型運作原理的核心。

      大語言模型的參數通常被比作控制模型行為的刻度盤和操縱桿。你可以試著想象一臺行星般大小的彈球機,幾十億個擋板和緩沖器經過精確設置,將球從一端彈射到另一端。而只需要微調這些設置,球的運動軌跡就會發生變化。

      OpenAI 于 2020 年發布的 GPT-3 擁有 1750 億個參數。Google DeepMind 最新的大語言模型 Gemini 3 可能至少擁有一萬億個參數,有人甚至估計這個數字可能高達 7 萬億,但該公司并未透露具體數據。(鑒于目前激烈的競爭環境,AI 公司不再分享關于其模型構建方式的信息。)

      盡管模型各異,但參數的基本定義,以及參數如何賦予大語言模型驚人能力的原理是通用的。如果你想知道大語言模型真正運轉的機制,想了解那個多彩的彈球機比喻背后到底如何運作,讓我們一起來深入探討。

      什么是參數?回想一下中學代數,比如 2a + b。這些字母就是參數:給它們賦值,你就能得到一個結果。在數學或編程中,參數用于設定界限或決定輸出。大語言模型內部參數的運作方式與之類似,只是規模大得驚人。

      它們的數值是如何確定的?一言以蔽之:算法。當模型開始訓練時,每個參數都被設定為一個隨機值。隨后的訓練過程包含一系列迭代計算(稱為訓練步數),用于更新這些數值。

      在訓練初期,模型會犯錯。訓練算法會檢查每一個錯誤,并在模型中進行回溯,微調眾多參數的數值。這樣一來,下一次出現同樣情況時,誤差就會減小。這個過程會不斷重復,直到模型的行為符合設計者的預期。此時訓練停止,模型參數的數值也就此固定下來。

      盡管理論上來說很簡單,但在實踐中,由于大語言模型使用海量數據進行訓練,且包含海量參數,訓練過程需要極其龐大的步驟和令人咋舌的計算量。

      在訓練期間,像 GPT-3 這種中等規模的大語言模型,其內部的 1750 億個參數每一個都會被更新數萬次。總計下來,這涉及千萬億次(1 后跟 15 個 0)的獨立計算。這也是訓練大語言模型消耗如此多能源的原因。這需要數千臺專用的高速計算機連續運行數月。

      這些參數到底有什么用?大語言模型內部主要有三種類型的參數,它們的數值通過訓練來確定:嵌入(Embeddings)、權重(Weights)和偏置(Biases)。讓我們逐一了解。



      什么是嵌入?

      嵌入是單詞(或單詞的一部分,稱為 Token)在大語言模型詞表中的數學表示。大語言模型的詞表可能包含多達幾十萬個獨立的 Token,這些是由設計者在訓練開始前設定的。但此時這些單詞沒有任何含義。含義是在訓練過程中賦予的。

      模型訓練時,詞表中的每個單詞都會被分配一個數值。這個數值基于單詞在海量訓練數據中的出現方式,捕捉該單詞相對于所有其他單詞的含義。

      是的。但情況還要復雜一些。代表每個單詞的數值實際上是一串數字列表。列表中的每個數字代表了模型從訓練數據中提取出的不同含義側面。這個數字列表的長度是設計者在訓練前指定的另一個參數,其中的每一個數字都在訓練過程中經過了微調。一個常見的長度是 4,096。如果一個大語言模型的嵌入長度為 4,096 個數字,我們就說該模型擁有 4,096 個維度。

      這個數字看起來可能很奇怪。但大語言模型(像任何在計算機芯片上運行的東西一樣)處理 2 的冪次方效率最高——比如 2、4、8、16、32、64 等等。工程師們發現,4,096 這個 2 的冪次方在能力和效率之間達到了最佳平衡點。維度更少的模型能力較弱;維度更多的模型則訓練和運行成本過高或速度過慢。

      使用更多的數字,大語言模型就能捕捉到非常精細的信息,包括一個單詞在不同語境下的用法、它可能包含的微妙含義,以及它與其他單詞的關聯等等。

      今年二月,OpenAI 發布了其迄今為止最大的模型 GPT-4.5(有估算稱其參數量超過 10 萬億)。曾參與該模型研發的 OpenAI 研究科學家 Nick Ryder 當時告訴我,更大的模型能夠處理額外的信息,比如情緒線索。例如,當說話者的言辭表現出敵意時,他解釋道:“人類對話中所有這些微妙的模式,正是這些越來越大的模型能夠捕捉到的信息點。”

      結果就是,大語言模型內部的所有單詞都被編碼進了一個高維空間。想象一下,成千上萬個單詞漂浮在你周圍的空中。距離較近的單詞具有相似的含義。例如,“桌子”和“椅子”之間的距離,會比它們與“宇航員”的距離更近;而“宇航員”則靠近“月球”和“馬斯克”。在遙遠的另一端,你可能會看到“變戲法(prestidigitation)”這個詞。這與模型內部的情形有點類似,只不過這些單詞不是在三維空間中相互關聯,而是在 4,096 個維度上相互關聯。

      這確實讓人頭暈目眩。實際上,大語言模型將整個互聯網壓縮成了一個巨大的數學結構,其中編碼了海量且互相關聯的信息。這也解釋了為什么大語言模型能做到驚人的事情,同時也解釋了為什么我們無法完全理解它們。



      什么是權重?

      權重這一參數代表了模型不同部分之間連接的強度。它是調整模型行為最常見的旋鈕之一。當大語言模型處理文本時,就會用到權重。

      當大語言模型讀取一個句子(或一章書)時,它首先會查找所有單詞的嵌入,然后將這些嵌入輸入到一系列被稱為 Transformer 的神經網絡中。Transformer 專為一次性處理序列數據(如文本)而設計。句子中的每個單詞都會結合其他所有單詞的關系進行處理。

      這就是權重發揮作用的地方。嵌入代表了一個單詞在沒有上下文情況下的含義。當一個單詞出現在特定句子中時,Transformer 使用權重來處理該單詞在這個新語境下的含義。(在實際操作中,這涉及到將每個嵌入與所有其他單詞的權重相乘。)



      什么是權重?

      偏置是另一種類型的調節旋鈕,它用于補充權重的作用。權重設定了模型不同部分被激活(從而將數據傳遞給下一部分)的閾值。偏置則用于調整這些閾值,使得一個嵌入即便數值較低也能觸發活動。(偏置是加在嵌入上的數值,而不是與之相乘。)

      通過移動模型各部分激活的閾值,偏置讓模型能夠捕捉到那些原本可能被錯過的樣信息。想象一下,你試圖在嘈雜的房間里聽清某人說話。權重會最大程度地放大最大的聲音;而偏置則像監聽設備上的一個旋鈕,可以提高混合音效中那些微弱聲音的音量。

      簡單總結一下:權重和偏置是大語言模型從給定文本中盡可能提取信息的兩種不同方式。這兩種類型的參數在訓練過程中都會被反復調整,以確保它們能夠有效地完成這項任務。



      神經元也是一種參數嗎?

      不,神經元更多是組織這些數學運算的方式。它們是承載權重和偏置的容器,通過網絡路徑相互連接。這一切的靈感非常寬泛地來源于動物大腦中的生物神經元,即一個神經元的信號會觸發下一個神經元產生新信號,依此類推。

      模型中的每個神經元包含一個偏置,以及針對模型每個維度的權重。換句話說,如果一個模型有 4,096 個維度——因此其嵌入是包含 4,096 個數字的列表——那么該模型中的每個神經元將包含一個偏置和 4,096 個權重。

      神經元按層排列。在大多數大語言模型中,一層的每個神經元都與上一層的所有神經元相連。像 GPT-3 這樣擁有 1750 億參數的模型大約有 100 層,每層包含數萬個神經元。并且,每個神經元同時運行著數萬次計算。



      這一切是如何運作的?

      當大語言模型處理一段文本時,該文本的數值表示會穿過模型的多個層級。在每一層中,嵌入的數值(那串 4,096 個數字)會通過一系列涉及模型權重和偏置(附著在神經元上)的計算進行多次更新,直到到達最后一層。

      其核心理念是,輸入文本的所有含義、細微差別和上下文,在經歷這一系列令人難以置信的計算后,都會被嵌入的最終數值所捕獲。隨后,該數值被用來計算大語言模型應該輸出的下一個單詞。

      這比聽起來要復雜得多,這不足為奇:實際上,模型會針對其詞表中的每一個單詞,計算它作為下一個詞出現的可能性,并對結果進行排序。然后,它會選擇排名第一的詞。

      這個選出的單詞會被追加到之前的文本塊中,整個過程不斷重復,直到大語言模型計算出最可能的下一個詞是標志輸出結束的信號為止。

      大語言模型的設計者還可以指定其他幾個參數,稱為“超參數”。其中主要包括溫度(Temperature)、Top-p 和 Top-k。

      溫度是一個充當創造力旋鈕的參數。它影響模型對下一個單詞的選擇。我剛才說模型會對詞表中的單詞進行排序并選擇排名第一的那個。但是,利用溫度參數可以推動模型去選擇概率最高的那個詞,使其輸出更加符合事實且相關;或者去選擇一個概率較低的詞,使輸出更具驚喜感,減少機械感。

      Top-p 和 Top-k 也是控制模型選擇下一個單詞的旋鈕。這兩個設置強制模型從一組概率最高的備選詞中隨機選擇一個,而不是直接選擇排名第一的詞。這些參數影響著模型的表現風格——是古怪且富有創造力,還是可靠但枯燥。



      小模型是如何用更少的參數做到這一點的?

      這是目前 AI 領域最熱門的問題之一。實現這一點的途徑有很多。研究人員發現,訓練數據的數量起著巨大的作用。首先,你需要確保模型見過了足夠多的數據:如果一個大語言模型訓練所用的文本太少,它就無法充分利用其所有參數,而一個使用相同數據量訓練的小模型可能會超越它。

      研究人員發現的另一個技巧是過度訓練(指使用遠超常規的數據量進行訓練)。給模型展示比原先認為必要的更多的數據,似乎能提升其性能。結果是,使用大量數據訓練的小模型可以超越使用較少數據訓練的大模型。以 Meta 的 Llama 系列模型為例。擁有 700 億參數的 Llama 2 使用了約 2 萬億個單詞的文本進行訓練;而擁有 80 億參數的 Llama 3 則使用了約 15 萬億個單詞。體量小得多的 Llama 3 卻是更好的模型。

      第三種技術被稱為蒸餾,即利用一個大模型來訓練一個小模型。小模型不僅使用原始訓練數據,還利用大模型內部計算的輸出進行訓練。其思路是,將大模型參數中編碼的來之不易的經驗“滲透”到小模型的參數中,從而提升小模型的能力。

      事實上,單一巨型模型的時代可能已經結束。即便是市場上最大的模型,如 OpenAI 的 GPT-5 和 Google DeepMind 的 Gemini 3,也可以被看作是“穿在一件風衣里的幾個小模型”。通過一種稱為“混合專家”(MoE)的技術,大模型可以僅激活處理特定文本所需的那部分(即“專家”)。這種方式結合了大模型的能力與小模型的速度及低功耗優勢。

      但這還不是全部。研究人員仍在探索如何充分利用模型參數。隨著單純擴大規模帶來的收益逐漸遞減,增加參數數量似乎不再像以前那樣具有決定性作用。參數的數量不再是唯一的決定因素,如何利用這些參數才是關鍵。


      https://www.technologyreview.com/2026/01/07/1130795/what-even-is-a-parameter/

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      歐冠3-0,英超第8爆發,完勝歐冠前冠軍,終結2輪歐冠不勝

      歐冠3-0,英超第8爆發,完勝歐冠前冠軍,終結2輪歐冠不勝

      側身凌空斬
      2026-01-22 06:03:17
      漢族的風俗和禁忌,不需要尊重么?

      漢族的風俗和禁忌,不需要尊重么?

      疫苗與科學
      2026-01-21 07:06:23
      王剛沒想到,離婚24年,成方圓會以這種方式,給自己上了生動一課

      王剛沒想到,離婚24年,成方圓會以這種方式,給自己上了生動一課

      胡一舸南游y
      2026-01-21 21:25:03
      初十回娘家拜年,母親給孫子2千給我兒子2百,返程時弟弟追到車站

      初十回娘家拜年,母親給孫子2千給我兒子2百,返程時弟弟追到車站

      人間百態大全
      2026-01-22 06:35:03
      烏克蘭到底窮到了什么程度?網友:模特出差時,順便去夜場賺外快

      烏克蘭到底窮到了什么程度?網友:模特出差時,順便去夜場賺外快

      另子維愛讀史
      2026-01-16 21:12:36
      51歲汪涵看足球賽!穿棉服戴帽子凍得縮脖,胡子花白嚼檳榔認不出

      51歲汪涵看足球賽!穿棉服戴帽子凍得縮脖,胡子花白嚼檳榔認不出

      瘋說時尚
      2026-01-21 11:46:16
      回國了我才敢說:委內瑞拉,是我去過的所有國家中,最被看輕的!

      回國了我才敢說:委內瑞拉,是我去過的所有國家中,最被看輕的!

      阿纂看事
      2026-01-09 09:48:35
      林彪離世后,原256號副機長康庭梓罕見爆料,揭開墜機塵封真相

      林彪離世后,原256號副機長康庭梓罕見爆料,揭開墜機塵封真相

      磊子講史
      2026-01-06 15:54:18
      中甲“本土射手王”完成自我救贖,賽前黃希揚私信向余望:不進決賽不準回來

      中甲“本土射手王”完成自我救贖,賽前黃希揚私信向余望:不進決賽不準回來

      上游新聞
      2026-01-21 18:07:11
      1989年天津男子撿到女乞丐為妻,21年后警方找上門,發現妻子身份

      1989年天津男子撿到女乞丐為妻,21年后警方找上門,發現妻子身份

      我是玲玲
      2024-11-16 14:36:28
      達沃斯為中國響起的掌聲很真誠

      達沃斯為中國響起的掌聲很真誠

      環球時報國際
      2026-01-21 08:52:38
      周總理逝世21年后,中國銀行核查賬目時發現他名下存有巨額存款,一番調查后揭開了背后的真相

      周總理逝世21年后,中國銀行核查賬目時發現他名下存有巨額存款,一番調查后揭開了背后的真相

      寄史言志
      2026-01-17 16:37:15
      外媒:中國正在面臨伊朗困局,中國要么失去德黑蘭,要么失去美國

      外媒:中國正在面臨伊朗困局,中國要么失去德黑蘭,要么失去美國

      我心縱橫天地間
      2026-01-20 22:28:40
      深鐵集團也扛不住了,面對負債8300億的萬科,上面的意思變了

      深鐵集團也扛不住了,面對負債8300億的萬科,上面的意思變了

      原來仙女不講理
      2026-01-21 21:55:22
      賈玲巴黎周“一臉男相”!不愛笑也沒梨渦眼神犀利,梳大背頭好酷

      賈玲巴黎周“一臉男相”!不愛笑也沒梨渦眼神犀利,梳大背頭好酷

      軒逸阿II
      2026-01-20 07:54:29
      2-1驚險逆轉!王欣瑜再進決賽沖冠:中國莎娃又美又能打

      2-1驚險逆轉!王欣瑜再進決賽沖冠:中國莎娃又美又能打

      李喜林籃球絕殺
      2026-01-10 17:21:22
      剛剛!萬科方案通過,即將打開“上帝劇本”?

      剛剛!萬科方案通過,即將打開“上帝劇本”?

      扒財經
      2026-01-21 14:43:10
      62歲男子行兇致鄰居1死1傷,庭上拒絕悔罪賠償還稱“后悔未殺全家”,檢方認為其不具有從輕量刑情節

      62歲男子行兇致鄰居1死1傷,庭上拒絕悔罪賠償還稱“后悔未殺全家”,檢方認為其不具有從輕量刑情節

      極目新聞
      2026-01-21 16:09:26
      普京證實將與美方就烏克蘭問題對話;并稱俄愿意從在美國被凍結資產中支付加入“和平委員會”所需的10億美元

      普京證實將與美方就烏克蘭問題對話;并稱俄愿意從在美國被凍結資產中支付加入“和平委員會”所需的10億美元

      魯中晨報
      2026-01-22 07:07:03
      賣不動了?鉆石價格大跌,巨頭宣布:降價!十年前1.8萬元買的鉆戒,如今只能賣180元,同期黃金價格漲超400%

      賣不動了?鉆石價格大跌,巨頭宣布:降價!十年前1.8萬元買的鉆戒,如今只能賣180元,同期黃金價格漲超400%

      每日經濟新聞
      2026-01-20 16:22:28
      2026-01-22 08:47:00
      DeepTech深科技 incentive-icons
      DeepTech深科技
      麻省理工科技評論獨家合作
      16159文章數 514517關注度
      往期回顧 全部

      科技要聞

      日系彩電時代“徹底落幕”

      頭條要聞

      牛彈琴:特朗普大鬧達沃斯 將歐洲同行罵了個狗血噴頭

      頭條要聞

      牛彈琴:特朗普大鬧達沃斯 將歐洲同行罵了個狗血噴頭

      體育要聞

      只會防守反擊?不好意思,我們要踢決賽了

      娛樂要聞

      首位捐款的明星 苗圃現身嫣然醫院捐款

      財經要聞

      股東資格確權存糾紛 前總裁狀告申通快遞

      汽車要聞

      2026款上汽大眾朗逸正式上市 售價12.09萬起

      態度原創

      數碼
      教育
      時尚
      手機
      旅游

      數碼要聞

      索尼發布首款耳掛式開放耳機LinkBuds Clip Open 支持“安靜模式”

      教育要聞

      問答環節(當代教育的雙重困境)

      締造仙女夢的人,去了天堂繼續縫制星光?

      手機要聞

      蘋果新春限時優惠1月24日開啟:最高立省1000元

      旅游要聞

      貴州:氣象“變量”變旅游“增量”

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 无码中文字幕人妻在线一区二区三区| 一区二区三区无效卡| 国产精品高清一区二区三区| 国产999精品成人网站| 国模和精品嫩模私拍视频| 大桥未久亚洲无av码在线| 国产自国产自愉自愉免费24区| 欧美A∨| 亚洲国产精品人人做人人爱| 69avav?cn| 人妻久久精品天天中文字幕| 老色鬼在线精品视频在线观看| 91亚洲精品第一| 九九热在线免费播放视频| 五月天天爽天天狠久久久综合| 97伦伦午夜电影理伦片| 非洲黑人最猛性xxxx交| 欧美激情在线播放| 瑞昌市| 日韩精品毛片无码一区到三区| 人人干人人爽| 伊人久久精品无码二区麻豆| 制服丝袜亚洲在线| 成人精品中文字幕| 日本久久中文字幕| 综合成人亚洲| 高级艳妇交换俱乐部小说 | 538在线精品视频| 新绛县| 欧美午夜精品久久久久久浪潮| 五家渠市| 99精品全国免费观看视频| 国产精品亚欧美一区二区三区| 精品国模无码| 99热国产在线精品99| 农村欧美丰满熟妇xxxx| 丝袜a∨在线一区二区三区不卡| 亚洲AV第一页| 久久天天躁狠狠躁夜夜2020一| 亚洲成人资源| 国产高清精品软件丝瓜软件|