<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      大模型的token究竟是什么?一文讀懂!

      0
      分享至

      在大模型的語境中,token是一個基本的數據處理單元,它可以是一個單詞、一個字符,或者是一個子詞等,以下從其定義、作用及常見的token劃分方式等方面進行具體介紹:



      定義:簡單來說,token是對文本進行分割后的最小單元。大模型在處理文本時,無法直接處理人類自然語言中的文字,需要將文本拆分成一個個的token,以便模型能夠理解和處理。例如,對于句子 “歡迎關注訂閱招文袋公眾號”,可以將其拆分成多個token:“歡迎”“關注”“訂閱”“招文袋”“公眾號”。

      作用將文本數字化:把自然語言文本轉化為模型可以處理的數字向量形式。每個token會被映射為一個唯一的數字編號,模型通過處理這些數字來學習語言的模式和規律。如在一個簡單的詞匯表中,“歡迎”可能被編碼為1,“關注”編碼為2,“訂閱”編碼為3,“招文袋”編碼為4,“公眾號”編碼為5。這樣句子 “歡迎關注訂閱招文袋公眾號”就可以表示為 [1, 2, 3,4,5],便于模型進行計算和分析。

      控制模型輸入輸出長度:模型處理的token數量是有限制的,通過對文本進行token化,可以將輸入文本截斷或補齊到合適的長度,使模型能夠有效地處理。例如,某模型的輸入長度限制為512個token,對于較長的文本,就需要截斷多余部分;對于較短的文本,可能需要添加特殊的填充token,使其達到規定長度。

      提高語言理解精度:將文本細分為token后,模型可以更精確地捕捉語言中的語義和語法信息。比如,對于一些具有多種含義的詞,通過上下文的其他 token,模型能更準確地判斷其在具體語境中的意思。

      常見的token劃分方式單詞級別:將文本按照空格等分隔符拆分成多個單獨的詞匯作為token。如 “加入招文袋知識星球一起學習AI” 會被拆分為 “加入”“招文袋”“知識星球”“一起” “學習”“AI”六個token。這種方式簡單直接,但對于一些復雜的語言現象,如復合詞、詞的變形等處理可能不夠精細。

      字符級別:把文本中的每個字符都作為一個token。例如,“關注招文袋” 會被拆分為“關”“注”“招”“文”“袋”五個token。字符級別的token化可以處理任何未知的詞匯,但會導致輸入序列過長,增加模型的計算量和訓練難度。

      子詞級別:結合了單詞級別和字符級別的優點,將單詞拆分成更小的子詞單元。例如,“招文袋知識星球” 可能被拆分成 “招文”“袋”“知識”“星球”四個token。這種方式既能處理一些罕見詞和復合詞,又能保持相對合理的token數量和序列長度。



      如何計算token的數量?

      計算token數量的方法會因tokenization的方式不同而有所差異,常見的有基于空格或標點符號的簡單統計、基于預訓練模型的工具包統計、基于字符的統計等方法,以下是具體介紹:

      基于空格和標點符號的簡單統計

      對于以單詞為token的情況,可以通過統計文本中的空格和標點符號來大致計算token數量。例如,對于文本 “知識星球名:招文袋 星球號:75873546。”,可以通過計算空格和標點符號的數量來確定 token 的數量。一般來說,空格將單個詞匯分隔開,標點符號也可以作為分隔的標志。在這個例子中,有四個token,分別是“知識星球名”“招文袋”“星球號”“75873546”。不過這種方法對于一些復雜的語言現象可能會不準確。

      基于預訓練模型的工具包統計

      使用Hugging Face(一個專注于自然語言處理的開源社區)的tokenizers庫:許多預訓練語言模型都有相應的tokenizer工具,以Hugging Face的transformers庫為例,它提供了各種預訓練模型的tokenizer,可以方便地對文本進行token化并計算token數量。如對于BERT模型(一種語言表示模型),可以使用BertTokenizer(對文本進行分詞和編碼的工具)來處理文本。

      使用AllenNLP(一個自然語言處理的模型框架)的tokenizers:AllenNLP也提供了豐富的自然語言處理工具,包括tokenizer。可以使用SpacyTokenizer或WordTokenizer等對文本進行處理和 token 數量計算。

      基于字符的統計

      如果是基于字符的tokenization,那么直接統計文本中的字符數量即可。例如,對于文本 “知識星球名:招文袋”,字符數量為8,即token數量為8。但需要注意一些特殊情況,如是否將空格、標點符號等也算作token。如果要將空格也算作token,那么 “知識星球名:招文袋” 的token數量就是9。

      基于特定規則的統計

      對于一些特定的領域或任務,可能會有自定義的token定義和計算規則。例如,在處理代碼時,可以將每個關鍵字、變量名、運算符等作為一個 token(小白不用處理代碼,了解即可)。



      最后,簡單直白總結如下:

      - token定義:大語言模型接收到文字后,分詞器將其切成的小塊就是token,它可以是單個漢字、詞語、短語、標點符號、單詞或詞綴等。大模型輸出文字時也是逐個token生成,所以看起來像打字。

      - token存在的原因:類比人腦處理信息方式,為提高效率、節省腦力,人腦常把有意義的詞語或短語作為整體對待,人工智能也借鑒了這一思路,通過分詞器把大段文字拆解成大小合適的token。

      - 分詞器分詞方法:分詞器通過統計大量文字,把經常一起出現的組合(如“招文袋” )、單個常用字(如“請”)、常見字母組合(如“ing” )、標點符號等,分別打包成token,配上編號,形成龐大的token表。大模型輸入和輸出時,處理的是token編號,再由分詞器轉換為人類可看懂的內容。

      - token的作用及計費方式:token是大模型理解和生成文字的基礎,大模型通過計算token之間的關系推算下一個可能的token。幾乎所有大模型公司按token數量計費,因為其對應背后的計算量。

      這里有些AI大模型說是免費,其實是免費一部分token,超過后就要收費。比如,有平臺就出了政策,說新注冊或者拉新會員注冊就免費送你50萬token。看著數字好像很多都用不完的樣子,但其實如果天天用的話,幾天也就用沒了。

      - 不同模型分詞差異:不同模型分詞結果不同,如“請關注訂閱招文袋公眾號”在DeepSeek和其他模型里分詞結果不同,所以分詞的數量也就不同了。此外,token在人工智能領域外也有出現,但含義不同。

      就說到這里,如果耐心看完,也就對token的概念基本清晰無誤了。

      聲明:個人原創,僅供參考

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      沈騰真踹!王安宇被踢出鏡頭,全場靜默太嚇人

      沈騰真踹!王安宇被踢出鏡頭,全場靜默太嚇人

      阿廢冷眼觀察所
      2026-01-16 04:07:08
      為什么日本把“美國”稱之為“米國”?中國卻沒有這么翻譯?

      為什么日本把“美國”稱之為“米國”?中國卻沒有這么翻譯?

      日本物語
      2025-12-12 21:29:05
      司曉迪再曝新料!洗腳、視頻通話還有唱K,網友曝會議細節最搞笑

      司曉迪再曝新料!洗腳、視頻通話還有唱K,網友曝會議細節最搞笑

      距離距離
      2026-01-15 22:01:23
      伊朗宗教政府已走到末路,中方盡力保護自己的公民,其他愛莫能助

      伊朗宗教政府已走到末路,中方盡力保護自己的公民,其他愛莫能助

      我心縱橫天地間
      2026-01-15 22:53:44
      中國若逮捕賴清德咋辦?特朗普:中國的事中國定,但會賣我個面子

      中國若逮捕賴清德咋辦?特朗普:中國的事中國定,但會賣我個面子

      素衣讀史
      2026-01-15 16:00:27
      余承東發飆!炮轟鴻蒙座艙「非常愚蠢」

      余承東發飆!炮轟鴻蒙座艙「非常愚蠢」

      鞭牛士
      2026-01-16 09:57:21
      誰能拒絕白色厚絲襪的致命吸引力?

      誰能拒絕白色厚絲襪的致命吸引力?

      流水白蓮花
      2025-12-10 03:14:22
      美軍對伊朗的打擊,已經是箭在弦上了

      美軍對伊朗的打擊,已經是箭在弦上了

      寰宇大觀察
      2026-01-13 18:35:03
      美國萬萬沒想到,100%中國國產化的長江存儲,正在美國狂扁美國人

      美國萬萬沒想到,100%中國國產化的長江存儲,正在美國狂扁美國人

      書紀文譚
      2025-12-28 14:48:20
      姆巴佩加盟后皇馬已丟7冠!金球獎遙遙無期,巴薩國內賽事奪4冠

      姆巴佩加盟后皇馬已丟7冠!金球獎遙遙無期,巴薩國內賽事奪4冠

      奧拜爾
      2026-01-15 17:35:12
      100英寸電視價格崩了:當年100萬元一臺,今年已經跌到5000元左右

      100英寸電視價格崩了:當年100萬元一臺,今年已經跌到5000元左右

      柳先說
      2025-07-25 17:44:55
      里奇-保羅:我不想詹姆斯靠施舍進全明星,若他數據不好就該去度假

      里奇-保羅:我不想詹姆斯靠施舍進全明星,若他數據不好就該去度假

      懂球帝
      2026-01-15 14:02:07
      華國鋒退下來了,組織專門找到他的秘書,誠懇讓其自己挑前途~

      華國鋒退下來了,組織專門找到他的秘書,誠懇讓其自己挑前途~

      鶴羽說個事
      2026-01-14 15:22:18
      齊達內:教練是為球員而存在的,在皇馬我們隨時為球員服務

      齊達內:教練是為球員而存在的,在皇馬我們隨時為球員服務

      懂球帝
      2026-01-16 03:28:49
      19歲女主播揭露團播內幕:上播擦邊,下播找大哥“做作業”

      19歲女主播揭露團播內幕:上播擦邊,下播找大哥“做作業”

      小熊侃史
      2026-01-16 07:30:11
      美軍沒有政委,為什么能把軍隊管得服服帖帖?

      美軍沒有政委,為什么能把軍隊管得服服帖帖?

      扶蘇聊歷史
      2026-01-06 15:25:46
      讓西安女孩們恐懼的惡魔,老刑警眼中的“王萬明系列流氓殺人案”

      讓西安女孩們恐懼的惡魔,老刑警眼中的“王萬明系列流氓殺人案”

      顧氏造船廠廠長
      2026-01-16 08:00:15
      一步之遙——南大碎尸案的最后線索

      一步之遙——南大碎尸案的最后線索

      恩怨江湖
      2025-12-01 11:30:06
      殲-20的問世,拯救了幾乎全部中國人的性命和尊嚴,為什么這樣說

      殲-20的問世,拯救了幾乎全部中國人的性命和尊嚴,為什么這樣說

      嫹筆牂牂
      2026-01-15 12:00:58
      三星痛失寶座,2025年全球智能手機出貨量冠軍易主

      三星痛失寶座,2025年全球智能手機出貨量冠軍易主

      商業周刊中文版
      2026-01-13 17:26:09
      2026-01-16 13:31:00
      招文袋
      招文袋
      偶爾思考,經常無腦,請勿介意。
      250文章數 1453關注度
      往期回顧 全部

      科技要聞

      被網友"催"著走,小米緊急"抄"了特斯拉

      頭條要聞

      特朗普終于拿到諾獎 馬查多或為換取委內瑞拉總統寶座

      頭條要聞

      特朗普終于拿到諾獎 馬查多或為換取委內瑞拉總統寶座

      體育要聞

      聶衛平:黑白棋盤上的凡人棋圣

      娛樂要聞

      黃慧頤手撕保劍鋒 曾黎意外卷入風波

      財經要聞

      深圳有白銀商家爆雷 維權群超350人

      汽車要聞

      從 "商務" 變 "潮酷" 全新一汽奧迪A6L首秀亮相

      態度原創

      本地
      手機
      游戲
      家居
      藝術

      本地新聞

      云游內蒙|黃沙與碧波撞色,烏海天生會“混搭”

      手機要聞

      蘋果以舊換新升級:支持安卓機型,華為Mate X5最高抵2850元

      誰都能做恐怖游戲 但迅哥留下的“人窟”你敢進嗎?

      家居要聞

      歲月柔情 現代品質輕奢

      藝術要聞

      300億!341米!迪拜將建全球首個奔馳品牌城市

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 疯狂做受XXXX高潮国产| 亚洲资源av无码日韩av无码| 真实国产精品视频400部| 国语精品一区二区三区| 欧美丝袜另类| 亚洲男人在线无码视频| 自拍偷自拍亚洲精品播放| 精品一区二区在线观看欧美日韩黑人| 我国产码在线观看av哈哈哈网站| 男人猛躁进女人免费播放| 织金县| 全部免费特黄特色大片中国| 樱花草视频www日本韩国| 馆陶县| 国产日产韩国精品视频, | 日本AⅤ精品一区二区三区日| 亚洲无线一二三四区手机| 啪啪综合网| 自拍偷拍国产| 国产精品无码成人午夜电影| 亚洲综合精品中文字幕| 欧美亚洲综合成人专区| 国产高清不卡一区二区| 人妻精品动漫h无码网站| 久久国产精品成人免费| 麻豆A∨在线| 亚洲日韩日本中文在线| 精品3P| AV不卡在线| 国产超碰在线| 天天伊人久久| 日韩秘 无码一区二区三区| 精品国产网红主播在线观看| 69精品丰满人妻无码视频a片| 伊人丁香欧美成A片| 五月天国产成人av免费观看| 中文字幕av中文字无码亚| 在线成人AV| 草草影院ccyy| 波多野结衣中文字幕一区二区三区| 亚洲爱婷婷色69堂|