<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      傳播學 | Token(詞元)

      0
      分享至


      (1)概念

      詞元是人工智能大模型為了高效處理數(shù)據(jù),把數(shù)據(jù)進行拆分后的“最小信息載體”,可以理解為“字/詞片段/符號”等。Token是AI理解文本的最小單位,就像人類閱讀時自動拆分的“信息顆粒”,AI不是按字而是按oken處理文本。比如“我愛中國!”,可拆分成“我”“愛”“中國”“!”4個詞元。

      人工智能時代,信息傳輸?shù)暮诵亩攘烤褪莟oken(詞元),無論是文本、圖像、視頻還是激光雷達的點云數(shù)據(jù),都能通過 Token 化處理轉化為離散化的符號或向量表示。



      (2)Token 計算的核心原理

      ①分詞模型與編碼映射

      不同的LLM(如GPT系列、Claude、Llama)會采用各自獨特的分詞模型,這就會導致針對同一文本,不同的模型可能會產生不同數(shù)量的Token。詞匯表將Token 映射到唯一的數(shù)值表示。由于LLM使用數(shù)字輸入,所以詞匯表中的每個Token都被賦予一個唯一標識符或索引。這種映射允許LLM將文本數(shù)據(jù)作為數(shù)字序列進行處理和操作,從而實現(xiàn)高效的計算和建模。

      ②主流分詞模型與編碼規(guī)則

      在Token計算中,分詞模型的選擇至關重要。不同的模型采用不同的分詞算法,無論是基于字節(jié)對的分詞算法(Byte Pair Encoding,BPE)還是基于單詞的分詞算法,都會影響如何對文本進行拆分。

      ③計算流程拆解(以GPT-4為例)

      當使用GPT-4進行Token計算時,整個流程可以拆解為幾個關鍵步驟:首先,預處理輸入文本;然后,運用分詞模型進行拆分;最后,通過編碼映射將分詞后的語義單元轉換為模型可識別的整數(shù)ID。


      (3)Token的作用


      ①解決詞匯表爆炸問題

      如果每個詞都單獨處理,模型需要記住數(shù)百萬個詞。通過將詞拆分成更小的Token,只需要幾千個Token就能組合出幾乎所有的詞。

      ②處理未知詞匯

      當模型遇到沒見過的詞時,如果是基于Token的,它可以用已知的Token來“拼湊"理解。比如遇到"深度學習",即使沒學過這個詞也知道“深度”和“學習”這兩個Token。

      ③統(tǒng)一多語言處理

      不同語言的詞匯結構差異很大,但通過Token化,可以建立統(tǒng)一的方式來處理各種語言。


      (4)Token設計的局限性

      ①大小寫區(qū)分

      不同大小寫的單詞被視為不同的標記。“hello”是Token (31373),“Helo°是(15496),而“HELLO”有三個Token(13909,3069,46)。這意味著模型在處理文本時,對于大小寫不同的相同單詞,會當作不同的單元來處理,可能會增加模型的學習負擔和計算量。

      ②數(shù)字分塊不一致

      數(shù)值“380°在GPT中標記為單個“380” Token。但是“381”表示為兩個Token("38”,“1")。“382”同樣是兩個Token,但"383"是單個Token ("383")。這種數(shù)字分塊的不一致性或許就是為什么基于GPT的模型并不總是擅長數(shù)學計算的原因之一,因為模型難以對數(shù)字形成統(tǒng)一、準確的理解和處理方式。

      ③尾隨的空格

      有些Token有空格,這將導致提示詞和單詞補全的有趣行為。例如,帶有尾部空格的“once upona”被編碼為"once"、"upon"、"a"、"")。然而,"once ona time"被編碼為("once", "upon","a","time")。這說明文本中的空格在Token化過程中也會產生影響,模型對于帶有空格和不帶有空格的相同文本片段,會生成不同的Token序列,進而可能影響模型的輸出結果。



      (5)Token化:Token的應用

      將文本劃分為不同token的正式過程稱為tokenization(Token化)。tokenization捕獲文本的含義和語法結構,從而需要將文本分割成重要的組成部分。

      tokenization是將輸入和輸出文本分割成更小的單元,由LLMAl模型處理的過程。tokenization可以幫助模型處理不同的語言、詞匯表和格式,并降低計算和內存成本,還可以通過影響token的意義和語境來影響所生成文本的質量和多樣性。根據(jù)文本的復雜性和可變性,可以使用不同的方法進行tokenization,比如基于規(guī)則的方法、統(tǒng)計方法或神經方法。


      新聞傳播學專業(yè)公眾號

      微信號 : media-power

      ▇ 新傳考研智庫 洞察社會脈動

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      在迪拜把AI訓練成個人“戰(zhàn)時情報系統(tǒng)”隨時同步最新戰(zhàn)況

      在迪拜把AI訓練成個人“戰(zhàn)時情報系統(tǒng)”隨時同步最新戰(zhàn)況

      網易新聞出品
      2026-03-23 10:46:43
      金正恩被再次推舉為朝鮮國務委員長

      金正恩被再次推舉為朝鮮國務委員長

      澎湃新聞
      2026-03-23 06:01:04
      4月1日后去醫(yī)院,只帶醫(yī)保卡可能吃大虧,這兩樣缺一不可

      4月1日后去醫(yī)院,只帶醫(yī)保卡可能吃大虧,這兩樣缺一不可

      貓叔東山再起
      2026-03-22 08:25:07
      終究還是對公積金繳存和提取下手了,4月1日起實施!

      終究還是對公積金繳存和提取下手了,4月1日起實施!

      巢客HOME
      2026-03-22 06:40:03
      快訊!土庫曼斯坦正式宣布了!

      快訊!土庫曼斯坦正式宣布了!

      達文西看世界
      2026-03-23 10:45:09
      日本臺灣油價接連下跌,大陸油價卻瘋漲至9元,真實原因一目了然

      日本臺灣油價接連下跌,大陸油價卻瘋漲至9元,真實原因一目了然

      談史論天地
      2026-03-23 06:52:51
      央視曝光:海鮮市場用“三無”麻醉劑甚至工業(yè)酒精麻醉活魚,為方便裝卸,防止在運輸過程中掉魚鱗

      央視曝光:海鮮市場用“三無”麻醉劑甚至工業(yè)酒精麻醉活魚,為方便裝卸,防止在運輸過程中掉魚鱗

      極目新聞
      2026-03-22 21:08:49
      伊朗軍方發(fā)言人用“特朗普的方式”回應特朗普

      伊朗軍方發(fā)言人用“特朗普的方式”回應特朗普

      新華社
      2026-03-23 15:09:35
      加油站排隊100多米,再打錢包就撐不住了

      加油站排隊100多米,再打錢包就撐不住了

      虎嗅APP
      2026-03-23 07:36:52
      315緊急曝光:致癌物超140倍!孩子天天摸的開學必需品,趕緊扔掉

      315緊急曝光:致癌物超140倍!孩子天天摸的開學必需品,趕緊扔掉

      現(xiàn)代小青青慕慕
      2026-03-23 02:11:20
      泡沫破了!大批文旅項目開始批量倒閉

      泡沫破了!大批文旅項目開始批量倒閉

      新浪財經
      2026-03-22 18:25:59
      廣州一男子反對加裝電梯,建成后反悔,提出補交1.9萬元,遭鄰居拒絕!把整棟樓住戶告上法庭,街道辦回應

      廣州一男子反對加裝電梯,建成后反悔,提出補交1.9萬元,遭鄰居拒絕!把整棟樓住戶告上法庭,街道辦回應

      環(huán)球網資訊
      2026-03-23 14:46:43
      加沙童婚率上升

      加沙童婚率上升

      老王說正義
      2026-03-22 23:43:17
      “地方附加稅”改革將啟,預計收稅規(guī)模達萬億級,到底怎么調整?

      “地方附加稅”改革將啟,預計收稅規(guī)模達萬億級,到底怎么調整?

      第一財經資訊
      2026-03-22 20:02:12
      北京飛上海MU5128航班落地虹橋機場后機艙起火,現(xiàn)場多輛消防車待命

      北京飛上海MU5128航班落地虹橋機場后機艙起火,現(xiàn)場多輛消防車待命

      極目新聞
      2026-03-23 09:54:33
      中石化發(fā)短信提醒加油!此輪油價上漲有多離譜?

      中石化發(fā)短信提醒加油!此輪油價上漲有多離譜?

      熱點科技
      2026-03-23 13:35:25
      今日A股上證下跌98.87點,直接跌穿3900點。發(fā)生了什么?你的賬戶怎么辦?

      今日A股上證下跌98.87點,直接跌穿3900點。發(fā)生了什么?你的賬戶怎么辦?

      每日經濟新聞
      2026-03-23 12:56:44
      起底!這個慫恿臺灣出兵霍爾木茲的“日本人”,什么來頭?

      起底!這個慫恿臺灣出兵霍爾木茲的“日本人”,什么來頭?

      補壹刀
      2026-03-23 15:04:37
      油價調整!國內成品油新一輪調價窗口將于3月23日24時開啟

      油價調整!國內成品油新一輪調價窗口將于3月23日24時開啟

      觀威海
      2026-03-23 10:31:02
      “廣東人,尤其是順德人給我道歉”!官方回應:對不起,真的改不了

      “廣東人,尤其是順德人給我道歉”!官方回應:對不起,真的改不了

      深圳晚報
      2026-03-23 08:15:26
      2026-03-23 16:31:00
      新傳研究
      新傳研究
      洞察社會變化,傳遞新聞價值
      99文章數(shù) 4關注度
      往期回顧 全部

      科技要聞

      裁掉2萬多名員工后,扎克伯格對自己下手了

      頭條要聞

      長在中國大陸的"日本人"慫恿臺出兵 幫美護航霍爾木茲

      頭條要聞

      長在中國大陸的"日本人"慫恿臺出兵 幫美護航霍爾木茲

      體育要聞

      不敢放手一搏,你拿什么去爭冠?

      娛樂要聞

      劉燁47歲生日,安娜曬全家福為其慶生

      財經要聞

      滬指險守3800點 全市場超百股跌停

      汽車要聞

      嵐圖汽車香江鳴鑼 一場關于"國家隊"的突圍實驗

      態(tài)度原創(chuàng)

      親子
      時尚
      教育
      數(shù)碼
      旅游

      親子要聞

      每天帶娃收雞蛋!

      “這條裙子”才是今年春天的頂流,怎么搭都好看

      教育要聞

      青春期孩子,總是憤怒,無原由的憤怒

      數(shù)碼要聞

      DRAM價格飆升100% 國內“穩(wěn)定器”穩(wěn)住供應

      旅游要聞

      來德州,一起“趣”露營

      無障礙瀏覽 進入關懷版