網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

從Token到詞元：全模態(tài)時(shí)代的基模與交互入口

2026-03-27 12:00:00　來源: 量子位

北京舉報(bào)

分享至

2026年3月24日，國(guó)家數(shù)據(jù)局首次在官方語(yǔ)境中確立“詞元”為Token的標(biāo)準(zhǔn)譯名，并披露國(guó)內(nèi)日均Token調(diào)用量已突破140萬億。但這仍只是“文本時(shí)代主導(dǎo)”的規(guī)模。

在語(yǔ)音、視頻與實(shí)時(shí)交互驅(qū)動(dòng)的多模態(tài)場(chǎng)景中，隨著自主調(diào)用工具并交付結(jié)果的Agent大量部署，Token的生成與消耗方式正在發(fā)生范式性變化——

從離散文本走向連續(xù)感知，從低頻批量輸入走向高頻流式輸入，其生產(chǎn)方式、組織結(jié)構(gòu)與消耗效率，將直接決定下一代AI系統(tǒng)的能力上限與成本結(jié)構(gòu)。

早在2021年，復(fù)旦大學(xué)邱錫鵬教授較早明確采用“詞元”這一譯法，推動(dòng)其在中文語(yǔ)境下的標(biāo)準(zhǔn)化。他指出，“詞元”既避免被簡(jiǎn)單理解為自然語(yǔ)言中的“詞”，又保留了其作為語(yǔ)言處理基本單位的本質(zhì)內(nèi)涵。

而隨著大模型從文本走向多模態(tài)、從模型能力走向Agent系統(tǒng)，“詞元”所對(duì)應(yīng)的，也不再只是一個(gè)術(shù)語(yǔ)問題，而是下一代智能系統(tǒng)的底層組織方式。

在這一趨勢(shì)下，圍繞統(tǒng)一Token結(jié)構(gòu)、全模態(tài)與情境智能展開布局的公司，正持續(xù)獲得資本關(guān)注。

近日，模思智能（MOSI）也官宣完成數(shù)億元的天使輪融資，由IDG資本領(lǐng)投，元禾控股、上海國(guó)投旗下上海科創(chuàng)及上海未來產(chǎn)業(yè)基金、奇績(jī)創(chuàng)壇、智譜系基金-星連資本及某頭部產(chǎn)業(yè)投資方聯(lián)合投資。

這筆融資背后，投資方顯然看重的并不只是單點(diǎn)產(chǎn)品能力，而是其對(duì)下一代技術(shù)路徑的提前布局，而多維資本也將擔(dān)任新一輪獨(dú)家財(cái)務(wù)顧問，攜手模思智能共同探索通用智能時(shí)代的下一步。

非共識(shí)路徑：從語(yǔ)音到全模態(tài)，在統(tǒng)一的Token結(jié)構(gòu)中被表達(dá)和計(jì)算

早在2023年“百模大戰(zhàn)”期間，邱錫鵬便意識(shí)到，市場(chǎng)上雖然模型眾多，但底層技術(shù)路徑高度趨同。絕大多數(shù)資源持續(xù)涌向文本大模型賽道，基礎(chǔ)研究的多樣性卻在萎縮。

某種程度上，這種同質(zhì)化不僅限制了技術(shù)可能性的展開，也壓縮了探索新路徑的空間。

在這樣的背景下，模思智能并未沿著主流的純文本路線繼續(xù)加碼，而是選擇了一條更少人走的道路：從語(yǔ)音切入，走向全模態(tài)，在統(tǒng)一的Token結(jié)構(gòu)中表達(dá)和計(jì)算不同模態(tài)的信息。

之所以選擇語(yǔ)音作為突破口，原因并不復(fù)雜。

相比純文本，音頻的信息密度更高，天然包含語(yǔ)調(diào)、節(jié)奏、情緒等文本難以完整承載的信號(hào)；同時(shí)，音頻也更容易與環(huán)境、動(dòng)作和上下文形成連續(xù)輸入流，更接近真實(shí)世界中的人機(jī)交互方式。

它不僅是交互入口，更是通向“情境理解”的天然起點(diǎn)。

當(dāng)Token不再只是文本中的離散符號(hào)，而成為連續(xù)感知信息的離散化表達(dá)后，模型要解決的問題也發(fā)生了變化：從“理解一句話”轉(zhuǎn)向“理解一個(gè)情境”。

模思智能將這一能力概括為“情境智能”（Contextual Intelligence）——以持續(xù)感知、動(dòng)態(tài)記憶與環(huán)境理解為基礎(chǔ)，使AI能夠在真實(shí)世界中進(jìn)行自適應(yīng)交互。

在這一框架下，Token不再只是靜態(tài)輸入單元，而是構(gòu)成情境的基本信號(hào)。

而Agent，正是情境智能走向現(xiàn)實(shí)應(yīng)用的直接載體。

隨著以O(shè)penClaw等為代表的基礎(chǔ)設(shè)施逐步成熟，行業(yè)競(jìng)爭(zhēng)也正在從單一的“模型能力”比拼，轉(zhuǎn)向?qū)换ト肟谂c環(huán)境理解能力的爭(zhēng)奪。語(yǔ)音、上下文與情境建模能力，正在成為新的技術(shù)分水嶺。

如果說邱錫鵬代表的是這一路線的學(xué)術(shù)源頭，那么模思智能則是這一方向的產(chǎn)業(yè)化載體；而上海創(chuàng)智學(xué)院提供的，則是支撐技術(shù)快速轉(zhuǎn)化的組織與資源平臺(tái)。

MOSS之后，真正的布局才剛剛開始

模思智能核心團(tuán)隊(duì)長(zhǎng)期深耕預(yù)訓(xùn)練、大模型與多模態(tài)方向，并持續(xù)推進(jìn)統(tǒng)一Token路線的技術(shù)演進(jìn)。

2023年2月，國(guó)內(nèi)首個(gè)類ChatGPT對(duì)話式大模型MOSS發(fā)布，打響了中國(guó)“百模大戰(zhàn)”的第一槍。但在模思智能團(tuán)隊(duì)看來，真正重要的并不是打一場(chǎng)模型發(fā)布戰(zhàn)，而是提前押注下一階段的技術(shù)結(jié)構(gòu)。

同年5月，團(tuán)隊(duì)推出SpeechGPT，在業(yè)內(nèi)較早驗(yàn)證了“離散化端到端語(yǔ)音大模型”這一路徑的可行性。

它所解決的核心問題，是首次將連續(xù)語(yǔ)音信號(hào)拆解并映射為離散Token序列，讓語(yǔ)音得以真正進(jìn)入與文本統(tǒng)一的Token空間。

這意味著，機(jī)器理解人“說的話”和理解人“寫的話”，第一次有機(jī)會(huì)在同一套計(jì)算框架內(nèi)完成。

同年8月發(fā)布的SpeechTokenizer，則進(jìn)一步將這一路線工程化，成為融合語(yǔ)義Token與聲學(xué)Token的音頻離散化編碼器，為后續(xù)語(yǔ)音理解與生成、乃至更廣義的多模態(tài)統(tǒng)一建模打下了底座。

這條路線一旦走通，向全模態(tài)擴(kuò)展就是自然而然的結(jié)果。

2024年2月，AnyGPT發(fā)布，首次將語(yǔ)音、文本、圖像與視頻統(tǒng)一映射至離散Token體系，提出了真正意義上的離散化全模態(tài)基座模型架構(gòu)。

不同模態(tài)不再需要彼此割裂、分別訓(xùn)練，而是能夠在同一序列結(jié)構(gòu)中完成理解與生成。

至此，團(tuán)隊(duì)此前多年的技術(shù)布局，第一次呈現(xiàn)出較為完整的輪廓。

從單點(diǎn)突破到能力閉環(huán)

此后，相關(guān)成果開始加速涌現(xiàn)。

2025年7月，MOSS-TTSD發(fā)布，作為國(guó)內(nèi)首個(gè)基于百萬小時(shí)音頻訓(xùn)練的開源中英雙語(yǔ)對(duì)話語(yǔ)音模型，在播客、影視配音等長(zhǎng)內(nèi)容場(chǎng)景中展現(xiàn)出較強(qiáng)競(jìng)爭(zhēng)力。

視頻地址：https://mp.weixin.qq.com/s/tXkD_9BWv7aHk_uflfb9-g

同年11月，聯(lián)合上海創(chuàng)智學(xué)院等機(jī)構(gòu)發(fā)布的下一代能動(dòng)性模型體系NEX，在氛圍編程、工具使用、后端開發(fā)等多項(xiàng)基準(zhǔn)測(cè)試中進(jìn)入全球第一梯隊(duì)水平，將離散化架構(gòu)的優(yōu)勢(shì)進(jìn)一步延伸至Agent與生產(chǎn)力場(chǎng)景。

進(jìn)入2026年后，團(tuán)隊(duì)以月度推進(jìn)的節(jié)奏持續(xù)迭代：

MOSS-Transcribe-Diarize在復(fù)雜多說話人場(chǎng)景中實(shí)現(xiàn)領(lǐng)先表現(xiàn)；
MOVA作為國(guó)內(nèi)首個(gè)高性能音視頻生成開源模型之一，開源后迅速獲得行業(yè)關(guān)注；
MOSS-Audio-Tokenizer在相同比特率下進(jìn)一步刷新音頻重建性能；
基于該Tokenizer訓(xùn)練的MOSS-TTS系列模型，則主要面向?qū)嶋H生產(chǎn)場(chǎng)景，在音色克隆相似度等指標(biāo)上表現(xiàn)突出。

至此，模思智能已經(jīng)成為國(guó)內(nèi)少數(shù)完成“全模態(tài)基座模型能力閉環(huán)”的初創(chuàng)公司之一。

視頻地址：https://mp.weixin.qq.com/s/tXkD_9BWv7aHk_uflfb9-g

這一系列成果背后，并不是若干彼此孤立的技術(shù)突破，而是同一個(gè)底層命題被不斷驗(yàn)證后的自然延展：多模態(tài)信息可以通過統(tǒng)一的離散化方式映射到同一Token序列結(jié)構(gòu)中，進(jìn)而實(shí)現(xiàn)統(tǒng)一計(jì)算。

離散化帶來的，不只是更高的壓縮效率，更重要的是賦予不同模態(tài)以可組合性與可計(jì)算性——而這正是全模態(tài)智能與Agent系統(tǒng)真正落地的底層架構(gòu)前提。

頂尖大模型產(chǎn)業(yè)化團(tuán)隊(duì)：具備從0到N的全棧能力

支撐模思智能技術(shù)路徑的，是一支同時(shí)具備前沿研究深度與工程落地能力的核心團(tuán)隊(duì)。

首席科學(xué)家邱錫鵬，復(fù)旦大學(xué)教授，國(guó)家杰出青年科學(xué)基金獲得者、上海創(chuàng)智學(xué)院全職導(dǎo)師，并榮獲2024年CCF-ACM AI Award（當(dāng)年全球唯一獲獎(jiǎng)人）。

他長(zhǎng)期深耕自然語(yǔ)言處理與大模型方向，在端到端語(yǔ)音大模型與全模態(tài)基座模型等前沿領(lǐng)域持續(xù)保持技術(shù)領(lǐng)先，是國(guó)內(nèi)大模型領(lǐng)域兼具學(xué)術(shù)高度與產(chǎn)業(yè)影響力的領(lǐng)軍人物，多次入選全球前2%頂尖科學(xué)家榜單。

其著作《神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)》被廣泛用于高校教學(xué)。

CEO李世民出自邱錫鵬門下碩博連讀體系，以一作身份發(fā)表多篇CCF-A類論文，并深度參與科技部“新一代人工智能2030”重點(diǎn)研發(fā)項(xiàng)目，在擬人化人機(jī)交互方向?qū)崿F(xiàn)多項(xiàng)關(guān)鍵技術(shù)突破。

對(duì)李世民而言，創(chuàng)業(yè)并非角色轉(zhuǎn)換，而是其既有研究路徑在產(chǎn)業(yè)側(cè)的自然延伸。

值得注意的是，模思智能并非傳統(tǒng)意義上的“教授帶學(xué)生創(chuàng)業(yè)”，而是由上海創(chuàng)智學(xué)院與復(fù)旦大學(xué)聯(lián)合孵化的標(biāo)桿項(xiàng)目。

作為上海市主導(dǎo)設(shè)立的新型研發(fā)機(jī)構(gòu)，創(chuàng)智學(xué)院為公司提供了覆蓋算力、人才與產(chǎn)業(yè)資源的體系化支持，使其具備遠(yuǎn)高于常規(guī)學(xué)術(shù)創(chuàng)業(yè)項(xiàng)目的起點(diǎn)與迭代速度。

2025年7月，在創(chuàng)智學(xué)院“首發(fā)八大AI成果”發(fā)布會(huì)上，邱錫鵬團(tuán)隊(duì)聯(lián)合模思智能發(fā)布的MOSS-Audio被評(píng)價(jià)為“突破語(yǔ)音交互恐怖谷效應(yīng)，為情境智能奠定基礎(chǔ)”。

△圖源：上海創(chuàng)智學(xué)院官微

同年9月，在一周年成果發(fā)布會(huì)上，團(tuán)隊(duì)提出的規(guī)模化全流程大模型可解釋框架再次入選七大創(chuàng)新成果，標(biāo)志著中國(guó)在相關(guān)方向?qū)崿F(xiàn)從跟跑到領(lǐng)跑的躍遷。CEO李世民表示：

創(chuàng)智學(xué)院的孵化，使我們能夠以遠(yuǎn)超傳統(tǒng)學(xué)術(shù)創(chuàng)業(yè)的速度完成技術(shù)轉(zhuǎn)化。

公司目前已形成近百人的全棧技術(shù)體系，博士占比接近50%，核心成員主要來自復(fù)旦大學(xué)NLP體系（CS Ranking全球前列），并持續(xù)吸引來自多所頂尖高校的研究人才。

隨著公司逐步走向產(chǎn)業(yè)化落地，團(tuán)隊(duì)引入多位具備阿里、字節(jié)、理想汽車等背景的關(guān)鍵成員，補(bǔ)齊工程化與商業(yè)化能力，為從1到N的規(guī)模化擴(kuò)張奠定基礎(chǔ)。

商業(yè)化層面，模思智能多模態(tài)大模型開放平臺(tái)已進(jìn)入全面公測(cè)階段，提供一站式API服務(wù)，以高穩(wěn)定性與高性價(jià)比支撐企業(yè)級(jí)調(diào)用需求。

目前，公司已在消費(fèi)電子、智能汽車、具身智能與AI陪伴等多個(gè)場(chǎng)景中與頭部客戶展開合作，初步驗(yàn)證了技術(shù)落地能力與商業(yè)轉(zhuǎn)化潛力。

模思智能更強(qiáng)調(diào)從基座模型到垂直應(yīng)用的一體化能力構(gòu)建，其商業(yè)增長(zhǎng)飛輪將圍繞“詞元（Token）的生產(chǎn)、分發(fā)與應(yīng)用”展開，從MaaS能力輸出延伸至2B、2B2C與2C多層級(jí)場(chǎng)景，逐步形成技術(shù)與商業(yè)雙輪驅(qū)動(dòng)的公司。

誰在定義下一代智能

國(guó)家數(shù)據(jù)局首次官宣“詞元”譯名，在某種程度上標(biāo)志著大模型產(chǎn)業(yè)正從早期野蠻生長(zhǎng)走向更高程度的規(guī)范化。

這背后意味著，單純依賴參數(shù)堆疊與算力外推的階段正在逐步過去，未來模型能力的差距，可能越來越取決于架構(gòu)創(chuàng)新、系統(tǒng)組織方式以及頂尖人才密度。

模思智能試圖回答的，正是一個(gè)尚無定論的問題：當(dāng)大模型進(jìn)入深水區(qū)，真正的護(hù)城河究竟是什么？

答案或許已不再只是參數(shù)規(guī)模或算力投入本身，而在于是否能夠更早識(shí)別并押注下一代智能的核心結(jié)構(gòu)。

對(duì)模思智能而言，這種結(jié)構(gòu)體現(xiàn)為：統(tǒng)一的Token表達(dá)、面向情境的持續(xù)理解能力，以及能夠調(diào)用工具、交付結(jié)果、與用戶建立長(zhǎng)期關(guān)系的Agent系統(tǒng)。

當(dāng)“詞元”進(jìn)入官方語(yǔ)言，真正值得關(guān)注的，或許已不只是一個(gè)術(shù)語(yǔ)被定名，而是誰能夠率先定義：詞元將如何被生產(chǎn)、組織與使用。

某種意義上，這也正是在定義下一代智能系統(tǒng)的邊界。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.