2026年3月24日,國(guó)家數(shù)據(jù)局首次在官方語(yǔ)境中確立“詞元”為Token的標(biāo)準(zhǔn)譯名,并披露國(guó)內(nèi)日均Token調(diào)用量已突破140萬億。但這仍只是“文本時(shí)代主導(dǎo)”的規(guī)模。
在語(yǔ)音、視頻與實(shí)時(shí)交互驅(qū)動(dòng)的多模態(tài)場(chǎng)景中,隨著自主調(diào)用工具并交付結(jié)果的Agent大量部署,Token的生成與消耗方式正在發(fā)生范式性變化——
從離散文本走向連續(xù)感知,從低頻批量輸入走向高頻流式輸入,其生產(chǎn)方式、組織結(jié)構(gòu)與消耗效率,將直接決定下一代AI系統(tǒng)的能力上限與成本結(jié)構(gòu)。
![]()
早在2021年,復(fù)旦大學(xué)邱錫鵬教授較早明確采用“詞元”這一譯法,推動(dòng)其在中文語(yǔ)境下的標(biāo)準(zhǔn)化。他指出,“詞元”既避免被簡(jiǎn)單理解為自然語(yǔ)言中的“詞”,又保留了其作為語(yǔ)言處理基本單位的本質(zhì)內(nèi)涵。
而隨著大模型從文本走向多模態(tài)、從模型能力走向Agent系統(tǒng),“詞元”所對(duì)應(yīng)的,也不再只是一個(gè)術(shù)語(yǔ)問題,而是下一代智能系統(tǒng)的底層組織方式。
在這一趨勢(shì)下,圍繞統(tǒng)一Token結(jié)構(gòu)、全模態(tài)與情境智能展開布局的公司,正持續(xù)獲得資本關(guān)注。
近日,模思智能(MOSI)也官宣完成數(shù)億元的天使輪融資,由IDG資本領(lǐng)投,元禾控股、上海國(guó)投旗下上海科創(chuàng)及上海未來產(chǎn)業(yè)基金、奇績(jī)創(chuàng)壇、智譜系基金-星連資本及某頭部產(chǎn)業(yè)投資方聯(lián)合投資。
這筆融資背后,投資方顯然看重的并不只是單點(diǎn)產(chǎn)品能力,而是其對(duì)下一代技術(shù)路徑的提前布局,而多維資本也將擔(dān)任新一輪獨(dú)家財(cái)務(wù)顧問,攜手模思智能共同探索通用智能時(shí)代的下一步。
非共識(shí)路徑:從語(yǔ)音到全模態(tài),在統(tǒng)一的Token結(jié)構(gòu)中被表達(dá)和計(jì)算
早在2023年“百模大戰(zhàn)”期間,邱錫鵬便意識(shí)到,市場(chǎng)上雖然模型眾多,但底層技術(shù)路徑高度趨同。絕大多數(shù)資源持續(xù)涌向文本大模型賽道,基礎(chǔ)研究的多樣性卻在萎縮。
某種程度上,這種同質(zhì)化不僅限制了技術(shù)可能性的展開,也壓縮了探索新路徑的空間。
在這樣的背景下,模思智能并未沿著主流的純文本路線繼續(xù)加碼,而是選擇了一條更少人走的道路:從語(yǔ)音切入,走向全模態(tài),在統(tǒng)一的Token結(jié)構(gòu)中表達(dá)和計(jì)算不同模態(tài)的信息。
![]()
之所以選擇語(yǔ)音作為突破口,原因并不復(fù)雜。
相比純文本,音頻的信息密度更高,天然包含語(yǔ)調(diào)、節(jié)奏、情緒等文本難以完整承載的信號(hào);同時(shí),音頻也更容易與環(huán)境、動(dòng)作和上下文形成連續(xù)輸入流,更接近真實(shí)世界中的人機(jī)交互方式。
它不僅是交互入口,更是通向“情境理解”的天然起點(diǎn)。
當(dāng)Token不再只是文本中的離散符號(hào),而成為連續(xù)感知信息的離散化表達(dá)后,模型要解決的問題也發(fā)生了變化:從“理解一句話”轉(zhuǎn)向“理解一個(gè)情境”。
模思智能將這一能力概括為“情境智能”(Contextual Intelligence)——以持續(xù)感知、動(dòng)態(tài)記憶與環(huán)境理解為基礎(chǔ),使AI能夠在真實(shí)世界中進(jìn)行自適應(yīng)交互。
在這一框架下,Token不再只是靜態(tài)輸入單元,而是構(gòu)成情境的基本信號(hào)。
而Agent,正是情境智能走向現(xiàn)實(shí)應(yīng)用的直接載體。
隨著以O(shè)penClaw等為代表的基礎(chǔ)設(shè)施逐步成熟,行業(yè)競(jìng)爭(zhēng)也正在從單一的“模型能力”比拼,轉(zhuǎn)向?qū)换ト肟谂c環(huán)境理解能力的爭(zhēng)奪。語(yǔ)音、上下文與情境建模能力,正在成為新的技術(shù)分水嶺。
如果說邱錫鵬代表的是這一路線的學(xué)術(shù)源頭,那么模思智能則是這一方向的產(chǎn)業(yè)化載體;而上海創(chuàng)智學(xué)院提供的,則是支撐技術(shù)快速轉(zhuǎn)化的組織與資源平臺(tái)。
MOSS之后,真正的布局才剛剛開始
模思智能核心團(tuán)隊(duì)長(zhǎng)期深耕預(yù)訓(xùn)練、大模型與多模態(tài)方向,并持續(xù)推進(jìn)統(tǒng)一Token路線的技術(shù)演進(jìn)。
2023年2月,國(guó)內(nèi)首個(gè)類ChatGPT對(duì)話式大模型MOSS發(fā)布,打響了中國(guó)“百模大戰(zhàn)”的第一槍。但在模思智能團(tuán)隊(duì)看來,真正重要的并不是打一場(chǎng)模型發(fā)布戰(zhàn),而是提前押注下一階段的技術(shù)結(jié)構(gòu)。
同年5月,團(tuán)隊(duì)推出SpeechGPT,在業(yè)內(nèi)較早驗(yàn)證了“離散化端到端語(yǔ)音大模型”這一路徑的可行性。
它所解決的核心問題,是首次將連續(xù)語(yǔ)音信號(hào)拆解并映射為離散Token序列,讓語(yǔ)音得以真正進(jìn)入與文本統(tǒng)一的Token空間。
這意味著,機(jī)器理解人“說的話”和理解人“寫的話”,第一次有機(jī)會(huì)在同一套計(jì)算框架內(nèi)完成。
![]()
同年8月發(fā)布的SpeechTokenizer,則進(jìn)一步將這一路線工程化,成為融合語(yǔ)義Token與聲學(xué)Token的音頻離散化編碼器,為后續(xù)語(yǔ)音理解與生成、乃至更廣義的多模態(tài)統(tǒng)一建模打下了底座。
這條路線一旦走通,向全模態(tài)擴(kuò)展就是自然而然的結(jié)果。
2024年2月,AnyGPT發(fā)布,首次將語(yǔ)音、文本、圖像與視頻統(tǒng)一映射至離散Token體系,提出了真正意義上的離散化全模態(tài)基座模型架構(gòu)。
不同模態(tài)不再需要彼此割裂、分別訓(xùn)練,而是能夠在同一序列結(jié)構(gòu)中完成理解與生成。
至此,團(tuán)隊(duì)此前多年的技術(shù)布局,第一次呈現(xiàn)出較為完整的輪廓。
從單點(diǎn)突破到能力閉環(huán)
此后,相關(guān)成果開始加速涌現(xiàn)。
2025年7月,MOSS-TTSD發(fā)布,作為國(guó)內(nèi)首個(gè)基于百萬小時(shí)音頻訓(xùn)練的開源中英雙語(yǔ)對(duì)話語(yǔ)音模型,在播客、影視配音等長(zhǎng)內(nèi)容場(chǎng)景中展現(xiàn)出較強(qiáng)競(jìng)爭(zhēng)力。
![]()
視頻地址:https://mp.weixin.qq.com/s/tXkD_9BWv7aHk_uflfb9-g
同年11月,聯(lián)合上海創(chuàng)智學(xué)院等機(jī)構(gòu)發(fā)布的下一代能動(dòng)性模型體系NEX,在氛圍編程、工具使用、后端開發(fā)等多項(xiàng)基準(zhǔn)測(cè)試中進(jìn)入全球第一梯隊(duì)水平,將離散化架構(gòu)的優(yōu)勢(shì)進(jìn)一步延伸至Agent與生產(chǎn)力場(chǎng)景。
進(jìn)入2026年后,團(tuán)隊(duì)以月度推進(jìn)的節(jié)奏持續(xù)迭代:
- MOSS-Transcribe-Diarize在復(fù)雜多說話人場(chǎng)景中實(shí)現(xiàn)領(lǐng)先表現(xiàn);
- MOVA作為國(guó)內(nèi)首個(gè)高性能音視頻生成開源模型之一,開源后迅速獲得行業(yè)關(guān)注;
- MOSS-Audio-Tokenizer在相同比特率下進(jìn)一步刷新音頻重建性能;
- 基于該Tokenizer訓(xùn)練的MOSS-TTS系列模型,則主要面向?qū)嶋H生產(chǎn)場(chǎng)景,在音色克隆相似度等指標(biāo)上表現(xiàn)突出。
至此,模思智能已經(jīng)成為國(guó)內(nèi)少數(shù)完成“全模態(tài)基座模型能力閉環(huán)”的初創(chuàng)公司之一。
![]()
視頻地址:https://mp.weixin.qq.com/s/tXkD_9BWv7aHk_uflfb9-g
這一系列成果背后,并不是若干彼此孤立的技術(shù)突破,而是同一個(gè)底層命題被不斷驗(yàn)證后的自然延展:多模態(tài)信息可以通過統(tǒng)一的離散化方式映射到同一Token序列結(jié)構(gòu)中,進(jìn)而實(shí)現(xiàn)統(tǒng)一計(jì)算。
離散化帶來的,不只是更高的壓縮效率,更重要的是賦予不同模態(tài)以可組合性與可計(jì)算性——而這正是全模態(tài)智能與Agent系統(tǒng)真正落地的底層架構(gòu)前提。
頂尖大模型產(chǎn)業(yè)化團(tuán)隊(duì):具備從0到N的全棧能力
支撐模思智能技術(shù)路徑的,是一支同時(shí)具備前沿研究深度與工程落地能力的核心團(tuán)隊(duì)。
首席科學(xué)家邱錫鵬,復(fù)旦大學(xué)教授,國(guó)家杰出青年科學(xué)基金獲得者、上海創(chuàng)智學(xué)院全職導(dǎo)師,并榮獲2024年CCF-ACM AI Award(當(dāng)年全球唯一獲獎(jiǎng)人)。
他長(zhǎng)期深耕自然語(yǔ)言處理與大模型方向,在端到端語(yǔ)音大模型與全模態(tài)基座模型等前沿領(lǐng)域持續(xù)保持技術(shù)領(lǐng)先,是國(guó)內(nèi)大模型領(lǐng)域兼具學(xué)術(shù)高度與產(chǎn)業(yè)影響力的領(lǐng)軍人物,多次入選全球前2%頂尖科學(xué)家榜單。
其著作《神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)》被廣泛用于高校教學(xué)。
![]()
CEO李世民出自邱錫鵬門下碩博連讀體系,以一作身份發(fā)表多篇CCF-A類論文,并深度參與科技部“新一代人工智能2030”重點(diǎn)研發(fā)項(xiàng)目,在擬人化人機(jī)交互方向?qū)崿F(xiàn)多項(xiàng)關(guān)鍵技術(shù)突破。
對(duì)李世民而言,創(chuàng)業(yè)并非角色轉(zhuǎn)換,而是其既有研究路徑在產(chǎn)業(yè)側(cè)的自然延伸。
值得注意的是,模思智能并非傳統(tǒng)意義上的“教授帶學(xué)生創(chuàng)業(yè)”,而是由上海創(chuàng)智學(xué)院與復(fù)旦大學(xué)聯(lián)合孵化的標(biāo)桿項(xiàng)目。
作為上海市主導(dǎo)設(shè)立的新型研發(fā)機(jī)構(gòu),創(chuàng)智學(xué)院為公司提供了覆蓋算力、人才與產(chǎn)業(yè)資源的體系化支持,使其具備遠(yuǎn)高于常規(guī)學(xué)術(shù)創(chuàng)業(yè)項(xiàng)目的起點(diǎn)與迭代速度。
2025年7月,在創(chuàng)智學(xué)院“首發(fā)八大AI成果”發(fā)布會(huì)上,邱錫鵬團(tuán)隊(duì)聯(lián)合模思智能發(fā)布的MOSS-Audio被評(píng)價(jià)為“突破語(yǔ)音交互恐怖谷效應(yīng),為情境智能奠定基礎(chǔ)”。
△圖源:上海創(chuàng)智學(xué)院官微
同年9月,在一周年成果發(fā)布會(huì)上,團(tuán)隊(duì)提出的規(guī)模化全流程大模型可解釋框架再次入選七大創(chuàng)新成果,標(biāo)志著中國(guó)在相關(guān)方向?qū)崿F(xiàn)從跟跑到領(lǐng)跑的躍遷。CEO李世民表示:
- 創(chuàng)智學(xué)院的孵化,使我們能夠以遠(yuǎn)超傳統(tǒng)學(xué)術(shù)創(chuàng)業(yè)的速度完成技術(shù)轉(zhuǎn)化。
公司目前已形成近百人的全棧技術(shù)體系,博士占比接近50%,核心成員主要來自復(fù)旦大學(xué)NLP體系(CS Ranking全球前列),并持續(xù)吸引來自多所頂尖高校的研究人才。
隨著公司逐步走向產(chǎn)業(yè)化落地,團(tuán)隊(duì)引入多位具備阿里、字節(jié)、理想汽車等背景的關(guān)鍵成員,補(bǔ)齊工程化與商業(yè)化能力,為從1到N的規(guī)模化擴(kuò)張奠定基礎(chǔ)。
商業(yè)化層面,模思智能多模態(tài)大模型開放平臺(tái)已進(jìn)入全面公測(cè)階段,提供一站式API服務(wù),以高穩(wěn)定性與高性價(jià)比支撐企業(yè)級(jí)調(diào)用需求。
目前,公司已在消費(fèi)電子、智能汽車、具身智能與AI陪伴等多個(gè)場(chǎng)景中與頭部客戶展開合作,初步驗(yàn)證了技術(shù)落地能力與商業(yè)轉(zhuǎn)化潛力。
模思智能更強(qiáng)調(diào)從基座模型到垂直應(yīng)用的一體化能力構(gòu)建,其商業(yè)增長(zhǎng)飛輪將圍繞“詞元(Token)的生產(chǎn)、分發(fā)與應(yīng)用”展開,從MaaS能力輸出延伸至2B、2B2C與2C多層級(jí)場(chǎng)景,逐步形成技術(shù)與商業(yè)雙輪驅(qū)動(dòng)的公司。
誰在定義下一代智能
國(guó)家數(shù)據(jù)局首次官宣“詞元”譯名,在某種程度上標(biāo)志著大模型產(chǎn)業(yè)正從早期野蠻生長(zhǎng)走向更高程度的規(guī)范化。
這背后意味著,單純依賴參數(shù)堆疊與算力外推的階段正在逐步過去,未來模型能力的差距,可能越來越取決于架構(gòu)創(chuàng)新、系統(tǒng)組織方式以及頂尖人才密度。
模思智能試圖回答的,正是一個(gè)尚無定論的問題:當(dāng)大模型進(jìn)入深水區(qū),真正的護(hù)城河究竟是什么?
答案或許已不再只是參數(shù)規(guī)模或算力投入本身,而在于是否能夠更早識(shí)別并押注下一代智能的核心結(jié)構(gòu)。
對(duì)模思智能而言,這種結(jié)構(gòu)體現(xiàn)為:統(tǒng)一的Token表達(dá)、面向情境的持續(xù)理解能力,以及能夠調(diào)用工具、交付結(jié)果、與用戶建立長(zhǎng)期關(guān)系的Agent系統(tǒng)。
當(dāng)“詞元”進(jìn)入官方語(yǔ)言,真正值得關(guān)注的,或許已不只是一個(gè)術(shù)語(yǔ)被定名,而是誰能夠率先定義:詞元將如何被生產(chǎn)、組織與使用。
某種意義上,這也正是在定義下一代智能系統(tǒng)的邊界。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.