![]()
機(jī)器之心報(bào)道
編輯:冷貓
就在前天,DeepSeek 一口氣上新了兩個(gè)新模型,DeepSeek-V3.2 和 DeepSeek-V3.2-Speciale。
這兩大版本在推理能力上有了顯著的提升,DeepSeek-V3.2 版本能和 GPT-5 硬碰硬,而 Speciale 結(jié)合長(zhǎng)思考和定理證明能力,表現(xiàn)媲美 Gemini-3.0-Pro。有讀者評(píng)論說:「這個(gè)模型不應(yīng)該叫 V3.2,應(yīng)該叫 V4。」
海外研究者也迫不及待的用上了 DeepSeek 的新版本,在感慨 DeepSeek 推理速度顯著提升之余,卻又碰上了他們難以理解的事情:
哪怕在用英文詢問 DeepSeek 的時(shí)候,它在思考過程中還是會(huì)切回「神秘的東方文字」。
![]()
這就把海外友人整蒙了:明明沒有用中文提問,為什么模型還是會(huì)使用中文思考,難道用中文推理更好更快?
評(píng)論區(qū)有兩種不同的觀點(diǎn),但大部分評(píng)論都認(rèn)為:「漢字的信息密度更高」
來自亞馬遜的研究者也這么認(rèn)為:
![]()
這個(gè)結(jié)論很符合我們?nèi)粘5恼J(rèn)知,表達(dá)相同的文本含義,中文所需的字符量是明顯更少的。如果大模型理解與語義壓縮相關(guān)的話,那么中文相比于廣泛使用的英文在壓縮方面更有效率。或許這也是「中文更省 token」說法的來源。
具有多語言能力的大模型如果只采用英語思考的模式往往會(huì)導(dǎo)致一些效率問題。不光是中文,采用其他非英語的語言進(jìn)行推理確實(shí)能夠有更好的表現(xiàn)。
一篇來自微軟的論文《EfficientXLang: Towards Improving Token Efficiency Through Cross-Lingual Reasoning》發(fā)現(xiàn),使用非英語語言進(jìn)行推理不僅減少了 Token 消耗,還能保持準(zhǔn)確性。即使將推理軌跡翻譯回英語,這種優(yōu)勢(shì)依然存在,這表明這種變化源于推理行為的實(shí)質(zhì)性轉(zhuǎn)變,而非僅僅是表層的語言效應(yīng)。
![]()
- 論文標(biāo)題:EfficientXLang: Towards Improving Token Efficiency Through Cross-Lingual Reasoning
- 論文鏈接:https://www.arxiv.org/abs/2507.00246
在該論文中,作者,評(píng)估了三個(gè)最先進(jìn)的開源推理模型:DeepSeek R1、Qwen 2.5 (32B) 和 Qwen 3 (235B-A22B),問題以英語呈現(xiàn),但模型被明確指示以七種目標(biāo)語言中的一種執(zhí)行其推理步驟:中文 (zh)、俄語 (ru)、西班牙語 (es)、印地語 (hi)、阿拉伯語 (ar)、韓語 (ko) 和土耳其語 (tr)。最終答案必須以英語提供,以確保評(píng)估的一致性。
![]()
Token 數(shù)量比率與在英語和目標(biāo)語言中均至少有一個(gè)正確答案的問題數(shù)量(最少 5 個(gè)共同案例)的關(guān)系,該比率是相對(duì)于 DeepSeek R1 每個(gè)問題的平均英語 Token 數(shù)量計(jì)算得出的。
在所有評(píng)估的模型和數(shù)據(jù)集上,與英語相比,使用非英語語言進(jìn)行推理始終能實(shí)現(xiàn) 20-40% 的顯著令牌降低,而且通常不影響準(zhǔn)確性。DeepSeek R1 的 token 減少量從 14.1%(俄語)到 29.9%(西班牙語)不等,而 Qwen 3 則表現(xiàn)出更顯著的節(jié)省,韓語的減少量高達(dá) 73%。這些效率提升直接轉(zhuǎn)化為推理成本降低、延遲更低和計(jì)算資源需求降低。
從實(shí)驗(yàn)結(jié)果來看,中文確實(shí)相比英文能夠節(jié)省推理 token 成本,但卻并不是最具有效率的語言。
另一個(gè)研究論文同樣支撐著類似觀點(diǎn),來自馬里蘭大學(xué)和微軟的研究論文《One ruler to measure them all: Benchmarking multilingual long-context language models》,提出了包含 26 種語言的多語言基準(zhǔn) OneRuler,用于評(píng)估大型語言模型(LLM)在長(zhǎng)達(dá) 128K 令牌的長(zhǎng)上下文理解能力。
![]()
- 論文標(biāo)題:One ruler to measure them all: Benchmarking multilingual long-context language models
- 論文鏈接:https://www.arxiv.org/abs/2503.01996v3
研究者們通過兩個(gè)步驟構(gòu)建了 OneRuler:首先為每個(gè)任務(wù)編寫英語指令,然后與母語使用者合作將其翻譯成另外 25 種語言。
針對(duì)開放權(quán)重和閉源語言模型的實(shí)驗(yàn)表明,隨著上下文長(zhǎng)度從 8K 增加到 128K token,低資源語言與高資源語言之間的性能差距日益擴(kuò)大。令人驚訝的是,英語并不是長(zhǎng)上下文任務(wù)中表現(xiàn)最好的語言(在 26 種語言中排名第 6),而波蘭語位居榜首。在指令和上下文語言不一致的跨語言場(chǎng)景中,根據(jù)指令語言的不同,性能波動(dòng)幅度可達(dá) 20%。
![]()
圖 4:在長(zhǎng)上下文任務(wù)(64K 和 128K)中,按語言資源組分類的各模型和語言的 NIAH 性能表現(xiàn)。Gemini 1.5 Flash 展現(xiàn)了最佳的長(zhǎng)上下文性能,而出人意料的是,英語和中文并未進(jìn)入排名前五的語言之列。
既然中英文都不是具有最佳大模型性能的語言,那大模型選擇思考語言的方式并不是完全以效率為先。
所以評(píng)論區(qū)的第二種觀點(diǎn):「訓(xùn)練數(shù)據(jù)中包含更多中文內(nèi)容」,似乎更加合理。
![]()
國(guó)產(chǎn)大模型采用更多中文訓(xùn)練語料,其思考過程出現(xiàn)中文是正常現(xiàn)象。就像 AI 編程工具 Cursor 發(fā)布的新版本 2.0 核心模型「Composer-1」被質(zhì)疑是中國(guó)模型套殼,正是因?yàn)槠渌伎歼^程完全由中文構(gòu)成。
![]()
但類似的事放在 GPT 上就說不通了,畢竟在它的訓(xùn)練過程中,英文數(shù)據(jù)的占比顯然是更高的。
在今年 1 月份就有類似的事情發(fā)生,網(wǎng)友發(fā)現(xiàn)來自 OpenAI 的 o1-pro 模型也會(huì)隨機(jī)出現(xiàn)中文思考過程。
![]()
![]()
或許這就是人類語言的魅力,不同的語言有不同的特性,在大模型中總會(huì)有各種奇怪的事情發(fā)生。
![]()
大模型說中文的事情越來越多,中文訓(xùn)練語料也越來越豐富。
說不定有一天,我們能夠像海外友人自嘲一樣笑話大模型:「我并不是要你變成中國(guó)人。我是說 —— 當(dāng)時(shí)機(jī)成熟時(shí),你照照鏡子,就會(huì)發(fā)現(xiàn)自己早已是中國(guó)人了。」
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.