網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

老外傻眼！明用英文提問，DeepSeek依然堅(jiān)持中文思考

DeepSeek為何堅(jiān)持中文思考

2025-12-03 16:57:12　來源: 機(jī)器之心Pro

北京舉報(bào)

分享至

機(jī)器之心報(bào)道

編輯：冷貓

就在前天，DeepSeek 一口氣上新了兩個(gè)新模型，DeepSeek-V3.2 和 DeepSeek-V3.2-Speciale。

這兩大版本在推理能力上有了顯著的提升，DeepSeek-V3.2 版本能和 GPT-5 硬碰硬，而 Speciale 結(jié)合長(zhǎng)思考和定理證明能力，表現(xiàn)媲美 Gemini-3.0-Pro。有讀者評(píng)論說：「這個(gè)模型不應(yīng)該叫 V3.2，應(yīng)該叫 V4。」

海外研究者也迫不及待的用上了 DeepSeek 的新版本，在感慨 DeepSeek 推理速度顯著提升之余，卻又碰上了他們難以理解的事情：

哪怕在用英文詢問 DeepSeek 的時(shí)候，它在思考過程中還是會(huì)切回「神秘的東方文字」。

這就把海外友人整蒙了：明明沒有用中文提問，為什么模型還是會(huì)使用中文思考，難道用中文推理更好更快？

評(píng)論區(qū)有兩種不同的觀點(diǎn)，但大部分評(píng)論都認(rèn)為：「漢字的信息密度更高」

來自亞馬遜的研究者也這么認(rèn)為：

這個(gè)結(jié)論很符合我們?nèi)粘５恼J(rèn)知，表達(dá)相同的文本含義，中文所需的字符量是明顯更少的。如果大模型理解與語義壓縮相關(guān)的話，那么中文相比于廣泛使用的英文在壓縮方面更有效率。或許這也是「中文更省 token」說法的來源。

具有多語言能力的大模型如果只采用英語思考的模式往往會(huì)導(dǎo)致一些效率問題。不光是中文，采用其他非英語的語言進(jìn)行推理確實(shí)能夠有更好的表現(xiàn)。

一篇來自微軟的論文《EfficientXLang: Towards Improving Token Efficiency Through Cross-Lingual Reasoning》發(fā)現(xiàn)，使用非英語語言進(jìn)行推理不僅減少了 Token 消耗，還能保持準(zhǔn)確性。即使將推理軌跡翻譯回英語，這種優(yōu)勢(shì)依然存在，這表明這種變化源于推理行為的實(shí)質(zhì)性轉(zhuǎn)變，而非僅僅是表層的語言效應(yīng)。

論文標(biāo)題：EfficientXLang: Towards Improving Token Efficiency Through Cross-Lingual Reasoning
論文鏈接：https://www.arxiv.org/abs/2507.00246

在該論文中，作者，評(píng)估了三個(gè)最先進(jìn)的開源推理模型：DeepSeek R1、Qwen 2.5 (32B) 和 Qwen 3 (235B-A22B)，問題以英語呈現(xiàn)，但模型被明確指示以七種目標(biāo)語言中的一種執(zhí)行其推理步驟：中文 (zh)、俄語 (ru)、西班牙語 (es)、印地語 (hi)、阿拉伯語 (ar)、韓語 (ko) 和土耳其語 (tr)。最終答案必須以英語提供，以確保評(píng)估的一致性。

Token 數(shù)量比率與在英語和目標(biāo)語言中均至少有一個(gè)正確答案的問題數(shù)量（最少 5 個(gè)共同案例）的關(guān)系，該比率是相對(duì)于 DeepSeek R1 每個(gè)問題的平均英語 Token 數(shù)量計(jì)算得出的。

在所有評(píng)估的模型和數(shù)據(jù)集上，與英語相比，使用非英語語言進(jìn)行推理始終能實(shí)現(xiàn) 20-40% 的顯著令牌降低，而且通常不影響準(zhǔn)確性。DeepSeek R1 的 token 減少量從 14.1%（俄語）到 29.9%（西班牙語）不等，而 Qwen 3 則表現(xiàn)出更顯著的節(jié)省，韓語的減少量高達(dá) 73%。這些效率提升直接轉(zhuǎn)化為推理成本降低、延遲更低和計(jì)算資源需求降低。

從實(shí)驗(yàn)結(jié)果來看，中文確實(shí)相比英文能夠節(jié)省推理 token 成本，但卻并不是最具有效率的語言。

另一個(gè)研究論文同樣支撐著類似觀點(diǎn)，來自馬里蘭大學(xué)和微軟的研究論文《One ruler to measure them all: Benchmarking multilingual long-context language models》，提出了包含 26 種語言的多語言基準(zhǔn) OneRuler，用于評(píng)估大型語言模型（LLM）在長(zhǎng)達(dá) 128K 令牌的長(zhǎng)上下文理解能力。

論文標(biāo)題：One ruler to measure them all: Benchmarking multilingual long-context language models
論文鏈接：https://www.arxiv.org/abs/2503.01996v3

研究者們通過兩個(gè)步驟構(gòu)建了 OneRuler：首先為每個(gè)任務(wù)編寫英語指令，然后與母語使用者合作將其翻譯成另外 25 種語言。

針對(duì)開放權(quán)重和閉源語言模型的實(shí)驗(yàn)表明，隨著上下文長(zhǎng)度從 8K 增加到 128K token，低資源語言與高資源語言之間的性能差距日益擴(kuò)大。令人驚訝的是，英語并不是長(zhǎng)上下文任務(wù)中表現(xiàn)最好的語言（在 26 種語言中排名第 6），而波蘭語位居榜首。在指令和上下文語言不一致的跨語言場(chǎng)景中，根據(jù)指令語言的不同，性能波動(dòng)幅度可達(dá) 20%。

圖 4：在長(zhǎng)上下文任務(wù)（64K 和 128K）中，按語言資源組分類的各模型和語言的 NIAH 性能表現(xiàn)。Gemini 1.5 Flash 展現(xiàn)了最佳的長(zhǎng)上下文性能，而出人意料的是，英語和中文并未進(jìn)入排名前五的語言之列。

既然中英文都不是具有最佳大模型性能的語言，那大模型選擇思考語言的方式并不是完全以效率為先。

所以評(píng)論區(qū)的第二種觀點(diǎn)：「訓(xùn)練數(shù)據(jù)中包含更多中文內(nèi)容」，似乎更加合理。

國(guó)產(chǎn)大模型采用更多中文訓(xùn)練語料，其思考過程出現(xiàn)中文是正常現(xiàn)象。就像 AI 編程工具 Cursor 發(fā)布的新版本 2.0 核心模型「Composer-1」被質(zhì)疑是中國(guó)模型套殼，正是因?yàn)槠渌伎歼^程完全由中文構(gòu)成。

但類似的事放在 GPT 上就說不通了，畢竟在它的訓(xùn)練過程中，英文數(shù)據(jù)的占比顯然是更高的。

在今年 1 月份就有類似的事情發(fā)生，網(wǎng)友發(fā)現(xiàn)來自 OpenAI 的 o1-pro 模型也會(huì)隨機(jī)出現(xiàn)中文思考過程。

或許這就是人類語言的魅力，不同的語言有不同的特性，在大模型中總會(huì)有各種奇怪的事情發(fā)生。

大模型說中文的事情越來越多，中文訓(xùn)練語料也越來越豐富。

說不定有一天，我們能夠像海外友人自嘲一樣笑話大模型：「我并不是要你變成中國(guó)人。我是說 —— 當(dāng)時(shí)機(jī)成熟時(shí)，你照照鏡子，就會(huì)發(fā)現(xiàn)自己早已是中國(guó)人了。」

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.