DeepSeek V4發布,并沒有復刻去年的狂歡,實際上跟半年前發布的Claude Sonnet 4.5相比,兩者能力大致在同一檔,差距遠大于半年,因為Sonnet 4.5在半年前也只能算第二梯隊。但是在社交媒體的稿子里,常常看到中國的各家大模型跑分數據一個比一個漂亮,"只差半年"、"基本拉平"的論調不絕于耳。
中美AI差距的事實情況,到底是什么樣的?
![]()
4月22日,在《走進亞洲》(Into Asia)的播客中,北京大學人工智能方向的助理教授張馳,講述了他眼中的真相。張馳現任北京大學助理教授,剛從字節跳動的大模型核心團隊(Seed LLM)離職不久。
作為真正在大廠一線摸爬滾打過的研發人員,他對當前國產AI的判斷相當扎心:
"我不同意'中國模型正在趕上'這個觀點。我相信我們還差得遠,而且這個差距,可能正在變大。"
虛假的繁榮:大家都在"應試刷榜",實戰卻拉胯
在外界看來,各家大廠的模型在各種Benchmark(基準測試)上神仙打架,分數屢創新高。但在內部,這只是一場大型的大模型應試教育。
張馳在采訪中透露,在字節跳動內部(他推測其他大廠也類似),工作氛圍其實相對"佛系"(中午有兩小時的午休時間,實際每天工作9小時左右),但大家都面臨著一種隱性的KPI壓力——刷榜(Bench-maxing)。
領導們高度關注模型在特定榜單上的分數。如果你負責的模塊分數沒有追平美國前沿模型,你的績效就會很難看。
結果就是:紙面數據極其華麗,但一旦落到真實世界的復雜應用中,體驗讓人抓狂。
算力與基建的鴻溝:別人三個月,我們可能要半年
硬件被卡脖子,這是個老生常談的問題,但它帶來的連鎖反應比我們想象的更深。
目前,國內大廠用來訓練最核心大模型的,很大一部分仍是禁令前囤積的英偉達芯片,或者合規的特供版H20。好在DeepSeek V4開始,全面使用華為昇騰顯卡,有望后續完善國產訓練生態。
但算力的差距,已經直接體現在了"迭代速度"上。
張馳提到了一個業內傳聞:谷歌現在可能只需要3個月,就能跑完一整輪大語言模型的預訓練加后訓練。而對國內大廠來說,受限于算力規模和基礎設施,這個周期可能長達半年。
更隱秘的差距在基礎設施(Infra)。張馳曾在谷歌實習,他感慨那里的底層基建做得太好了,研究員只需要在絲滑的圖形界面上寫代碼,根本不用操心底層架構。而在國內大廠,訓練動不動就卡死、報錯,這些摩擦成本都在無形中拖慢了追趕的腳步。
"用戶都在用美國模型,我們哪來的數據改良?"
如果說算力是中國AI頭頂懸著的第一把劍,那么在張馳看來,第二把劍,也是目前最無解的一把,是"數據飛輪"的斷裂。
他在采訪中提出了一個非常尖銳的洞察:美國頭部模型建立了極難逾越的正向循環。 GPT和Claude擁有全球海量的用戶。這些用戶在實際工作中使用模型,并對結果進行點贊或踩。這些高質量的反饋,構成了最寶貴的真實場景訓練數據。
反觀國內,由于基礎能力存在客觀差距,導致最需要AI輔助的那些高價值用戶——比如程序員、硬核研究者,正在集體"叛逃"。
"我現在主要用Claude Code和Cursor編程,"張馳直言不諱地說,"我甚至覺得不需要招那么多博士生來幫我干活了,我完全可以把Claude Code和Cursor當作我的學生,我可以輔導它們,給它們指令讓它們做我想做的事。但我心里又很矛盾,如果我這代人不培養新人,等我老了,誰來接著做研究?"
這種中國頂尖AI科學家的日常使用選擇,反應的就是當下冰冷的現實:當最應該為國產模型貢獻反饋數據的頂尖中國開發者,都在使用美國模型提效時,中國大模型公司去哪里獲取能夠優化編程和推理能力的高質量交互數據?
走捷徑的代價:"蒸餾"出來的智能,沒有靈魂
如果沒有時間去打磨基礎設施,又面臨著迫在眉睫的追趕KPI,國內大廠是怎么做的?
答案是兩個字:蒸餾(Distillation)。
如果你想訓練一個高智商的模型,最硬核的做法是雇傭極其專業的行業專家,一筆一劃地寫出高質量的推導數據,這既費錢又費時。
但還有一條捷徑:直接去問 GPT、Claude 或者Gemini。 拿到正確答案和推理過程后,直接復制過來,喂給自己的模型。這在AI圈被稱為"蒸餾",就是抄尖子生的作業。
張馳坦言,我們在"蒸餾"技術上可能已經是世界頂尖,但這也許無法在長遠上轉化為真正的優勢。抄作業能讓你快速從不及格變成及格,甚至考到80分,但你永遠無法通過抄作業成為真正的學神。
因為你缺乏屬于自己的、深厚的數據管道(Data Pipeline)。當國外的模型開始自我進化時,"捷徑"反而成了束縛我們原創能力的枷鎖。
僅存的底氣:硬件與"具身智能"的夢
盡管對純語言大模型追趕前景表現出強烈的悲觀,張馳依然指出了中國AI生態中為數不多的結構性優勢。
在他看來,優勢在于制造業。他提到了近期引爆輿論的宇樹科技(Unitree),認為中國在硬件軀體、電機運動控制方面具備全球競爭力。對于目前火熱的"具身智能",張馳的觀點是,如果你的語言模型只是用來執行比較簡單的任務(比如抓取物體),那么現有中國大模型的能力是"夠用"的。
但他也潑了一盆冷水:目前絕大多數機器人廠商仍停留在"運動控制"階段,沒有真正把智能塞進機器人大腦。而一旦涉及到需要復雜推理和泛化操作的"靈巧操作",我們很可能再次碰到大語言模型目前的那塊天花板。
未來怎樣?
芯片受限、數據管線薄弱、基礎設施落后、用戶反饋循環缺失、過度依賴蒸餾,這些問題疊加在一起,不是靠一次技術突破就能解決的。好在DeepSeek V4全面適配了國產顯卡,雖然整體能力落后了些,但生態完善后還是有希望追趕上而且不依賴蒸餾的。
原播客鏈接:https://www.buzzsprout.com/2546300/episodes/19057945-a-year-inside-bytedance-s-ai-lab
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.