網易首頁 > 網易號 > 正文申請入駐

Transformer能否支撐下一代Agent？

2025-12-22 12:44:24　來源: 劃重點KeyPoints

北京舉報

分享至

作者李越

編輯重點君

12月18日，2025騰訊ConTech大會暨騰訊科技Hi Tech Day正式播出，中國工程院院士、知名專家和學者、頭部科技企業創始人及知名投資人齊聚一堂，共同探討智能時代的機遇與挑戰。

在圓桌論壇環節，當主持人把話筒遞給階躍星辰首席科學家張祥雨，詢問關于模型架構未來時，這位學術大牛拋出了一枚“深水炸彈”：現有的Transformer架構無法支撐下一代Agent。

而就在不久前，斯坦福大學教授、“AI教母”的李飛飛在一次深度訪談中，直言不諱地指出：現有的Transformer架構可能難以產生如相對論般的高級抽象。在未來五年內，行業需要尋找一種新的架構突破，讓AI從統計相關性跨越到真正的因果邏輯和物理推理。

作為GPT系列的核心締造者、前OpenAI聯合創始人Ilya Sutskever，也在近日的一場深度訪談中表達了相同的判斷：單純依賴堆疊算力和數據的“規模化時代”正在遭遇瓶頸，行業正重新回歸注重底層創新的“研究時代”。

過去七年，從Google的BERT到OpenAI的GPT系列，再到橫空出世的DeepSeek，幾乎所有震撼世界的AI模型都基于Transformer。它讓英偉達的市值沖破天際，讓無數創業公司拿到巨額融資。

但現在，最懂它的人開始質疑。

人類似乎又走到了一場范式革命的前夜。當ScalingLaw（尺度定律）的邊際效應開始遞減，當萬億參數的模型依然不懂得如何像人類一樣在物理世界中行走，我們不得不面對這個問題：

原本能夠帶領我們通往AGI的Transformer，是否已經觸碰到了天花板？

只會做題的優等生

在2017年之前，AI自然語言處理（NLP）的主流方式還是RNN（循環神經網絡）和LSTM（長短期記憶網絡）。它們處理信息的方式像一個勤懇的閱讀者，必須按順序一個字一個字地讀，效率低下且難以捕捉長距離的語義關聯。

2017年，Google論文《Attention Is All You Need》橫空出世，徹底改變了這一切。

Transformer架構拋棄了循環，引入了“自注意力機制”。它不再按順序閱讀，而是能同時關注句子中的所有詞，并計算它們之間的關聯權重。

這一架構讓并行計算成為了可能。只要有足夠的算力（GPU）和數據，模型就能展現出驚人的智能涌現能力。這就是后來的Scaling Law（尺度定律）。

Transformer與GPU的結合，就像是內燃機遇上了石油，直接引爆了第三次工業革命級的人工智能浪潮。

然而，Transformer的歸根結底是一個極致的統計學家。

李飛飛指出：生成式AI最重大的突破之一，是發現了“下一個Token預測”這個目標函數。這聽起來很優美，但也很局限。Transformer的核心邏輯是基于海量數據的概率預測。它讀了互聯網上所有的書，所以當你從懸崖跳下時，它知道下一句該接墜落，而不是飛翔。

Ilya也給出了一個比喻：目前的模型就像是為了贏得編程比賽而練習了一萬小時的學生。他背下了所有算法和技巧，見過所有可能的考題，通過數據增強覆蓋了所有盲區。他看起來很強，能拿高分，但本質上只是在進行記憶提取。

相比之下，一個真正有天分的學生可能只練習了一百小時，但他擁有深刻的品味和直覺，具備真正的泛化能力。當前的Transformer模型就像那個死記硬背的優等生，一旦遇到未曾見過的領域，其表現就會大打折扣。

Ilya認為，這正是因為模型缺乏某種特質因素，讓它們學會了迎合評估標準，卻未真正掌握推理。

李飛飛也給出了類似判斷：“目前大多數生成式視頻中展現的水流或樹木擺動，并非基于牛頓力學計算，而是基于海量數據的統計學涌現。”

換句話說，AI只是看過無數次水流的樣子，并模仿了出來。它并沒有理解水分子之間的張力，也沒有理解重力加速度。

Transformer是一條完美的曲線擬合器，它能無限逼近現實，但無法推導出現實背后的那套規則。因為它只有相關性，沒有因果性。

長上下文的詛咒與慢思考的缺失

2025年，AI行業的一個明顯趨勢是長文本。但在張祥雨看來，這可能是一個陷阱：“我們今天的Transformer，不管號稱發布出來說支持到多少Token，基本上到8萬個就不可用了……即便上下文長度可以很長，但是測試基本上也都是8萬個就退化。”

這里所謂的退化，不是指模型記不住了，而是智商隨著文本變長而快速下降。

張祥雨揭示了背后的數學邏輯——Transformer的信息流是單向的：“所有的信息只能從第L-1層流向第L層，不管context是多長，模型的深度是不會增加的，它只有L層。”它的思考深度是固定的，不會因為書變厚了，腦子就變得更深邃。

這與Ilya所強調的價值函數類似。他指出，人類之所以高效，是因為我們擁有內在的價值函數——你不需要下完一整盤國際象棋才知道自己丟了一個子是錯誤的，在中間過程就能獲得信號。

目前的Transformer缺乏這種機制。它必須把所有信息平鋪開來，每次做一個決定都要去翻閱這一生的流水賬。類似于人類的快思考直覺反應，脫口而出，卻無法進行慢思考。

Ilya認為，真正的智能不僅僅是預測下一個Token，而是在行動之前就能通過內部的價值函數預判路徑的優劣。對于未來的Agent而言，它需要在無限流的世界中生存，如果繼續沿用Transformer這種要把所有記憶平鋪的架構，不僅計算上不可持續，邏輯上也行不通。

視覺失語與物理盲區

Transformer的危機，不僅僅局限于語言和邏輯，更在于它理解物理世界時的無力感。

李飛飛認為：“僅靠語言不足以構建通用人工智能。” 現有的Transformer在處理視覺任務時，往往簡單粗暴地將預測下一個詞移植為預測下一幀，導致生成的視頻缺乏時空一致性。

這里還存在一個更深層次的矛盾：樣本效率。

Ilya在訪談中提出了一個問題：為什么一個青少年僅需十幾個小時就能學會開車，而AI卻需要海量的數據訓練？

答案在于“先驗知識”。人類擁有進化賦予的強大先驗知識和直覺（即由情緒和本能構成的價值函數）。我們不需要看過一百萬次車禍才能學會避讓，我們的生物本能讓我們對物理世界的危險有天然的感知。

何小鵬在大會上也表達了類似的洞察：書本無法教你走路，物理世界的技能必須通過交互習得。

目前的Transformer模型缺乏這種基于物理和生物直覺的世界模型。它們試圖通過窮舉所有數據來掩蓋對物理規律認知的匱乏。Ilya指出，預訓練數據的紅利終將耗盡，數據是有限的。當你把規模擴大100倍后，單純的量變可能不再帶來質變。

物理AI需要的是一個內置了3D結構、因果邏輯和物理規律的“數字容器”，而不是一個只會基于概率猜測下一幀畫面的語言模型

回歸研究時代

如果Transformer可能是死胡同，那路在何方？

Ilya給出了宏觀的判斷：我們正在告別“規模化時代”（2020-2025），重新回到“研究時代”（2012-2020）。這并不是歷史的倒退，而是螺旋式上升——我們現在擁有了巨大的算力，但我們需要尋找新的配方。

這個新配方，不會是單一技術的修修補補，而是一場系統性重構。

李飛飛的World Labs致力于構建具有“空間智能”的模型，建立看、做和想象的閉環。未來的架構極可能是一種混合體：內核是高度抽象的因果邏輯（隱式），接口是豐富多彩的感官世界（顯式）。

張祥雨透露了極具前瞻性的“非線性RNN”方向。這種架構不再是單向流動，而是可以在內部進行循環、反芻、推理。這正如Ilya所設想的，模型需要具備像人類一樣的“價值函數”，在輸出結果前進行多步的內部思考和自我修正。

Ilya認為，未來的突破在于如何讓AI擁有像人類一樣的“持續學習”能力，而非靜態的預訓練成品。這需要更高效的強化學習范式，從單純的模仿（Student A）轉向具備直覺和品味的專家（Student B）。

如果底層架構發生劇變，整個AI產業鏈也將面臨一場洗牌。

目前的硬件基礎設施，從英偉達的GPU集群到各種通訊互聯架構，很大程度上是為Transformer量身定做的。

一旦架構從Transformer轉向非線性RNN或者其他圖算結合的模式，專用芯片可能會面臨挑戰，而通用GPU的靈活性將再次成為護城河。

數據的價值也將被重估。視頻數據、物理世界的傳感器數據、機器人的交互數據，將成為新的石油。

結語

訪談的結尾李飛飛說了一段意味深長的話：“科學是多代人思想的非線性傳承。

我們往往喜歡單一英雄神話，比如是牛頓發現了物理定律，是愛因斯坦發現了相對論，是Transformer開啟了AI時代。但實際上，科學是一條河流，無數支流匯聚、改道、回流。

Transformer是一座豐碑，但它或許不是終點。它讓我們看到了智能的曙光，但在因果推理、物理理解和無限上下文上的先天缺陷，注定只是通往AGI道路上的一塊墊腳石，而不是最終的鑰匙。

李飛飛說行業需要尋找新的架構突破，Ilya說Scaling時代已過，張祥雨說Transformer無法支撐下一代Agent，并非全盤否定它的歷史功績，而是在提醒我們：不要在舒適區里沉睡。

未來五年，我們或許會看到Transformer逐漸退居幕后，成為一個子模塊，而一種全新的、融合了空間智能、具身交互和深度邏輯推理的新架構將走上臺前。

對于身處其中的科技公司而言，這既是巨大的挑戰，也是再一次難得的機遇。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦

熱點推薦

2026年，大模型訓練的下半場屬于「強化學習云」

機器之心Pro 2026-01-12 14:03:47
0 跟貼 0
時間去哪兒了？

孤獨大腦 2025-09-10 23:29:47
0 跟貼 0

Transformer作者：DeepSeek才有搞頭，OpenAI指望不上了

量子位 2025-09-12 11:07:58
149 跟貼 149

DeepMind：智能體越多越亂，Agent天花板出現了？

機器之心Pro 2026-02-24 14:40:45
0 跟貼 0
打破“窗戶紙”的求真者：一位民間研究者的理性之問

環境保護志愿者 2026-02-24 12:01:26
0 跟貼 0

宇樹科技，最新發布！

每日經濟新聞 2026-02-24 18:36:05
4 跟貼 4

具身數據戰開打！普通人都能上手，邊采邊篩，只喂機器人愛吃的

量子位 2026-01-12 12:20:02
0 跟貼 0
基于ASPP-Swin Transformer模型的加密流量識別方法

通信世界 2025-10-28 11:31:02
0 跟貼 0

PackingStar雙智能體博弈，攻克14維難題

量子位 2026-02-16 13:12:43
0 跟貼 0
谷歌創始人布林：當年發完Transformer論文，我們太不當回事了

機器之心Pro 2025-12-15 10:18:00
35 跟貼 35
開年重磅萬字長文范式復盤：我們在AI奇點之中

虎嗅APP 2026-02-23 21:16:14
0 跟貼 0
ApdativeNN：建模類人自適應感知機制，突破機器視覺不可能三角

機器之心Pro 2025-11-28 17:15:19
0 跟貼 0
全網圍觀：Meta超級智能安全總監，被OpenClaw刪光了郵件

機器之心Pro 2026-02-24 14:20:40
1 跟貼 1
清華聯手千問重塑歸一化范式，讓 Transformer 回歸「深度」學習

機器之心Pro 2026-02-10 18:50:12
0 跟貼 0
Sakana AI造了個數字生命「培養皿」，AI學會打架、結盟、搶地盤

機器之心Pro 2025-11-05 13:58:14
0 跟貼 0
春節AI暗戰

鈦媒體APP 2026-02-24 15:56:17
0 跟貼 0
從平面幾何出發：形式化驗證如何驅動MLLM的推理能力躍遷

機器之心Pro 2026-01-20 19:17:51
0 跟貼 0
教AI編程作弊，它卻想統治世界？Anthropic首曝「人格選擇模型」

新智元 2026-02-24 19:40:58
0 跟貼 0
大模型黑箱被撬開：MIT華人聯創，造出能追溯思考過程的大模型

DeepTech深科技 2026-02-24 18:51:40
0 跟貼 0
豆包AI手機究竟是人工智能還是人工智障？

每日經濟新聞 2026-01-13 22:08:29
0 跟貼 0
AI時代的“支付寶”如期到來：AI付用戶過1億

智東西 2026-02-24 23:30:13
0 跟貼 0
AI代理正掏空白領市場！Citrini Research 發出失控預警：或在2028年引發經濟崩潰

鈦媒體APP 2026-02-24 22:16:15
0 跟貼 0
AI玩具何以成為“年貨頂流”

經濟觀察報 2026-02-24 21:58:06
0 跟貼 0
超精密F-35發動機模型，細節畢現通電可動

裝甲鏟史官 2026-01-31 11:02:59
1714 跟貼 1714
不但機械要厲害，控制的算法更厲害，網友瞬間不淡定了

姜江愛搞笑 2026-02-20 16:24:00
0 跟貼 0
編程已死，鍵盤長草！Claude Code之父對談Kaparthy，全程爆金句

新智元 2026-02-04 11:41:01
63 跟貼 63
熱度第一、Tokens周調用破3T，MiniMax這個春節殺瘋了

機器之心Pro 2026-02-23 18:46:36
1 跟貼 1
牛頓真有傳說的那么厲害嗎

諾克科普 2026-02-23 14:04:55
17 跟貼 17
華為推出軟工代碼智能體SWE-Lego，解鎖SFT訓練極致性能

機器之心Pro 2026-01-13 14:54:45
0 跟貼 0
節后首日連發兩條公告中國反制升級對日本軍工"亮劍"

環球網資訊 2026-02-24 17:42:07
1422 跟貼 1422
Moltbot之父深度訪談：獨家披露加入OpenAI內幕

DeepTech深科技 2026-02-23 19:47:27
5 跟貼 5
網易云音樂，卡在算法和活人之間

鈦媒體APP 2026-02-24 15:56:08
0 跟貼 0
ICLR 2026 | PIL：基于線性代理的不可學習樣本生成方法

機器之心Pro 2026-02-24 19:36:33
0 跟貼 0
我也想要這樣的模型

橙子愛說劇 2026-02-23 17:43:50
1 跟貼 1
《人類科學技術史-208》數學的發展

地球生物與人類文明 2026-02-24 08:43:34
0 跟貼 0
巴拿馬政府強行進入并接管港口，李嘉誠旗下長和回應：相關行動不合法，構成嚴重風險，將研究所有可行途徑

都市快報橙柿互動 2026-02-24 14:12:41
1293 跟貼 1293
300多只東北虎“輕斷食”？景區：每天斷食1個園，司機會帶游客找可投喂區

封面新聞 2026-02-23 16:29:03
1660 跟貼 1660
韓國要求俄使館撤下宣傳條幅，俄方：此為全體俄羅斯人所熟知，無意冒犯任何人

文匯報 2026-02-24 04:20:05
1506 跟貼 1506
哈爾濱冰雪大世界：正式閉園

大風新聞 2026-02-21 20:36:03
1869 跟貼 1869
多條新規嚴禁變相降低汽車價格

大象新聞 2026-02-24 09:40:02
1285 跟貼 1285

劃重點KeyPoints

去除噪音，劃下重點追蹤全球AI科技，記錄中國硬核崛起溝通?一把把一傘一久耳久久漆

165文章數 18關注度

往期回顧全部

態度原創

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

健康

本地

數碼

教育

時尚

手機 / 數碼

房產 / 家居

Transformer能否支撐下一代Agent？

只會做題的優等生

長上下文的詛咒與慢思考的缺失

視覺失語與物理盲區

回歸研究時代

結語

宇樹科技發布四足機器人Unitree As2

武契奇遭"滅門式"暗殺陰謀:他們計劃虐殺我的孩子

武契奇遭"滅門式"暗殺陰謀:他們計劃虐殺我的孩子

蘇翊鳴總結米蘭征程：我仍是那個熱愛單板滑雪的少年

汪小菲官宣三胎出生：承諾會照顧好3個孩子

縣城消費「限時繁榮」了十天

態度原創

轉頭就暈的耳石癥，能開車上班嗎？

春花齊放2026：《駿馬奔騰迎新歲》

《死亡擱淺2》PC版推薦配置RTX 3060可FHD 60幀，Steam國區298元

馬馬馬上上岸!!!TTS《大吉大利復試手冊》+復試班：紙質筆記與1v1模擬面試堂堂上線!!

闊腿褲失寵了？這4條褲子承包你整個春天的時髦！