網易首頁 > 網易號 > 正文申請入駐

姚順雨對著唐杰楊植麟林俊旸貼大臉開講！基模四杰中關村論英雄

2026-01-11 11:04:48　來源: 量子位

北京舉報

分享至

Jay 發自凹非寺量子位 | 公眾號 QbitAI

清華攢了個局，把AI圈大半邊天聚到了一塊。

基模四杰全員到場：智譜唐杰、Kimi楊植麟、阿里林俊旸，還有……

突然貼臉跳屏的姚順雨。

這場由清華大學基礎模型北京市重點實驗室發起的AGI-Next前沿峰會，相當硬核。

各位大咖的演講簡直像是在做技術報告，信息密度極高，而且用詞相當犀利。

唐杰：DeepSeek橫空出世后，Chat已經基本結束了，下一步是走向做事。
楊植麟：做模型，本質上是在創造一種世界觀。
林俊旸：中國想在AI賽道反超，很難。20%這個數字已經很樂觀。
姚順雨：toC的話，大部分人其實用不著那么強的智能。

以下附上演講原文，為提升可讀性，量子位在不改變原意的前提下做了適當調整。

清華論劍

唐杰

我的題目是「讓機器像人一樣思考」。

2019年，我們在清華的支持下完成成果轉化，成立了智譜。

同一時期，我們也持續推動開源，既有模型和工具層面的項目，也有面向開發者的大模型 API 體系。

我在清華待了將近二十年。

回頭看，我做的事情其實很簡單，主要就兩件：

一是早年做AMiner；二是大模型。

有一個對我影響很深的觀念，我稱之為「像喝咖啡一樣做研究」。這件事和今天在座的一位嘉賓密切相關——楊強教授。

剛畢業那會兒我去港科大，學校幾乎所有空間都在一棟樓里：教室、實驗室、會議室、咖啡廳都在一起。

有一次在咖啡廳遇到楊老師，我說最近咖啡喝得有點多，可能該戒一戒。

他先說「對，應該戒一戒」，接著又說，如果我們做研究也能像喝咖啡一樣上癮，那研究大概就真的能做好了。

這句話對我觸動很大，從2008年一直影響到現在。

做研究，本質上需要長期專注和持續投入。AGI正是這樣一件事，它并不追求短期見效，而是一項多年投入的工程。

2019 年，我們實驗室在圖神經網絡和知識圖譜方向已經有一定國際影響力，但當時還是下定決心階段性按下暫停鍵，幾乎所有人都轉向大模型相關研究。到今天，算是做出了一點點成果。

如果從大模型的發展軌跡來看，用「智能水平」來描述會比較直觀。

2020年前后，模型主要解決的是MMU、QA等相對簡單的問題；到2021、2022 年，開始進入數學計算和基礎推理階段；通過后訓練，這些能力逐步被補齊。

到2023、2024年，模型從知識記憶走向復雜推理，甚至可以處理研究生層級的問題，并開始在SWE-bench這類真實世界編程任務中表現出可用性。

這個過程很像人的成長：從閱讀、算術，到更復雜的推理，再到走向真實工作場景。

今年開始，大家也看到 HLE，也就是「人類終極測試」，其中不少問題連搜索引擎都無法直接給出答案，要求模型具備更強的泛化能力。

如何解決，目前仍然沒有確定答案，但可以確認的是，到2025年，模型的整體能力仍在快速提升。

從另一個角度看，一個核心問題是：模型如何從Scaling走向真正的泛化能力。

人類一直期待機器具備泛化能力。教它少量例子，就能舉一反三，解決更多甚至未見過的問題。

這和我們教孩子的期望一致：學會三個問題，就能解出第四個、第十個，甚至超出原本教學范圍。

當前的路徑，是希望通過Scaling提升這種泛化能力。但客觀來說，模型的泛化水平仍有很大提升空間，我們只能在不同層面持續推進。

最早期的階段，是用Transformer訓練模型，通過大規模數據和算力，把大量知識「記住」。

第二個階段，是對模型進行對齊和推理能力強化，讓它更好地理解人類意圖，并完成更復雜的推理任務。

這需要持續ScalingSFT，甚至引入強化學習。通過大量人類反饋數據，不斷擴大反饋規模，使模型更準確、更可靠。

今年一個重要變化是RLVR。

過去強化學習難以大規模推進，核心原因在于依賴人類反饋，而人類反饋存在噪音大、覆蓋場景有限的問題。如果引入可驗證環境，模型就可以自主探索、自動獲得反饋，在閉環中持續成長。

但這里的難點也非常明顯。所謂「可驗證」，在數學、編程等領域相對容易定義；可一旦擴展到更廣泛的任務，比如網頁是否美觀、交互是否合理，仍需人工判斷。

因此，當前RLVR面臨的挑戰在于：可驗證場景正在逐漸耗盡。接下來是否能進入半自動驗證，甚至不可驗證的任務空間，讓模型能力繼續泛化，這是一個關鍵問題。

再往前看，當機器開始進入物理世界、執行真實任務時，如何構建智能體的環境、如何設計反饋機制，會帶來更多挑戰。可以看到，AI的發展已經不再局限于單一模型或Transformer結構，而是在演變為一個復雜的、系統化的智能體系。

從能力結構上看，模型最初集中在數理化等推理任務，從小學、初中、高中層級，逐步提升到GPQA等高難度理化生問題，再到接近奧賽金牌水平。今年HLE這一極高難度的智能評測基準，也開始出現明顯進展。

在真實環境中，代碼能力是另一個典型例子。2021年已經存在代碼模型，當時也和俊旸、Kimi植麟等有過合作，那一階段模型具備基礎編程能力，但成功率和穩定性有限，往往寫十個程序才能跑通一個。

如今情況發生了明顯變化，模型在復雜任務中往往可以一次性跑通，已經開始實質性地輔助高級工程師完成更復雜的工程工作。

很多人會問，智能不斷增強，是否只要持續把模型訓練下去就可以了？

DeepSeek橫空出世，當時我們在內部反復討論一個問題：

Chat這一代問題基本已經被解決得差不多。繼續優化，大概率也只是做到性能接近，或在個性化、情感化上做一些改進。從整體范式看，空間正在迅速收斂，剩下更多是工程和實現層面的挑戰。

這迫使我們思考下一步方向。我們的判斷是，新的范式不再只是「對話」，而是讓每個人真正用AI完成一件具體的事情。

從Chat走向做事，這是一個明顯的轉折點。

當時擺在我們面前的，主要有兩條思路：一條是圍繞Thinking能力，結合Coding與Agent；

另一條是讓模型更深度地與環境交互，用AI直接輔助研究，例如DeepResearch，生成復雜研究報告。這是一次取舍。

我們最終優先選擇了前一條路徑，強化Thinking能力并引入Coding場景，同時并未完全放棄與環境交互的方向。

7月28日，我們做了一次嘗試，將Coding、Agentic和Reasoning能力整合在同一個模型中。

在7月28日發布的4.5版本中，我們用12個Benchmark做了系統評測，在智能體、推理和代碼任務上取得了當時相對領先的結果。

隨后我們很快將4.5開放給用戶使用，讓大家在真實場景中編程。

問題很快暴露出來。比如有用戶希望一句話生成一個可玩的植物大戰僵尸游戲，包含完整界面、交互邏輯、得分機制和后臺系統。4.5在這類真實復雜環境中頻繁出Bug，難以完成任務。

這正好指向RLVR可驗證強化學習的價值。我們構建了大量真實編程環境，將其作為強化學習的可驗證反饋源，同時結合SFT數據進行雙向優化，使模型在真實交互中逐步提升穩定性。

類似的方法也被引入到Web場景中，通過Web環境反饋增強可驗證性。

在這一策略下，我們在SWE-bench等真實世界評測中取得了較好的成績，近期也持續保持不錯表現。

但Benchmark成績并不等同于主模型能力。如何將這些能力可靠地回灌到主模型，仍是一個巨大挑戰。很多模型在單項Benchmark上表現突出，但用戶真實體感未必提升。

另一個挑戰在于訓練體系本身。RL任務種類多樣，序列長度和時間尺度差異極大，難以統一調度。為此，我們開發了一個全異步強化學習訓練框架，使不同任務能夠并行運行、動態收斂。這一框架也在今年完成了開源。

在此基礎上，Agent和Coding能力獲得了明顯提升。近期發布的4.7版本，相比4.6和4.5，在這兩個維度上都有顯著進步。

體感評估同樣關鍵。真實用戶并不關心模型分數，而關心自己的程序能否跑通、結果是否可靠。為此，我們組織了大量人工評測，邀請經驗豐富的工程師對真實編程任務進行主觀評估。目前仍有不少問題有待解決，但方向已經逐漸清晰。

在整合這些能力之后，到2025年底，我們在ArtificialAnalysis榜單上取得了一個相對不錯的綜合成績，算是階段性的結果。

再往前一步，當模型真正進入Agent環境并嘗試大規模落地時，問題會變得更加復雜。

可以把Agent的最基礎能力理解為編程。程序寫好后即可執行，對應到Agent中就是一個或幾個action。但當任務復雜度繼續提升，就會出現完全不同的形態。

左邊是Claude提出的computer use，中間是豆包的手機Agent，右邊是Manus所做的異步、超長鏈路任務。

如果你希望AI完成幾十步、上百步的任務，比如全天候監控小紅書上關于清華大學的討論，自動整理主題并生成文檔，這類任務本質上是完全異步的，也極其復雜。它不可能依賴人工盯著設備執行，更接近于一種Device use層面的能力。

這類問題帶來的更大挑戰，并不完全在于數據規模。很多應用場景本身幾乎沒有現成數據，更多是代碼邏輯，典型的冷啟動問題。

早期我們確實采集并整合了大量數據，通過SFT和特定領域的強化學習，在部分場景中取得了較好效果，但很快會發現一個現實問題：傳統的iphone use或手機交互，本質是點按鈕，而AI的交互對象并非人。

如果從系統角度看，AI并不需要操作手機界面，最理想的方式是直接調用API。但現實是，設備不可能完全API化，GUI依然存在。

這就需要一種混合方案。在對AI友好的場景下，優先采用API；在對人友好的場景下，讓AI模擬人完成GUI操作。通過將API與GUI結合，我們在大量真實環境中采集交互數據，并進行全異步強化學習，使模型逐步獲得一定程度的泛化能力。

需要強調的是，這種泛化能力仍然非常有限，與理想狀態存在明顯差距，但已經具備初步遷移和適應能力。

冷啟動帶來的另一個問題，是強化學習本身的風險。如果數據不足，模型容易在強化過程中陷入局部最優，表現為策略固化、路徑收窄，最終整體效果偏移。

為應對這一問題，我們在訓練過程中引入交替機制，在強化學習過程中周期性插入SFT，用以校正方向、恢復多樣性，使模型具備一定的容錯能力和回拉能力，從而形成可擴展的訓練范式。

在移動端環境中，這一策略已經在安卓場景下取得了相對明顯的效果提升。

另外在多任務的大模型強調學習上，我們也做了一定的工作，在算法上主要采用多輪的強化學習，工程上本質上就是Scaling，讓它更大規模的往下。

今年我們大概在12月份的時候開源了AutoGLM，把里面所有的東西都開源。這個模型是9B模型，可以在人機交互里面動作特別快。

我們在9B規模的模型上引入了大量Agent相關數據，模型在Agent任務上的能力顯著增強，但原有的一部分通用語言能力和推理能力會出現下降。它不再是一個完全通用的模型，而是更偏向Agent取向。

在未來更大規模的Agent模型中，如何在強化Agent能力的同時，避免損害通用能力，這是一個需要解決的問題。

2025年也是GLM的開源年。從1月到12月，我們陸續開源了多條模型線，涵蓋語言模型、智能體模型以及多模態模型，包括GLM-4.6、4.6V、4.5V等一系列版本。

在Artificial Analysis榜單上，前五名中的藍色模型幾乎全部來自中國，說明中國在開源大模型領域已經形成了非常顯著的影響力。

下面一個問題，我們還能否繼續Scaling？下一個AGI范式可能是什么？同時也面臨更多現實挑戰。

在開源取得進展之后，容易產生一種樂觀情緒，覺得中國大模型已經在某些維度上超過了美國。但差距未必在縮小，甚至可能在擴大。

下一步我們應該怎么做？

從大模型的發展路徑看，它本質上一直在借鑒人腦認知的學習過程。最早階段，是把世界的長期知識盡可能「背下來」，就像孩子先大量閱讀；隨后逐步學會推理、數學、抽象與演繹。

這條主線仍然成立，有幾類能力，人類顯著領先于當前模型，可能是新的突破方向。

第一，多模態。

人通過視覺、聽覺、觸覺等多種輸入形成整體認知，感統能力不足會直接影響判斷和行動。

模型如何建立類似的多模態「感統」機制，也就是原生多模態，是一個關鍵方向。

第二，記憶與持續學習。

人類具備多層級記憶結構，包括短期記憶、工作記憶和長期記憶。

進一步看，個體的長期記憶本身也并不等同于「知識」。只有當知識被記錄，才會真正進入人類文明的長期記憶體系。

未來如何從個體記憶擴展到群體級、文明級的記憶結構，并將其納入模型可持續學習框架，是一個重要問題。

第三，反思與自我認知能力。

當前模型已經具備初步的反思能力，但更深層次的自我認知仍然存在巨大爭議。學界對此分歧明顯，有人支持，有人反對。我個人傾向于認為，這是有可能的，值得探索。

人類認知是雙系統，系統一和系統二。

系統一完成了95%的任務，比如「你今晚吃飯嗎」，隨口回答「吃」，這些是系統一背下來的。

系統二只在更復雜的情境中啟動，占比大約5%。

對于大模型來講同樣的道理，我們在2020年畫過一張參考人類認知的AI系統結構圖：系統一、系統二，再加一個自學習模塊。

引入「自學習」的想法，主要基于三點。

第一，系統一可以對應一個大規模模型，讓它通過模式匹配與知識提取，覆蓋大量常見問答與常規任務。

第二，系統二可以對應更強的知識融合與推理機制，例如指令微調、思維鏈等，使模型能處理更復雜的推理與決策。

第三，人腦在睡眠中會發生無意識的整合與鞏固，如果缺少睡眠，人并不會變得更聰明。

對應到今天的路徑，可以把其三類Scaling。

第一，Scaling數據與模型規模，提升智能上限。

第二，Scaling推理，讓思考時間更長，用更多計算與搜索找到更優解。

第三，Scaling自學習環境，讓模型有更多與外界交互的機會，從環境中獲得反饋。

通過這三個Scaling，可以讓機器來參考人的學習范式，學到更多。

對于系統一來說，既然已經有了Transformer，是否意味著只要不斷加數據、加參數就夠了？

但我們現在面臨一個問題，Transformer的計算復雜度接近O(N2)，context越長，顯存開銷越大，推理效率下降越明顯。

最近有一些新型模型，例如用線性復雜度處理長序列的模型，嘗試像人腦一樣，用更小的「容量」承載更大的知識量。

但最近我也在反思，我們能不能找到更好的壓縮方法，把知識壓縮到更小的空間里面。這會帶來兩類問題。

第一，工程上能否做到？

第二，方法論上能否做到？

最近很多人在探討，大模型要回歸到研究上，不能單純的Scaling。Scaling是一個很好的辦法，但也是一個偷懶的辦法，

關鍵在于找到一個新范式，讓這個機器可以獨立Scaling。自己來定義獎勵函數、交互方法、甚至訓練任務來做Scaling。

在具備上述兩點之后，還要面對真實世界的超長任務。要讓這個機器有像人一樣規劃，做一下，檢查一下，再反饋一下。

網上已經有一些嘗試，這個idea是模型生成，實驗也是模型做的，報告也是模型做的，最后可以做一個Wordshop，但事實上還沒有做出來。

給出我們的一些思考：

大模型之前，大部分機器學習都是F-X到Y的映射，我學習一個函數，使得X樣本可以映射到Y。

大模型來了之后，把這個問題變成F-X到X的映射，可也不是嚴格的X，但要讓它完全用自監督來做多任務的自學習。

在第二層，我們通過引入更多數據，讓模型學會推理，學會如何激活更底層的智能能力。

再往后，是讓模型具備自反思與自學習能力。通過持續的自我評估與自我批判，模型能夠逐步分辨哪些行為是有效的，哪些路徑還有優化空間。

到未來，還希望模型進一步發展出更高層次的能力，例如自我認知。

還要教這個機器能學習到更多，比如說能學習到自我認知，讓這個機器能對自己的行為，比如說AI生成了大量的內容可以自我解釋，我為什么要生成這個內容，我是什么，我的目標是什么，在終極上也許有一天，AI也有意識。

我們大概有這么定義五層的思考

計算機有三個能力：計算、編程、搜索。這三個能力疊加在一起，可能能帶來所謂的「超級智能」。

我常常會想起2019年的一件事。當時和阿里巴巴合作，對方希望我用一頁PPT描述未來的方向，我給出的那一頁叫作「AGI-Next30」，討論的是未來30年我們應該做什么。

回到今天看，推理能力已經取得了一定共識和進展；記憶能力開始顯現雛形，但仍然有限；意識仍然處在探索階段。這也是我們持續投入的方向。

再往前看，如果繼續參考人類認知，未來AI可能需要回答更根本的問題：什么是「我」，為什么是「我」；如何為模型構建意義系統；單個智能體的目標是什么；多個智能體作為群體時目標如何協調。通過這些問題，AI才有可能走向對未知的持續探索。

有人會認為這些問題過于遙遠，甚至不可能。但從人類自身來看，文明的終極動力正是不斷探索未知。那些看似不可能的方向，往往正是通往AGI道路上值得被認真對待的探索目標。

對我個人而言，2026年更重要的是專注，以及去做一些真正新的事情。

第一，Scaling仍然會繼續，但需要區分兩種不同方向。一種是Scaling已知路徑，通過不斷增加數據和算力，持續探索能力上限；另一種是Scaling未知路徑，也就是尋找尚未明確的新范式。

第二，技術創新將變得更加關鍵。我們會推進全新的模型架構探索，重點解決超長上下文、高效知識壓縮等問題，并進一步實現知識記憶與持續學習能力。

第三，多模態感統會成為今年的重點方向。具備這種能力之后，AI才能在真實工作環境中執行長鏈路、長時效任務，例如在手機、電腦等設備上持續協作。

同時，我也判斷今年很可能會成為AI for Science的重要突破年份。隨著多項基礎能力的提升，AI能夠參與的科研任務范圍將顯著擴大，也將打開更多新的可能性。

楊植麟

從2019年到現在所有的大模型基本上基于同一個第一性原理，Scaling Law，也是把能源轉化成智能的一個視角。

如果有更好的方法，或者更好的芯片，其實可以把能源更好和更多轉化成更高級的智能。

有更多的算力、數據、模型參數之后，你的模型的loss可以線性下降，這是整個技術發展的基礎。

最早提出來的Scaling Law的這篇文章，里面對比了Transformer和Lstm在Scaling Law意義下的的區別，很有意思。

不管是在什么樣的參數量下，Transformer的Loss都會比LSTM更低，也就是在Scaling Law的尺度下，可以用更少的FLoss或者更少的參數，就能得到更好的Scaling效果。

后面Transformer成為主流架構的一個核心原因，是因為它在Scaling Law上有更好的表現

今天所有的模型架構的迭代，其實都是為了尋找一條線能夠更接近左下角。如果你的網絡架構越接近左下角，其實你就是更好的網絡架構。

在當前的情況下，它會變的更有意義。互聯網上的存量數據是有限，它是一個有限集合，高質量的數據增長速度其實是趕不上這個模型迭代的速度，所以當你有一個越靠左下角的象限的時候，你的智能上限就會更高。

但是，很多人可能會忽略，為什么Transformer會更好。關鍵在于Token efficiency。

什么是Token efficiency呢？比如說當你給一個一百K的上下文，你會去數里面第一、第二、第三、第四一到第一百個Token的log是什么，比如說還是loss，但是它是一個position loss，因為你的橫坐標是你的Token efficienc，表示你在這個序列里面到底是第幾個Token。

你可以看到在最前面的一百個Token里面，Transformer和LSTM完全一樣的，基本上這兩條線是交錯在一起。就是說當你在很短的Context的時候，你去預測接下來的Context會變成什么樣，基本上是相等的效果。

所以在一百很短的Context下面，其實Transformer并不是一個更好的架構。但是更好的架構體現在當你的Context非常長的時候，Transformer顯著的比LSTM更好。

這也是另外一個視角拆解它是一個很重要的指標。

在不同的Context長度下，你的優勢有多大。這個問題在Agentic時代會變的非常重要，因為很多agent的任務要求非常長的長上下文，你要問題很復雜的任務，所以當你一個架構有更低的position loss，說明它在做Agent任務的時候，會有好的多的技術上的潛力。

我們預訓練策略或者模型設計策略，圍繞剛剛兩個維度做。

第一個是Token efficiency，我們希望做的事情是盡可能把這條線往左邊平移，當你越往左邊移動的時候，你的Token efficienc就越高，意味著你可以用盡可能少的Token得到一樣的效果。

當你的整個預訓練Token不夠用的時候，Token是常量，吃完所有Token的時候你的智能上限更高，因為你的Loss更低，這是我們做預訓練很重要的指標和優化方向。

第二個方向是Long context。

今天非常復雜的任務，必須在超長的Context下才能夠完成。是因為延長了Context之后，Loss必然是下降，而且只有一個好的Agentic才能下降的更多，如果你是LSTM、CNN、RNN這種架構，到一百Token就停了。

可以做簡單的做翻譯的任務，但是你永遠做不了一個編程任務，沒有辦法從零到一實現一個代碼庫的編寫。這是我們整體的優化，Token efficienc再乘以Long Context兩個東西，最終就可以做到非常好的agent智能。

所以在這里面有兩個主要的工作，第一個是米用MUON優化器，是工業界二階優化器，傳統的是十幾年前，2014年Adam優化器提出之后，它做標志性的一階優化器。基本上用了十年的時間，可能主流大模型都是基于Adam訓練。

但是我們發現可能基于MUON二階優化器，它的效果會非常好，好的體現在它有兩倍的Token efficienc的提升，當你看這兩條線的時候，只用50%的數據就可以達到一樣的Test Loss，等價的話是如果用一樣的數據，你的Loss小或多，就會有一倍的Scaling的效果。

右邊是我們最新研究的kimi Linear的架構，當你的這條線拉長的時候，降低的幅度是非常大的，也就是你在Long Context等各種任務上的效果會顯著的變好。最后是這兩個東西乘起來，我們認為在模型的訓練策略上，可以達到最好的agent的效果。

這些都是為了做出來更好的agent，為什么要Token efficiency，本質上Agent的推理或者AgentRL的訓練是搜索過程，比如說你想從頭開發一個Lineaxr，你想從零做這個事情，本質上是搜索問題。

如果你有無限的數據，可以把所有可能的情況枚舉遍，看一看里面哪個東西是好的操作系統，你讓AI開發出來Linearx，提升它的效率，之前的agent是你用模型做很好的先驗，過程中不需要枚舉每一種可能的Token組合的情況，因為很多組合是沒有意義或者錯的，更好的預訓練和基礎模型是減少了搜索空間，提升了更好的先驗。

今天有很多人研究怎么去減少先驗，最終有可能是在先驗非常少，或者幾乎沒有的情況下有可能實現AGI。但是我認為基于先驗實現AGI，還是會更早發生，整個領域先基于先驗實現AGI，你再去探索先驗非常低的情況下，越來越低的情況下實現SCI的方式。

這里等價對應的是更強的先驗，你是在有限數據的情況下，同樣是一樣多的數據，但是腦容量更大，學習效率更高，智能更高，有更好的先驗就可以得到更強的agent。context是另外一個維度，你的Agent行為，需要它的工作記憶，所以你有更強的環境感知，做更長程的任務，最后是這兩個東西的結合。

我們在這個基礎上，整個2025年kimi的迭代是沿著剛說的兩個方向做了新的探索和實踐。首先是Muon優化器，我們曾經做了非常多的實驗，發現有很多比較重要的技巧。

比如說需要加入VDK，你在搜索的過程中，原來是Adam的優化器，可能是接近1.0，如果用Muon的話，對照它的尺度其實效果會更好。通過這些比較重要的改進，我們得到了一個真正意義上比較好，而且在各種方面經得起時間考驗的優化器，有2倍的Token efficienc提升。

所以，大家注意的是這里的efficienc不僅僅是efficienc，其實是智能上限，因為你的Token數量有限。我們也做了很多公平的比較，基本上所有的任務都會有提升，本質上是等價相當于訓練了別人的兩倍Token。

在提升這個優化器的過程中，能看到一些問題，在一個中等規模的實驗上，發現Muon的優化過程里會出現一些挑戰，左邊這張圖橫坐標是訓練的步數，縱坐標是最大的Logit取值，它是一個爆炸式的增長，其實是不健康的。

反映在右邊的非常高的時候，你的Logit訓練就有可能不收斂，Loss會爆炸，出現一些不穩定現象，其實這個模型最后的效果也不會好。

這里面很重要的一個點是通過一個新的方法解決Muon爆炸的問題，我們也試了很多方法，QK-clip效果非常火，但是這里有一些細節，你做QK映射的話，會乘上一個數值，這個數值是由當前QK最大的Logit決定的，可以動態的讓它clip特定的取值里面。

效果就是這樣的，一個加Clip，一個沒有。

左邊這兩條線，但是這兩條線是完全重疊在一起的，你可能看不出來，其實是完全重疊在一起。說明你加了Clip之后，對效果是沒有任何影響，可以復現任何效果，但是logit會健康很多。

右邊開始漲了，Logits漲到一百QK就發揮作用了，發現可能我不需要這個東西，這個時候會自動降下來，所以其實是很好穩定訓練的作用，使得全新的優化器可以在一萬億參數的kimiK2的級別做穩定訓練，不然就像之前那樣炸了。

這張圖是2025年見過最漂亮的東西，這個是世界上最美的東西。

它是一個完全平穩下降的Loss曲線，在整個15T的Token訓練中沒有任何的問題，可以全部把logits壓下來，平穩的收斂到一個非常好的點上。當你有一個優雅的方法，就可以得到一個優雅的結果。

在kimiK2很好的模型上面，我們又做了很多強化學習，后訓練等等，但是這不是今天重點，重要的是有幾個點，我們在各種agent的能力上全面提升，而且可以對標美國前沿的公司。

同時，很重要的一個點是在最核心的點上，比如說HLE，里面99%的題我都不知道怎么做，但是模型現在可以做到45%的準確率，而且比OpenAI更高，你在最核心的數據上比美國公司更好，這是很重要的亮點。

同時，它是一個完全agent的模型，kimiK2是中國第一個agent模型，K2 Thinking升級以后，可以完成兩百百步的工具調用，解決一個很難的題的時候用它寫一寫程序。兩三百步之后，可以完成我完全看不懂的題，但是它的答案是對的。

得益于這些發展，我覺得很多中國的開源模型逐漸成為新的標準，包括前段時間eda發布新的產品，現在也有中國很多開源模型做標準的測試，這也是開源很大的一個好處，我們希望有更多的中國的開源力量，中國的模型能夠逐漸去成為標準的制定者。

在K2之后我們在持續探索下一代模型有可能長什么樣，我剛剛講到開源的kimiLinear的工作，這個工作也是我們前期的嘗試，接下來還會在這個基礎上做更多的優化和改進來訓練K3模型。

最重要的一個改進是kimi Delta Attention，它是一個新的線性注意力機制，這個技術有一段時間，但是一直沒有成為主流模型，或者說最前沿的模型都還沒有用上這個技術。

最主要的原因是在長距離任務上會掉點，當你的Context變長之后，你用線性注意力效果是打不過全注意力的，打不過原始的Transformer。

這是很重要的問題，因為現在很多任務需要長程的能力，Context變長之后，效果變差了，可能不太能去換。

kimi Linear最重要的一點是讓這種線性注意力的機制能夠在很長程的任務上，甚至比全注意力做的更好，但是同時又更快，因為它是線性的，所以它的效率會高非常多，一百萬個Context的話，可能高6到10倍的端到端的速度上的優勢。

同時又可以改進很多現有的線性注意力缺點，可能就是表達能力不夠，導致了效果不夠好，所以kimi Linear是第一個能夠在線性注意力上不管是在短程任務，還是在長輸入、長輸出任務效果都比全注意力機制更好的一個線性注意力的架構。所以，它在實踐里面會有非常重要的作用。

我們稍微看一下具體長什么樣子，S表示當前線性的數據，可以看到它全部是線性的，ST相對ST減一來說的操作，稱之為線性注意力。

這里面很重要的一個點是中間的對角化矩陣，FT每一個維度都會乘上一個值，等于說對于這個狀態里面的每一個維度都可以精準的控制到底有多少記憶是從ST減1留到ST。

這個是很重要的點，它的表達能力會有很大增強，增強的同時如果你是一個非常粗糙或者沒有優化過的數據，你的效率會大幅度降低，在這里面我們做了非常多的優化，你可以把剛才的那個數值做很多變化之后得到下面的形式。

它在工程實現上就可以得到很多好處，你去對比DPLR，我們在數據上有優勢，減少矩陣操作，所以整體的效率是非常高的，你要得到一個好的架構，需要把很多底層的優化和模型的架構聯合在一起，你不能只改動一些架構，如果沒有高效的實現，很難得到一個很好的效果。

但是同時相比之前的線性注意力架構又有一個顯著的優勢，表達能力更強。

這張圖里面的效果看一下，左邊是性能對比，我們會考察兩種任務，一種是短程的任務，MMLU，這些都是公平的比較，用完全一樣的數據，一樣大小的模型去跑。在短程上會顯著做的更好，在長程任務上是更好的效果，相比于之前的很多線性注意力和全注意力的架構。

同時，右邊的這張圖的速度也是顯著的變快，基本上跟之前的線性的注意力一樣快，但是比全注意力要快非常多。

接下來在K2的基礎上做更多的Scaling，當然這個Scaling并不只是加算力。而是說很多是技術改進，這些技術改進也會等效的變成Scaling的優勢。當然這里面很重要的一個點是除了架構、優化器這樣的挑戰，更好的數據。

很重要的點是接下來的模型有更多的Taste，更多的品位和審美。

做模型的過程本質上是在創造一種世界觀，你覺得什么樣的東西是好的，一個好的AI應該是有什么樣的表現，應該追求什么樣的價值觀，有點像喬布斯講的Taste這是我們很相信的一個東西，因為智能和很多別的東西不一樣，每個模型產生的Token，本身不是一個可交換的東西。

如果你今天看很多事情是相同的，你在深圳產生的一度電和北京一樣，銀行帳戶里面最后一分錢是完全一樣，它是等價交換。但是智能并不是這樣，一個CEO產生的智能和一個設計師產生的智能和一個音樂家產生的智能是不同的。

在智能的維度，你有非常多的Taste的空間，空間是指數增加，你會有更多新的Taste出來，不是說這個模型會趨同，這是接下來我們很重要的一個目標。

我也經常和kimi對話，分享之前很有趣的一次對話，現在我們都在做AGI/ASI，可能會有更美好的未來，可以一起去探索宇宙，但是有可能會威脅到人類。

如果你的效果做的非常好，它現在也可以完成很多自動化的任務，甚至后面還會有大幅度的提升，這個答案很有啟發性。

它可能不是一個普通工具，而是可以提升人類文明上限的東西。

人類認知的延伸，今天我們有很多問題解決不了，很多癌癥無法被攻克，有很多能源的問題需要被解決，甚至有很多社會的解決需要更好的設計。我覺得站在kimi講，它是我們探索未知世界的一個很重要的鑰匙。

所以，雖然它有風險，但是它的回答是我仍然會選擇繼續開發，因為放棄這個開發就意味著放棄人類文明上限。所以，我們不應該害怕技術的風險，而是應該進一步去突破。同時，在這個過程中我們可能把風險控制好，因為所有的技術突破都伴隨著風險，不能因為恐懼而停滯不前。

我們希望在接下來的十年、二十年的時間，繼續把K4、K5到K100做的更好。

林俊旸

唐老師和植麟都是清華，我代表北大來一下。我很久沒有回海淀區了，我是朝陽區的。

今天整體介紹一下千問2025年的進展，有些東西相對舊一些，最近幾個月我們在憋著下一代的東西，我盡量講一些我能講的東西。

Towards a Generalist Agent這個標題我其實換了很多輪，原來叫Towards a Generalist model，后來覺得model是比什么都大的東西。

后來想想agent也許是更大的概念，像人一樣你可以自主的使用工具，人和動物很大的差別是可以自主使用工具。所以就變成了Towards a Generalist Agent。

而且今天訓練的范式發生了很大變化，過往我們不管做什么事情，都會有輸入和輸出把它標注出來，你可以認為是我們傳統的標注，今天有了這個新的技術以后，我只要解決了這個推理，解決了這個評估，這個東西就可以炫，干什么都可以，我就可以發揮想象力。

比如說今天數據智能、模型智能都可能，這也是我一個干語言模型的人最近敢斗膽揚言我要做VLA和機器人的一個小小的原因。

大家如果想用上我們的模型的話，最容易體驗到我們開源模型和閉源模型，我覺得很有意思，之前我們一直做開源，大家比較清楚，不贅述和吹牛了。

但是網友們一直在罵我們，你們那個東西很難用，每次都得去你們的模型上面找，我們就把OpenWEB AI拖下來之后就把它變成了一個聚合器，看起來就像是ChatGPT一樣，本來算法的同學產品意識并沒有那么強，做著做著就有這種感覺了，模型即產品，就有很好玩的東西出來，所以我們都會放到這上面。

一般我們會在qwen.ai里面就可以很好的搜到，發博客對于我們來說比較簡單，最近我們火的新的模型架構Qwen Next，很多同學沒有辦法引用，原諒一下我們。

們做開源做的比較久，2023年8月3日開始做開源，很多人問我們為什么做開源這一件事情？

很多事情都有機緣巧合的成分在這里，反正開源一路做下來之后做了很多，至少還是比較工業的事情。

東西不多，基本是一些腳本大家在上面看就可以。我們的模型是比較多的，為什么相對比較多？以前有很多人不理解我們為什么做小模型，但是今天大家都明白小模型還是挺有價值。

小模型最終起源于我們內部用來做實驗的1.8B模型，我們做預訓練，資源畢竟有限，你做實驗的話不能通通用7B的實驗來驗，就拿1.8B的來驗。當時我的師弟跟我說我們要把這個模型開源出去，我非常不理解。

我說這個模型在2023年幾乎是一個不可用的狀態，為什么要開源出去？

他跟我說：7B很消耗機器資源，很多碩士生和博士生沒有機器資源做實驗，如果1.8B開源出去的話，很多同學就有機會畢業了，這是很好的初心。

干著干著手機廠商跑來跟我們說7B太大，1.8B太小，能不能給我們干一個3到4B的，這個容易，沒有什么很難的事情。

一路干下來型號類型越來越多，跟服務大家多多少少有一點關系。

但是我們自己的內心追求的不僅僅是服務開發者或者服務科研人員，我們看一看能不能做一個Multimoda Foundatine Agent，我特別相信這件事情。

如果追溯到更遠的話，剛才唐老師說我們當年還在合作的時候，當時就在大干多模態，現在想想這是一個激情歲月。

2023年的時候大模型是一個大家都不要東西，多少少有那么幾分大煉鋼鐵的成分，多模態是我們延續下來一直想做的事情。

如果你想做一個智能的東西，天然的應該是Multimoda，當然帶有不同看法，各個學者都有一些看法，多模態能不能驅動智力的問題。

人有眼睛和耳朵可以做更多的事情，我更多的考慮是Foundatien有更多的生產力，能不能更好的幫助人類，毫無疑問我們應該做視覺，我們應該做語音。

理想的情況下，當年我記得我們2022年的時候，當時設計的一個系統是中間有一個大腦，我們不知道那個大腦是什么東西，但是我們知道不同的模態和任務都應該進入到這個大腦，從這個大腦輸出去，這個才是真正的想象當中的AGI。

今天看起來很有可能，因為我不知道大家做的研究方向有沒有做統一理解生成這件事情，這件事情還挺復雜的。

目前谷歌也沒有做到統一理解互相生成，但是我還挺相信這些事情。如果看GPT的話，今天把很多東西統一了之后，看起來更加完美一些，當年還在爭論他們到底是哪個好。

今年最大的進展是Qwen3，這個是吉祥物，有點像熊，但它是一只卡皮巴拉。做的時候我覺得我們同學太辛苦了，不想他們太辛苦，今天這么卷的時代佛系一點不是說不行。我們做的方向相對比較多一些。

但是你可以看到每一個方向都有它自洽的邏輯在這里面。

比如說我們做Text和VL、Omni，做的時間比較長，做視覺、文本、語音生成，我們做的過程當中，可能因為我們比較特殊的地方是我們背后是阿里云支持，我們有很多業務和阿里云的客戶比較相關。云的業務很多客戶是非常多樣的，包括Embed Guard都會給大家提供服務。

今天圍繞相對比較主線的Text、VL，包括Omni會給大家做介紹，Coder會放在Text和大家做相應的介紹。Text今年主要是Qwen3系列，現在已經做到3.5，3做的時間比較長一些。

一個最大的特點是總體能力提升

今年比較有意思的是reasoning的能力要提升，我補充介紹一下我個人的理解，reasoning和現在的單純的tasks模型有一點不太一樣。

第二個是我們支持的語言及方言，語言沒有那么多，加上方言一共有119種。

為什么會做多語言這件事情呢？其實也有些機緣巧合的事情，2023年的時候，當時我們覺得只要把中文和英文做好就可以服務好我們需要的人群，但是有一回我遇到韓國朋友，他們在做模型的時候，為什么不用我們的模型做呢？

他說你們的模型根本就不懂任何的含義，我感到非常的受傷，我就去看了一下，后來發現這個事情很簡單，順手就把它做了。

后來發現我們全球的用戶越來越多，我記得一些巴基斯坦的朋友不斷的跟我說你快點支持烏爾都語，我們真的沒有大模型可以用了，這個事情我覺得確實挺好，于是我們支持了更多的語言。我們現在還沒有做完，非洲的數據確實有點難以收集，非洲的語言沒有覆蓋。

今天我跟一些手機廠商聊了一下，非洲還有很多人使用功能機，我們今天已經到進入智能機的時代，他們還在做這個事情，所以要幫助全人類的話，確實是任重道遠，如果你的想法不是幫助全人類的話，我覺得不如不做，所以就繼續干。

第三個是今天的長文本、長視頻可能都是其中一個例子。

但是我覺得這件事情很有意思，如果你真的想形成一個具有自我認知的模型，首先上下文得足夠長，之前還有人討論一個問題，你沒有必要把很多垃圾放到長上下文里面，但是有了這個以后才能做到下面的理解。

所以我們現在一路做到1M以上，實際上我們內部已經做到好幾個M，可能還不夠。今天為什么還想說這是非常非常長的這種事情。回到剛才的問題，我們這一代模型可能和2024年相比，很大的一個區別是reasoning的能力要提升，廣義的reasoning是做問題推理，讓問題得到更好的解決。

雖然不得不做相關的研究，怎么讓reasoning更加nativel一些，Qwen3的時候，我們4月份發的版本，當時有些做的不太好，數據方面沒有做的太好，合并起來有一些問題。

有超過90%的客戶不再使用Thinking模型，大量使用我們QWQ系列的很重要的原因是他們的用戶喜歡看機器和自己進行聊天。但是很快大家就回到Instruct，這里主要看一下黃色和藍色的部分，藍色是4月份版本，紅色是7月份版本。

除了把數據做的更好以外，一件很重要的事情是AIME可以干到70分，你做Thinking可以做到90分，但是這個能力加進去之后，客戶很明顯的反饋是模型比以前聰明了很多，只有20多分，基本上什么題可能都做不了，比如說在教育領域做一點數學題可能都干不明白，這是我們挺驕傲的模型，這個模型也不是很大，很多人在用我們系列的模型。

但是還有一個遺憾，這個模型還有很多東西沒有做完，這里是一個取舍的問題。

比如說Coding和Agent能力怎么把它集成進去，做起來很難。考慮到自己的技術實力和狀況，包括自己一直做Cod系列，我們推出了這個模型。

今天的Cod和過往的不太一樣。比如說去年和前年都在解單純的競賽題，給一道題看一看能不能把答案做出來。

今天我們做什么事情呢？Software Engineer，2024年的時候大家非常驚訝，第一個AI能不能像一個程序員，今天我就維護一個這件事情挺難的，你把它做了就好了。實際做的過程中，這個事情人做起來步驟挺復雜，最簡單的是至少我可以打開這些文件夾，看了這些文件夾的名字知道我可以點開哪一個，其實是多輪交互的過程。

今天做Agent一個很重要的但，為什么大家提多輪環境交互，說白了打開文件夾看一言，這個其實也是一個跟環境交付的方式，這件事情很重要，并且非常有意思，讓我們非常激動，真的能產生產力。我們想做今天的Coding的模型可以有生產力，很多代碼可以寫出來，這是很驚訝的。

當然這個中美是不一樣的，剛剛從灣區回來，我感受到兩邊不太一樣。這個是非常夸張的，但是今天是不是模型做的不夠好，還是說WEBCoding還沒有做的更好，我覺得是大家認知上面有差異，我們想做的事情是殊途同歸，都是想讓它產生生產力。

當時我們就特別關注兩個生辰里，一個是SWE-bench，你能不能提一個PR把它解掉，70算是比較高的門檻，當然現在可以感到75以上，這是7月份的時候，當時我們做到67和69分覺得可以。

Terminal-Bench也挺難，今天大家都在用這系列的產品，大家會發現這個東西確實會和你的生產力接在一起以前不一樣，今天我們做的是貼近實際的任務。也許今天我們只是一兩個Bench而，有沒有可能讓它更加服真實的環境和真實的生產任務是我們想做的事情。

當時剛出的時候挺火的，但是現在競爭太過激烈，Token coder量一直干到第二名，小小吹噓一下。

最有意思的是這一套東西，以前從來沒有做過，今天模型訓練我有一個Scaling，就是今天AgentScaffods的東西，所謂的腳手架你再簡單理解一點就是這個東西。它就能夠在機器里面跟阿里云的ECS的這些機器在這里面一個個起一個不僅是算法的挑戰，在里面干完活就把它消除掉。

真真實實的存在，Instruct挑戰也很多，右上角的東西我自己可以感，左上角就得需要拉其他的伙伴一起，算法Instruct今天聯合的事情是真真實實的存在的，今天我們要做這么難的任務，需要很多Instruct的支持。

這個是當時做Coding的事情，我們更想做的是把Coding的能力是否可以集成在我們很大的模型上，比較抱歉的一件事情是最大的這個模型，大于1T的模型，我確實沒有推動將其開源出來，雖然我也很想開源。

但是就是這么回事，我們終于把這些能力集成進來，大家可以看到我們的SWE-bench可以做到70分，之前你沒有很好的把它集成進來，其實很難做到一個比較高的分數。這也說明一個問題，做到很強的時候，你也可以集結一個很強的模型，需要進行相應的積累。

Qwen3-Max也是排在前五，Overall。當然，它體現的是人類的偏好，未來評測會不會是動態的？讓它放到人類的生產環境里面，比如說就讓它炒股票。最后有一個公司做炒股這件事情，雖然有很多隨機性，但是開了一個好頭，讓大家在人類的真實世界中看AI做的好還是不好。

做語言模型其實還要想一個問題，它能不能有眼睛看到這個世界，舉個例子。我們剛才提到想做Coding Agent提升生產力，我總得讓它操控電腦，看電腦屏幕，沒有眼睛就看不到，所以我們毫不猶豫的去做，這是巨大的差異，Visual Understanding就去做可以了。

但是今天很多的模型比人看東西看的更明白，比如說我又近視又散光，基本上不太好使，看不明白。但是上下左右我總歸分的很清楚，但是AI很有意思，很細節的東西它看很清楚。比如說問前后左右這個問題，居然分布出來。

我們很長時間評估一個案例，叫活體的方向，當時我還問我們的評測人員什么是活體，分不清楚東西在左邊還是右邊，我覺得蠻奇怪的，但是這是我們要解的問題。

但是不僅僅如此，我們還要做一件事情是讓它的intelligence不要降低，我們沒有期待它真的能夠大幅度提高智商，但是至少不要變笨，因為很多時候做VL模型是變笨的，我們這一次終于讓它不再變笨，大概和我們的235B的語言模型達到一個持平的狀態。

這里講一下我們這次主要的提升，簡略的說一下。

第一個我們大家都在做一件事情，讓它操作手機、操控電腦的能力進一步提升。

第二個是它的語言的治理，VL模型能不能當LRM來用，這樣才可以追上原生多模態的模型，至少做到技術上讓語言的智力能夠達到持平狀態。

第三個是Coding，這件事情很重要，但是Coding的輸入也可以是圖像或者是視頻。

比如說今天我想做一個APP，想做一個網頁，我可以畫出來。不一定我用文字寫，因為這個很考驗人類的表達能力。很多時候大家表達的不一定很清楚，你可以畫一個圖。還有對視頻的理解，也許是VL下一代的機會。

視頻是更廣義的表達，圖片可以理解為是單幀的視頻，理解很長的視頻是很有意思的一個事情。

我一直在想如果我們有了智能眼鏡，每天接收更多東西的時候，能不能構建我們的矩陣，這個眼鏡是第一人稱視角的東西，一般來說我們在網上搜羅的視頻是第三人稱視角，對第一人稱視角理解很少，我們一般談論的是它對這個物理世界能不能構建一些好的理解。

我們做的時候，就發現真的需要知道他是不是能理解這個空間的東西，這個東西激勵我們做一件事情，我們能不能去做VLA，可能得把這些數據都集合進來，有沒有可能接入硬件做VLA的模型，能不能讓它獲得一些泛化。

另外是基礎能力的提升，比如說今天大家在使用OCR的時候，有很多東西的用力，都在檢測一些很褶皺的東西。但是我們的的圖像很多時候檢測不到，紙張非常的褶皺，能不能讓它看的懂都是我們自己要解的問題。

另外是印章，字體非常特別，非常的小，圖片分辨率低，能不能識別出來是很特別的事情。Multimmod模型能不能做Reasoning，能不能對圖片進行理解。比如說今天我們看到一個數學問題做分析，不斷的一步一步去推，和圖片結合起來看能不能看到圖片上更小的點。

舉個更小的例子，一張照片有50個人它能不能數的出來呢？數不出來，但是配上Reasoning我就可以一點點的去看，一點點的去打這個點，有可能我能把這個數字給數出來。今天結合具體的應用，能做的空間其實非常多。

我們現在基本上可以達到2.5pro的水平，但是讓我開心的是語言的智力沒有那么降智了，也算是第一次解決了這個問題。

更進一步我們想做什么呢？除了理解圖像和視頻以外，有沒有可能同時生成圖像和視頻？我們甚至有一個更大的想象，如果我們今天在思考有沒有可能把我們的基礎模型實現想象這些事情。

我腦海里有一些畫面，這個想象對我來說是有意義的，這些事情都可以通過圖像生成和視頻生成進行相應的實現，這個也會和今年的視界模型聯系在一起。

今年我們剛開始做生成的事情，花了幾個月時間做了Qwen-lmage系列，12月份剛剛更新了一個。

這是我們內部人員進行盲測，排名還是可以，基本上比最好的開源模型和閉源模型，比相交還是稍微差一點點。但是我看到一些實際的圖的時候，我其實比較興奮。

比如說和其他模型比較沒有什么感覺，但是可以看一下8月份和12月份的版本，8月份生成的圖AI感還是非常重的，但是12月份生成了已經接近離譜了，雖然沒有那么美和好看，但是已經接近真人了。

其實還有一張我們博客里面宿舍女生拍照，真的很像宿舍女生剛睡醒拍照，放在這里不是很好，我放了更好看一點的。還有更自然的東西，比如說燈塔，水花特別夸張，但是右面的水可以達到非常自然的狀態。

另外一個是生成圖像文字要很準確，能夠把文字生成到圖片上面來。分鏡不是拼出來的，其實是12張圖合起來的一張圖，包括文字都是一次性生成出來，今天模型有一些威力超出了我們的現象，有時候我們自己訓練模型都沒有想到會變的這么強。

但是除了生成以外的話，我們還要做更重要的事情。我們做了生成之后，用戶告訴我們才知道編輯是更大的需求，因為大家都需要P圖，讓自己變的更好看。

Image-edit版本也有，接下來會把edit生成合在一起，我自己每天用這個東西，最近出去旅游的時候，我想拍出美國往事的感覺，下面有很多人，我就把很多人P掉，調整一下風格，就可以把這個東西做出來，這是每天干的事情。

我想給大家分享一個更有意思的案例，也是今天大家會問我，開源社區究竟怎么幫助我們研發這個模型，如果不是開源社區告訴我們，這輩子都想不到有這個問題。

有一張圖片我們想對它進行編輯，讓它放下圖像中右邊的人，你會發現它放下來之后，兩張圖重疊在一起的時候你會發現糊了，它有點移動了，不在原位，偏移了。

對于很多搞PS的同學來說，這個東西要非常精確，你不能隨便移動，所以2511這個版本很重點的是在解這個問題。在2511這個版本，我把兩張合在一起的時候，基本上人在原來的位置上，我覺得是開發者給我們很好的用力，原來可以做出真的可以幫助到他們東西。

編輯可以做很多事情，比如說我調整光線讓它變成更柔和的光鮮。我們的用戶和產品跟我們說這個光射合理不合理是很重要的，我們做算法的同學很多時候感受，但是有些時候大家對圖的要求比想象的更高。

所以，大家談世界模型的時候，是不是真的能構建出符合物理規律或者真實世界的東西其實還是很重要的東西。

還有一些例子，比如若平移一些鏡頭，旋轉30度這些都是很常見東西，今天這個模型甚至可以和推理結合在一起，我們一直有一件事情非常想做，教小朋友家長們很痛苦，很多時候AI去教有一些題教不了，畫輔助線的東西是教不了的，真的需要生成模型才能做，我真的能夠把一道數學題做好，比如說畫輔助線這件事情我可能要通過生成推動更好的理解。

接下來是更進一步的，如果今天看的圖像的問題解的差不多了，甚至自己可以把東西生成出來，有沒有讓它像人一樣聽和說呢？因為語音交互也是很重要的事情。今天大家在使用各類的APP的時候，大家發現有語音交互真的是很方便的一件事情。

Omni也是很大的智能，并且我愿意相信一些事情，今天對事件的環境音理解，人講的話不是單純的使用ASR就可以解決的。

所以我們就做一個Talker的東西，這個模型做了很久，讓它既能聽又能說，能夠保證它的效果是穩定的。Omni是沿著這個方向持續做的，大概的進展稍微有一點降智，但是降智的已經不多。

我們這個模型可以達到2.5文本的水平，對于語音基本可以對標2.5por的水平，這里面有挺多好玩的東西，時間關系沒有辦法和大家分享。

今天TDS可以換各種聲音，包括自己定制你自己的聲音，只要描述這個聲音長的什么樣子，就可以讓AI以這個形式把東西講出來，我覺得還有很好玩的事情，基礎模型和基礎Agent是不是真的可以跟人類的真實世界，也包括虛擬世界進行更好的交互。

下一步要做什么樣的事情呢？我們做了這么多，當然希望集合在一起，全模態模型是要做的

有一個很重要的，我覺得也是殊途同歸的事情，跟kimi文化做類似的事情。我們同時做各種各樣的實驗的時候，最后選擇了用Linear Context，當然也是以三層Linear配合它的。

下一代的模型也會沿著新的架構進行相應的實現，其實我們這里想做的事情是新一代的架構能不能解決我們剛才到的問題，能夠省下很多步驟。也許還會有更多的威力在里面。下一代的模型，其實也會沿著新的架構進行相應的實現。

更進一步我們要做什么東西呢？Omni的模型不僅僅是我能夠理解文本、視覺、音頻，我們可能還讓它生成文本、音頻，今天我們已經做到了，但是我們還沒有做到把視覺生成結合在一起。如果做到三進三出，我覺得會是至少我個人喜歡的東西。

第二個是今天的范式發生了一個很大的變化，今天不是像以前那樣訓模型，有標注的數據，有一條輸入和輸出訓練就可以，我們今天要把更多的數據放到實驗中去訓練

如果大家關注XAI的宣傳，RL的數據我雖然覺得他們有點浪費，但是另一方面也意味著RL有很多的想象空間。當然并不是說自己跟自己對話，我其實沒有那么關心我們的模型能不能做成為最強的數學大腦，我更關心的是像日常真實的人，為這個社會做貢獻。如果它能夠做到這一點，我覺得還挺好。

所以Multi-turn RL with environment feedback towards long-horizon reasoning，因為很多時候做很多事情需要很長的時間，你得一步步去做。

但是AI可以加速很多，比如說人類花兩個月的時間做的東西，AI可以花兩天的時間。雖然有很多Token在里面，但是兩天確實能夠節省我們很多的時間在這里面。

Agent其實可以走向虛擬世界和物理世界，所以有了Embodied Reasoning的這種方式。我們內部討論了一個方式，就算你是做VLA，做Coding的模型，說白了也是把語言轉化成Embodied的模型，從這個角度上來看就非常的振奮人心。

于是我們就覺得大干一長，看一看能不能走向Digital Agent，GUI操作，同時能夠使用API，這個就是非常完美的Digital Agent。如果走向物理世界，是不是能夠把話筒拿起來，能夠斟茶倒水。

圓桌對談

本次峰會最精彩的，當屬圓桌環節。

開場就很drama，本應有四位嘉賓，臺上卻只有三位。

正在疑惑，姚順雨突然大臉跳屏

我現在是不是一張大臉在屏幕上？

全場都愣了一下，隨后便是哄堂大笑。

主持人也正好趁這個機會，直接從姚順雨開始，切入了正題。

Q1：路線分化

主持人：我是接下來Panel的主持人廣密。

可以從分化這個主題先聊起來，硅谷的競爭那么激烈，它沒有完全Follow，全都做，而且是專注到了企業，專注到了Coding，專注到了Agent。

我也在想接下來中國的模型會分化成自己想要的哪些方向？我覺得分化這個主題蠻有意思的。

順雨開場給大家講一講，順便說說你最近在干什么。

姚順雨：大家好，我現在是不是一個巨大的臉在會場？不好意思，今天沒法親自來北京，但是很高興參加這個活動。最近忙著做模型、做產品、做AI，是一個很正常的狀態。回國的感覺還是挺好的，吃的好很多。

我覺得有兩個大的感受，一個感受是toC和toB發生了明顯的分化，另外一個感受是垂直整合這條路，以及模型和應用分層這條路，也開始出現了分化。

我先說第一點，我覺得很明顯的是當大家想到AI就是兩個，ChatGPT，另外一個Claude code，是做toC和toB的。

非常有意思的一點是我們今天用ChatGPT和去年相比的話，感受差別不是太大。

但是，Coding夸張一點來講，已經在重塑整個計算機行業做事的方式，人已經不再寫代碼，而是用英語和電腦去交流。

我覺得很核心的一點，對于toC來說，大部分人大部分時候不需要用到這么強的智能，可能今天用ChatGPT和去年相比，寫成交代數和伽羅瓦理論的能力變強的，但是大部分人大部分時候感受不到。

大部分人尤其是在中國更多像是搜索引擎的加強版，很多時候也不知道該怎么去用，把它的智能給激發出來。

但對于toB來說，很明顯的一點是智能越高，代表生產力越高，值錢的也越來越多，這些東西都是相關的。

對于toB來講，還有一個很明顯的點，大部分時候很多人就愿意用最強的模型，一個模型是200美元/月，第二強或者差一些的模型是50美元/月、20美元/月。

很多美國的人愿意花溢價用最好的模型，可能他的年薪是20萬美元，每天要做10個任務，像一個非常強的模型可能10個任務中，八九個做對了，差的是做對五六個，問題是你不知道這五六個是哪五六個的情況下，需要花額外精力去監控這個事情。

我覺得無論是人還是模型，在toB這個市場上發現了一個很有意思的現象，強的模型和稍微差點，或者弱的模型它的分化會越來越明顯。

第二點觀察，垂直整合這條路和模型應用分層這條路的區別，我覺得一個比較好的例子，比如ChatGPT Agent，相比于用Claude或者Gemini加上Manus這樣的應用層產品，過去大家會認為當你有垂直整合能力肯定會做的更好，但起碼今天來看并不一定。

首先模型層和應用層需要的能力還是挺不一樣的，尤其是對于toB或者生產力這樣的場景來說，可能更大的預訓練還是一個非常關鍵的事情，這個事情對于產品公司確實很難做，但是想要把這么一個特別好的模型用好，或者這樣的模型有它的溢出能力，也需要在應用側或者環境這一側做很多相應的事情。

我們會發現其實在toC的應用上垂直整合還是成立的，無論是ChatGPT還是豆包，模型和產品是非常強耦合去緊密迭代的，但是對于toB來說這個趨勢似乎是相反的，模型在變的越來越強、越來越好，但同樣會有很多應用層的東西應用好的模型在不同的生產力環節。

騰訊肯定還是toC基因更強的公司，我覺得我們會思考怎么樣能夠讓今天的大模型或者說AI的發展能夠給用戶提供更多價值，很核心的思考是我們發現很多時候我們的環境來講或者更強的模型，或者很強的模型，很多時候是額外的Context。

我最近經常舉一個例子，比如我想問我今天該去吃什么？其實你今天問ChatGPT和你去年問或者明天問都會差很多。

這個事情想要變好，不是說你需要更大的模型、更強的預訓練、更強的強化學習、更強的Agent環境或者更強的搜索引擎，這個問題可能需要更多額外的輸入，或者我們叫Context。

toB確實是很難的事情，生產力的革命，包括我們今天很多中國的公司做Coding Agent需要打很多海外市場。

我們會思考怎么把自己先服務好，像創業公司做Coding這個事情和大公司做Coding這個事情，一個區別是作為大公司本身就已經有各種各樣的應用場景、各種各樣需要生產力變的更好的地方。

如果我們的模型能夠在這個地方做的更好，不僅這個模型會有自己獨特的優勢，不僅我們公司本身能得到很好的發展，很重要的一點是對于真實世界場景的數據捕捉會是一個很有意思的事情。

比如說Cloud，這些創業公司，他們想要去做更多的Coding Agent的數據廠商去標注這個數據，他們需要利用各種各樣的軟件工程師去想我要去標什么樣的數據。

這個事情是數據公司一共就這么幾家，一共有招了這么多人，最終你會受限，但如果你是一個10萬人的公司可能會有一些有意思的嘗試，怎么把真實世界的數據利用好，而不是僅僅依賴于標注商或者協議。

林俊旸：今天toB也好，toC也好，我們在服務真實的問題，我們想的問題是怎么把人類世界變的更好。你就算做toC的產品也會分化，今天OpenAI更像一個平臺了，但是toC最終要服務真實的這批用戶究竟是誰。

今天可能有很多AI會更偏向medical和log，今天我覺得Coding真的很厲害，我就拜訪它，因為我知道他們跟客戶交流非常多，這個是我們還不夠好的一個點，雖然我們擁有巨大的優勢，也可能中國SaaS市場跟美國確實不太一樣，他們確實非常頻繁地跟客戶進行交流，很容易發現很大的機會。

今天我跟美國的很多API廠商聊起來，他們沒有想Coding消耗量那么大，在中國真的沒有那么大，至少從我這邊來看，但是在美國，基本上全都是Coding，我覺得這個事情不是所有人都能Get到的。

今天做的一些相關的一些東西，我覺得也是他們自己在跟客戶看到這個機會，我覺得可能大家的分化是自然的分化，我更愿意相信AGI，做AGI該做的事情，順其自然，這是我們該做的事情。

楊強：分化的問題其實我更想聊一下工業界和學術界的分化，這個可能是橫跨美國和中國的。

一直以來，學術界是一個觀望者，工業界在領頭往前瘋跑，搞得很多學術界的人也在做工業界的事情，像唐杰老師，這是一個好事，就好像天體物理學剛剛開始的時候是以觀測為主，伽利略的望遠鏡，然后才出現牛頓。

所以我覺得后面一個階段，當我們有了眾多的穩定大模型，進入一個穩態的時候，我們學術界應該跟上來。

學術界跟上來要解決什么問題呢？工業界可能還沒來得及解決的一些問題，這也是我一直在考慮的問題，就是說智能上界在哪里，比如說給你一定的資源，計算資源或者能源資源，你能做到多好？

可以更細一點，比方說我們把這個資源怎么分配，哪些分配在訓練上、哪些分配在推理上？其

實我很早就在做AI，90年代初就做過一個小實驗，如果我們有一定的投入在記憶上，那么這個記憶能夠幫助推理多少，這個幫助會不會變成一個反向的，就是說你記的太多了，反而記的噪音會干擾你的推理，有沒有一個平衡點，我覺得這些問題今天還是適用的。

我最近也在想另外一個問題，大家學計算機的都必定上計算機理論課，里面有一個重要的定理叫哥德爾不完備定理，大概意思是說一個大模型不能自證清白，必定有一些幻覺不可能消滅掉，可能你給更多的資源，它會消滅的更多。

所以科學問題就來了，你多少資源能夠換取多少幻覺的降低或者錯誤率的降低，這是有一個平衡點的，這個平衡點特別像經濟學，經濟學的風險和收益的一種平衡，所以我們叫這叫無免費午餐定理。像這些東西，我覺得今天就特別適合數學界、算法界和學術界和工業界一起做研究，這孕育著一個巨大的突破。

剛才唐杰老師也提到持續學習，我覺得持續學習是一個特別好的問題，它里面有個時間的概念，你在持續地不斷地學的過程當中。

但是你會發現，比方說你把不同的Agent給串聯起來，每一個Agent都不能做到百分之百的話，你在N個以后它的能力是按指數下降的，你怎么樣能夠保證它不下降，人類是用一個方法做這個事，第一天是學習，第二天會在第一天噪音的基礎上學習，這樣你的能力就類似大模型會下降。

但是人類有一個方法就是睡覺、睡眠，我建議大家看一本書叫《我們為什么睡覺》，是MIT的兩個教授寫的，非常好玩，它說每天晚上睡覺是在清理噪音，使得第二天你可以把準確率持續地提升，不至于是兩個策略率的疊加。

像這些理論的研究孕育著一種新的計算模式。我們今天可能比較關注Transformer computer，但是我覺得有必要做一些新的探索，這是工業界和學術界要拉齊。

唐杰：早期的時候還是基座模型，2023年那個時候我們第一個做出Chat的，當時第一個想法是趕緊把Chat扔在網上上線，當時國家有規定，八九月份一起上。

當時我的第一感受是十來個大模型都上來了，而且每一家用戶都沒有那么多，當然今天分化的非常嚴重。

后來我經過一年的思考，我覺得其實這個已經不是真的解決問題，我的第一個預判是說它會替代搜索。

我相信今天很多人在用這個模型替代搜索，到今天我相信大家很多人在開始用這個模型替代索索，但是并沒有替代谷歌，谷歌反而把自己的搜索革命了，谷歌自己做了搜索的改進。

從這個角度上，我覺得這一仗從DeepSeek出來之后，已經沒有了，已經結束了。

DeepSeek之后我們應該想的是下一仗是什么東西？

我們團隊爭論了很久，下一仗肯定要讓AI做一件事情，做這件事情是什么可以討論一下，那個時候廣密還到我們那跟我們交流，廣密的知識特別淵博，他思考問題很深邃。和他的交流對我的啟發非常大，原來我沒有想到，那一次讓我啟發非常大。

后來我們團隊爭論了很多晚上，爭論到最后，可以叫我們的運氣，另一方面我們也是把所有的精力放在了Coding上。

Q2：自主學習

主持人：接下來第二個比較有意思的問題，今天這個時間點特別特殊，一個是預訓練過去走了3年，大家都說可能今天走到了七八成的收益，強化學習也都成為共識，做到了四五十的空間，后面的數據、環境空間很大。

接下來一個新的范式，唐老師也談到了自主學習、自我學習，因為今天這個會的主題是接下來的展望Next，我覺得這是一個特別值得去聊的話題。

姚順雨：現在自主學習是一個非常熱門的詞，在硅谷大街小巷咖啡館里面，大家都在談論，形成了一個共識。根據我的觀察，每個人對這個東西的定義和看法都不一樣，我講兩點：

第一，這個事情不是方法論，而是數據或者任務。

當我們在談論自主學習的時候，它到底在什么樣的場景下基于什么樣的獎勵函數去做。

你在聊天的時候變的越來越個性化是一種自主學習，在寫代碼的時候越來越熟悉每個公司獨特的環境或者文檔是一種自主學習，你去探索新的科學，在這個過程中像一個博士一樣，從原來不了解有機化學是什么，到完成這個領域的專家，這也是一種自主學習。每一種自主學習的挑戰或者說方法論都不太一樣。

第二，ChatGPT在利用用戶的數據不斷彌合人聊天的風格是什么，這是不是一種自我學習？

今天Claude已經寫了Claude這個項目95%的代碼，它在幫助它自己變的更好，這是不是一種自我學習？

我們當時2022年、2023年的時候，我去硅谷宣傳這個工作，我當時寫了第一頁是說ASI最重要的點是自主學習。今天的AI系統本質上都有兩部分，首先它是一個模型，其次它有個代碼庫，你怎么去用這個模型，是用來做推理，還是做Agent，有相應的代碼庫，我們今天看Claude這個系統本質上有兩部分。

一部分是是部署環境的一大堆相應的代碼，KeonGPU的環境是怎樣的。

另一部分是怎么樣去使用它，有一大堆相應的代碼，無論是GPU的，或者說它的前端還是環境是什么樣的。

我們做Switch方面大家意識不到，這些自主學習的例子可能還局限在每一個特定的場景下，沒有讓人感覺到非常大的威力。

這個事情已經在發生了，可能效率或者受限制的限制，有各種各樣的問題，可能這個事情我個人的看法它更像是一個漸變。

很多人說2026年看到信號，我覺得2025年就看到信號了。

Cursor每幾個小時都會用最新的用戶數據去進行學習，包括新的模型，也在使用這些真實環境下的數據去訓練，大家覺得這個東西可能還沒有特別石破天驚，是因為受限于他們沒有預訓練能力，他們模型效果確實還不如Opens，顯然這是一個信號。

最大的問題是想象力，我們很容易想象強化學習或者推理這個范式，如果實現大概是什么樣，我們可以想象O1，在數學題上本來是10分，現在變成了80分，通過這個強化學習有非常強的思維鏈做這個事情。

如果2026年或者2027年我們有一個范式的發生，我宣布了一個新的模型或者新的系統實現了自我學習，我們應該用什么樣的任務，它應該是什么樣的效果，你會相信它實現了。

它是一個賺錢的交易系統，它可以賺很多錢，它真的解決了人類之前沒法解決的科學問題還是別的。我覺得可能需要先想象到它長什么樣。

林俊旸：如果從更實際一點來講的話，剛才講的這個范式在比較早期階段，RL這個事情，實際上我們還沒有做的那么充分，很多潛力沒有打出來。

今天我們也看到很多問題在這里面發生，我覺得全球范圍內類似的問題還存在。

如果要說下一代范式的話，一個自主學習，之前跟一個朋友聊到說人類不能讓AI變的更厲害，比如說你跟AI不斷地交互，只會讓它上下文變的越來越長，AI變的越來越笨，這是很煩人的事情。

這件事情是不是真的能夠發生？這還是挺值得思考的，你能吐更多Token讓你變的更強，就像我真的干30個小時真的能夠干出很難的任務，今天大家做超越的事情很難，有沒有可能通過Coding去實現。

從這個角度來說，AI肯定需要自主進化，但究竟你是不是要更新參數，我覺得見仁見智，大家都有不同的技術手段去實現這個事情。

第二點是AI有沒有可能實現更強的主動性，環境是我的輸入信號，我現在的AI必須得有人類幫助他才能啟動，但是有沒有可能自己能自主思考，去做一些事情。這引發了一個新的問題，就是安全的問題，我非常擔心安全的問題，不是擔心它今天講一些不該說的話，最擔心的是它做一些不該做的事情

比如說今天主動產生一些想法，往會場里面扔一顆炸彈，我們肯定不希望不安全的事情發生。就像培養小孩一樣，我們要給它注入一些正確的方向，但主動學習是一個挺重要的范式。

可能很快訓AI這件事情就可以實現，我看我們同學每天干這個事情，我覺得很快就被替代掉。

可能更持續的理解用戶這件事情還挺重要的，比如說過往我們在做推薦系統的時候，用戶這個信息是持續輸入，讓這個系統變的更強，它的算法變的更簡單。在AI這個時代它是不是能不更懂你，這些信息的輸入能不能真正成為幫助我們的工具。

如果說自主學習的話，可能會是跟人的交互上就能做到。但是以什么指標進行衡量？不太好說。

在推薦的時代下，你做的越好，別人可能點的越多、買的越多，但是在AI時代覆蓋到人類生活的方方面面的時候，真正的衡量指標是什么，我們不太知道。我感覺今天更大的從技術上的挑戰，我們今天不知道該怎么做，這可能是我們更值得研究的問題。

大量的技術所謂的突破性都是一些觀測問題，都是在線性發展的，只是人類對它的感受非常強烈而已。

包括像ChatGPT的出現，對于我們做大模型的人來講都是線性的增長，現在大家都是在做Memory這個事情，這個技術對還是不對呢？

很多方案也沒有對錯之分，但做出來的效果，至少拿我們自己獻丑，我們自己的Memory看起來知道我過去干了什么，但是只是記起來過去事情，每次叫一遍我的名字，其實并不顯得你很聰明。

你的Memory有沒有可能到某一個臨界點的時候，結合你的Memory，就像生活當中的人一樣，過去大家講電影，它真的很像人，理解你的Memory就是在那一下，人類的感受突然間迸發。

我覺得多多少少也需要一年時間，很多時候技術也沒有發展那么快。

大家比較卷，每天有新的東西，但是技術在線性的發展，我們在觀測的角度處于指數上升的階段，比如說Coding能力的一點點提升，可能就能帶來很多生產價值。

每天看我們自己做的事情覺得真的挺土的，那些Bug真的不好意思拿出來跟大家講。如果這樣做，我們已經做到這樣的成績，我覺得可能未來算法infra結合的更好，可能更大有可為。

楊強：我一直以來是做聯邦學習的，聯邦學習的主要思想是多個中心大家協作。

我現在越來越多地看到很多有本地資源不足，但是本地的數據又有很多隱私和安全的要求，所以這樣我們就可以想象現在大模型的能力越來越強，這種通用型大模型和本地特殊性的小模型或者領域專家的模型如何協作，我覺得這種協作變的越來越可能。

像美國ZOOM，就是黃學東他們做的AI系統，他做了一個很大的基座，這個基座大家都可以插進來，它可以在Decentralise的狀態下，能夠既保護隱私，又能夠和通用大模型有效的溝通、協作。

我覺得這種開源模式特別好，一個是知識的開源，一個是Code方面的開源，模型階段。

尤其是像醫療、金融這樣的場景下，會越來越多看到這樣的現象發生。

唐杰：我對今年會有非常大的范式革新有信心，我不說太細，就像我剛才講的持續學習，還有Memory，甚至多模態，我覺得都有可能出現新的范式變革。

為什么會產生這么一個范式？

我覺得原來其實工業界跑的遠遠快于學術界，我記得去年和前年回到清華跟很多老師聊天的時候能不能做大模型，很多老師第一是沒卡，也不是沒卡，是卡的數量幾乎為零。

工業界有1萬片，學校是0片或者1片，倍數是1萬次，但是到現在的時候，很多學校已經有很多卡了，而且很多老師已經開始做了很多大模型的相關研究，包括硅谷那邊有很多老師都開始做模型架構、持續學習相關的研究。

原來我們總覺得工業界在dominating這些，其實我覺得今天在2025年底到2026年初的時候，這一現象不大存在了，可能還有10倍的差，但它已經孵化出種子了，我覺得在學術界有這個創新的基因，有這個可能性，這是第一個。

第二，我覺得一個創新的出現一定是某個事情有大量的投入，并且它的efficiency變成瓶頸了，現在在整個大模型里面投入已經巨大，但是efficiency并不高，也就是我們繼續Scaling，肯定是有收益。

原來data從2025年初，當時可能10個TB的數據，現在30個T，甚至我們可以Scaling到100個T，但是100個T，你Scaling上去以后，你的收益有多少，計算Cost有多少，變成了這么一個問題，你不創新，這就變成了可能花掉10個億、花掉了20個億，但是你的收益很小，就不值得了。

另外一方面對于新的智能創新，假如說我們每一次都要重訓一個基座，再重訓很多RL，像2024年出RL的時候，很多人會覺得我接著訓，收益表里有，但是到今天的時候再接著瘋狂的RL，收益也有，但沒有那么大，還是收益效率的問題，可能我們未來也許可以定義，一方面既然要Scaling up，最笨的辦法就是Scaling，Scaling我們會有收益，Scaling肯定會帶來智能上界的提升。

第二個辦法是應該定義Intelligence efficiency，就是說智能的效率，我們獲得智能的效率，我們用多少投入能獲得這個智能的增量，如果我們能用更少的獲得它的增量，而且現在我們已經變成了一個瓶頸，假如能用更少的范式獲得同樣智能的提升，它就變成一個瓶頸式的事情。

所以我覺得2026年一定會有這樣一個范式的發生，我們也在努力，我們希望發生在我們身上，但也不一定。

Q3：Agent之年

主持人：第三個是聊聊Agent戰略，它不再只是一個Chat，而是說真的在自動化一整天甚至一周的任務流，2026年Agent可能是創造經濟價值的關鍵一年。

順雨花了很多時間做Agent的研究，你對2026年Agent，比如說Long Agent真的能干人類1-2周的工作，對Agent戰略，包括從模型公司的出發點，會怎么思考這個問題？

姚順雨：我覺得還是像剛剛說的toB和toC不太一樣，目前看起來，我覺得toB的情況現在已經達到了在不斷上升的曲線，目前看起來好像沒有變慢的趨勢。

很有意思的一點是它基本上不做什么創新，就是覺得模型預訓練變大了，老老實實的把這些東西做好，只要預訓練不斷地變大，后訓練不斷地把這些真實世界的任務給做好，會越來越聰明，它就會帶來越來越大的價值。

從某種程度來說，做toB，所有的目標這件事更一致，模型的智能越高，解決的任務越多，解決的任務越多，在toB下帶來的收益越大。

做toC的問題是說，我們都知道DAU或者說產品的指標和模型的智能，很多時候是不相關的，甚至是相反的關系，我覺得這是能夠聚焦的另一個很重要的原因，他只要真的把模型越做越好，他的收益越來越高，所有的事情都是非常好的。

目前看起來，toB或者說生產力的Agent剛剛開始，現在除了模型之外，有兩個Next，環境問題或者Deployment問題。

在OpenAI之前，我在一個公司實習過，這是一個toB的公司，我覺得在toB公司工作過有很多收獲，最大的收獲是即使今天的模型不再變好，所有的模型訓練全部停止了。

但是我們把這些模型部署到世界上各種各樣的公司，已經能帶來今天10倍或者100倍的收益，能應對GDP產生5%-10%的影響，但是今天它對GDP的影響還不到1%。

另外我覺得教育非常重要，我觀察現在人和人的差距非常大，更多時候不是說人類替代了人類工作，而是會使用這些工具的人在替代那些不會使用工具的人，就像當年電腦出來，如果轉身學習編程跟你還在持續計算尺、使用算法，差距是巨大的。

今天中國能做到的最大的有意義的事情是更好的教育，教育大家怎么更好的使用像Claude或者ChatGPT這樣的產品，當然Claude可能在中國用不了，但我們可以用Kimi或者智譜這樣的國產模型。

林俊旸：這里可能涉及到產品哲學的問題，當然Manus確實很成功，套殼是不是未來，這本身也是個話題，今天到這個環節，我比較同意你的觀點，叫模型即產品。

我跟TML的聊，他們叫Research，其實我挺喜歡這個事情的，包括我的視角看OpenAI，我覺得還有挺多這種事情，就是挺多Research，自己可以成為產品經理，把這個東西給做起來，包括今天我們自己內部的Research都可以做面向真實世界的東西。

我愿意相信接下來的Agent是可以做到剛才所說的這個事情，而且跟剛才所提的主動學習都有比較強烈的關系，它能干這么長的時間，自己就得在這個過程當中進化，并且它還要決定去干什么，因為它收到的這個指令是非常通用的任務，我們現在Agent已經變的托管式的Agent，而不是我要不斷給你來來回回交互的那種形式。

從這個角度來說，它對模型的要求是很高的，模型就是這是這個Agent本身，Agent就是這個產品本身，如果它們都是一體化的話，今天做基礎模型本身，其實也就是在做產品。

從這個角度來說，如果不斷提升模型能力的上限，包括Scaling能做上去，確實能夠做到這個事情。

我覺得還有一個點是跟環境交互有關系，我們現在交互的環境還不是很復雜，這些都還是電腦的環境。我有朋友是做AI for Science比較相關的，比如說今天你干AlphaFold這個事情，其實你最后干出來，它還沒有到那一步。

比如距離制藥這件事情，就算用今天的AI，不一定能幫到你那么多，因為你要去做試實驗，你要去做這些事情才能得到反饋，有沒有可能我們未來AI環境復雜到真實的人類世界的環境，指揮機器人去做試實驗，去加快效率。

現在人類的效率非常低，我們還要雇傭很多外包在實驗環境里面去做實驗，如果能達到這個點，可能才是我想象當中Agent能做很長時間的活，而不是在電腦當中寫個文件等，這些東西今年很快就可以完成，接下來3-5年的時間，這個事情會更加有意思一些。這個可能又要跟具身智能結合在一起。

做通用Agent最有意思的事情就是長尾反而是更值得關注的事情，或者說今天AI更大的魅力是在長尾，如果是馬太效應，頭部的東西挺容易解決的。

當年做推薦的時候我們看到那個推薦非常集中，商品都是在頭部，但我們想把尾部的東西推過去，但是我當時做的非常遭殃，我作為一個干多模態的人碰到推薦系統，我去干解馬太效應，基本上是奔著死路去的。

今天所謂的AGI就在解這個問題，你做通用Agent，能不能把長尾的問題給解決，今天我一個用戶，真的尋遍各處都找不到能夠幫我解這個問題的，但是在那一刻，我感受到了AI的能力，全世界任何一個角落，尋遍各處都找不到，但是你卻能幫我解決，這就是AI最大的魅力。

要不要做通用Agent呢？我覺得見仁見智，如果你是一套殼高手，套的可以比模型公司做的更好，我覺得可以去做；但如果你沒有這個信心，這個事情可能是留給模型公司做模型即產品的，因為他們遇到問題的時候，我只要訓一訓模型，只要燒一燒卡，這個問題可能就解決了。

今天RL最有意思的地方，修問題比以前容易。

以前修問題很難。我舉個B端客戶的情況，他們說我們自己要做SSD，你能不能告訴我這個通用數據怎么配比，每次我們都很頭痛，我們覺得對方不太會做SSD，他那個數據非常垃圾，但他們可能覺得非常有用。

但現在有RL以后，今天很小的一個數據點，甚至都不需要標注，只要有Query，這個東西稍微訓一訓，合并起來也非常容易，這可能是今天技術的魅力。

楊強：Agent出現，應該有四個階段，

一個是目標的定義，是人為定義的，還是自動定義的，這是目標。第二是說規劃，就是中間的Action，規劃可以由人定義，也可以AI自動定義。

我們現在在一個非常初級的階段，目標也是人定義的，規劃也是由人來做的，所以現在的這些Agent的軟件系統，基本上是更高級的階段，但是我預料未來會出現一個大模型觀察人的工作，尤其是把data給使用起來。

最后目標也可以是大模型來定義，規劃也可以由大模型定義，所以Agent應該是由大模型內生的一個native的系統。

唐杰：有幾個方面決定了Agent未來的走勢。

第一，Agent本身有沒有解決人類的事情，而這個事情是不是有價值，價值有多大？比如說原來的Agent像GPT-S出來也做了很多Agent，那時候你會發現那個Agent非常簡單，最后發現promoment就解決了，這時候大部分Agent慢慢就死掉了。第一個是解決Agent這個事情多有價值，以及真的能夠幫到人。

第二，做這個事情咱們Cost有多大，如果Cost的特別大，這個時候也是一個問題，就像剛才俊旸說的，也許調用一個API就能把這個問題解決了，但是反過來，假如調到API就能解決，這個API本身有可能覺得當這件事情價值很大的時候，就會把它做進去，這是個矛盾，非常矛盾，基座的應用永遠是矛盾。

最后，做應用的速度。如果說我有個時間窗，能夠拉開半年的時間窗，迅速把這個應用滿足了，半年以后，要么迭代，要么怎么接，怎么能往前走也是一個方面。

大模型到現在更多的是在拼速度、拼時間，也許我們代碼正確了，也許我們就會在這方面走的更遠一點，但也許失敗以后就半年，半年就沒了，今年我們只是在Coding，在Agent這一塊做了一點點，現在我們Coding的調用量都還不錯，我覺得更多的也是一個方向，做Agent未來也是一個方向。

Q4：中國能否反超

主持人：第四個問題，在三年和五年以后，全球最領先的AI公司是中國團隊的概率有多大？

姚順雨：我覺得概率還挺高的，我還是挺樂觀的。目前看起來，任何一個事情一旦被發現，在中國就能夠很快的復現，在很多局部做的更好，包括之前制造業、電動車這樣的例子已經不斷地發生。

我覺得可能有幾個比較關鍵的點，一個可能是中國的光刻機到底能不能突破，如果最終算力變成了Bottleneck，我們能不能解決算力問題。

目前看起來，我們有很好的電力優勢，有很好的基礎設施的優勢。主要的瓶頸，一個是產能，包括光刻機，以及軟件生態。如果這個問題解決，我覺得會是很大的幫助。

另一個問題，除了toC之外，能不能有更成熟或者更好的toB的市場，或者有沒有機會在國際的商業環境競爭。

今天我們看到很多做生產力或者做toB的模型或者應用，還是會誕生在美國，因為支付意愿更強的，文化更好，今天在國內做這個事情很難，所以大家都會選擇出海或者國際化的事情，這兩個是比較大的客觀上的因素。

更重要的是主觀上的概念，最近我在跟很多人聊天，我們的感受是在中國有非常多非常強的人才，任何一個事情只要被證明能做出來，很多人都會非常積極地嘗試，并且想做的更好。

我覺得中國想要突破新的范式或者做非常冒險事情的人可能還不夠多，這里面有經濟環境、商業環境包括文化的因素，如果增加一點，主觀上有沒有更多有創業精神或者冒險精神的人，真的想要去做前沿探索或者新的范式突破的事情。

目前來看，一個范式一旦發生，我們可以用很少的卡、很高的效率去局部做的更好，我們到底能不能引領新的范式，這可能是今天中國唯一要解決的問題，因為其他所有做的事情，無論是商業，還是產業設計，還是做工程，我們某種程度上已經比美國做的更好。

每個地方的研究文化都很不一樣，美國實驗室的區別可能比中美實驗室的差別還要大，在中國也一樣。

在中國大家還是更喜歡做更安全的事情，比如說今天預訓練這個事情已經被證明可以做出來了，其實這個事情也非常難做，有很多技術問題要解決，但只要這件事情一旦被證明能做出來，我們都很有信心幾個月或者一段時間內就把這個問題搞清楚。

但如果今天讓一個人說探索一個長期記憶或者持續學習，這個事情大家不知道怎么做、不知道能不能做起來，這個事情還是比較困難的。

可能不只是大家更喜歡做確定性的事情、不太愿意做創新性的事情，很重要的一點是文化的積累或者整體的認知，其實是需要時間沉淀的事情

OpenAI在2022年就開始做這個事情了，國內2023年開始做了，對這個東西的理解會有一些差異，或者說中國沒有這么大。

我覺得可能很多也就是時間問題，當你積累了文化或者底蘊更深的時候，潛移默化的程度可能會影響人的做事方式，但是它很微妙，很難通過榜單去體現。

中國對于刷榜或者數字看的更重一些，包括DeepSeek做的比較好的一點，他們可能沒有那么關注榜單的數字，可能會更注重，第一，什么是正確的事情；

第二，什么是你自己能體驗出好或者不好的。我覺得這還是挺有意思的，因為你看Claude模型可能在編程或者軟件工程的榜單上也不是最高的，但大家都知道這個東西是最好用的，我覺得這還是需要大家能夠走出這些榜單的束縛，能夠堅持自己覺得是不是正確的過程。

林俊旸：美國的Computer可能整體比我們大1-2個數量級，但我看到不管是OpenAI還是什么，他們大量的Computer投入到的是下一代的Research當中去，我們今天相對來說捉襟見肘，光交付可能就已經占據了我們絕大部分的Computer，這會是一個比較大的差異在這里。

創新是發生在有錢的人手里，還是窮人手里，窮人不是沒有機會，我們覺得這些富哥真的很浪費卡，他們訓了這么東西，可能訓了很多也沒什么用，但今天窮的話，比如今天所謂的算法Infra聯合優化的事情，如果你真的很富，就沒有什么動力去做這個事情。

我覺得可能更進一步的，剛才順雨提到光刻機的問題，未來有可能還有一個點，如果從軟硬結合的角度，是不是真的有可能做出來，比如說我們下一代這個模型和芯片，有可能是一起把它給做出來的。

我在2021年的時候在做大模型，因為阿里做芯片，在找我說能不能預測一下三年之后這個模型是不是Transformer，三年之后這個模型是不是多模態，為什么是三年呢？

他說我們需要三年時間才能流片。

我當時的回答是三年之后，在不在阿里巴巴，我都不知道！

但我今天還在阿里巴巴，他果然還是Transformer，果然還是多模態，我非常懊悔為什么當時沒有催他去做，當時我們的交流非常雞同鴨講，他給我講了一大堆東西，我完全聽不懂。

我給他講，他也不知道我們在做什么，就錯過了這個機會。這個機會有沒有可能再來一次？我們雖然是一群窮人，是不是窮則生變，創新的機會會不會發生在這里？

今天我們教育在變好，我屬于90年代靠前一些的，順雨屬于90年代靠后一點的，我們團隊里面有很多00后，我感覺大家的冒險精神變的越來越強。

美國人天然有非常強烈的冒險精神，一個很典型的例子是當時電動車剛出來，甚至天棚漏水的情況下，甚至開車會意外身亡的情況下，依然會有很多富豪們都愿意去做這個事情。

今天大家的冒險精神開始變的更好，中國的營商環境也在變的更好的情況下，我覺得是有可能帶來一些創新的。

概率沒那么大，但真的有可能。我覺得是20%吧，已經非常樂觀了。

今天你干這一行就不能恐懼，必須得有非常強的心態，對于我們的心態來說，能干這一行就非常不錯了，能做大模型這件事情已經非常幸運了。

我覺得還是看你的初心是什么，剛才順雨提到一個點，你的模型不一定那么強在C端里邊是OK的。我可能轉換成另外一個角度去思考這個問題，我們的模型為人類社會帶來了什么樣的價值，只要我相信我這個東西能夠為人類社會帶來充分的價值，能夠幫助人類，就算不是最強的，我也愿意接受。

楊強：我們可以回顧一下互聯網的發展，一開始也是從美國開始，但中國很快就趕上了，而且應用像微信，是世界第一的。

我想AI是一個技術，它并不是一個終端的產品，但我們中國有很多聰明才智會把這個產品發揮到極致，不管是toB還是toC，但我可能更看好toC，因為百花齊放，中國人集思廣益，但toB可能會有一些限制，像付費意愿、企業文化等也在改變。

我最近也在觀察商業方向跟商學院的一些同學探討，比方說美國有一個公司叫Palantir，它的一個理念是不管AI現在發展到什么階段，我總是能在AI里面發現一些好的東西應用在企業上，中間肯定有gap，我們要給它彌合，它有一個辦法叫本體，用的是本體的方法。

我觀察了一下，大概的思想是我們之前做的遷移學習，就是說把一個通用的Solution能夠應用到一個具體的實踐當中，用一個本體來做知識的遷移，這個方法非常巧妙。當然它是通過一種工程的方法，叫前端工程師FDE來解決的。

不管怎么樣，我覺得像這種就非常值得我們學習，我覺得中國的企業像AI Native的公司應該發展出這樣一些toB的Solution來，我相信會的。所以我覺得toC肯定是百花齊放的，toB也會很快的跟上來。

唐杰：首先我覺得確實要承認在中美，無論是做研究，尤其是企業界的AI Lab，我覺得和美國是有差距的，這是第一個。

但我覺得在未來中國，現在慢慢變的越來越好，尤其是90后、00后這一代企業，遠遠好過之前。有一次我在一個會上說我們這一代最不幸運，上一代也在繼續工作，我們也在工作，所以我們還沒有出頭之日，很不幸的是下一代已經出來了，世界已經交給下一代了，已經把我們這一代無縫跳過了。這是開玩笑的。

中國也許的機會：

第一，一群聰明人真的敢做特別冒險的事

00后這一代，包括90后這一代是有的，包括俊旸、Kimi、順雨都非常愿意冒風險來做這樣的事情。

第二，咱們的環境可能更好一些

無論是國家的環境，比如說大企業和小企業之間的競爭，創業企業之間的問題，包括我們的營商環境，像剛才俊旸說的，我還在做交付，我覺得如果把這個環境建設的更好。

讓一群敢于冒險的聰明人有更多的時間去做這樣創新的事情，比如說讓俊旸有更多的時間做創新的事情，這是第二個，也許是我們政府，包括我們國家可以幫忙改善的事情。

第三，回到我們每個人自己身上，就是我們能不能堅持。

我們能不能愿意在一條路上敢做、敢冒險，而且環境還不錯。

我覺得環境肯定不會是最好的，永遠不會想著環境是最好的，我們恰恰是幸運，我們經歷環境從原來沒那么好，到慢慢變得更好的一個時代。

我們是經歷者，也許就是財富，包括經歷收獲最多的人，如果我們笨笨的堅持，也許走到最后的就是我們。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.