![]()
![]()
內容來源:2025年5月,語言即世界工作室,張小珺商業(yè)訪談錄對話姚順雨分享。
分享嘉賓:姚順雨,OpenAI前研究員,現(xiàn)任騰訊“CEO/總裁辦公室”首席AI科學家,AI Infra部及大語言模型部負責人。
高級筆記達人丨天朗明月
責編| 柒排版| 拾零
第 9392篇深度好文:12809字 | 30 分鐘閱讀
商業(yè)趨勢
筆記君說:
都說AGI(通用人工智能)是AI的終極目標,但通往它的道路似乎越來越擁擠:
一邊是大模型能力持續(xù)“溢出”;另一邊是AI創(chuàng)業(yè)公司陷入集體焦慮,跟風復刻ChatGPT的同質化產品找不到差異化。
這個困境背后,是AI行業(yè)一個核心矛盾的轉化:過去,我們焦慮的是“如何訓練出一個更強的模型”;現(xiàn)在,我們困惑的是“如何定義一個有價值的任務”,以真正釋放模型那被“低估”的驚人能力。
這標志著AI發(fā)展已悄然進入“下半場”。上半場的英雄是算法和算力,下半場的核心將是定義者與組織者——他們懂得如何設計互動、編排任務、構建環(huán)境,讓AI從“聰明的聊天者”成長為“可靠的行動者”。
OpenAI前研究員、AI Agent研究方向的核心探索者姚順雨,將這種行動者稱為“Language Agent(語言智能體)”。他指出,Agent的本質是通過語言實現(xiàn)推理,通過推理實現(xiàn)泛化,它正是通往AGI的必經形態(tài)。
那么,在這個關鍵轉折點上,創(chuàng)業(yè)者的機會到底在哪里?
或許,答案就隱藏在這句反共識的洞察里:“最大的機會,在于設計不同于ChatGPT的交互方式。”
今天,讓我們跟隨姚順雨的思考,從“上半場”到“下半場”,看懂AI Agent如何重劃競爭版圖,并在這場變革中,找到屬于每個組織與個體的價值支點。
本文根據(jù)對姚順雨的訪談進行整理,內容有所刪減,希望能給到你啟發(fā)。
一、核心洞察:
厘清時代主要矛盾,錨定AGI演進路徑
1.核心論斷:AI競賽進入“下半場”,勝負手轉移
2025年4月,在發(fā)布博文《The Second Half》(下半場)前,我受邀去斯坦福一門課做talk。
當時想,能講點什么?沒法講太技術,只能講更哲學的內容,就想到the second half這個話題。
① 矛盾轉化:從上半場依賴“模型與算力”到下半場依賴“基準任務與環(huán)境”
大家過去往往更關注模型訓練、方法設計和算力,但我覺得現(xiàn)在的bottleneck(瓶頸)已經轉移了:變成怎么去定義好的任務,怎么去定義好的環(huán)境。
現(xiàn)在主線正從“上半場”轉向“下半場”,我說的主線是基于“Language Agent”(語言智能體)。
② 本質揭示:Agent是構建AGI的必然形態(tài)與關鍵路徑
有人問:語言的智能體和傳統(tǒng)Agent的本質區(qū)別是什么?在回答這個問題前,我們先說下Agent。
第一,什么是Agent?
從自然語言處理的角度講,Agent是相對于一個只會生成文章或對話的系統(tǒng)而言。它能和外界交互,比如使用計算器、互聯(lián)網,或調用各種工具。
也就是說,不僅能生成內容,還能操作和互動。但從更廣義的AI背景看,Agent是一個非常古老的概念:
任何能進行自我決策、與環(huán)境交互,并試圖optimize reward(優(yōu)化獎勵)的系統(tǒng),都可以被稱為Agent。
從這個角度出發(fā),你可以說AlphaGo是Agent,也可以說Waymo是Agent,甚至可以說機器人是Agent。
第二,語言賦予推理能力
為什么語言非常獨特?因為它是人在這個世界完成各種各樣事情的工具,像火或筆一樣。
2020年以前,大家沒把這個事想清楚,覺得語音、文字、圖像、視頻都是一些數(shù)據(jù),沒什么區(qū)別。
但我覺得最大區(qū)別是:語言是人為了實現(xiàn)泛化而發(fā)明出來的工具,這一點比其他東西更本質。
這是我的個人觀點,我之所以這么說,是因為在此前,如果你在一個特定環(huán)境上訓練,模型只能在這個環(huán)境表現(xiàn)良好,不能輕易遷移到其他環(huán)境。
但現(xiàn)在,你在一個環(huán)境上訓練,模型可以適應更多不同環(huán)境。所以,我覺得它還是泛化的,它能夠推理。
所以,“Language Agent”(語言智能體)和傳統(tǒng)Agent的本質區(qū)別是可以推理。它們最大區(qū)別在于,語言模型提供了一個足夠強的先驗(prior),這個先驗讓你可以推理,而推理又可以在不同的環(huán)境間泛化。
第三,推理帶來泛化
具體怎么理解?舉個簡單的例子。
我做ReAct(ReAct:Synergizing Reasoning and Acting in Language Models,在語言模型中協(xié)同推理與行動,是一種讓大語言模型在與外部環(huán)境交互時,同時進行“推理”和“行動”的方法框架,簡單說就是瀏覽維基百科進行推理)一個很強的動機是:我做完colm(計算機語言處理)我的第一個工作之后,在思考一個問題:
為什么我可以一下子去玩一個新的游戲,但現(xiàn)在這些系統(tǒng)或AI需要幾十萬步甚至幾百萬步訓練,才能完成類似的事?
我發(fā)現(xiàn),是因為我可以思考。我看到一個全新的環(huán)境會想:這個燈是黑的,那可能有危險,基于常識可能有怪獸;我現(xiàn)在最重要的是點亮燈。基于之前的上下文(Context),燈在我后面,那我應該先向后走。
如果沒有這樣的思考能力,而是直接從復雜語言去預測“我要往后走”,就很難——沒有推理做不到。
所以核心是推理能力,推理才能帶來泛化。
![]()
綜上所述,現(xiàn)在終于有可能出現(xiàn)一個單一模型能夠做所有任務。之前認為這不太可能,但現(xiàn)在是有可能的——你可以在很多不同任務上做強化學習,而且它能遷移到更多任務。
因此,Agent是構建AGI的必然形態(tài)與關鍵路徑。她的核心價值在于,通過語言賦予的推理能力,實現(xiàn)跨環(huán)境、跨任務的泛化(Generalization)。
③ 格局預判:未來世界將呈現(xiàn)“單極多元”格局
大多數(shù)人對AGI的想象就是一個模型,就像這個世界上最聰明的人,他擁有所有知識、能力,比我們都聰明,是最強智能體。
但我現(xiàn)在的感覺是:不同的交互方式下,有不同“好”的定義,有不同“強”的邊界。
OpenAI可能會成為一個類似Google的公司,成為新世界里非常重要的一環(huán)——但這并不代表,這個世界就會被這樣一個單極系統(tǒng)壟斷,或者是單方壓倒另一方。
最終的智能邊界,是由不同交互方式決定,而不是由一個single model(單一模型)決定。
未來,模型的能力可能會產生beyond ChatGPT(超越ChatGPT)的交互方式,變成Super App(超級應用),這里想象空間非常大。
比如,我想造一個朋友。這個朋友不需要數(shù)學、物理特別強,數(shù)學太強反而不自然。也許它的記憶也不一定特別好,會犯錯,有感情,也不是特別rational(理性)。但這也是有價值的。
當然,也可能會出現(xiàn)一個由Agent組成的社會。
總之,未來世界將呈現(xiàn)“單極多元”格局,底座是少數(shù)強大的基礎模型(單極),上層是圍繞不同交互方式構建的海量、多元Agent應用生態(tài)。
![]()
2.認知重置:為何這是根本性轉折?
首先,對研究者來說,科研范式重心已經發(fā)生轉移,即從算法改進(Method)已經轉變?yōu)槿蝿窄h(huán)境設計(Task/Environment)。
大家過去往往更關注模型訓練、方法設計,但我覺得現(xiàn)在的bottleneck(瓶頸)已經轉移了:變成怎么去定義好的任務,怎么去定義好的環(huán)境。
我覺得,從語言出發(fā),去定義Reasoning(推理)、定義Agent,我們終于有了一個非常general(通用)的方法,而且這個方法是可泛化的——我們實現(xiàn)了一個基點時刻。
其次,對創(chuàng)業(yè)者來說,競爭壁壘已經從“獲取或微調最新模型”,轉向“設計新交互”。
ChatGPT或所有做模型的公司,都在做類似ChatGPT的產品。ChatGPT的本質是:你是在像和人交互一樣去進行和數(shù)字世界的交互。
如果你做舊的interface,你利用這些新的模型,很容易被ChatGPT取代。如果你的交互方式很像ChatGPT,你有什么理由不被ChatGPT取代?如果你做的是新的交互方式,但模型沒有繼續(xù)變好、沒有新的溢出能力,也很難做。
所以,對于創(chuàng)業(yè)公司來說,最關鍵的是做新的交互方式設計。
二、方法論:
構建下一代AI系統(tǒng)的四大行動支柱
1.第一支柱:任務定義——新核心競爭力的鍛造場
當你有一個非常差的任務,你永遠不可能學到非常好的東西。
① 核心原則:任務和環(huán)境很重要
首先,你要找一個足夠有挑戰(zhàn)的任務,這個任務能做出本質的新方法。
當你想做Agent或語言Agent,實際上沒什么選擇,只能去做文字游戲。Zork是個非常經典的文字游戲。你在一個基于文字的世界里,有點像一個互動腳本,可以往下走、往上走,可以去各個房間,可以做各種各樣的事。
其次,是環(huán)境。
我們還拿Zork游戲來說。時間一長,你會發(fā)現(xiàn),這個環(huán)境還是有很多缺陷,能學到的局限在這個環(huán)境,這個環(huán)境還是不夠大。
而且你如果用RL學這個環(huán)境,就會像用RL學傳統(tǒng)的視頻游戲,可以把這個游戲打通關,但對于其他任務沒有遷移作用。
也像下圍棋,你可以把圍棋下得特別好,但對世界上其他事情沒有價值。所以,我們需要一個更好的環(huán)境。
![]()
② 優(yōu)秀任務:“三板斧”檢驗清單
如何設定一個優(yōu)秀的任務?我分享下我的“三板斧”檢驗清單:
第一,結果導向:獎勵(Reward)基于最終結果,而非過程。
不同的人有不同的flavor(風格),我從很早就有一個偏好,我想定義一個基于結果的reward(獎勵),而不是基于過程的,而且這個reward應該是基于規(guī)則、可計算的,而不是來自人的偏好、模型的偏好,或者一些黑盒指標。
第二,白盒規(guī)則:獎勵機制清晰、可計算、避免基于人類主觀偏好。
我們做WebShop(網上購物)的時候,最困難的一點是,怎么定義reward。我覺得做任何RL(強化學習)任務最難的不是建環(huán)境,而是怎么設計reward。
我希望這個reward是不noisy(不噪聲大)的,是可解釋的,是白盒的(white-box),不是那種黑盒的東西(black-box)。
事實證明,這也是現(xiàn)在RL成功的關鍵。像math(數(shù)學)和coding(編程)這種任務,之所以能做出來,核心就是:
其一,Reward是基于結果,不是基于過程;
其二,Reward是白盒的、基于規(guī)則的,不是基于人的偏好或模型的偏好。
比如,一個數(shù)學題答案是3,它就是3——只要你得出的是3,就是對的;不是3,就是錯的。但如果你reward是基于過程,就會出現(xiàn)hacking(投機取巧)。
再比如SWE-bench這類工作:
其一,它是結果導向,而不是過程導向;
其二,它的reward是基于規(guī)則、白盒的,而不是來自人或模型的主觀偏好。
總之,我后面做的很多task,也都是用同樣的filter(篩選標準)。
第三,價值閉環(huán):任務本身應對應真實世界中有價值的場景片段。
假設你去優(yōu)化人的偏好、模型的偏好,也會出現(xiàn)hacking。比如你生成一段非常優(yōu)美的代碼,但它并不解決實際問題。所以,任務本身應該是真實世界的場景片段。
③ 高級思維:環(huán)境是最外層記憶
某種程度上,我們說MCP(模型上下文協(xié)議)也是hack(利用)Context的一種方法,本質也是Memory。
從Agent角度看,這個世界有一個Memory Hierarchy(記憶層級)。Memory Hierarchy最外層永遠是環(huán)境。
![]()
有點像你考慮電腦,它有個Memory Hierarchy,從CPU緩存到內存再到硬盤,但最外層的Memory永遠是外部環(huán)境。比如我插一個U盤、拔一個U盤,或者把東西上傳到互聯(lián)網,或者做個音樂變成光盤。
前年冬天,我讀到馮諾依曼臨終前寫的一本書《The Computer and the Brain》(計算機與大腦),最讓我印象深刻的一句話是:Essentially,the Environment is always the most outer part of the Memory Hierarchy.(基本上,環(huán)境永遠是記憶層級中最外層的部分。)
這很哲學。
對于人,你有你的Memory Hierarchy,有Working Memory(工作記憶)、Long-Term Memory(長期記憶)在腦子里,但最外層是你的筆記本、Google Doc、Notion,這些是你最外層Memory Hierarchy的一部分。
2.第二支柱:交互創(chuàng)新——打破“擬人化”路徑依賴
① 核心機會:設計不同于ChatGPT的交互方式
現(xiàn)在很多應用型創(chuàng)業(yè)公司很擔心,大模型公司的模型能力溢出會把他們做的Agent吞掉。事實上,創(chuàng)業(yè)公司應該擔心的是模型有沒有溢出能力,這樣你就真的什么都做不了了。
有溢出能力是個非常好的事情,這幾乎意味著你有機會。
創(chuàng)業(yè)公司最大機會是:能設計不同的interface(交互方式),或者說人和數(shù)字世界交互的方式。
比如,你的Chatbot是像人一樣的東西——你和他聊天,給他布置任務,讓他幫你做Deep Research(深入研究)或者寫代碼——交互方式是像人,或者像助手一樣的交互方式。
如果你能用模型通用能力,創(chuàng)造不同的交互方式,就能創(chuàng)造巨大的機會。
所以,對于創(chuàng)業(yè)公司來說,創(chuàng)造不同的交互方式,并且模型不停有新的溢出能力,賦能到這些新的交互方式——兩者缺一不可,就能創(chuàng)造巨大的機會。
![]()
② 創(chuàng)新交互路徑:Copilot入侵式和Canvas原生式
說到交互方式的創(chuàng)新,人和人交互已經幾千年、幾萬年,甚至是幾百萬年,這是對人最自然的形態(tài),肯定是最顯然的Super App。
由此,除了文字外,我們還可以有“像人一樣”的交互方式。具體分成以下兩種:
第一,侵入式(Copilot):像Cursor一樣,嵌入集成開發(fā)環(huán)境(如IDE),成為增強人類能力的“副駕駛”。
Cursor創(chuàng)造了一種新的交互,準確說它不是像人一樣的交互,而是像Copilot(副駕駛)一樣,屬于侵入式。雖然它是IDE(集成開發(fā)環(huán)境),但在你寫代碼的時候,它能給你提示或編輯。沒有人和人是這樣交互的,這是它的價值所在。
第二,原生式(Canvas):像Manus或理想中的“生成式畫布”,創(chuàng)造全新的、為Agent協(xié)作而生的數(shù)字工作空間。
Canvas是一個好的嘗試,可以基于現(xiàn)在的任務,在線生成最符合情境、個性和任務的前端。這是值得探索的方向,但也很難。
③ 競爭動態(tài):世界是“相互抄”的
關于競爭,傳統(tǒng)上大家認為發(fā)生的事情是:大廠先做出來一個東西,創(chuàng)業(yè)公司就可以開始抄。比如做出ChatGPT,我可以去抄一下ChatGPT,做一個類似的事情。
但現(xiàn)在,似乎反過來也可以成立。
小廠可以先做一個事情,它創(chuàng)造出來一個交互的創(chuàng)新或者產品的創(chuàng)新,做模型的公司也可以去借鑒或者應用,這點還是挺有意思。
很多時候大家會說,模型做得越來越好了,是給創(chuàng)業(yè)公司作嫁衣了。因為你創(chuàng)造很好的模型,如果沒有自己運用特別好,這些創(chuàng)業(yè)公司就用好了。
但也可以反過來,如果你創(chuàng)造一個非常好的交互,但沒有能力把模型或底層能力做特別好,大公司也可以借鑒你的交互,再加上它的模型能力,做得也特別好。
這世界是個相互抄的關系,而不是一個單向抄的關系。
![]()
3.第三支柱:能力演進——從“工具”到“同仁”的階梯
① 大模型能力分級(L1-L5)解讀
OpenAI提出的大模型能力分級從Level 1到Level 5,很多人都很熟悉了:
Level 1是聊天機器人(Chatbot)
Level 2是推理者(Reasoner)
Level 3是智能體(Agent)
Level 4是創(chuàng)新者(Innovator)
Level 5是組織者(Organizer)
不知道你有沒有這個疑問:為什么是先有聊天機器人、推理者,然后才是Agent?要回答這個問題,可以分成以下兩個部分:
第一,從L1到L2,再到L3,現(xiàn)在已完成,它們是能力遞進關系,核心是讓模型從“聊”到“想”再到“干”。
它們的邏輯是,首先你要有語言的先驗知識,基于語言的先驗知識,最早能做出來的應用是Chatbot(L1)。
接下來,基于語言先驗,你需要具備推理能力,這是Reasoner(L2)。
當你既有語言知識,又具備推理能力,才可能進一步做各種Agent(L3),尤其是能泛化的Agent。
也就是說,Agent建立在Chatbot和Reasoner能力之上。
第二,L4-Innovator(創(chuàng)新者)與L5-Organizer(組織者)正在進行中,現(xiàn)在是正交探索——個體創(chuàng)造與群體協(xié)作的雙軌發(fā)展
很明顯,今天Agent發(fā)展最關鍵的兩個方向:
其一,讓它擁有自己的reward(獎勵),能自己探索;
其二,是Multi-Agent(多智能體),讓它們之間能形成組織結構。
這兩個方向,我覺得是正交,它們可以并行發(fā)展。誰是Level 4,誰是Level 5,我不確定,但這兩個事情是顯然的下一步。
首先,當你作為一個Innovator:
其一,你需要一個Long-Term Memory(長期記憶)。比如,我是Wiles(安德魯·懷爾斯,數(shù)學家),我研究費馬大定理,可能花了20年。我就需要一個長期記憶。
其二,我有這個長期記憶還不夠,還需要有內在的reward。因為在你真正證明那件事之前,沒有任何外部獎勵(Extrinsic Reward)——你沒有獲獎,沒有做成任何“可交付”的事情,也沒人給你feedback(反饋)。你需要自己給自己反饋。
這是所有Innovator最重要的。無論你是藝術家、科學家、文學家,還是任何類型的創(chuàng)作者,對吧?
其次,作為一個Organization(組織):
其一,你需要解決的問題是:Agent和Agent之間怎么協(xié)作?怎么讓Multi-Agent(多智能體)協(xié)作scale(規(guī)模化)?
現(xiàn)在的Agent就像一個普通大學生,做一個數(shù)字化的實習生。或者說,AGI就是一個普通一本大學生在電腦上能做所有事情的一個能力。
其二,搞清楚人類社會的邊界是什么?當然這覆蓋80%或90%的人。
但我們最崇拜的人,是哪兩種?一種是創(chuàng)造新東西,在認知或審美上開創(chuàng)新領域的人:愛因斯坦、高更、梵高、貝多芬;另一種是能創(chuàng)造新組織、偉大組織的人:伊隆·馬斯克、喬布斯。
很自然,個體的創(chuàng)造力和組織的協(xié)作能力——都非常重要。
② 下個階段需突破3個關鍵點
第一,是Utility(效用)的問題
為什么我們現(xiàn)在的模型,推理很強,考試很強,玩游戲很強;但它還沒創(chuàng)造出足夠經濟價值?——根本原因是:它沒有這些Context(上下文)。
人類社會比較tricky(復雜微妙)的一點是:當然,我們確實寫下了很多東西——我們用文字、Google Doc、Notion,記錄了很多東西,但很多Context永遠只存在人的大腦,是通過一個分布式的系統(tǒng)來維護。
![]()
比如,你老板跟你之間的行為習慣,或者一些很難用語言總結下來的信息。這些Context存在于人的腦海里。人沒辦法把這些東西全部寫下來。
這就導致——人是不可或缺的。
只有人有這樣的能力:進入一個環(huán)境,獲得這個環(huán)境里的Context。
如果這個問題解決了,Utility問題就可以在很大程度被解決。
第二,是Intrinsic(內生獎勵問題。
很多創(chuàng)新者之所以能在沒有外在激勵的情況下堅持,是因為他有內在的價值觀或激勵機制。
這個問題,AI和神經科學已經研究多年,嬰兒是最典型的例子。
當他們是嬰兒的時候,他們擁有基于好奇心或自我激勵的機制。比如,很多嬰兒會反復玩一個玩具,用嘴去咬一個東西,或者做一些看似“無意義”的動作。
你說他獲得了什么reward嗎?他沒有升職加薪,沒有拿到錢,沒有任何外在激勵——他只是好奇。他的動機是:“如果我做這個事,我會有什么樣的感覺?”如果這個感覺是新的、不同的,他就可以從中學習。
也就是說,好奇心、掌控感、安全感,是一些內在動機。正是這些東西驅動了人去做某些事。否則,很難從純粹理性角度解釋:他為什么要做?
但有意思的是,當人長大之后,會發(fā)生重要變化:
當你是嬰兒,你對世界的理解,是基于視覺、觸覺,基于物理世界的。你學習的是,怎么把觸覺、聽覺、視覺,以及對骨骼系統(tǒng)的控制結合起來;
當你長大之后,你對世界的理解方式變了,變成一個基于語言、推理、文字系統(tǒng)的理解。你開始思考:這個世界是怎么運作的?我怎么才能開一個公司?怎么才能升職?怎么才能做成一些事情?你玩的,不再是一個物理游戲,而是一個文字游戲。
![]()
在這個文字游戲里,當然也存在內在激勵,但又好像和嬰兒時期的好奇驅動不太一樣。
這是AI面臨的挑戰(zhàn):傳統(tǒng)AI,比如玩迷宮、做機器人仿真,它可以定義一些基于世界模型或者模仿嬰兒階段好奇心的內在激勵。
但當AI在玩的是一個語言游戲,要怎么定義內在激勵?——這個問題就變得不太一樣了。
第三,是多智能體之間的協(xié)作問題。
基于基礎模型往上長,Agent生態(tài)樹在我的腦海中,呈現(xiàn)的是這樣一個結構:
首先,一個方向是:fundamental research(基礎研究)怎么演變?或者說,方法怎么演變?
其次,另一個方向是:應用,或者它的交互方式(interaction)有怎樣的演變?
這兩個方向之間有關聯(lián),但它們需要不同的人去探索不同的方向。
比如Cursor并沒有在fundamental research(基礎研究)上做什么創(chuàng)新,但做了交互方式上的創(chuàng)新。
在fundamental research上,比較重要的有三方面:
一個是Memory(記憶);
一個是Intrinsic Reward(內生獎勵機制);
還有一個是Multi-Agent(多智能體系統(tǒng))。
這也跟OpenAI提出的Innovator(L4、創(chuàng)新者)和Organization(L5、組織者)框架很像,它們屬于正交,可以并行發(fā)展。
所以,我們需要解決多智能體之間的協(xié)作問題。
4.第四支柱:系統(tǒng)思維——擁抱“簡單且通用”的設計哲學
① 研究心法:追求簡單而通用
我一直有這個非共識:我想要去做Agent,一直想做簡單且通用的東西,我不想做一個很復雜、但只能在一個領域奏效的東西。
這個方向在傳統(tǒng)意義上很難被接受,大家習慣了做AI的方式:把問題不停細分,做很多細分方法,可能并沒有多少人想做一個簡單且通用的系統(tǒng),或者認為這是可能的——尤其20年之內。
現(xiàn)在我還是覺得,我自己最喜歡的工作是ReAct。之后,基于這兩個方向:一方面做更多方法(method),一方面做更多任務(task)。
但總體來說,我的研究有兩個核心:一是怎么去做一些有價值、和現(xiàn)實世界更相關的任務和環(huán)境;二是怎么去做一些簡單、但又通用的方法。
所以,Agent最吸引我的就是它的可泛化性(generalizable),即絕大多數(shù)事,你都可以用語言表達。
我當時隱隱約約有個直覺:你如果真想去實現(xiàn)AGI(通用人工智能)——那時還沒人提“AGI”這個詞,但如果你真的想做一個非常通用的系統(tǒng)(general system),你就得去構建一個智能體。
② 創(chuàng)新策源地:從垂直細分到通用思維的AI范式回歸
回頭看AI歷史,很久很久以前,從Herbert Simon(赫伯特·西蒙)在1960年代開始,大家最早的想法就是要做一個Agent。
當時大家的野心很大——想用一個夏天搞定視覺,再用另一個夏天搞定語言,拼在一起,去做一個Agent,他就應該比人還聰明,但這事太難了。
慢慢地,AI變得非常碎片化,大家研究的問題越來越小。比如,有的人研究視覺一小部分問題,有的人研究語言某個子任務,越來越細分,越來越垂直。
但到2015年之后,開始出現(xiàn)Scaling Law(擴展規(guī)律),包括很多研究突破,歷史上一些關鍵時刻也在提示我們:
也許我們應該從這種“垂直式思維(vertical thinking)”重新回到更“通用式思維(general thinking)”,再去嘗試構建真正通用的系統(tǒng)。
![]()
③ 個人品質:以雜學積淀塑造通用性思維與跨界視野
在我成長路上,對我啟發(fā)大的是看書。我是一個喜歡看雜書的人。什么書都看,什么電影都看,什么地方都想去。
我從小就是一個比較general(通用)的人——我想試圖變得很通用,試圖了解很多不同的學科,做很多不同的事情。
但后來我發(fā)現(xiàn),一個人即使再聰明、再有精力,他能理解的知識或能做的事情,也只是人類社會積累的知識的很小一部分。更好的是,你去創(chuàng)造一個比你更通用、更general的事情。
我好像一直對于通用性,有一種執(zhí)念或追求。通用性意味著什么?我不知道,但我從小就是想學習很多不同學科,都很有意思。
我在姚班很多同學,他們是那種很deep(深度的)、很focus(專注的)同學——我去做競賽,我就把這個事做到極致,不停刷題,做到世界金牌。
但我好像不是那種性格,我是那種——我會看很多數(shù)學,也會看很多歷史,會看各種各樣亂七八糟的東西。
三、實戰(zhàn)推演:
在轉折點上如何決策與行動?
1.給創(chuàng)業(yè)者的行動指南:在夾縫中定義未來
① 第一步:找到一個真正有價值的場景
Agent創(chuàng)業(yè),當前主要瓶頸是算力。Agent的token用量驚人,單個用戶消耗可能是Chatbot的500到1000倍,疊加幾百萬用戶后成本極高。
這種情況下,Agent該如何擴展?我覺得最重要的點是——你得先找到一個好的應用。
事實上,Cost(成本)本身不是最大問題,問題是你的成本并不能證明你的performance(性能)或value(價值)是合理的。
如果這是一個很有價值的事,我花500美元,但可以賺1000美元——根本不是問題。這不是technical bottleneck(技術瓶頸),而是product-market fit(產品與市場契合度)的問題。
所以,現(xiàn)在最關鍵的,是要找到真正有價值的應用。
② 壁壘構建:短期靠交互創(chuàng)新,長期靠Context(用戶上下文)
首先,短期內要靠交互創(chuàng)新。
比如,Manus,交互創(chuàng)新想象空間是很高的。
它的一個價值是給人非常general(通用)的感覺,你可以有每個階段的Killer App(殺手級應用),比如它做PPT特別好,做Deep Research特別好,或者做其他東西特別好。
iPhone或iPad是非常通用的產品形態(tài),但它一開始,都有一些Killer App支持它有momentum(增長動能)。包括ChatGPT,包括微信,很多偉大產品都這樣。
你有一個足夠通用、簡單,或第一性的交互方式,它有很多想象空間。但你去維護它,或者設計路徑的時候,你能有各種各樣的應用,使它不停地增長。
其次,長期靠積累獨特的用戶上下文(Context)和環(huán)境。
現(xiàn)在對于ChatGPT比較重要的是Memory(記憶),這是可能產生壁壘的地方。
如果沒有Memory,大家拼誰的模型更強。但有了Memory,拼的不僅是誰的模型更強,而是用戶用哪個更多、哪個粘性更強。
我積累了更多Context,它能給我更好體驗,我就會有粘性——這或許是研究優(yōu)勢轉化成商業(yè)優(yōu)勢的方式。
③ 警惕“數(shù)據(jù)飛輪”幻覺
大多數(shù)公司還沒有形成數(shù)據(jù)飛輪,他們依賴模型變好,利用模型變好的溢出能力。
如果你要有數(shù)據(jù)飛輪,首先你要能自己去訓模型,并且能通過交互有很好的reward,使你能把好的數(shù)據(jù)和不好的數(shù)據(jù)分開。
比較成功的是Midjourney(用戶偏好直接驅動模型優(yōu)化),有非常清晰的reward——人更喜歡哪張圖,這個reward和應用是對齊的,reward做得更好,公司就更成功,模型也更好——一切都對齊。
有了這種情況,才能自己訓練模型,做數(shù)據(jù)飛輪。
這個過程必須比較非主線。因為如果很主線,我也可以通過Pre-Training或RL提升能力,靠泛化或其他方式。
總的來說,只有像Midjourney這樣,獎勵機制與產品價值完全對齊的閉環(huán),才能形成飛輪,大部分公司目前還沒有形成飛輪。
2.給企業(yè)決策者的戰(zhàn)略研判:防守與進攻
① CEO的第一課:以技術認知驅動戰(zhàn)略決策與價值創(chuàng)造
假若我是一個CEO,做的第一件事就是親自深度學習技術本質,做出不被誤導的戰(zhàn)略決策。
首先,我肯定會學習,我會想弄清楚這個事情到底是什么。
如果你作為CEO不懂這個事情,所有事情會變得很難。很多時候,一個公司的bottleneck(瓶頸)就在于,CEO對這個事理解不夠。如果你不理解,去招一些很好的人、做一些事情,你很可能被他們忽悠。
其次,要從創(chuàng)造新的價值來思考問題。
畢竟你不是技術專家,而是一個CEO,你有一些場景、一些資源、一些優(yōu)勢。從第一性原理看,一個新的技術產生了,你要思考的是,怎么用這些新技術結合你現(xiàn)在的資源去創(chuàng)造新的價值。
此外,你可以嘗試做一個和當前業(yè)務完全不一樣、但價值非常大的事情,比如ChatGPT,但對大多數(shù)公司來說,即使很有錢、很強,也不一定make sense(合理)。
② 大公司策略:依托護城河優(yōu)勢防御顛覆性交互創(chuàng)新
站在公司的角度看,大公司的戰(zhàn)略其實很簡單,依托現(xiàn)有用戶基礎、數(shù)據(jù)資源、場景優(yōu)勢以及Context(護城河),穩(wěn)健融合Agent能力,重點防御顛覆性交互方式帶來的創(chuàng)新沖擊。
為什么要重點防御?原因是全新的交互方式會改變我們的世界。就像一開始互聯(lián)網誕生,最早Super App只是把郵件升級成Email,Amazon已經算非常創(chuàng)新的東西了。現(xiàn)在就像那個階段——我們的想象力仍被以往的交互方式所限制,還有許多尚未誕生的交互方式。
但肯定會有很多不同的交互方式,訓練完全不同的模型,創(chuàng)造出不同的系統(tǒng)。
當然,這類東西很難和ChatGPT比強弱,它們是不同應用,有不同價值。比如,微信做Agent。
如果我是微信的一號,對做不做Agent?我可能會不急,先觀望觀望。
我好像沒有理由要急。我會觀察,我會學習AI,會觀察有沒有什么新的交互方式很有意思。但我不會急著去做很多事——我有易守難攻的地方,為什么要急著進攻呢?
比較危險的是一個顛覆性的創(chuàng)新。
真正的危險,不是說一個類似于微信的東西打敗了微信,而是一個很不一樣的東西打敗了微信。
就像微信打敗了QQ,當時擔心的并不是一個類似QQ的東西打敗了QQ,而是一個很不一樣的產品去打敗這個東西。
我們需要對顛覆性創(chuàng)新有所警惕。
③ 投資與布局邏輯:聚焦特定Context與數(shù)字環(huán)境構建的平臺
作為投資者,如何做好allocate(分配)?這是個很好的問題,實際上取決于你有多少精力,或者有多少資源分配顆粒度。
當然現(xiàn)在OpenAI、Anthropic,這些模型層公司,大概率會有更大價值。
還有一類很有價值的,是能積累User Context(用戶上下文),或者能構建特殊Environment(環(huán)境)的公司。最終如果AI或AGI是一個系統(tǒng),它需要有Intelligence(智能),需要有Environment,還需要有User Context,或者對用戶的理解。
現(xiàn)在有很多User Data(用戶數(shù)據(jù))或User Context的公司,有點像發(fā)明車之前的煤炭、煤礦,或者像發(fā)明汽車之前的石油公司。
從這個角度,微信或大平臺,還是一個易守難攻的好平臺,它積攢大量的Context。
如果Intelligence是一個可以逐漸民主化、逐漸變得便宜、逐漸普及,擁有這樣的平臺,擁有這樣的Environment,擁有這樣的Context,可能會是一個很強的壁壘,它可能還是一個很好的投資。
3.給研究者與個人的啟示:在范式轉換中定位
① 職業(yè)選擇:在時代機遇中追尋高上限價值
我的成長路徑其實挺按部就班的,也沒有跳級,沒有做什么很surprising(讓人驚訝)的事情。
但我對一個東西的價值,或者taste(品味),有自己的看法。大家往往會傾向于做一個確定性比較高的事情,包括做研究、做公司。
但我覺得恰好是這個時代,你去做上限更高的事情是更好的,因為現(xiàn)在有一個巨大的機會。
如果沒有這樣一個巨大的機會,最佳路徑可能是去做incremental(漸進式)、確定性強的事情,一步一步地積累,但恰好有一個上限非常高的事情。
如果你敢想,或者你膽子特別大,或者你想象力很豐富,就會有好事發(fā)生。
② 思維變革:從算法改進轉向任務定義
現(xiàn)在,AI科研范式重心已經從上半場轉移到了下半場,即從算法改進(Method)已經轉變?yōu)槿蝿窄h(huán)境設計(Task/Environment)。
這帶來一個本質變化:以前我面對很多怪獸,需要造出各種不同武器去打它們;現(xiàn)在我有了一把通用武器,比如機關槍,我不需要再為每個怪獸單獨造武器。接下來要思考的問題就變成:我該朝哪個方向開槍?
現(xiàn)在方法的問題已基本解決,真正重要的是——我們要用這個通用方法,從“我能解決什么問題”轉變?yōu)椤拔覒摱x什么問題”。
總之,我們要成為一名“問題設計師”和“任務架構師”。
③ 終極動力:為世界創(chuàng)造渴望,過程中享受有趣
關于驅動力,我用一個非常俗的話說:希望你對這個世界創(chuàng)造一些不同——探索新的、根本性的研究,是一種創(chuàng)造不同的方式;創(chuàng)造一種完全不同的新的產品形態(tài),也是一種創(chuàng)造不同的方式。
如果我現(xiàn)在去做一家類似xAI或Thinking Machine的公司,或者做一個類似Chatbot或Assistant的產品,還是可能賺很多錢,商業(yè)上很成功;但如果我做了一個形態(tài)很不一樣的東西,失敗了,我起碼探索了不一樣東西。
我導師令我印象最深的是這樣一句話,學術圈經常發(fā)生這樣的事——你有一個想法,然后別人做了,你會很煩。他說:If someone else can do it,then it's okay to let them do it(如果別人能做,那就讓他們去做吧)。
所以,我覺得真正的價值在于對這個社會產生價值。
從人類全局的角度,如果這個事情很多人能做,別人做可能是不是也沒有什么區(qū)別?對這個社會,或者對整體來說,似乎沒有什么變化。
或者,你也可以去做一些不一樣的探索。我覺得,最終你要對這個社會產生價值。
但這個時代很幸運的一點:這個技術非常通用,這個技術非常偉大,有足夠多探索的空間。
另一點是,我想讓生活更有趣,更有意思,更快樂,就去做一些自己喜歡的事情。
這很難用語言解釋,就是一個taste(品味)或preference(偏好)的問題。
參考資料:
1.2025年9月11日,《獨家對話OpenAI姚順雨:生成新世界的系統(tǒng)》,語言即世界language is world
*文章為作者獨立觀點,不代表筆記俠立場。
好文閱讀推薦:
“子彈筆記”是筆記俠的矩陣公眾號,聚焦職場效率追求、人際關系與高潛成長者,幫你3分鐘吃透核心觀點和方法論。歡迎關注~
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.