<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      姚順雨最新訪談:AI下半場,機會在這一點

      0
      分享至



      內容來源:2025年5月,語言即世界工作室,張小珺商業(yè)訪談錄對話姚順雨分享。

      分享嘉賓:姚順雨,OpenAI前研究員,現(xiàn)任騰訊“CEO/總裁辦公室”首席AI科學家,AI Infra部及大語言模型部負責人。

      高級筆記達人丨天朗明月

      | 柒排版| 拾零

      第 9392篇深度好文:12809字 | 30 分鐘閱讀

      商業(yè)趨勢

      筆記君說:

      都說AGI(通用人工智能)是AI的終極目標,但通往它的道路似乎越來越擁擠:

      一邊是大模型能力持續(xù)“溢出”;另一邊是AI創(chuàng)業(yè)公司陷入集體焦慮,跟風復刻ChatGPT的同質化產品找不到差異化。

      這個困境背后,是AI行業(yè)一個核心矛盾的轉化:過去,我們焦慮的是“如何訓練出一個更強的模型”;現(xiàn)在,我們困惑的是“如何定義一個有價值的任務”,以真正釋放模型那被“低估”的驚人能力。

      這標志著AI發(fā)展已悄然進入“下半場”。上半場的英雄是算法和算力,下半場的核心將是定義者與組織者——他們懂得如何設計互動、編排任務、構建環(huán)境,讓AI從“聰明的聊天者”成長為“可靠的行動者”。

      OpenAI前研究員、AI Agent研究方向的核心探索者姚順雨,將這種行動者稱為“Language Agent(語言智能體)”。他指出,Agent的本質是通過語言實現(xiàn)推理,通過推理實現(xiàn)泛化,它正是通往AGI的必經形態(tài)。

      那么,在這個關鍵轉折點上,創(chuàng)業(yè)者的機會到底在哪里?

      或許,答案就隱藏在這句反共識的洞察里:“最大的機會,在于設計不同于ChatGPT的交互方式。”

      今天,讓我們跟隨姚順雨的思考,從“上半場”到“下半場”,看懂AI Agent如何重劃競爭版圖,并在這場變革中,找到屬于每個組織與個體的價值支點。

      本文根據(jù)對姚順雨的訪談進行整理,內容有所刪減,希望能給到你啟發(fā)。

      一、核心洞察:

      厘清時代主要矛盾,錨定AGI演進路徑

      1.核心論斷:AI競賽進入“下半場”,勝負手轉移

      2025年4月,在發(fā)布博文《The Second Half》(下半場)前,我受邀去斯坦福一門課做talk。

      當時想,能講點什么?沒法講太技術,只能講更哲學的內容,就想到the second half這個話題。

      ① 矛盾轉化:從上半場依賴“模型與算力”到下半場依賴“基準任務與環(huán)境”

      大家過去往往更關注模型訓練、方法設計和算力,但我覺得現(xiàn)在的bottleneck(瓶頸)已經轉移了:變成怎么去定義好的任務,怎么去定義好的環(huán)境。

      現(xiàn)在主線正從“上半場”轉向“下半場”,我說的主線是基于“Language Agent”(語言智能體)。

      ② 本質揭示:Agent是構建AGI的必然形態(tài)與關鍵路徑

      有人問:語言的智能體和傳統(tǒng)Agent的本質區(qū)別是什么?在回答這個問題前,我們先說下Agent。

      第一,什么是Agent?

      從自然語言處理的角度講,Agent是相對于一個只會生成文章或對話的系統(tǒng)而言。它能和外界交互,比如使用計算器、互聯(lián)網,或調用各種工具。

      也就是說,不僅能生成內容,還能操作和互動。但從更廣義的AI背景看,Agent是一個非常古老的概念:

      任何能進行自我決策、與環(huán)境交互,并試圖optimize reward(優(yōu)化獎勵)的系統(tǒng),都可以被稱為Agent。

      從這個角度出發(fā),你可以說AlphaGo是Agent,也可以說Waymo是Agent,甚至可以說機器人是Agent。

      第二,語言賦予推理能力

      為什么語言非常獨特?因為它是人在這個世界完成各種各樣事情的工具,像火或筆一樣。

      2020年以前,大家沒把這個事想清楚,覺得語音、文字、圖像、視頻都是一些數(shù)據(jù),沒什么區(qū)別。

      但我覺得最大區(qū)別是:語言是人為了實現(xiàn)泛化而發(fā)明出來的工具,這一點比其他東西更本質。

      這是我的個人觀點,我之所以這么說,是因為在此前,如果你在一個特定環(huán)境上訓練,模型只能在這個環(huán)境表現(xiàn)良好,不能輕易遷移到其他環(huán)境。

      但現(xiàn)在,你在一個環(huán)境上訓練,模型可以適應更多不同環(huán)境。所以,我覺得它還是泛化的,它能夠推理。

      所以,“Language Agent”(語言智能體)和傳統(tǒng)Agent的本質區(qū)別是可以推理。它們最大區(qū)別在于,語言模型提供了一個足夠強的先驗(prior),這個先驗讓你可以推理,而推理又可以在不同的環(huán)境間泛化。

      第三,推理帶來泛化

      具體怎么理解?舉個簡單的例子。

      我做ReAct(ReAct:Synergizing Reasoning and Acting in Language Models,在語言模型中協(xié)同推理與行動,是一種讓大語言模型在與外部環(huán)境交互時,同時進行“推理”和“行動”的方法框架,簡單說就是瀏覽維基百科進行推理)一個很強的動機是:我做完colm(計算機語言處理)我的第一個工作之后,在思考一個問題:

      為什么我可以一下子去玩一個新的游戲,但現(xiàn)在這些系統(tǒng)或AI需要幾十萬步甚至幾百萬步訓練,才能完成類似的事?

      我發(fā)現(xiàn),是因為我可以思考。我看到一個全新的環(huán)境會想:這個燈是黑的,那可能有危險,基于常識可能有怪獸;我現(xiàn)在最重要的是點亮燈。基于之前的上下文(Context),燈在我后面,那我應該先向后走。

      如果沒有這樣的思考能力,而是直接從復雜語言去預測“我要往后走”,就很難——沒有推理做不到。

      所以核心是推理能力推理才能帶來泛化。


      綜上所述,現(xiàn)在終于有可能出現(xiàn)一個單一模型能夠做所有任務。之前認為這不太可能,但現(xiàn)在是有可能的——你可以在很多不同任務上做強化學習,而且它能遷移到更多任務。

      因此,Agent是構建AGI的必然形態(tài)與關鍵路徑。她的核心價值在于,通過語言賦予的推理能力,實現(xiàn)跨環(huán)境、跨任務的泛化(Generalization)。

      ③ 格局預判:未來世界將呈現(xiàn)“單極多元”格局

      大多數(shù)人對AGI的想象就是一個模型,就像這個世界上最聰明的人,他擁有所有知識、能力,比我們都聰明,是最強智能體。

      但我現(xiàn)在的感覺是:不同的交互方式下,有不同“好”的定義,有不同“強”的邊界。

      OpenAI可能會成為一個類似Google的公司,成為新世界里非常重要的一環(huán)——但這并不代表,這個世界就會被這樣一個單極系統(tǒng)壟斷,或者是單方壓倒另一方。

      最終的智能邊界,是由不同交互方式決定,而不是由一個single model(單一模型)決定。

      未來,模型的能力可能會產生beyond ChatGPT(超越ChatGPT)的交互方式,變成Super App(超級應用)這里想象空間非常大。

      比如,我想造一個朋友。這個朋友不需要數(shù)學、物理特別強,數(shù)學太強反而不自然。也許它的記憶也不一定特別好,會犯錯,有感情,也不是特別rational(理性)。但這也是有價值的。

      當然,也可能會出現(xiàn)一個由Agent組成的社會。

      總之,未來世界將呈現(xiàn)“單極多元”格局底座是少數(shù)強大的基礎模型(單極),上層是圍繞不同交互方式構建的海量、多元Agent應用生態(tài)。


      2.認知重置:為何這是根本性轉折?

      首先,對研究者來說,科研范式重心已經發(fā)生轉移,即從算法改進(Method)已經轉變?yōu)槿蝿窄h(huán)境設計(Task/Environment)。

      大家過去往往更關注模型訓練、方法設計,但我覺得現(xiàn)在的bottleneck(瓶頸)已經轉移了:變成怎么去定義好的任務,怎么去定義好的環(huán)境。

      我覺得,從語言出發(fā),去定義Reasoning(推理)、定義Agent,我們終于有了一個非常general(通用)的方法,而且這個方法是可泛化的——我們實現(xiàn)了一個基點時刻。

      其次,對創(chuàng)業(yè)者來說,競爭壁壘已經從“獲取或微調最新模型”,轉向“設計新交互”。

      ChatGPT或所有做模型的公司,都在做類似ChatGPT的產品。ChatGPT的本質是:你是在像和人交互一樣去進行和數(shù)字世界的交互。

      如果你做舊的interface,你利用這些新的模型,很容易被ChatGPT取代。如果你的交互方式很像ChatGPT,你有什么理由不被ChatGPT取代?如果你做的是新的交互方式,但模型沒有繼續(xù)變好、沒有新的溢出能力,也很難做。

      所以,對于創(chuàng)業(yè)公司來說,最關鍵的是做新的交互方式設計。

      二、方法論:

      構建下一代AI系統(tǒng)的四大行動支柱

      1.第一支柱:任務定義——新核心競爭力的鍛造場

      當你有一個非常差的任務,你永遠不可能學到非常好的東西。

      ① 核心原則:任務和環(huán)境很重要

      首先,你要找一個足夠有挑戰(zhàn)的任務,這個任務能做出本質的新方法。

      當你想做Agent或語言Agent,實際上沒什么選擇,只能去做文字游戲。Zork是個非常經典的文字游戲。你在一個基于文字的世界里,有點像一個互動腳本,可以往下走、往上走,可以去各個房間,可以做各種各樣的事。

      其次,是環(huán)境。

      我們還拿Zork游戲來說。時間一長,你會發(fā)現(xiàn),這個環(huán)境還是有很多缺陷,能學到的局限在這個環(huán)境,這個環(huán)境還是不夠大。

      而且你如果用RL學這個環(huán)境,就會像用RL學傳統(tǒng)的視頻游戲,可以把這個游戲打通關,但對于其他任務沒有遷移作用。

      也像下圍棋,你可以把圍棋下得特別好,但對世界上其他事情沒有價值。所以,我們需要一個更好的環(huán)境。


      ② 優(yōu)秀任務:“三板斧”檢驗清單

      如何設定一個優(yōu)秀的任務?我分享下我的“三板斧”檢驗清單:

      第一,結果導向:獎勵(Reward)基于最終結果,而非過程。

      不同的人有不同的flavor(風格),我從很早就有一個偏好,我想定義一個基于結果的reward(獎勵),而不是基于過程的,而且這個reward應該是基于規(guī)則、可計算的,而不是來自人的偏好、模型的偏好,或者一些黑盒指標。

      第二,白盒規(guī)則:獎勵機制清晰、可計算、避免基于人類主觀偏好。

      我們做WebShop(網上購物)的時候,最困難的一點是,怎么定義reward。我覺得做任何RL(強化學習)任務最難的不是建環(huán)境,而是怎么設計reward。

      我希望這個reward是不noisy(不噪聲大)的,是可解釋的,是白盒的(white-box),不是那種黑盒的東西(black-box)。

      事實證明,這也是現(xiàn)在RL成功的關鍵。像math(數(shù)學)和coding(編程)這種任務,之所以能做出來,核心就是:

      其一,Reward是基于結果,不是基于過程;

      其二,Reward是白盒的、基于規(guī)則的,不是基于人的偏好或模型的偏好。

      比如,一個數(shù)學題答案是3,它就是3——只要你得出的是3,就是對的;不是3,就是錯的。但如果你reward是基于過程,就會出現(xiàn)hacking(投機取巧)。

      再比如SWE-bench這類工作:

      其一,它是結果導向,而不是過程導向;

      其二,它的reward是基于規(guī)則、白盒的,而不是來自人或模型的主觀偏好。

      總之,我后面做的很多task,也都是用同樣的filter(篩選標準)。

      第三,價值閉環(huán):任務本身應對應真實世界中有價值的場景片段

      假設你去優(yōu)化人的偏好、模型的偏好,也會出現(xiàn)hacking。比如你生成一段非常優(yōu)美的代碼,但它并不解決實際問題。所以,任務本身應該是真實世界的場景片段。

      ③ 高級思維:環(huán)境是最外層記憶

      某種程度上,我們說MCP(模型上下文協(xié)議)也是hack(利用)Context的一種方法,本質也是Memory。

      從Agent角度看,這個世界有一個Memory Hierarchy(記憶層級)Memory Hierarchy最外層永遠是環(huán)境。


      有點像你考慮電腦,它有個Memory Hierarchy,從CPU緩存到內存再到硬盤,但最外層的Memory永遠是外部環(huán)境。比如我插一個U盤、拔一個U盤,或者把東西上傳到互聯(lián)網,或者做個音樂變成光盤。

      前年冬天,我讀到馮諾依曼臨終前寫的一本書《The Computer and the Brain》(計算機與大腦),最讓我印象深刻的一句話是:Essentially,the Environment is always the most outer part of the Memory Hierarchy.(基本上,環(huán)境永遠是記憶層級中最外層的部分。)

      這很哲學。

      對于人,你有你的Memory Hierarchy,有Working Memory(工作記憶)、Long-Term Memory(長期記憶)在腦子里,但最外層是你的筆記本、Google Doc、Notion,這些是你最外層Memory Hierarchy的一部分。

      2.第二支柱:交互創(chuàng)新——打破“擬人化”路徑依賴

      ① 核心機會:設計不同于ChatGPT的交互方式

      現(xiàn)在很多應用型創(chuàng)業(yè)公司很擔心,大模型公司的模型能力溢出會把他們做的Agent吞掉。事實上,創(chuàng)業(yè)公司應該擔心的是模型有沒有溢出能力,這樣你就真的什么都做不了了。

      有溢出能力是個非常好的事情,這幾乎意味著你有機會。

      創(chuàng)業(yè)公司最大機會是:能設計不同的interface(交互方式),或者說人和數(shù)字世界交互的方式。

      比如,你的Chatbot是像人一樣的東西——你和他聊天,給他布置任務,讓他幫你做Deep Research(深入研究)或者寫代碼——交互方式是像人,或者像助手一樣的交互方式。

      如果你能用模型通用能力,創(chuàng)造不同的交互方式,就能創(chuàng)造巨大的機會。

      所以,對于創(chuàng)業(yè)公司來說,創(chuàng)造不同的交互方式,并且模型不停有新的溢出能力,賦能到這些新的交互方式——兩者缺一不可,就能創(chuàng)造巨大的機會。


      ② 創(chuàng)新交互路徑:Copilot入侵式和Canvas原生式

      說到交互方式的創(chuàng)新,人和人交互已經幾千年、幾萬年,甚至是幾百萬年,這是對人最自然的形態(tài),肯定是最顯然的Super App。

      由此,除了文字外,我們還可以有“像人一樣”的交互方式。具體分成以下兩種:

      第一,侵入式(Copilot):像Cursor一樣,嵌入集成開發(fā)環(huán)境(如IDE),成為增強人類能力的“副駕駛”。

      Cursor創(chuàng)造了一種新的交互,準確說它不是像人一樣的交互,而是像Copilot(副駕駛)一樣,屬于侵入式。雖然它是IDE(集成開發(fā)環(huán)境),但在你寫代碼的時候,它能給你提示或編輯。沒有人和人是這樣交互的,這是它的價值所在。

      第二,原生式(Canvas):像Manus或理想中的“生成式畫布”,創(chuàng)造全新的、為Agent協(xié)作而生的數(shù)字工作空間。

      Canvas是一個好的嘗試,可以基于現(xiàn)在的任務,在線生成最符合情境、個性和任務的前端。這是值得探索的方向,但也很難。

      ③ 競爭動態(tài):世界是“相互抄”的

      關于競爭,傳統(tǒng)上大家認為發(fā)生的事情是:大廠先做出來一個東西,創(chuàng)業(yè)公司就可以開始抄。比如做出ChatGPT,我可以去抄一下ChatGPT,做一個類似的事情。

      但現(xiàn)在,似乎反過來也可以成立。

      小廠可以先做一個事情,它創(chuàng)造出來一個交互的創(chuàng)新或者產品的創(chuàng)新,做模型的公司也可以去借鑒或者應用,這點還是挺有意思。

      很多時候大家會說,模型做得越來越好了,是給創(chuàng)業(yè)公司作嫁衣了。因為你創(chuàng)造很好的模型,如果沒有自己運用特別好,這些創(chuàng)業(yè)公司就用好了。

      但也可以反過來,如果你創(chuàng)造一個非常好的交互,但沒有能力把模型或底層能力做特別好,大公司也可以借鑒你的交互,再加上它的模型能力,做得也特別好。

      這世界是個相互抄的關系,而不是一個單向抄的關系。


      3.第三支柱:能力演進——從“工具”到“同仁”的階梯

      ① 大模型能力分級(L1-L5)解讀

      OpenAI提出的大模型能力分級從Level 1到Level 5,很多人都很熟悉了:

      Level 1是聊天機器人(Chatbot)

      Level 2是推理者(Reasoner)

      Level 3是智能體(Agent)

      Level 4是創(chuàng)新者(Innovator)

      Level 5是組織者(Organizer)

      不知道你有沒有這個疑問:為什么是先有聊天機器人、推理者,然后才是Agent?要回答這個問題,可以分成以下兩個部分:

      第一,從L1到L2,再到L3,現(xiàn)在已完成,它們是能力遞進關系,核心是讓模型從“聊”到“想”再到“干”。

      它們的邏輯是,首先你要有語言的先驗知識,基于語言的先驗知識,最早能做出來的應用是Chatbot(L1)。

      接下來,基于語言先驗,你需要具備推理能力,這是Reasoner(L2)。

      當你既有語言知識,又具備推理能力,才可能進一步做各種Agent(L3),尤其是能泛化的Agent。

      也就是說,Agent建立在Chatbot和Reasoner能力之上。

      第二,L4-Innovator(創(chuàng)新者)與L5-Organizer(組織者)正在進行中,現(xiàn)在是正交探索——個體創(chuàng)造與群體協(xié)作的雙軌發(fā)展

      很明顯,今天Agent發(fā)展最關鍵的兩個方向:

      其一,讓它擁有自己的reward(獎勵),能自己探索;

      其二,是Multi-Agent(多智能體),讓它們之間能形成組織結構。

      這兩個方向,我覺得是正交,它們可以并行發(fā)展。誰是Level 4,誰是Level 5,我不確定,但這兩個事情是顯然的下一步。

      首先,當你作為一個Innovator

      其一,你需要一個Long-Term Memory(長期記憶)。比如,我是Wiles(安德魯·懷爾斯,數(shù)學家),我研究費馬大定理,可能花了20年。我就需要一個長期記憶。

      其二,我有這個長期記憶還不夠,還需要有內在的reward。因為在你真正證明那件事之前,沒有任何外部獎勵(Extrinsic Reward)——你沒有獲獎,沒有做成任何“可交付”的事情,也沒人給你feedback(反饋)。你需要自己給自己反饋。

      這是所有Innovator最重要的。無論你是藝術家、科學家、文學家,還是任何類型的創(chuàng)作者,對吧?

      其次,作為一個Organization(組織)

      其一,你需要解決的問題是:Agent和Agent之間怎么協(xié)作?怎么讓Multi-Agent(多智能體)協(xié)作scale(規(guī)模化)?

      現(xiàn)在的Agent就像一個普通大學生,做一個數(shù)字化的實習生。或者說,AGI就是一個普通一本大學生在電腦上能做所有事情的一個能力。

      其二,搞清楚人類社會的邊界是什么?當然這覆蓋80%或90%的人。

      但我們最崇拜的人,是哪兩種?一種是創(chuàng)造新東西,在認知或審美上開創(chuàng)新領域的人:愛因斯坦、高更、梵高、貝多芬;另一種是能創(chuàng)造新組織、偉大組織的人:伊隆·馬斯克、喬布斯。

      很自然,個體的創(chuàng)造力和組織的協(xié)作能力——都非常重要。

      ② 下個階段需突破3個關鍵點

      第一,是Utility(效用)的問題

      為什么我們現(xiàn)在的模型,推理很強,考試很強,玩游戲很強;但它還沒創(chuàng)造出足夠經濟價值?——根本原因是:它沒有這些Context(上下文)。

      人類社會比較tricky(復雜微妙)的一點是:當然,我們確實寫下了很多東西——我們用文字、Google Doc、Notion,記錄了很多東西,但很多Context永遠只存在人的大腦,是通過一個分布式的系統(tǒng)來維護。


      比如,你老板跟你之間的行為習慣,或者一些很難用語言總結下來的信息。這些Context存在于人的腦海里。人沒辦法把這些東西全部寫下來。

      這就導致——人是不可或缺的。

      只有人有這樣的能力:進入一個環(huán)境,獲得這個環(huán)境里的Context。

      如果這個問題解決了,Utility問題就可以在很大程度被解決。

      第二,是Intrinsic(內生獎勵問題。

      很多創(chuàng)新者之所以能在沒有外在激勵的情況下堅持,是因為他有內在的價值觀或激勵機制。

      這個問題,AI和神經科學已經研究多年,嬰兒是最典型的例子。

      當他們是嬰兒的時候,他們擁有基于好奇心或自我激勵的機制。比如,很多嬰兒會反復玩一個玩具,用嘴去咬一個東西,或者做一些看似“無意義”的動作。

      你說他獲得了什么reward嗎?他沒有升職加薪,沒有拿到錢,沒有任何外在激勵——他只是好奇。他的動機是:“如果我做這個事,我會有什么樣的感覺?”如果這個感覺是新的、不同的,他就可以從中學習。

      也就是說,好奇心、掌控感、安全感,是一些內在動機。正是這些東西驅動了人去做某些事。否則,很難從純粹理性角度解釋:他為什么要做?

      但有意思的是,當人長大之后,會發(fā)生重要變化

      當你是嬰兒,你對世界的理解,是基于視覺、觸覺,基于物理世界的。你學習的是,怎么把觸覺、聽覺、視覺,以及對骨骼系統(tǒng)的控制結合起來;

      當你長大之后,你對世界的理解方式變了,變成一個基于語言、推理、文字系統(tǒng)的理解。你開始思考:這個世界是怎么運作的?我怎么才能開一個公司?怎么才能升職?怎么才能做成一些事情?你玩的,不再是一個物理游戲,而是一個文字游戲。


      在這個文字游戲里,當然也存在內在激勵,但又好像和嬰兒時期的好奇驅動不太一樣。

      這是AI面臨的挑戰(zhàn):傳統(tǒng)AI,比如玩迷宮、做機器人仿真,它可以定義一些基于世界模型或者模仿嬰兒階段好奇心的內在激勵。

      但當AI在玩的是一個語言游戲,要怎么定義內在激勵?——這個問題就變得不太一樣了。

      第三,是多智能體之間的協(xié)作問題。

      基于基礎模型往上長,Agent生態(tài)樹在我的腦海中,呈現(xiàn)的是這樣一個結構:

      首先,一個方向是:fundamental research(基礎研究)怎么演變?或者說,方法怎么演變?

      其次,另一個方向是:應用,或者它的交互方式(interaction)有怎樣的演變?

      這兩個方向之間有關聯(lián),但它們需要不同的人去探索不同的方向。

      比如Cursor并沒有在fundamental research(基礎研究)上做什么創(chuàng)新,但做了交互方式上的創(chuàng)新。

      在fundamental research上,比較重要的有三方面:

      一個是Memory(記憶);

      一個是Intrinsic Reward(內生獎勵機制);

      還有一個是Multi-Agent(多智能體系統(tǒng))。

      這也跟OpenAI提出的Innovator(L4、創(chuàng)新者)和Organization(L5、組織者)框架很像,它們屬于正交,可以并行發(fā)展。

      所以,我們需要解決多智能體之間的協(xié)作問題。

      4.第四支柱:系統(tǒng)思維——擁抱“簡單且通用”的設計哲學

      ① 研究心法:追求簡單而通用

      我一直有這個非共識:我想要去做Agent,一直想做簡單且通用的東西,我不想做一個很復雜、但只能在一個領域奏效的東西。

      這個方向在傳統(tǒng)意義上很難被接受,大家習慣了做AI的方式:把問題不停細分,做很多細分方法,可能并沒有多少人想做一個簡單且通用的系統(tǒng),或者認為這是可能的——尤其20年之內。

      現(xiàn)在我還是覺得,我自己最喜歡的工作是ReAct。之后,基于這兩個方向:一方面做更多方法(method),一方面做更多任務(task)。

      但總體來說,我的研究有兩個核心:一是怎么去做一些有價值、和現(xiàn)實世界更相關的任務和環(huán)境;二是怎么去做一些簡單、但又通用的方法。

      所以,Agent最吸引我的就是它的可泛化性(generalizable),即絕大多數(shù)事,你都可以用語言表達。

      我當時隱隱約約有個直覺:你如果真想去實現(xiàn)AGI(通用人工智能)——那時還沒人提“AGI”這個詞但如果你真的想做一個非常通用的系統(tǒng)(general system),你就得去構建一個智能體。

      ② 創(chuàng)新策源地:從垂直細分到通用思維的AI范式回歸

      回頭看AI歷史,很久很久以前,從Herbert Simon(赫伯特·西蒙)在1960年代開始,大家最早的想法就是要做一個Agent。

      當時大家的野心很大——想用一個夏天搞定視覺,再用另一個夏天搞定語言,拼在一起,去做一個Agent,他就應該比人還聰明,但這事太難了。

      慢慢地,AI變得非常碎片化,大家研究的問題越來越小。比如,有的人研究視覺一小部分問題,有的人研究語言某個子任務,越來越細分,越來越垂直。

      但到2015年之后,開始出現(xiàn)Scaling Law(擴展規(guī)律),包括很多研究突破,歷史上一些關鍵時刻也在提示我們:

      也許我們應該從這種“垂直式思維(vertical thinking)”重新回到更“通用式思維(general thinking)”,再去嘗試構建真正通用的系統(tǒng)。


      ③ 個人品質:以雜學積淀塑造通用性思維與跨界視野

      在我成長路上,對我啟發(fā)大的是看書。我是一個喜歡看雜書的人。什么書都看,什么電影都看,什么地方都想去。

      我從小就是一個比較general(通用)的人——我想試圖變得很通用,試圖了解很多不同的學科,做很多不同的事情。

      但后來我發(fā)現(xiàn),一個人即使再聰明、再有精力,他能理解的知識或能做的事情,也只是人類社會積累的知識的很小一部分。更好的是,你去創(chuàng)造一個比你更通用、更general的事情。

      我好像一直對于通用性,有一種執(zhí)念或追求。通用性意味著什么?我不知道,但我從小就是想學習很多不同學科,都很有意思。

      我在姚班很多同學,他們是那種很deep(深度的)、很focus(專注的)同學——我去做競賽,我就把這個事做到極致,不停刷題,做到世界金牌。

      但我好像不是那種性格,我是那種——我會看很多數(shù)學,也會看很多歷史,會看各種各樣亂七八糟的東西。

      三、實戰(zhàn)推演:

      在轉折點上如何決策與行動?

      1.給創(chuàng)業(yè)者的行動指南:在夾縫中定義未來

      ① 第一步:找到一個真正有價值的場景

      Agent創(chuàng)業(yè),當前主要瓶頸是算力。Agent的token用量驚人,單個用戶消耗可能是Chatbot的500到1000倍,疊加幾百萬用戶后成本極高。

      這種情況下,Agent該如何擴展?我覺得最重要的點是——你得先找到一個好的應用。

      事實上,Cost(成本)本身不是最大問題,問題是你的成本并不能證明你的performance(性能)或value(價值)是合理的。

      如果這是一個很有價值的事,我花500美元,但可以賺1000美元——根本不是問題。這不是technical bottleneck(技術瓶頸),而是product-market fit(產品與市場契合度)的問題。

      所以,現(xiàn)在最關鍵的,是要找到真正有價值的應用。

      ② 壁壘構建:短期靠交互創(chuàng)新,長期靠Context(用戶上下文)

      首先,短期內要靠交互創(chuàng)新。

      比如,Manus,交互創(chuàng)新想象空間是很高的。

      它的一個價值是給人非常general(通用)的感覺,你可以有每個階段的Killer App(殺手級應用),比如它做PPT特別好,做Deep Research特別好,或者做其他東西特別好。

      iPhone或iPad是非常通用的產品形態(tài),但它一開始,都有一些Killer App支持它有momentum(增長動能)。包括ChatGPT,包括微信,很多偉大產品都這樣。

      你有一個足夠通用、簡單,或第一性的交互方式,它有很多想象空間。但你去維護它,或者設計路徑的時候,你能有各種各樣的應用,使它不停地增長。

      其次,長期靠積累獨特的用戶上下文(Context)和環(huán)境。

      現(xiàn)在對于ChatGPT比較重要的是Memory(記憶),這是可能產生壁壘的地方。

      如果沒有Memory,大家拼誰的模型更強。但有了Memory,拼的不僅是誰的模型更強,而是用戶用哪個更多、哪個粘性更強。

      我積累了更多Context,它能給我更好體驗,我就會有粘性——這或許是研究優(yōu)勢轉化成商業(yè)優(yōu)勢的方式。

      ③ 警惕“數(shù)據(jù)飛輪”幻覺

      大多數(shù)公司還沒有形成數(shù)據(jù)飛輪,他們依賴模型變好,利用模型變好的溢出能力。

      如果你要有數(shù)據(jù)飛輪,首先你要能自己去訓模型,并且能通過交互有很好的reward,使你能把好的數(shù)據(jù)和不好的數(shù)據(jù)分開。

      比較成功的是Midjourney(用戶偏好直接驅動模型優(yōu)化),有非常清晰的reward——人更喜歡哪張圖,這個reward和應用是對齊的,reward做得更好,公司就更成功,模型也更好——一切都對齊。

      有了這種情況,才能自己訓練模型,做數(shù)據(jù)飛輪。

      這個過程必須比較非主線。因為如果很主線,我也可以通過Pre-Training或RL提升能力,靠泛化或其他方式。

      總的來說,只有像Midjourney這樣,獎勵機制與產品價值完全對齊的閉環(huán),才能形成飛輪,大部分公司目前還沒有形成飛輪。

      2.給企業(yè)決策者的戰(zhàn)略研判:防守與進攻

      ① CEO的第一課:以技術認知驅動戰(zhàn)略決策與價值創(chuàng)造

      假若我是一個CEO,做的第一件事就是親自深度學習技術本質,做出不被誤導的戰(zhàn)略決策。

      首先,我肯定會學習,我會想弄清楚這個事情到底是什么。

      如果你作為CEO不懂這個事情,所有事情會變得很難。很多時候,一個公司的bottleneck(瓶頸)就在于,CEO對這個事理解不夠。如果你不理解,去招一些很好的人、做一些事情,你很可能被他們忽悠。

      其次,要從創(chuàng)造新的價值來思考問題。

      畢竟你不是技術專家,而是一個CEO,你有一些場景、一些資源、一些優(yōu)勢。從第一性原理看,一個新的技術產生了,你要思考的是,怎么用這些新技術結合你現(xiàn)在的資源去創(chuàng)造新的價值。

      此外,你可以嘗試做一個和當前業(yè)務完全不一樣、但價值非常大的事情,比如ChatGPT,但對大多數(shù)公司來說,即使很有錢、很強,也不一定make sense(合理)。

      ② 大公司策略:依托護城河優(yōu)勢防御顛覆性交互創(chuàng)新

      站在公司的角度看,大公司的戰(zhàn)略其實很簡單,依托現(xiàn)有用戶基礎、數(shù)據(jù)資源、場景優(yōu)勢以及Context(護城河),穩(wěn)健融合Agent能力,重點防御顛覆性交互方式帶來的創(chuàng)新沖擊。

      為什么要重點防御?原因是全新的交互方式會改變我們的世界。就像一開始互聯(lián)網誕生,最早Super App只是把郵件升級成Email,Amazon已經算非常創(chuàng)新的東西了。現(xiàn)在就像那個階段——我們的想象力仍被以往的交互方式所限制,還有許多尚未誕生的交互方式。

      但肯定會有很多不同的交互方式,訓練完全不同的模型,創(chuàng)造出不同的系統(tǒng)。

      當然,這類東西很難和ChatGPT比強弱,它們是不同應用,有不同價值。比如,微信做Agent。

      如果我是微信的一號,對做不做Agent?我可能會不急,先觀望觀望。

      我好像沒有理由要急。我會觀察,我會學習AI,會觀察有沒有什么新的交互方式很有意思。但我不會急著去做很多事——我有易守難攻的地方,為什么要急著進攻呢?

      比較危險的是一個顛覆性的創(chuàng)新。

      真正的危險,不是說一個類似于微信的東西打敗了微信,而是一個很不一樣的東西打敗了微信。

      就像微信打敗了QQ,當時擔心的并不是一個類似QQ的東西打敗了QQ,而是一個很不一樣的產品去打敗這個東西。

      我們需要對顛覆性創(chuàng)新有所警惕。

      ③ 投資與布局邏輯:聚焦特定Context與數(shù)字環(huán)境構建的平臺

      作為投資者,如何做好allocate(分配)?這是個很好的問題,實際上取決于你有多少精力,或者有多少資源分配顆粒度。

      當然現(xiàn)在OpenAI、Anthropic,這些模型層公司,大概率會有更大價值。

      還有一類很有價值的,是能積累User Context(用戶上下文),或者能構建特殊Environment(環(huán)境)的公司。最終如果AI或AGI是一個系統(tǒng),它需要有Intelligence(智能),需要有Environment,還需要有User Context,或者對用戶的理解。

      現(xiàn)在有很多User Data(用戶數(shù)據(jù))或User Context的公司,有點像發(fā)明車之前的煤炭、煤礦,或者像發(fā)明汽車之前的石油公司。

      從這個角度,微信或大平臺,還是一個易守難攻的好平臺,它積攢大量的Context。

      如果Intelligence是一個可以逐漸民主化、逐漸變得便宜、逐漸普及,擁有這樣的平臺,擁有這樣的Environment,擁有這樣的Context,可能會是一個很強的壁壘,它可能還是一個很好的投資。

      3.給研究者與個人的啟示:在范式轉換中定位

      ① 職業(yè)選擇:在時代機遇中追尋高上限價值

      我的成長路徑其實挺按部就班的,也沒有跳級,沒有做什么很surprising(讓人驚訝)的事情。

      但我對一個東西的價值,或者taste(品味),有自己的看法。大家往往會傾向于做一個確定性比較高的事情,包括做研究、做公司。

      但我覺得恰好是這個時代,你去做上限更高的事情是更好的,因為現(xiàn)在有一個巨大的機會。

      如果沒有這樣一個巨大的機會,最佳路徑可能是去做incremental(漸進式)、確定性強的事情,一步一步地積累,但恰好有一個上限非常高的事情。

      如果你敢想,或者你膽子特別大,或者你想象力很豐富,就會有好事發(fā)生。

      ② 思維變革:從算法改進轉向任務定義

      現(xiàn)在,AI科研范式重心已經從上半場轉移到了下半場,即從算法改進(Method)已經轉變?yōu)槿蝿窄h(huán)境設計(Task/Environment)。

      這帶來一個本質變化:以前我面對很多怪獸,需要造出各種不同武器去打它們;現(xiàn)在我有了一把通用武器,比如機關槍,我不需要再為每個怪獸單獨造武器。接下來要思考的問題就變成:我該朝哪個方向開槍?

      現(xiàn)在方法的問題已基本解決,真正重要的是——我們要用這個通用方法,從“我能解決什么問題”轉變?yōu)椤拔覒摱x什么問題”。

      總之,我們要成為一名“問題設計師”和“任務架構師”。

      ③ 終極動力:為世界創(chuàng)造渴望,過程中享受有趣

      關于驅動力,我用一個非常俗的話說:希望你對這個世界創(chuàng)造一些不同——探索新的、根本性的研究,是一種創(chuàng)造不同的方式;創(chuàng)造一種完全不同的新的產品形態(tài),也是一種創(chuàng)造不同的方式。

      如果我現(xiàn)在去做一家類似xAI或Thinking Machine的公司,或者做一個類似Chatbot或Assistant的產品,還是可能賺很多錢,商業(yè)上很成功;但如果我做了一個形態(tài)很不一樣的東西,失敗了,我起碼探索了不一樣東西。

      我導師令我印象最深的是這樣一句話,學術圈經常發(fā)生這樣的事——你有一個想法,然后別人做了,你會很煩。他說:If someone else can do it,then it's okay to let them do it(如果別人能做,那就讓他們去做吧)。

      所以,我覺得真正的價值在于對這個社會產生價值。

      從人類全局的角度,如果這個事情很多人能做,別人做可能是不是也沒有什么區(qū)別?對這個社會,或者對整體來說,似乎沒有什么變化。

      或者,你也可以去做一些不一樣的探索。我覺得,最終你要對這個社會產生價值。

      但這個時代很幸運的一點:這個技術非常通用,這個技術非常偉大,有足夠多探索的空間。

      另一點是,我想讓生活更有趣,更有意思,更快樂,就去做一些自己喜歡的事情。

      這很難用語言解釋,就是一個taste(品味)或preference(偏好)的問題。

      參考資料:

      1.2025年9月11日,《獨家對話OpenAI姚順雨生成新世界的系統(tǒng)》,語言即世界language is world

      *文章為作者獨立觀點,不代表筆記俠立場。

      好文閱讀推薦:

      “子彈筆記”是筆記俠的矩陣公眾號,聚焦職場效率追求、人際關系與高潛成長者,幫你3分鐘吃透核心觀點和方法論。歡迎關注~

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      鄭麗文稱臺灣是國家,反對兩岸統(tǒng)一?喊話大陸:美國讓我過去

      鄭麗文稱臺灣是國家,反對兩岸統(tǒng)一?喊話大陸:美國讓我過去

      尋墨閣
      2026-01-28 22:39:31
      楊瀾爆料撕下王菲偽裝,揭秘謝霆鋒拒絕結婚真相

      楊瀾爆料撕下王菲偽裝,揭秘謝霆鋒拒絕結婚真相

      潘殤旅行浪子
      2026-01-03 22:14:17
      特朗普闖下大禍,總統(tǒng)位將不保?奧巴馬重出江湖,克林頓聯(lián)手逼宮

      特朗普闖下大禍,總統(tǒng)位將不保?奧巴馬重出江湖,克林頓聯(lián)手逼宮

      墨印齋
      2026-01-28 15:43:03
      單價6.5萬元的新房小區(qū),出現(xiàn)1431條裂縫,預看房后的業(yè)主們不滿:邊裂邊補,邊補邊裂!開發(fā)商回應

      單價6.5萬元的新房小區(qū),出現(xiàn)1431條裂縫,預看房后的業(yè)主們不滿:邊裂邊補,邊補邊裂!開發(fā)商回應

      每日經濟新聞
      2026-01-28 21:07:05
      這下,哈梅內伊真慌了!!!

      這下,哈梅內伊真慌了!!!

      山河路口
      2026-01-26 19:59:27
      在盒馬app買鮮百合被誤送成水仙球,北京祖孫二人誤食中毒后進醫(yī)院,盒馬回應

      在盒馬app買鮮百合被誤送成水仙球,北京祖孫二人誤食中毒后進醫(yī)院,盒馬回應

      瀟湘晨報
      2026-01-27 18:01:05
      河北夫妻收留弱智流浪男,18年后男子大喊:我想起我是誰了

      河北夫妻收留弱智流浪男,18年后男子大喊:我想起我是誰了

      農村情感故事
      2026-01-18 13:47:49
      54歲朱茵現(xiàn)狀:依舊開97年的車,住在深山殘屋,狀態(tài)一如既往的好

      54歲朱茵現(xiàn)狀:依舊開97年的車,住在深山殘屋,狀態(tài)一如既往的好

      小熊侃史
      2025-12-17 09:43:27
      300798,直線封板!化工股,漲停潮!

      300798,直線封板!化工股,漲停潮!

      證券時報e公司
      2026-01-28 12:34:34
      時隔2552天9三分創(chuàng)7紀錄!美媒贊PG夢回巔峰 費媒:東部各隊顫抖

      時隔2552天9三分創(chuàng)7紀錄!美媒贊PG夢回巔峰 費媒:東部各隊顫抖

      顏小白的籃球夢
      2026-01-28 20:06:22
      河南一國企老總曝雷人雷語:ZF第一不擔當,國企第二不擔當!

      河南一國企老總曝雷人雷語:ZF第一不擔當,國企第二不擔當!

      兵叔評說
      2026-01-27 11:27:18
      臺軍女飛行員郭文靜:只要長官敢下令,我會毫不猶豫的擊落殲20!

      臺軍女飛行員郭文靜:只要長官敢下令,我會毫不猶豫的擊落殲20!

      顧史
      2026-01-21 21:04:39
      1月28日俄烏:創(chuàng)紀錄的戰(zhàn)爭傷亡數(shù)據(jù)

      1月28日俄烏:創(chuàng)紀錄的戰(zhàn)爭傷亡數(shù)據(jù)

      山河路口
      2026-01-28 19:09:17
      小學生“倒數(shù)第一”試卷又火了,老師:這孩子智商太高,我教不了

      小學生“倒數(shù)第一”試卷又火了,老師:這孩子智商太高,我教不了

      浩源的媽媽
      2026-01-27 06:29:07
      菲佐拒絕加入“和平委員會”,還稱特朗普的精神狀態(tài)“危險”

      菲佐拒絕加入“和平委員會”,還稱特朗普的精神狀態(tài)“危險”

      山河路口
      2026-01-28 18:45:45
      baby投靠古天樂疑隱婚!與黃曉明劃清界限,香港復出背后藏豪門靠山

      baby投靠古天樂疑隱婚!與黃曉明劃清界限,香港復出背后藏豪門靠山

      八卦王者
      2026-01-27 14:56:22
      曾多次力挺中國,對中國態(tài)度最好的5個歐洲國家,分別都是誰?

      曾多次力挺中國,對中國態(tài)度最好的5個歐洲國家,分別都是誰?

      快看張同學
      2026-01-28 14:32:13
      真相大白!以色列為何突然老實了呢?真實原因開始浮出水面

      真相大白!以色列為何突然老實了呢?真實原因開始浮出水面

      墨印齋
      2026-01-20 16:46:58
      北京爆冷輸球揪出最大罪人!迷信8中1的杰曼太教條,球迷:換楊鳴

      北京爆冷輸球揪出最大罪人!迷信8中1的杰曼太教條,球迷:換楊鳴

      弄月公子
      2026-01-28 22:33:49
      事關尼帕病毒!遼寧疾控發(fā)布重要提醒!

      事關尼帕病毒!遼寧疾控發(fā)布重要提醒!

      沈陽百姓一家親
      2026-01-28 20:16:36
      2026-01-28 23:39:00
      筆記俠 incentive-icons
      筆記俠
      互聯(lián)網最前沿的創(chuàng)業(yè)筆記
      9885文章數(shù) 77575關注度
      往期回顧 全部

      科技要聞

      它是神也是毒!Clawdbot改名卷入千萬詐騙

      頭條要聞

      水貝知名金店出現(xiàn)兌付困難 未兌付的金額已超過百億元

      頭條要聞

      水貝知名金店出現(xiàn)兌付困難 未兌付的金額已超過百億元

      體育要聞

      沒天賦的CBA第一小前鋒,秘訣只有一個字

      娛樂要聞

      金子涵拉黑蔡徐坤,蔡徐坤工作室回應

      財經要聞

      從萬科退休20天后,郁亮疑似失聯(lián)

      汽車要聞

      新手必看!冰雪路面不敢開?記住這4點 關鍵時刻真能保命

      態(tài)度原創(chuàng)

      房產
      藝術
      健康
      教育
      家居

      房產要聞

      實景兌現(xiàn)在即!綠城,在海棠灣重新定義終極旅居想象!

      藝術要聞

      震撼!19世紀油畫巨匠的作品美得不可思議!

      耳石癥分類型,癥狀大不同

      教育要聞

      回龍觀第二小學小學教師專業(yè)發(fā)展項目啟動會圓滿舉行

      家居要聞

      躍式別墅 包絡石木為生

      無障礙瀏覽 進入關懷版