從OpenAI離開后,Ilya Sutskever從公眾視野中消失了許久。
前段時(shí)間,他終于上了個(gè)視頻播客節(jié)目,和主播Dwarkesh Patel聊了1小時(shí)36分鐘,把他現(xiàn)在對(duì)AGI的看法完整表述了一遍。
![]()
如果你不知道Ilya是誰(shuí)的話,簡(jiǎn)單介紹下,他是OpenAI前首席科學(xué)家,GPT系列的核心設(shè)計(jì)者,現(xiàn)在創(chuàng)辦了SSI(Safe Superintelligence Inc.)。
我關(guān)注Ilya很久了。從ChatGPT發(fā)布起,他的每一次公開發(fā)言,我都會(huì)仔細(xì)看。這個(gè)人對(duì)AI的理解,比大多數(shù)人深太多。
這次訪談更狠。他提出了一個(gè)顛覆性的觀點(diǎn):
我們對(duì)AGI的理解,可能從一開始就錯(cuò)了。
AI行業(yè)的大轉(zhuǎn)折:規(guī)模時(shí)代結(jié)束了
在講AGI之前,Ilya先說了一個(gè)更大的背景。
他說了一句讓我印象很深的話:
"2020到2025,是規(guī)模時(shí)代(Age of Scaling)。但現(xiàn)在規(guī)模已經(jīng)夠大了。我們回到了研究時(shí)代(Age of Research)——只不過這次有大算力支持。"
什么意思?
過去5年,AI公司都在做一件事:堆數(shù)據(jù)、堆算力、堆參數(shù)。
規(guī)模定律(Scaling Law)吸走了所有空氣。所有人都在做同樣的事:
2020:GPT-3,175B參數(shù)
2021-2024:所有公司瘋狂擴(kuò)大預(yù)訓(xùn)練規(guī)模
數(shù)據(jù)從TB級(jí)到PB級(jí)
算力從百GPU到萬(wàn)GPU
Ilya甚至說了一句狠話:
"Scaling sucked out all the air in the room. Everyone started to do the same thing. We got to the point where there are more companies than ideas by quite a bit."
公司數(shù)量比想法還多。這話太準(zhǔn)了。
但現(xiàn)在呢?
規(guī)模已經(jīng)足夠大了。再100x也不會(huì)帶來質(zhì)變。數(shù)據(jù)快耗盡了,算力再堆10倍,能力提升可能只是邊際改善。
接下來拼什么?拼想法。拼對(duì)AI本質(zhì)的理解。
這也是為什么SSI才有機(jī)會(huì)——不再是純拼預(yù)算,而是拼研究深度。
說實(shí)話,這個(gè)判斷如果是對(duì)的,對(duì)整個(gè)AI行業(yè)的影響會(huì)很大。意味著小團(tuán)隊(duì)、研究驅(qū)動(dòng)的公司,又有機(jī)會(huì)了。
模型很強(qiáng),但經(jīng)濟(jì)影響很弱——為什么?
Ilya提出了一個(gè)讓所有人困惑的問題:
"現(xiàn)在的模型在評(píng)測(cè)(evals)上表現(xiàn)驚人。但經(jīng)濟(jì)影響遠(yuǎn)遠(yuǎn)落后。怎么解釋這個(gè)矛盾?"
你看各種benchmark:
代碼競(jìng)賽:超過人類平均水平
數(shù)學(xué)問題:接近IMO金牌選手
復(fù)雜推理:能解決博士級(jí)別的題目
但實(shí)際用起來呢?
會(huì)在兩個(gè)bug之間循環(huán)。會(huì)重復(fù)說同樣的話。前一句話和后一句話自相矛盾。
為什么會(huì)這樣?
Ilya給出了一個(gè)絕妙的類比。
學(xué)生A vs 學(xué)生B:AI過度訓(xùn)練的陷阱
想象兩個(gè)學(xué)生:
學(xué)生A: 要成為競(jìng)賽編程冠軍。于是瘋狂練習(xí)10,000小時(shí),刷了所有競(jìng)賽題,背下所有算法,成為頂尖競(jìng)賽選手。
學(xué)生B: 也覺得競(jìng)賽編程挺有意思,練了100小時(shí),也做得不錯(cuò)。
問題來了:誰(shuí)在以后的職業(yè)生涯中會(huì)更成功?
十有八九是學(xué)生B。
為什么?
因?yàn)閷W(xué)生A只會(huì)做競(jìng)賽題。遇到實(shí)際項(xiàng)目,遇到?jīng)]見過的問題,就懵了。
學(xué)生B雖然練得少,但他有"那個(gè)東西"——學(xué)習(xí)能力、舉一反三的能力、解決新問題的能力。
現(xiàn)在的AI就是學(xué)生A。
我們?cè)趺从?xùn)練大模型的?
預(yù)訓(xùn)練: 喂給它所有能找到的數(shù)據(jù)——所有書、所有代碼、所有網(wǎng)頁(yè)。就像讓學(xué)生A刷遍所有競(jìng)賽題。
強(qiáng)化學(xué)習(xí)(RL): 針對(duì)特定任務(wù)瘋狂訓(xùn)練。想讓它在編程評(píng)測(cè)上表現(xiàn)好?那就專門訓(xùn)練編程任務(wù),訓(xùn)練到評(píng)測(cè)分?jǐn)?shù)爆表。
結(jié)果呢?評(píng)測(cè)上確實(shí)表現(xiàn)驚人。但真實(shí)場(chǎng)景一塌糊涂。
Ilya說了一個(gè)觀察:
現(xiàn)在所有AI公司都有專門的團(tuán)隊(duì),不停地設(shè)計(jì)新的RL訓(xùn)練環(huán)境。這些環(huán)境怎么設(shè)計(jì)的?
很多時(shí)候是從評(píng)測(cè)中找靈感。
"我希望模型在發(fā)布時(shí)評(píng)測(cè)成績(jī)好看,那我就專門訓(xùn)練它做這類任務(wù)。"
這就是為什么模型能在評(píng)測(cè)上做很難的題,卻在實(shí)際使用中會(huì)犯低級(jí)錯(cuò)誤。
它沒有真的理解,只是記住了而已。
Ilya甚至說了一句狠話:
"The real reward hacking is the human researchers who are too focused on the evals."
真正的獎(jiǎng)勵(lì)破解(reward hacking),是研究人員太關(guān)注評(píng)測(cè)分?jǐn)?shù)了。
人類的秘密武器:泛化能力
這是整個(gè)訪談中最讓我震撼的部分。
Ilya說:人類用更少的數(shù)據(jù),學(xué)得更好。
他提到了一個(gè)他自己的例子:
"我5歲的時(shí)候,超級(jí)喜歡汽車。那時(shí)候我對(duì)汽車的識(shí)別能力,已經(jīng)足夠支撐開車了——雖然我還沒法開,但我能認(rèn)出所有車型。"
想想看,一個(gè)5歲小孩:
見過的世界很小(大部分時(shí)間在家)
數(shù)據(jù)多樣性極低(每天看到的東西差不多)
訓(xùn)練數(shù)據(jù)量只是大模型的零頭
但人類學(xué)到的東西,理解得更深。
15歲的人類,學(xué)習(xí)的數(shù)據(jù)量只是GPT預(yù)訓(xùn)練數(shù)據(jù)的千分之一。
但人類不會(huì)犯AI犯的那些低級(jí)錯(cuò)誤:
不會(huì)在兩個(gè)bug之間循環(huán)
不會(huì)重復(fù)說同樣的話
不會(huì)前一句話和后一句話自相矛盾
那人類靠什么做到的?
價(jià)值函數(shù):人類內(nèi)置的"對(duì)錯(cuò)感"
Ilya提到了一個(gè)神經(jīng)科學(xué)案例:
有個(gè)人大腦的情緒處理中樞受損了。他不再有情緒——不會(huì)難過、不會(huì)憤怒、不會(huì)興奮。
在測(cè)試中,他依然能說話、能做智力題,看起來一切正常。
但他完全喪失了決策能力。
選穿哪雙襪子,能糾結(jié)好幾個(gè)小時(shí)。做財(cái)務(wù)決策,完全一團(tuán)糟。
這說明什么?
情緒系統(tǒng)是人類的內(nèi)置"價(jià)值函數(shù)"(Value Function)。
它告訴我們:什么是好的,什么是壞的,什么事情值得做,什么事情不值得。
沒有這個(gè)系統(tǒng),即使智力正常,也無法在真實(shí)世界中運(yùn)作。
那什么是價(jià)值函數(shù)?
Ilya給了個(gè)很清楚的解釋:
"你下棋,丟了一個(gè)子,你不用下完整盤棋就知道自己犯錯(cuò)了。價(jià)值函數(shù)能讓你提前知道:這步是好是壞。"
現(xiàn)在的AI怎么訓(xùn)練的?
你讓它寫1000行代碼,等它寫完,你告訴它"對(duì)"或"錯(cuò)"。它學(xué)不到中間過程哪一步走錯(cuò)了。
如果有價(jià)值函數(shù)呢?
AI寫到第100行,價(jià)值函數(shù)就能判斷:"這個(gè)方向不對(duì),應(yīng)該換思路。"不用等到寫完1000行才發(fā)現(xiàn)。
人類就是這么學(xué)的。
你編程時(shí)寫了幾行代碼,感覺"不對(duì)勁",就會(huì)停下來重新思考。這就是你的價(jià)值函數(shù)在起作用。
AI現(xiàn)在缺的,可能就是這個(gè)。
Ilya說他對(duì)怎么解決有想法,但"由于種種原因,無法詳細(xì)討論"。(這個(gè)有點(diǎn)神秘,估計(jì)是SSI的核心競(jìng)爭(zhēng)力)
新定義: AGI不是"全知全能",而是"能學(xué)會(huì)任何事"
說了這么多,終于到了核心:Ilya對(duì)AGI的重新定義。
什么是AGI(通用人工智能)?
問十個(gè)人,九個(gè)會(huì)說:能做所有工作的AI。
OpenAI的定義就是這樣——"能勝任人類所有經(jīng)濟(jì)價(jià)值工作的系統(tǒng)"。
聽起來很合理對(duì)吧?
但I(xiàn)lya說:等等,這個(gè)定義好像哪里不對(duì)。
為什么?
他給了個(gè)很直接的理由:人類自己都不是AGI啊。
你想想,一個(gè)普通人知道多少東西?
你會(huì)編程嗎?不一定。會(huì)做心臟手術(shù)嗎?肯定不會(huì)。會(huì)設(shè)計(jì)芯片嗎?更不可能。
人類缺少大量的知識(shí)。我們不是"什么都會(huì)"。
那為什么人類是"通用智能"?
很簡(jiǎn)單——我們能學(xué)。
你不會(huì)編程?給你幾個(gè)月時(shí)間,你能學(xué)會(huì)。你不懂醫(yī)學(xué)?讓你去醫(yī)學(xué)院學(xué)幾年,你能成為醫(yī)生。
人類的"通用"體現(xiàn)在哪?不在"已經(jīng)會(huì)了",在"能學(xué)會(huì)"。
所以,Ilya給出了新的AGI定義:
AGI不是"已經(jīng)會(huì)做所有工作",而是"能學(xué)會(huì)做所有工作"。
他給了一個(gè)很形象的比喻:
"想象我造出了一個(gè)15歲的超級(jí)智能學(xué)生。他非常聰明,學(xué)習(xí)能力極強(qiáng),但知識(shí)儲(chǔ)備幾乎為零。" "你讓他去當(dāng)程序員,他會(huì)去學(xué)編程。" "你讓他去當(dāng)醫(yī)生,他會(huì)去學(xué)醫(yī)。" "這就是AGI。"
這個(gè)定義的核心是什么?
持續(xù)學(xué)習(xí)能力(Continual Learning)。
不是一次性訓(xùn)練好,然后什么都知道。
而是:
快速學(xué)習(xí): 比人類更快掌握新技能
深度理解: 真正理解,不只是記住
靈活遷移: 一個(gè)領(lǐng)域?qū)W到的東西,能用到其他領(lǐng)域
這才是真正的"通用"。
SSI的戰(zhàn)略調(diào)整:從"直擊超級(jí)智能"到漸進(jìn)式部署
這個(gè)新定義,改變了SSI的整個(gè)戰(zhàn)略。
SSI最初的計(jì)劃是"straight-shot superintelligence"——直擊超級(jí)智能。
什么意思?就是不發(fā)布中間產(chǎn)品,埋頭研究,直到造出真正的超級(jí)智能才發(fā)布。
好處是:避免市場(chǎng)競(jìng)爭(zhēng)的各種權(quán)衡和壓力,專注研究。
但I(xiàn)lya說,這個(gè)計(jì)劃可能會(huì)調(diào)整。
為什么?
因?yàn)锳I的部署本身就是學(xué)習(xí)過程。
你想想,人類的很多系統(tǒng)是怎么變安全的?
飛機(jī)為什么現(xiàn)在這么安全?不是因?yàn)樵O(shè)計(jì)師一開始就想清楚了所有問題,而是通過事故、改進(jìn)、再事故、再改進(jìn),迭代了幾十年。
Linux為什么bug這么少?不是因?yàn)長(zhǎng)inus一開始就寫出了完美代碼,而是無數(shù)人在實(shí)際使用中發(fā)現(xiàn)問題、修復(fù)問題。
AI可能也需要這樣。
Ilya說:
"很難想象有哪個(gè)工程領(lǐng)域,是純靠思考就能做到安全的,而不需要實(shí)際部署和反饋。"
所以,即使是"直擊超級(jí)智能",也需要漸進(jìn)式發(fā)布。
更重要的是:展示AI的價(jià)值。
Ilya說了一句很有意思的話:
"你寫一篇文章說'AI會(huì)怎樣怎樣',別人看了會(huì)說'挺有意思的'。" "但當(dāng)你讓別人看到AI實(shí)際在做這個(gè)、做那個(gè)——那完全不一樣。"
看到 vs 聽說,天壤之別。
這也是為什么SSI可能會(huì)改變策略,在中間階段就發(fā)布產(chǎn)品。(這個(gè)轉(zhuǎn)變挺關(guān)鍵的,說明Ilya也在務(wù)實(shí)地思考商業(yè)化)
對(duì)我個(gè)人的啟示
這個(gè)新定義,不只是對(duì)AI行業(yè)的顛覆。
對(duì)我個(gè)人也有深刻觸動(dòng)。
我做了5年產(chǎn)品、開發(fā)、內(nèi)容創(chuàng)作。如果按傳統(tǒng)思路,我應(yīng)該選一個(gè)方向深挖,成為某個(gè)領(lǐng)域的專家。
但在AI時(shí)代,這個(gè)策略好像不太對(duì)了。
為什么?我最近一直在想這個(gè)問題。
你看:
我2023年研究的Prompt技巧,很多現(xiàn)在不需要了
我半年前用的AI工具,現(xiàn)在又出了更好的
我有段時(shí)間很焦慮。總覺得自己在追,但永遠(yuǎn)追不上。
直到聽完Ilya這次訪談,我突然想明白了:
如果我只是積累知識(shí),我永遠(yuǎn)追不上。
但如果我培養(yǎng)的是學(xué)習(xí)能力——快速上手新工具、快速理解新概念、快速應(yīng)用到實(shí)際問題——那我永遠(yuǎn)不會(huì)過時(shí)。
這就是為什么Ilya說,AGI的本質(zhì)是學(xué)習(xí)能力,而不是知識(shí)儲(chǔ)備。
人類在這方面還有巨大優(yōu)勢(shì)。我們可以:
快速切換領(lǐng)域
從失敗中學(xué)習(xí)
舉一反三
在不確定中探索
這些,AI還做不好。但差距在縮小。
當(dāng)AI也有了真正的持續(xù)學(xué)習(xí)能力,當(dāng)它也能像15歲的天才學(xué)生一樣,快速學(xué)會(huì)任何新技能...那時(shí)候,競(jìng)爭(zhēng)會(huì)更激烈。
所以,現(xiàn)在就該問自己:
我的學(xué)習(xí)能力,夠強(qiáng)嗎?
我能多快掌握一個(gè)新領(lǐng)域?
我能不能在AI的幫助下,學(xué)得更快?
這些問題的答案,決定了你在AI時(shí)代能走多遠(yuǎn)。
Ilya的這次訪談,還談了很多其他內(nèi)容:
為什么強(qiáng)化學(xué)習(xí)現(xiàn)在花的算力已經(jīng)超過預(yù)訓(xùn)練
SSI怎么用30億美元跟OpenAI的百億預(yù)算競(jìng)爭(zhēng)(這個(gè)數(shù)據(jù)挺有意思,OpenAI年研究支出50-60億,但大部分分散在產(chǎn)品、銷售等方向。SSI只做研究,實(shí)際研究算力差距沒那么大)
怎么讓超級(jí)智能"關(guān)心所有有感知能力的生命"
為什么AI對(duì)齊比想象中難
每一個(gè)都值得單獨(dú)寫一篇文章。
但這篇文章,我想聚焦在這個(gè)核心洞察上:
AGI不是"什么都會(huì)",而是"什么都能學(xué)"。
這個(gè)定義,改變了我對(duì)AI的理解。也改變了我對(duì)自己的期待。
在AI時(shí)代,知識(shí)不再是護(hù)城河。學(xué)習(xí)能力才是。
附: Ilya完整訪談在這里 → https://www.youtube.com/watch?v=aR20FWCCjAs
時(shí)長(zhǎng): 1小時(shí)36分鐘
嘉賓: Ilya Sutskever (SSI創(chuàng)始人, 前OpenAI首席科學(xué)家)
主持: Dwarkesh Patel
發(fā)布時(shí)間: 2025年12月
強(qiáng)烈推薦完整看一遍。這是今年必看的訪談之一。(我看了兩遍,第二遍才真正理解他說的價(jià)值函數(shù)那段)
你覺得現(xiàn)在的AI,離Ilya說的"15歲天才學(xué)生"還有多遠(yuǎn)?
歡迎評(píng)論區(qū)聊聊。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.