網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

ChatGPT本來(lái)要5天后關(guān)掉

2026-01-20 11:27:02　來(lái)源: AI進(jìn)化論花生

北京舉報(bào)

分享至

"發(fā)ChatGPT只是為了看看能不能收集一些真實(shí)的用戶(hù)數(shù)據(jù)。我們預(yù)期可能一開(kāi)始有1萬(wàn)2萬(wàn)用戶(hù)，然后慢慢跌回去，5天之后沒(méi)人了就關(guān)掉。"

這是翁家翌在一期播客里說(shuō)的。
他是誰(shuí)？從GPT-3.5、GPT-4、GPT-4o到GPT-5，每一個(gè)OpenAI大模型發(fā)布，貢獻(xiàn)者名單里都有他的名字。他在OpenAI內(nèi)部搭建了整個(gè)后訓(xùn)練階段的強(qiáng)化學(xué)習(xí)基礎(chǔ)設(shè)施——簡(jiǎn)單說(shuō)，就是讓GPT從"會(huì)說(shuō)話"變成"聰明好用"的那套系統(tǒng)。

2022年11月30日，ChatGPT上線。

結(jié)果不是慢慢跌回去，是指數(shù)增長(zhǎng)，服務(wù)器被打爆好幾次。

"我當(dāng)時(shí)在歐洲開(kāi)會(huì)，發(fā)現(xiàn)周?chē)腥硕荚谟懻揅hatGPT。"

但他自己一開(kāi)始并不覺(jué)得這東西有多厲害。

"我第一次用可能會(huì)覺(jué)得，哦，這是個(gè)會(huì)說(shuō)話的模型，也就這樣吧。用了幾次發(fā)現(xiàn)能幫我解決一點(diǎn)代碼問(wèn)題，但也不能幫我解決那么多。"

因?yàn)樗崆敖佑|了，有個(gè)循序漸進(jìn)的過(guò)程，所以不覺(jué)得它多突然。但對(duì)外面的人來(lái)說(shuō)，這是一個(gè)巨大的沖擊。

"這是我沒(méi)想到的。"

現(xiàn)在回頭看，ChatGPT的成功有很大的偶然性。如果當(dāng)時(shí)真的沒(méi)人用，可能就關(guān)掉了。

這期播客兩個(gè)多小時(shí)，我從頭看到尾。翁家翌講了很多OpenAI內(nèi)部的事情，有些挺顛覆認(rèn)知的。

GPT-4的強(qiáng)化學(xué)習(xí)是比GPT-3.5先調(diào)通的。

"3.5當(dāng)時(shí)用的是舊的基礎(chǔ)設(shè)施，新的是2022年8月剛好。我先在新的上面調(diào)通了第一版PPO，用的是GPT-4。"

所以技術(shù)時(shí)間線和產(chǎn)品發(fā)布時(shí)間線是兩回事。外面的人以為3.5先做出來(lái)，4是升級(jí)版。實(shí)際上后訓(xùn)練這塊，4先跑通的。

OpenAI的模型為什么比別人強(qiáng)？有什么黑魔法嗎？

"沒(méi)有黑魔法。每家的基礎(chǔ)設(shè)施都有不同程度的bug，誰(shuí)修bug越多，誰(shuí)的模型訓(xùn)得就越好。"

他甚至說(shuō)："算法連改都不用改，把bug全修了就很好。"

這話聽(tīng)起來(lái)有點(diǎn)反直覺(jué)。大家總覺(jué)得OpenAI一定有什么秘密武器，什么獨(dú)家算法。結(jié)果核心競(jìng)爭(zhēng)力是"修bug修得多"。

怎么知道訓(xùn)出來(lái)的模型是好的？有什么客觀指標(biāo)嗎？

"沒(méi)有。最后就是你真的拉下來(lái)看一看，跟它交互幾次，多找?guī)讉€(gè)人來(lái)投票。"

就這么樸素。

2024年，DeepSeek崛起，OpenAI內(nèi)部緊張了一波。

但緊張的原因不是很多人以為的"榜單被超了"。

"我們很長(zhǎng)時(shí)間以來(lái)都沒(méi)有為了刷榜做什么事情。我們真正在意的是迭代速度。DeepSeek聲稱(chēng)他們的迭代速度非常快，這個(gè)引起了很多人的警覺(jué)。"

在這個(gè)行業(yè)，迭代速度就是生死線。單位時(shí)間內(nèi)能跑多少次實(shí)驗(yàn)、能驗(yàn)證多少個(gè)idea，決定了你能走多遠(yuǎn)。

"內(nèi)部的迭代速度其實(shí)相比于一些小團(tuán)隊(duì)是有點(diǎn)慢的。組織大了就是這樣。"

OpenAI從翁家翌入職時(shí)的280人，漲到了現(xiàn)在的3000多人。組織大了，context sharing就難了，代碼庫(kù)開(kāi)始臃腫，迭代速度自然會(huì)掉下來(lái)。

他還提到一個(gè)細(xì)節(jié)：DeepSeek出來(lái)之后，John Schulman（OpenAI聯(lián)合創(chuàng)始人，PPO算法發(fā)明者）問(wèn)過(guò)他，要不要把強(qiáng)化學(xué)習(xí)的基礎(chǔ)設(shè)施開(kāi)源。

"我當(dāng)時(shí)覺(jué)得不太好吧，為了公司的考量。但他確實(shí)問(wèn)了我這個(gè)事。"

那這個(gè)人是怎么進(jìn)OpenAI的？

說(shuō)出來(lái)可能會(huì)讓一些人感到安慰：他不是傳統(tǒng)意義上的天才。

NOI（全國(guó)信息學(xué)奧林匹克競(jìng)賽）拿的是銅牌，福建省隊(duì)倒數(shù)第一，其他人全是銀牌以上。高考面臨兩個(gè)選擇：簽上海交大本一線錄取，穩(wěn)了；或者簽清華降60分，但萬(wàn)一發(fā)揮失常呢？

他選了清華。

"當(dāng)時(shí)對(duì)這種不確定性非常害怕，但想了想，我應(yīng)該也沒(méi)那么差吧。"

后來(lái)申請(qǐng)美國(guó)讀博，圖靈獎(jiǎng)得主Yoshua Bengio的推薦信，結(jié)果PhD全拒，只拿到CMU的碩士。

"當(dāng)時(shí)還是有點(diǎn)失望的。整個(gè)清華內(nèi)部的氛圍就是PhD比master好，這個(gè)鄙視鏈你身在其中很難擺脫。"

但他很快想通了。

"如果你想進(jìn)工業(yè)界，那讀PhD就是浪費(fèi)生命。"

他有一套自己的評(píng)價(jià)體系。

導(dǎo)師跟他說(shuō)過(guò)：計(jì)算機(jī)系的評(píng)價(jià)標(biāo)準(zhǔn)有三個(gè)——論文、比賽、GitHub star三位數(shù)以上。

"這給了我一個(gè)完全不一樣的想法。我可以在開(kāi)源社區(qū)搞一些事情，讓自己跟別人不一樣。而不是花很多時(shí)間去刷GPA。"

GPA他怎么處理的？

"最低限度投入。算一下期末考之前已經(jīng)多少分了，夠用就行，多一分都不想花時(shí)間。"

他在清華干了一件讓學(xué)長(zhǎng)學(xué)姐不太高興的事：把自己收集到的所有作業(yè)、資料、上古材料，全部在GitHub上開(kāi)源了。

"你現(xiàn)在隨便抓個(gè)計(jì)算機(jī)系的學(xué)弟問(wèn)，認(rèn)不認(rèn)識(shí)翁家翌，應(yīng)該認(rèn)識(shí)。因?yàn)榇蠹叶伎次业淖鳂I(yè)活的。"

為什么要這么做？

"我覺(jué)得應(yīng)該打破信息差。信息差在清華是個(gè)很有用的東西，但我覺(jué)得每個(gè)人都應(yīng)該平等地?fù)碛羞@個(gè)信息。"

大二他進(jìn)了朱軍老師的實(shí)驗(yàn)室做強(qiáng)化學(xué)習(xí)。第一個(gè)項(xiàng)目是用神經(jīng)網(wǎng)絡(luò)通關(guān)一個(gè)90年代的射擊游戲Doom，拿了比賽冠軍。

但他不享受做研究的過(guò)程。

"環(huán)境太單一了，你要瘋狂overfit。用各種技巧防止訓(xùn)練崩了，即使沒(méi)崩你也不知道怎么調(diào)參才能調(diào)對(duì)。這個(gè)比CV難十倍一百倍，全是玄學(xué)。"

他發(fā)現(xiàn)自己對(duì)調(diào)參這件事有生理上的排斥。但他擅長(zhǎng)另一件事：寫(xiě)代碼、重構(gòu)代碼、讓代碼更好用。

"我就想，與其自己去卷這些調(diào)參的事，不如造一套工具，讓想卷的人更方便地卷。"

2020年疫情期間，他在家花兩周時(shí)間寫(xiě)了一個(gè)開(kāi)源的強(qiáng)化學(xué)習(xí)框架叫天授（Tianshou）。

為什么只要兩周？

"如果你把抽象搞對(duì)的話，一個(gè)算法可能就20行代碼不到。"

他看過(guò)當(dāng)時(shí)最流行的RLlib，幾十萬(wàn)行代碼，太復(fù)雜了。所以他推倒重來(lái)，自己從頭寫(xiě)。

"代碼最重要的是一致性。如果從頭到尾都是一個(gè)人寫(xiě)的，那肯定是一致的。"

同期他還做了一個(gè)簽證查詢(xún)網(wǎng)站叫退學(xué)online。疫情期間美國(guó)領(lǐng)事館開(kāi)開(kāi)關(guān)關(guān)，留學(xué)生需要實(shí)時(shí)知道哪里能約到簽證。他自己有這個(gè)需求，就順手寫(xiě)了個(gè)爬蟲(chóng)開(kāi)源出去。后來(lái)點(diǎn)擊量超過(guò)1000萬(wàn)。

這兩個(gè)項(xiàng)目都不是為了發(fā)論文、不是為了申請(qǐng)。

"我想做一些能夠產(chǎn)生影響力的事情，哪怕虧錢(qián)也行。"

2022年找工作的時(shí)候，他手上有幾個(gè)offer：幻方（后來(lái)的DeepSeek）、OpenAI、英偉達(dá)。

他選了OpenAI。當(dāng)時(shí)ChatGPT還沒(méi)發(fā)布，OpenAI在很多人眼里只是一個(gè)做強(qiáng)化學(xué)習(xí)研究的實(shí)驗(yàn)室。

面試他的是John Schulman。

"他說(shuō)我的GitHub非常漂亮。"

最后一輪面試，Schulman出了一道很開(kāi)放的題，給三個(gè)小時(shí)。翁家翌兩個(gè)小時(shí)就做完了。

"這道題他只給兩個(gè)人測(cè)過(guò)，一個(gè)是我，另一個(gè)是后來(lái)做Codex的那個(gè)人。我們都通過(guò)了。"

他后來(lái)總結(jié)了一句話：

"教一個(gè)researcher如何做好engineering，要遠(yuǎn)比教一個(gè)engineer如何做好research來(lái)的難。"

現(xiàn)在的AI行業(yè)，idea不值錢(qián)。值錢(qián)的是單位時(shí)間內(nèi)你能驗(yàn)證多少個(gè)idea、能正確地迭代多少次。這取決于工程能力。

"你找個(gè)有研究直覺(jué)的人討論一下，idea就出來(lái)了。但你能不能把基礎(chǔ)設(shè)施搭對(duì)、能不能快速迭代，這個(gè)是稀缺的。"

播客里還聊到一個(gè)問(wèn)題：OpenAI做的東西，外面的人能復(fù)刻嗎？

"你可以這么認(rèn)為。其實(shí)就是把最簡(jiǎn)單的東西做好就好了，沒(méi)有什么黑魔法。"

他甚至說(shuō)：OpenAI現(xiàn)在沒(méi)有誰(shuí)是不可替代的。

"一個(gè)健康的組織是所有人都可以替代的。你只要能夠持續(xù)培養(yǎng)新人，有造血能力，讓組織正常運(yùn)轉(zhuǎn)就可以了。"

走了很多人？沒(méi)關(guān)系，可以再培養(yǎng)。

"哪怕雖然走了很多人，但是還是可以花一些時(shí)間精力，然后再培養(yǎng)一波新人，持續(xù)的造血，相當(dāng)于干細(xì)胞一樣。"

訪談最后，主持人問(wèn)他怎么定義AGI。

"OpenAI內(nèi)部有個(gè)笑話，你抓15個(gè)人，可能有20種定義AGI的方法。"

他自己的定義是：如果能完成80-90%他認(rèn)為有意義的任務(wù)，那就是AGI了。

"目前還沒(méi)有。我還是不放心讓它直接改我的代碼。"

但他很確定AGI會(huì)來(lái)。

"AGI是板上釘釘?shù)氖铝恕?

他還講了一個(gè)內(nèi)部故事：o1模型剛出來(lái)的時(shí)候，內(nèi)部很多人都覺(jué)得"我的工作要被取代了"。

"我們甚至想說(shuō)，那就寫(xiě)一堆屎山吧，反正以后AI會(huì)幫我們清理。"

結(jié)果呢？

"一兩年過(guò)去了，屎山還在。每個(gè)人都會(huì)過(guò)度反應(yīng)，覺(jué)得技術(shù)來(lái)了我們要怎么怎么樣，但實(shí)際上它是一個(gè)很慢很慢的循序漸進(jìn)的過(guò)程。"

主持人最后讓他留一段話。

他說(shuō)：

"我曾經(jīng)想通了我想要什么，但現(xiàn)在又想不通了。這個(gè)問(wèn)題值得一生去思考。"

一個(gè)95后，站在AI風(fēng)暴的中心，相信AGI即將到來(lái)，但說(shuō)自己"又想不通了"。

這可能是最真實(shí)的狀態(tài)。

視頻來(lái)源：WhynotTV Podcast

B站：https://www.bilibili.com/video/BV1darmBcE4A/

YouTube：https://www.youtube.com/watch?v=I0DrcsDf3Os

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.