"發(fā)ChatGPT只是為了看看能不能收集一些真實(shí)的用戶數(shù)據(jù)。我們預(yù)期可能一開始有1萬2萬用戶,然后慢慢跌回去,5天之后沒人了就關(guān)掉。"
這是翁家翌在一期播客里說的。![]()
他是誰?從GPT-3.5、GPT-4、GPT-4o到GPT-5,每一個(gè)OpenAI大模型發(fā)布,貢獻(xiàn)者名單里都有他的名字。他在OpenAI內(nèi)部搭建了整個(gè)后訓(xùn)練階段的強(qiáng)化學(xué)習(xí)基礎(chǔ)設(shè)施——簡(jiǎn)單說,就是讓GPT從"會(huì)說話"變成"聰明好用"的那套系統(tǒng)。
2022年11月30日,ChatGPT上線。
結(jié)果不是慢慢跌回去,是指數(shù)增長(zhǎng),服務(wù)器被打爆好幾次。
"我當(dāng)時(shí)在歐洲開會(huì),發(fā)現(xiàn)周圍所有人都在討論ChatGPT。"
但他自己一開始并不覺得這東西有多厲害。
"我第一次用可能會(huì)覺得,哦,這是個(gè)會(huì)說話的模型,也就這樣吧。用了幾次發(fā)現(xiàn)能幫我解決一點(diǎn)代碼問題,但也不能幫我解決那么多。"
因?yàn)樗崆敖佑|了,有個(gè)循序漸進(jìn)的過程,所以不覺得它多突然。但對(duì)外面的人來說,這是一個(gè)巨大的沖擊。
"這是我沒想到的。"
現(xiàn)在回頭看,ChatGPT的成功有很大的偶然性。如果當(dāng)時(shí)真的沒人用,可能就關(guān)掉了。
這期播客兩個(gè)多小時(shí),我從頭看到尾。翁家翌講了很多OpenAI內(nèi)部的事情,有些挺顛覆認(rèn)知的。
GPT-4的強(qiáng)化學(xué)習(xí)是比GPT-3.5先調(diào)通的。
"3.5當(dāng)時(shí)用的是舊的基礎(chǔ)設(shè)施,新的是2022年8月剛好。我先在新的上面調(diào)通了第一版PPO,用的是GPT-4。"
所以技術(shù)時(shí)間線和產(chǎn)品發(fā)布時(shí)間線是兩回事。外面的人以為3.5先做出來,4是升級(jí)版。實(shí)際上后訓(xùn)練這塊,4先跑通的。
OpenAI的模型為什么比別人強(qiáng)?有什么黑魔法嗎?
"沒有黑魔法。每家的基礎(chǔ)設(shè)施都有不同程度的bug,誰修bug越多,誰的模型訓(xùn)得就越好。"
他甚至說:"算法連改都不用改,把bug全修了就很好。"
這話聽起來有點(diǎn)反直覺。大家總覺得OpenAI一定有什么秘密武器,什么獨(dú)家算法。結(jié)果核心競(jìng)爭(zhēng)力是"修bug修得多"。
怎么知道訓(xùn)出來的模型是好的?有什么客觀指標(biāo)嗎?
"沒有。最后就是你真的拉下來看一看,跟它交互幾次,多找?guī)讉€(gè)人來投票。"
就這么樸素。
2024年,DeepSeek崛起,OpenAI內(nèi)部緊張了一波。
但緊張的原因不是很多人以為的"榜單被超了"。
"我們很長(zhǎng)時(shí)間以來都沒有為了刷榜做什么事情。我們真正在意的是迭代速度。DeepSeek聲稱他們的迭代速度非常快,這個(gè)引起了很多人的警覺。"
在這個(gè)行業(yè),迭代速度就是生死線。單位時(shí)間內(nèi)能跑多少次實(shí)驗(yàn)、能驗(yàn)證多少個(gè)idea,決定了你能走多遠(yuǎn)。
"內(nèi)部的迭代速度其實(shí)相比于一些小團(tuán)隊(duì)是有點(diǎn)慢的。組織大了就是這樣。"
OpenAI從翁家翌入職時(shí)的280人,漲到了現(xiàn)在的3000多人。組織大了,context sharing就難了,代碼庫(kù)開始臃腫,迭代速度自然會(huì)掉下來。
他還提到一個(gè)細(xì)節(jié):DeepSeek出來之后,John Schulman(OpenAI聯(lián)合創(chuàng)始人,PPO算法發(fā)明者)問過他,要不要把強(qiáng)化學(xué)習(xí)的基礎(chǔ)設(shè)施開源。
"我當(dāng)時(shí)覺得不太好吧,為了公司的考量。但他確實(shí)問了我這個(gè)事。"
那這個(gè)人是怎么進(jìn)OpenAI的?
說出來可能會(huì)讓一些人感到安慰:他不是傳統(tǒng)意義上的天才。
NOI(全國(guó)信息學(xué)奧林匹克競(jìng)賽)拿的是銅牌,福建省隊(duì)倒數(shù)第一,其他人全是銀牌以上。高考面臨兩個(gè)選擇:簽上海交大本一線錄取,穩(wěn)了;或者簽清華降60分,但萬一發(fā)揮失常呢?
他選了清華。
"當(dāng)時(shí)對(duì)這種不確定性非常害怕,但想了想,我應(yīng)該也沒那么差吧。"
后來申請(qǐng)美國(guó)讀博,圖靈獎(jiǎng)得主Yoshua Bengio的推薦信,結(jié)果PhD全拒,只拿到CMU的碩士。
"當(dāng)時(shí)還是有點(diǎn)失望的。整個(gè)清華內(nèi)部的氛圍就是PhD比master好,這個(gè)鄙視鏈你身在其中很難擺脫。"
但他很快想通了。
"如果你想進(jìn)工業(yè)界,那讀PhD就是浪費(fèi)生命。"
他有一套自己的評(píng)價(jià)體系。
導(dǎo)師跟他說過:計(jì)算機(jī)系的評(píng)價(jià)標(biāo)準(zhǔn)有三個(gè)——論文、比賽、GitHub star三位數(shù)以上。
"這給了我一個(gè)完全不一樣的想法。我可以在開源社區(qū)搞一些事情,讓自己跟別人不一樣。而不是花很多時(shí)間去刷GPA。"
GPA他怎么處理的?
"最低限度投入。算一下期末考之前已經(jīng)多少分了,夠用就行,多一分都不想花時(shí)間。"
他在清華干了一件讓學(xué)長(zhǎng)學(xué)姐不太高興的事:把自己收集到的所有作業(yè)、資料、上古材料,全部在GitHub上開源了。
"你現(xiàn)在隨便抓個(gè)計(jì)算機(jī)系的學(xué)弟問,認(rèn)不認(rèn)識(shí)翁家翌,應(yīng)該認(rèn)識(shí)。因?yàn)榇蠹叶伎次业淖鳂I(yè)活的。"
為什么要這么做?
"我覺得應(yīng)該打破信息差。信息差在清華是個(gè)很有用的東西,但我覺得每個(gè)人都應(yīng)該平等地?fù)碛羞@個(gè)信息。"
大二他進(jìn)了朱軍老師的實(shí)驗(yàn)室做強(qiáng)化學(xué)習(xí)。第一個(gè)項(xiàng)目是用神經(jīng)網(wǎng)絡(luò)通關(guān)一個(gè)90年代的射擊游戲Doom,拿了比賽冠軍。
但他不享受做研究的過程。
"環(huán)境太單一了,你要瘋狂overfit。用各種技巧防止訓(xùn)練崩了,即使沒崩你也不知道怎么調(diào)參才能調(diào)對(duì)。這個(gè)比CV難十倍一百倍,全是玄學(xué)。"
他發(fā)現(xiàn)自己對(duì)調(diào)參這件事有生理上的排斥。但他擅長(zhǎng)另一件事:寫代碼、重構(gòu)代碼、讓代碼更好用。
"我就想,與其自己去卷這些調(diào)參的事,不如造一套工具,讓想卷的人更方便地卷。"
2020年疫情期間,他在家花兩周時(shí)間寫了一個(gè)開源的強(qiáng)化學(xué)習(xí)框架叫天授(Tianshou)。
為什么只要兩周?
"如果你把抽象搞對(duì)的話,一個(gè)算法可能就20行代碼不到。"
他看過當(dāng)時(shí)最流行的RLlib,幾十萬行代碼,太復(fù)雜了。所以他推倒重來,自己從頭寫。
"代碼最重要的是一致性。如果從頭到尾都是一個(gè)人寫的,那肯定是一致的。"
同期他還做了一個(gè)簽證查詢網(wǎng)站叫退學(xué)online。疫情期間美國(guó)領(lǐng)事館開開關(guān)關(guān),留學(xué)生需要實(shí)時(shí)知道哪里能約到簽證。他自己有這個(gè)需求,就順手寫了個(gè)爬蟲開源出去。后來點(diǎn)擊量超過1000萬。
這兩個(gè)項(xiàng)目都不是為了發(fā)論文、不是為了申請(qǐng)。
"我想做一些能夠產(chǎn)生影響力的事情,哪怕虧錢也行。"
2022年找工作的時(shí)候,他手上有幾個(gè)offer:幻方(后來的DeepSeek)、OpenAI、英偉達(dá)。
他選了OpenAI。當(dāng)時(shí)ChatGPT還沒發(fā)布,OpenAI在很多人眼里只是一個(gè)做強(qiáng)化學(xué)習(xí)研究的實(shí)驗(yàn)室。
面試他的是John Schulman。
"他說我的GitHub非常漂亮。"
最后一輪面試,Schulman出了一道很開放的題,給三個(gè)小時(shí)。翁家翌兩個(gè)小時(shí)就做完了。
"這道題他只給兩個(gè)人測(cè)過,一個(gè)是我,另一個(gè)是后來做Codex的那個(gè)人。我們都通過了。"
他后來總結(jié)了一句話:
"教一個(gè)researcher如何做好engineering,要遠(yuǎn)比教一個(gè)engineer如何做好research來的難。"
現(xiàn)在的AI行業(yè),idea不值錢。值錢的是單位時(shí)間內(nèi)你能驗(yàn)證多少個(gè)idea、能正確地迭代多少次。這取決于工程能力。
"你找個(gè)有研究直覺的人討論一下,idea就出來了。但你能不能把基礎(chǔ)設(shè)施搭對(duì)、能不能快速迭代,這個(gè)是稀缺的。"
播客里還聊到一個(gè)問題:OpenAI做的東西,外面的人能復(fù)刻嗎?
"你可以這么認(rèn)為。其實(shí)就是把最簡(jiǎn)單的東西做好就好了,沒有什么黑魔法。"
他甚至說:OpenAI現(xiàn)在沒有誰是不可替代的。
"一個(gè)健康的組織是所有人都可以替代的。你只要能夠持續(xù)培養(yǎng)新人,有造血能力,讓組織正常運(yùn)轉(zhuǎn)就可以了。"
走了很多人?沒關(guān)系,可以再培養(yǎng)。
"哪怕雖然走了很多人,但是還是可以花一些時(shí)間精力,然后再培養(yǎng)一波新人,持續(xù)的造血,相當(dāng)于干細(xì)胞一樣。"
訪談最后,主持人問他怎么定義AGI。
"OpenAI內(nèi)部有個(gè)笑話,你抓15個(gè)人,可能有20種定義AGI的方法。"
他自己的定義是:如果能完成80-90%他認(rèn)為有意義的任務(wù),那就是AGI了。
"目前還沒有。我還是不放心讓它直接改我的代碼。"
但他很確定AGI會(huì)來。
"AGI是板上釘釘?shù)氖铝恕?
他還講了一個(gè)內(nèi)部故事:o1模型剛出來的時(shí)候,內(nèi)部很多人都覺得"我的工作要被取代了"。
"我們甚至想說,那就寫一堆屎山吧,反正以后AI會(huì)幫我們清理。"
結(jié)果呢?
"一兩年過去了,屎山還在。每個(gè)人都會(huì)過度反應(yīng),覺得技術(shù)來了我們要怎么怎么樣,但實(shí)際上它是一個(gè)很慢很慢的循序漸進(jìn)的過程。"
主持人最后讓他留一段話。
他說:
"我曾經(jīng)想通了我想要什么,但現(xiàn)在又想不通了。這個(gè)問題值得一生去思考。"
一個(gè)95后,站在AI風(fēng)暴的中心,相信AGI即將到來,但說自己"又想不通了"。
這可能是最真實(shí)的狀態(tài)。
視頻來源:WhynotTV Podcast
B站:https://www.bilibili.com/video/BV1darmBcE4A/
YouTube:https://www.youtube.com/watch?v=I0DrcsDf3Os
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.