![]()
新智元報(bào)道
編輯:Aeneas
【新智元導(dǎo)讀】他沒博士、沒論文,卻靠公開改進(jìn)論文和跑基準(zhǔn)測(cè)試,直接打動(dòng)大佬、入職OpenAI!Noam Brown親證:行動(dòng)力和開源項(xiàng)目,才是逆襲頂級(jí)AI實(shí)驗(yàn)室的真正通行證。
就在今天,OpenAI傳奇研究員 、德?lián)銩I之父Noam Brown的一篇文章被刷屏了。
沒有博士學(xué)位,沒有研究背景,是否有可能在頂尖AI實(shí)驗(yàn)室找到工作?
這聽起來像天方夜譚,但這個(gè)世界上奇妙的地方就在于,這樣的例子還真不少。
比如,一個(gè)叫Keller Jordan的小哥,僅僅憑借一篇開源博客,就成功入職OpenAI,成為一名機(jī)器學(xué)習(xí)研究員!
![]()
是的,他沒有寫論文,而是將完整的研究過程、代碼和實(shí)驗(yàn)結(jié)果在GitHub上完全開源。
最后Noam Brown總結(jié)道:雖然如今開放研究的空間比以前小了,但是在已有論文的基礎(chǔ)上做改進(jìn),依然是一個(gè)向?qū)嶒?yàn)室研究員證明自己能力的絕佳方式!
![]()
這種做法,也會(huì)讓對(duì)方更有信心,為你爭(zhēng)取到一次面試機(jī)會(huì)。
從AI審核做起,走向人生巔峰
2020年,Keller畢業(yè)于UCSD,獲得數(shù)學(xué)和計(jì)算機(jī)的雙學(xué)士學(xué)位。
畢業(yè)時(shí),他從未發(fā)表過任何一篇論文。
第一份工作, 是在一家人工智能內(nèi)容審核初創(chuàng)公司。
![]()
有一天,他看到谷歌研究大牛Behnam最近發(fā)表的一篇論文,想到了一個(gè)改進(jìn)思路,于是給Behnam發(fā)了一封郵件。
Behnam看到郵件后,同意指導(dǎo)這個(gè)年輕人。在沒有人脈、沒有背景的情況下,小哥就這樣和大佬搭上了線。
更神奇的來了,這段合作,最終促成了一篇ICLR論文。
再后來,Keller的一項(xiàng)表現(xiàn)亮眼的工作「NanoGPT speed run」,直接改變了全新的研究范式,這不僅讓特斯拉AI負(fù)責(zé)人Karpathy稱贊不已,還引起了OpenAI的注意。
這不是一篇傳統(tǒng)意義上的論文,卻成為Keller命運(yùn)的轉(zhuǎn)折點(diǎn)。
因?yàn)樗械墓ぷ鞫加型暾涗洠页晒闪炕⑦M(jìn)展清晰,所以,OpenAI毫不猶豫地向他伸出了橄欖枝。
讓Karpathy直呼「干得漂亮」
NanoGPT是Karpathy開源的一個(gè)項(xiàng)目,是一個(gè)極簡(jiǎn)的輕量級(jí)GPT訓(xùn)練和微調(diào)框架。
而Keller喜歡干的一件事,就是不斷刷新NanoGPT的訓(xùn)練速度。為此,他不斷嘗試新的方法。
在2024年10月,他跑出了一個(gè)成果,將訓(xùn)練Transformer模型的token效率提高了3.8倍!
![]()
這也讓他直接贏得Karpathy的盛贊。
NanoGPT speedrun的目標(biāo)聽起來非常簡(jiǎn)單:在固定模型規(guī)模(124M Transformer)和固定驗(yàn)證集損失目標(biāo)(3.28 val loss)的前提下,用盡可能少的token、盡可能短的時(shí)間完成訓(xùn)練。
Keller所做的,就是基于Karpathy的nanoGPT/llm.c PyTorch訓(xùn)練代碼,將其改造為一個(gè)可復(fù)現(xiàn)、可量化、可對(duì)比的基準(zhǔn)。
最終,他讓Token效率提升了3.8倍,而且從原本約10B tokens降低到2.7B tokens,即可達(dá)到目標(biāo)loss。
![]()
這意味著,這個(gè)改進(jìn)可以被嚴(yán)格驗(yàn)證,是一個(gè)硬指標(biāo)。
讓實(shí)驗(yàn)便宜到「人人能參與」
而且,Keller還非常有獨(dú)創(chuàng)性。
與很多動(dòng)輒需要數(shù)十萬、上百萬算力成本的訓(xùn)練不同,他在設(shè)計(jì)這個(gè)speedrun時(shí),有一個(gè)非常明確的原則:讓嘗試新想法的成本足夠低。
為此,他刻意做了幾件事,比如讓代碼壓縮到極簡(jiǎn),只有537行;在8×H100的全新環(huán)境下,讓安裝和運(yùn)行的時(shí)間僅為20分鐘;甚至單次的嘗試成本,低至8美元。
即使在今天的AI研究環(huán)境中,這也是一個(gè)極其罕見的設(shè)計(jì)選擇。
這就意味著,從此不是只有大實(shí)驗(yàn)室才能參與,所有個(gè)人研究者、學(xué)生、獨(dú)立工程師都能快速驗(yàn)證想法,創(chuàng)新不會(huì)再被算力門檻擋住。
被OpenAI注意到
就這樣,NanoGPT speedrun成為了Keller逆襲之路上的關(guān)鍵一環(huán)。
一切都表明,這個(gè)成果非常硬:代碼、日志、實(shí)驗(yàn)都完全可復(fù)現(xiàn);在指標(biāo)上,完全無法作弊;甚至,還有開發(fā)社區(qū)的真實(shí)參與。
甚至連驗(yàn)證方式都被設(shè)計(jì)得極其嚴(yán)謹(jǐn):每一次speedrun的log文件中,都會(huì)包含完整代碼副本。
任何人想復(fù)現(xiàn)一個(gè)新紀(jì)錄,只需調(diào)用log文件即可。
Muon橫空出世
而接下來,整件事情發(fā)展到了高潮。
在2024年底,他設(shè)計(jì)的神經(jīng)網(wǎng)絡(luò)隱藏層的優(yōu)化器Muon橫空出世,直接憑卓越性能刷新了NanoGPT和CIFAR-10訓(xùn)練速度的世界紀(jì)錄!
![]()
Muon,是一種為神經(jīng)網(wǎng)絡(luò)2D參數(shù)隱藏層設(shè)計(jì)的優(yōu)化器。它的核心思想是,SGD-動(dòng)量法(SGD-momentum)生成的更新矩陣,通過Newton-Schulz迭代進(jìn)行正交化處理,生成接近于半正交矩陣的更新,從而提升訓(xùn)練效率。
它的實(shí)現(xiàn)簡(jiǎn)單高效,支持在bf16精度下穩(wěn)定運(yùn)行,顯著降低了計(jì)算開銷。
![]()
比起AdamW優(yōu)化器,Muon在多個(gè)任務(wù)中,表現(xiàn)非常驚艷。
雖然AdamW能讓GPT、LLaMA、Qwen學(xué)得又穩(wěn)又快,但隨著模型參數(shù)從幾億增加到幾千億,訓(xùn)練時(shí)間從幾天變成幾周甚至幾個(gè)月,AdamW的局限性開始顯現(xiàn)。
雖然還未成為主流通用優(yōu)化器,但Muon的出現(xiàn)表明,它很可能是AI模型訓(xùn)練領(lǐng)域的一次重大基礎(chǔ)創(chuàng)新。
入職OpenAI
Muon在開發(fā)者社區(qū)的影響力越來越大,也就在同時(shí),Keller于2024年12月,正式加入OpenAI。
![]()
有趣的是,Keller在2月份表示,雖然Muon火了,也幫他進(jìn)入了OpenAI,但是他不會(huì)給Muon寫一篇論文。
在他看來,與其在arXiv發(fā)一篇大概率被「淹沒」的論文,還不如繼續(xù)老老實(shí)實(shí)地研究自己的優(yōu)化器。
畢竟在他看來,大多數(shù)優(yōu)化器論文都是虛假的水文。
![]()
這些人,都成功逆襲大公司
此外,Noam Brown還列舉了其他成功的案例。
比如被谷歌DeepMind發(fā)掘的Sholto Douglas。
![]()
他在X上十分低調(diào),從未以一作身份發(fā)表過任何引人注目的論文,入行時(shí)間也只有一年半,然而,他卻是Gemini成功的背后關(guān)鍵人物。
![]()
還在麥肯錫工作時(shí),Sholto就逐漸確信AI會(huì)迎來爆發(fā),于是開始在業(yè)余時(shí)間做自己的項(xiàng)目,還在Jax的GitHub上提出不少有洞見的問題。
這些表現(xiàn)打動(dòng)了James Bradbury,最終被邀請(qǐng)到谷歌DeepMind去面試。
Andy Jones是一位半退休的量化分析師,在測(cè)試時(shí)計(jì)算還沒火起來之前,他就寫了一篇論文,畢竟了比較了擴(kuò)大預(yù)訓(xùn)練規(guī)模和擴(kuò)大測(cè)試時(shí)計(jì)算量的影響。
![]()
這篇論文讓人印象極其深刻,并是因?yàn)樗⑿铝四硞€(gè)基準(zhǔn),而是做出了非常聰明的設(shè)計(jì)選擇,自己編寫了GPU加速的環(huán)境,并且進(jìn)行了嚴(yán)謹(jǐn)細(xì)致的消融實(shí)驗(yàn)。
最終,Andy Jones入職Anthropic。
![]()
參考資料:
https://x.com/polynoamial/status/2014084431062114744
https://x.com/polynoamial/status/2014084432685326485
https://x.com/polynoamial/status/2014084509575291163
![]()
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.