網易首頁 > 網易號 > 正文申請入駐

拒絕DeepSeek加入OpenAI，清華學霸-翁家翌的封神之路

2026-02-02 17:56:54　來源: 算法與數學之美

北京舉報

分享至

現在GPT-5的迭代日志正在OpenAI內部流轉，全球AI從業者都在猜下一代大模型能有什么技術突破。但大家大多把目光放在了算法創新上，很少有人留意那些不直接定義算法，卻能決定模型能不能持續變好的核心人物。

翁家翌就是這樣一位華人工程師，他的名字在OpenAI的技術致謝名單里反復出現，從ChatGPT-3.5到GPT-5的完整后訓練流程，他是極少數全程參與的華人，更是OpenAI強化學習和推理基礎設施的關鍵搭建者。

畢業時他放棄了DeepSeek、谷歌的offer，選擇加入當時還處于發展初期的OpenAI，這個決定不僅改變了他自己的職業方向，某種程度上也影響了全球AI行業的競爭格局。

少年筑基從奧數愛好者到編程大神

翁家翌的天賦最早是在數學上顯露出來的，他跟普通孩子不一樣，不只是被動接受知識，反而對邏輯推理有種天然的敏感，尤其喜歡鉆奧數難題。

他自己也說過，自己學東西不算快，但理解深度比同齡人深得多，這種特質讓他在數學學習里一直很突出。

初中的時候他就開始超前學，主動啃高中數學課程，初三就已經在深入研究微積分了。

他不是為了攀比成績，更像是在給未來鋪路，提前把底層邏輯摸透，后面學新東西的時候就能更輕松。這種對底層原理的執著，一直跟著他，也為后來做基礎設施搭建埋下了伏筆。

真正的轉折點是接觸編程之后，那時候信息學競賽還不是升學捷徑，他偶然接觸到編程，一下子就被這種用邏輯搭建世界的方式吸引了。

不像別人只是埋頭刷題，他更癡迷計算機系統的底層架構，這份鉆勁讓他很快在競賽圈站穩了腳跟。

他的競賽之路挺不容易的，中學時代沒有好的編程設備，就靠一臺普通iPad練代碼。那時候移動端編程環境特別差，沒有自動補全功能，沒有一鍵編譯的快捷鍵，連基礎的語法高亮都沒有，用iPad寫代碼簡直像苦行僧修行。

但這種被迫的離線練習，反而練出了他超強的人腦編譯能力。寫代碼之前，他得在腦子里把整個邏輯框架搭好，提前想到可能出現的語法錯誤和性能問題，久而久之就養成了落筆就定型的編程習慣，對效率也變得格外執著。

信息學競賽里，算法的時間復雜度是生死線，而常數優化就是高手之間的細微較量。為了讓程序快上十幾毫秒，他會反復研究內存對齊，琢磨CPU緩存命中率，這種對效率的極致追求，成了刻在他骨子里的工程基因。

憑著這份堅持，他在競賽里拿了不少好成績，2015年得了全國青少年信息學奧林匹克聯賽銅牌，還有亞太信息奧林匹克中國賽區銀牌，在福建競賽圈小有名氣。

雖然只是銅牌，但他展現出的工程能力已經被清華大學注意到，最后憑著60分的降分優惠，成功走進了這所全球頂尖學府之一。那時候的他大概也沒想到，當年在iPad上反復打磨的代碼習慣，多年后會用來支撐全球最頂尖的AI訓練系統。

清華淬煉，開源先鋒與強化學習初體驗

2016年翁家翌進入清華大學自動化系，后來憑著優異成績轉入計算機系，最后躋身姚班。姚班可是中國計算機天才的搖籃，里面的每個人都在為GPA、競賽獎項和科研機會拼盡全力，翁家翌卻走出了一條不一樣的路，他選擇用開源打破大家之間的信息壁壘。

那時候校園里還流行把筆記當成私有財產，翁家翌卻反其道而行之，把自己的課程作業、學習筆記、實驗報告，甚至踩過的技術坑，全都傳到了GitHub上。他覺得代碼的價值在于流動和復用，不是鎖在個人硬盤里發霉。

這份信息平權的想法，讓他在清華園里得了個慈善黑客的稱號，他的開源資料在學弟學妹之間廣泛流傳，幫很多人突破了學習瓶頸。

除了分享資料，他還帶著工程潔癖改造公共系統。當時清華大學的教務選課系統又慢又多漏洞，他實在看不下去，就自己寫腳本修復問題，用技術優化校園服務。

也是從這時候開始，他慢慢意識到，比起解決單個問題，搭建高效可復用的工具和系統，能創造更大的價值。

到了大二大三，翁家翌開始接觸深度學習和強化學習，加入了朱軍教授領導的TSAIL實驗室。朱軍教授團隊專注于不完全信息決策問題，這正好和他對系統優化的興趣契合，也給了他第一個施展工程能力的科研平臺。

在實驗室期間，他參與了ViZDoom AI比賽項目，這個項目基于游戲毀滅戰士開發，要求AI在復雜不確定的環境里完成決策任務，對強化學習算法的穩定性和效率要求都很高。

靠著扎實的工程能力和對算法的理解，他所在的團隊2017年第一次參賽就拿了亞軍，2018年更是成功奪冠，成為這個賽事中國賽區的首個冠軍隊伍。

這次奪冠讓他徹底看到了強化學習的潛力，也發現了當時行業的一個明顯痛點。那時候強化學習在學術界發展很快，但工程界的工具卻跟不上，主流的框架又大又笨重，過度封裝就像個黑盒子，研究員想改一行底層邏輯都要牽動全身。

這種算法領先工具落后的現狀，讓他萌生了自己做一款高效簡潔的強化學習框架的想法。

開源封神，天授框架

2020年春節疫情突然爆發，校園封鎖讓翁家翌有了充足的時間打磨想法。那個被隔離的寒假，他想著要做一把趁手的工具，就基于PyTorch重構了強化學習的訓練流程，天授框架就這樣誕生了。

天授這個名字取自史記，意思是能力來自天賦而非單純學習，剛好貼合強化學習靠與環境交互自主學習的核心。

和當時的主流框架比，天授的設計理念很不一樣，主打簡潔高效可擴展。他放棄了復雜的類繼承，用模塊化設計讓數據流清晰可查，以前要幾千行代碼才能實現的算法，在天授里幾百行就夠了，訓練速度還大幅提升。

天授有三個很突出的優勢，一是代碼足夠簡潔，整個框架才1500行左右，卻能支持多種主流強化學習算法，大大降低了研究員的學習和使用成本。二是訓練效率高，通過并行采樣優化和緩存設計，每秒能處理5000到6000幀數據，比同期其他框架快不少。

三是穩定性強，他創新性地把整個訓練過程納入單元測試，每次代碼迭代都不會影響算法穩定性，這在當時的強化學習框架里是獨一份的。

框架開源后很快就在GitHub上收獲了幾千星標，成了全球很多強化學習研究員的首選工具。

連圖靈獎得主Yoshua Bengio的實驗室都很認可，翁家翌也因此獲得了大三暑假去Bengio實驗室深造的機會，深入研究強化學習和自然語言處理的交叉領域。

這段經歷不僅讓他接觸到全球頂尖學術資源，更堅定了他用工程能力賦能科研的職業方向。

除了天授，翁家翌還有個很有溫度的開源項目Vaccine Hunter（退雪）。疫情期間，全球留學生都面臨簽證預約難的問題，美國大使館的名額緊張，系統還不穩定，很多人因為簽證據誤了學業。

他就用自己的爬蟲技術，做了一個實時監控美國簽證預約名額的網站。這個網站界面簡單但功能實用，能第一時間捕捉到名額釋放信息，還會推送通知幫留學生搶機會。

高峰期的時候，網站日訪問量突破百萬，累計服務了上千萬用戶，成了很多留學生的救命工具。

退雪項目讓翁家翌真切感受到技術落地的力量，代碼不只是能跑通測試用例，還能實實在在影響別人的生活。

他后來在訪談里也說，用代碼和工具幫別人，打破信息差，是他追求的人生意義之一。這份技術向善的想法，也成了他后來選擇工作的重要標準。

跨界沉淀，CMU思考與職業抉擇

2020年翁家翌從清華本科畢業，去了計算機科學的頂尖學府卡內基梅隆大學，攻讀計算數據科學碩士學位，方向是系統領域。這兩年的深造不只是為了拿個文憑，更多是他沉淀思考職業方向的關鍵時期。

疫情期間CMU的課程都是線上開展，這讓他有更多時間關注工業界的動態。那時候大模型的浪潮已經初顯苗頭，OpenAI、DeepMind這些機構都在加速推進大規模語言模型研發，學術界和工業界的研究模式差異越來越明顯。

翁家翌敏銳地察覺到，AI行業的競爭焦點正在從算法創新轉向工程落地能力，單純做學術研究已經跟不上工業界的迭代速度了。

基于這個判斷，他提出了一個大膽的觀點，要是想進工業界，讀博可能不是最優選擇。在他看來，博士階段的研究大多聚焦細分領域的理論突破，而工業界更需要能快速搭建系統、解決實際問題的工程人才。

所以在CMU期間，他把重心放在強化工程能力和拓展行業視野上，為進入工業界最前沿做好了準備。

2022年碩士畢業時，翁家翌收到的offer堪稱神仙打架，谷歌、英偉達、臉書AI研究院，還有幻方浩方也就是后來的DeepSeek，都向他伸出了橄欖枝。

其中幻方的offer很有吸引力，當時幻方正計劃組建AI實驗室，專注AI基礎設施研發，和他的技術方向高度匹配。

在很多人看來，選幻方是更穩妥的選擇，作為本土崛起的AI巨頭，幻方有充足的資金和算力支持，還能給他核心研發崗位和廣闊的成長空間。

翁家翌也認真考慮過這個選項，他坦言要是當時沒有更好的選擇，大概率會選幻方。但最后他還是拒絕了DeepSeek，選擇了OpenAI。

這個決定背后，是他對頂級研究方法論的追求。在他心里，OpenAI和DeepMind是當時AI領域最強的兩個實驗室，這里聚集了全球最頂尖的人才，還有一套成熟的工業級研究體系。

他想要的不是高薪，而是能親身感受世界最前沿的研究是如何系統性落地的機會。

和谷歌這些大廠比，OpenAI的非螺絲釘式工作模式更吸引他。他不想在大廠里做自己不感興趣的前后端工作，變成龐大系統里可有可無的一員。而OpenAI的扁平化架構，還有用工程能力驅動研究的文化，剛好契合他的職業追求。

另外，當時OpenAI正在全力推進強化學習人類反饋技術研發，這和他在天授框架里積累的經驗完美契合，能讓他把強化學習技術用到億級用戶的產品上。

面試時的一次智力較量，更讓他堅定了加入OpenAI的決心。

他的面試官是OpenAI聯合創始人，也是PPO算法的發明者John Schulman，算是現代強化學習領域的奠基人。

這場面試沒有考套路化的算法題，而是給了他一個開放性的全流程任務，John Schulman給了他三個小時，讓他從零開始寫一個完整系統。翁家翌只用了兩個小時就完成了開發，演示時出現的漏洞也當場修復，整個過程流暢又高效。

John Schulman對他的表現特別認可，后來也解釋過選擇他的原因，一是他GitHub倉庫里的代碼質量很高，邏輯清晰干凈，二是他相信有扎實系統工程能力的人才，能給任何研究項目帶來正向增益。

這次面試不僅讓他拿到了OpenAI的offer，還得到了行業泰斗的認可和指導。

OpenAI封神，基建鑄爐者的技術突圍

2022年7月，翁家翌正式加入OpenAI，成了當時團隊里第一個碩士應屆畢業生，也是最年輕的研發工程師之一。他順利加入了John Schulman領導的強化學習團隊，直接參與ChatGPT的后續研發。

那時候ChatGPT還沒發布，但OpenAI已經意識到強化學習人類反饋技術的核心價值，翁家翌帶來的強化學習和系統優化經驗，剛好填補了團隊的技術空白。

剛入職沒多久，他就展現出了驚人的工程能力。他不僅熟悉各種強化學習算法，還能從系統層面優化訓練流程，解決大規模分布式訓練中的性能瓶頸。

在ChatGPT 3.5的后訓練階段，他主導優化了強化學習人類反饋的訓練管線，大幅提升了模型的迭代速度和穩定性，為ChatGPT的成功發布打下了堅實基礎。

翁家翌對John Schulman充滿感激，他說John Schulman不僅給了他進入OpenAI的機會，還教會了他系統性做研究的方法。

John Schulman離職那天，他甚至關掉電腦難過了一下午，這份知遇之恩也讓他更加珍惜在OpenAI的工作機會，全身心投入到技術研發中。

OpenAI核心貢獻，鑄造大模型成長的奠基人

如果把預訓練比作讓模型讀完互聯網上所有書籍，那后訓練包括強化學習人類反饋和指令微調，就是教模型怎么像人一樣交流，遵守安全規則。

翁家翌主導搭建的后訓練基礎設施，就是連接這兩個階段的核心橋梁。他也是極少數全程參與ChatGPT 3.5、GPT-4、GPT-4V、GPT-4o、GPT4.5、GPT-5后訓練流程的工程師，OpenAI近三年來所有核心模型的研發，都有他的參與。

翁家翌核心貢獻主要集中在三個方面，首先是大規模分布式訓練系統的搭建。OpenAI訓練模型要調動成千上萬個GPU協同工作，任何一個節點出問題都可能導致整個訓練中斷。

通過優化節點通信協議，設計容錯機制，保證了訓練集群的穩定運行，大幅降低了訓練中斷的風險。他中學時養成的優化習慣在這里派上了大用場，靠著摳細節修漏洞，把GPU的利用率拉滿，為OpenAI節省了巨額的算力成本。

其次是多模態融合基礎設施的研發。隨著GPT-4V、GPT-4o這些多模態模型推出，OpenAI需要同時處理文本、音頻、視頻等多種數據的訓練。

翁家翌還帶領團隊重構了訓練管線，實現了不同模態數據的高效融合和協同訓練，解決了多模態數據處理中的延遲和一致性問題，為模型的多模態能力突破提供了技術支持。

最后是強化學習人類反饋訓練流程的迭代優化。這項技術直接決定模型能不能對齊人類價值觀，翁家翌通過優化獎勵模型訓練、策略迭代等核心環節，讓模型能更快學習人類反饋，同時提升了訓練過程的可解釋性和穩定性。

他搭建的強化學習基礎設施，成了OpenAI后續所有大模型迭代的核心支撐，也讓他成了團隊里不可或缺的技術核心。

翁家翌曾說過，模型公司本質上拼的是基礎設施修復漏洞的速度。在他看來，AI行業從來不缺想法，缺的是能快速驗證想法、把技術落地的工程能力。

每家公司的基礎設施都有漏洞，誰能更快修復優化，誰就能在模型迭代中搶占先機。

其實翁家翌的封神之路，不只是一個人的成長故事，更是一代中國青年工程師在全球化技術浪潮中突圍的縮影。他的經歷，給無數想進入AI行業的年輕人提供了寶貴的啟示。

扎實的底層能力永遠是核心競爭力。從少年時代的數學和編程積累，到清華期間打磨工程能力，翁家翌的每一步都在夯實基礎。現在AI行業迭代很快，算法和模型層出不窮，但底層的工程能力和邏輯思維，永遠是立足的根本。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

算法與數學之美

分享知識，交流思想

5340文章數 64601關注度

往期回顧全部

態度原創

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

手機

健康

游戲

藝術

公開課

白巖松談人口老齡化：社會要降低老年人門檻
為什么人類有不同的膚色？
中國最正宗的紋飾是什么？
李彥宏：百度離破產30天

手機 / 數碼

房產 / 家居

拒絕DeepSeek加入OpenAI，清華學霸-翁家翌的封神之路

微信給馬化騰澆了“一盆冷水”

伊朗被指將鈾庫存轉至俄羅斯 克宮首次回應

伊朗被指將鈾庫存轉至俄羅斯 克宮首次回應

哈登回應交易:不想讓自己拖累快船的未來

春晚主持人陣容曝光，5位都是老面孔

黃金，出現拐點

綜合續航1730km 5座中級電混SUV吉利銀河M7官圖發布

態度原創

蘋果Sports應用3.7更新：接入高爾夫賽事、升級交互體驗

耳石癥分類型，癥狀大不同

知名球星打《CS2》被封禁！對噴發布高度敏感言論

一百多年前的風俗畫，意大利畫家安東尼奧·羅塔

伊朗被指將鈾庫存轉至俄羅斯克宮首次回應

伊朗被指將鈾庫存轉至俄羅斯克宮首次回應