現在GPT-5的迭代日志正在OpenAI內部流轉,全球AI從業者都在猜下一代大模型能有什么技術突破。但大家大多把目光放在了算法創新上,很少有人留意那些不直接定義算法,卻能決定模型能不能持續變好的核心人物。
翁家翌就是這樣一位華人工程師,他的名字在OpenAI的技術致謝名單里反復出現,從ChatGPT-3.5到GPT-5的完整后訓練流程,他是極少數全程參與的華人,更是OpenAI強化學習和推理基礎設施的關鍵搭建者。
畢業時他放棄了DeepSeek、谷歌的offer,選擇加入當時還處于發展初期的OpenAI,這個決定不僅改變了他自己的職業方向,某種程度上也影響了全球AI行業的競爭格局。
少年筑基 從奧數愛好者到編程大神
翁家翌的天賦最早是在數學上顯露出來的,他跟普通孩子不一樣,不只是被動接受知識,反而對邏輯推理有種天然的敏感,尤其喜歡鉆奧數難題。
他自己也說過,自己學東西不算快,但理解深度比同齡人深得多,這種特質讓他在數學學習里一直很突出。
初中的時候他就開始超前學,主動啃高中數學課程,初三就已經在深入研究微積分了。
他不是為了攀比成績,更像是在給未來鋪路,提前把底層邏輯摸透,后面學新東西的時候就能更輕松。這種對底層原理的執著,一直跟著他,也為后來做基礎設施搭建埋下了伏筆。
真正的轉折點是接觸編程之后,那時候信息學競賽還不是升學捷徑,他偶然接觸到編程,一下子就被這種用邏輯搭建世界的方式吸引了。
不像別人只是埋頭刷題,他更癡迷計算機系統的底層架構,這份鉆勁讓他很快在競賽圈站穩了腳跟。
![]()
他的競賽之路挺不容易的,中學時代沒有好的編程設備,就靠一臺普通iPad練代碼。那時候移動端編程環境特別差,沒有自動補全功能,沒有一鍵編譯的快捷鍵,連基礎的語法高亮都沒有,用iPad寫代碼簡直像苦行僧修行。
但這種被迫的離線練習,反而練出了他超強的人腦編譯能力。寫代碼之前,他得在腦子里把整個邏輯框架搭好,提前想到可能出現的語法錯誤和性能問題,久而久之就養成了落筆就定型的編程習慣,對效率也變得格外執著。
信息學競賽里,算法的時間復雜度是生死線,而常數優化就是高手之間的細微較量。為了讓程序快上十幾毫秒,他會反復研究內存對齊,琢磨CPU緩存命中率,這種對效率的極致追求,成了刻在他骨子里的工程基因。
憑著這份堅持,他在競賽里拿了不少好成績,2015年得了全國青少年信息學奧林匹克聯賽銅牌,還有亞太信息奧林匹克中國賽區銀牌,在福建競賽圈小有名氣。
雖然只是銅牌,但他展現出的工程能力已經被清華大學注意到,最后憑著60分的降分優惠,成功走進了這所全球頂尖學府之一。那時候的他大概也沒想到,當年在iPad上反復打磨的代碼習慣,多年后會用來支撐全球最頂尖的AI訓練系統。
清華淬煉,開源先鋒與強化學習初體驗
2016年翁家翌進入清華大學自動化系,后來憑著優異成績轉入計算機系,最后躋身姚班。姚班可是中國計算機天才的搖籃,里面的每個人都在為GPA、競賽獎項和科研機會拼盡全力,翁家翌卻走出了一條不一樣的路,他選擇用開源打破大家之間的信息壁壘。
那時候校園里還流行把筆記當成私有財產,翁家翌卻反其道而行之,把自己的課程作業、學習筆記、實驗報告,甚至踩過的技術坑,全都傳到了GitHub上。他覺得代碼的價值在于流動和復用,不是鎖在個人硬盤里發霉。
這份信息平權的想法,讓他在清華園里得了個慈善黑客的稱號,他的開源資料在學弟學妹之間廣泛流傳,幫很多人突破了學習瓶頸。
除了分享資料,他還帶著工程潔癖改造公共系統。當時清華大學的教務選課系統又慢又多漏洞,他實在看不下去,就自己寫腳本修復問題,用技術優化校園服務。
也是從這時候開始,他慢慢意識到,比起解決單個問題,搭建高效可復用的工具和系統,能創造更大的價值。
到了大二大三,翁家翌開始接觸深度學習和強化學習,加入了朱軍教授領導的TSAIL實驗室。朱軍教授團隊專注于不完全信息決策問題,這正好和他對系統優化的興趣契合,也給了他第一個施展工程能力的科研平臺。
在實驗室期間,他參與了ViZDoom AI比賽項目,這個項目基于游戲毀滅戰士開發,要求AI在復雜不確定的環境里完成決策任務,對強化學習算法的穩定性和效率要求都很高。
靠著扎實的工程能力和對算法的理解,他所在的團隊2017年第一次參賽就拿了亞軍,2018年更是成功奪冠,成為這個賽事中國賽區的首個冠軍隊伍。
這次奪冠讓他徹底看到了強化學習的潛力,也發現了當時行業的一個明顯痛點。那時候強化學習在學術界發展很快,但工程界的工具卻跟不上,主流的框架又大又笨重,過度封裝就像個黑盒子,研究員想改一行底層邏輯都要牽動全身。
這種算法領先工具落后的現狀,讓他萌生了自己做一款高效簡潔的強化學習框架的想法。
開源封神,天授框架
2020年春節疫情突然爆發,校園封鎖讓翁家翌有了充足的時間打磨想法。那個被隔離的寒假,他想著要做一把趁手的工具,就基于PyTorch重構了強化學習的訓練流程,天授框架就這樣誕生了。
天授這個名字取自史記,意思是能力來自天賦而非單純學習,剛好貼合強化學習靠與環境交互自主學習的核心。
![]()
和當時的主流框架比,天授的設計理念很不一樣,主打簡潔高效可擴展。他放棄了復雜的類繼承,用模塊化設計讓數據流清晰可查,以前要幾千行代碼才能實現的算法,在天授里幾百行就夠了,訓練速度還大幅提升。
天授有三個很突出的優勢,一是代碼足夠簡潔,整個框架才1500行左右,卻能支持多種主流強化學習算法,大大降低了研究員的學習和使用成本。二是訓練效率高,通過并行采樣優化和緩存設計,每秒能處理5000到6000幀數據,比同期其他框架快不少。
三是穩定性強,他創新性地把整個訓練過程納入單元測試,每次代碼迭代都不會影響算法穩定性,這在當時的強化學習框架里是獨一份的。
框架開源后很快就在GitHub上收獲了幾千星標,成了全球很多強化學習研究員的首選工具。
連圖靈獎得主Yoshua Bengio的實驗室都很認可,翁家翌也因此獲得了大三暑假去Bengio實驗室深造的機會,深入研究強化學習和自然語言處理的交叉領域。
這段經歷不僅讓他接觸到全球頂尖學術資源,更堅定了他用工程能力賦能科研的職業方向。
除了天授,翁家翌還有個很有溫度的開源項目Vaccine Hunter(退雪)。疫情期間,全球留學生都面臨簽證預約難的問題,美國大使館的名額緊張,系統還不穩定,很多人因為簽證據誤了學業。
他就用自己的爬蟲技術,做了一個實時監控美國簽證預約名額的網站。這個網站界面簡單但功能實用,能第一時間捕捉到名額釋放信息,還會推送通知幫留學生搶機會。
高峰期的時候,網站日訪問量突破百萬,累計服務了上千萬用戶,成了很多留學生的救命工具。
退雪項目讓翁家翌真切感受到技術落地的力量,代碼不只是能跑通測試用例,還能實實在在影響別人的生活。
他后來在訪談里也說,用代碼和工具幫別人,打破信息差,是他追求的人生意義之一。這份技術向善的想法,也成了他后來選擇工作的重要標準。
跨界沉淀,CMU思考與職業抉擇
2020年翁家翌從清華本科畢業,去了計算機科學的頂尖學府卡內基梅隆大學,攻讀計算數據科學碩士學位,方向是系統領域。這兩年的深造不只是為了拿個文憑,更多是他沉淀思考職業方向的關鍵時期。
疫情期間CMU的課程都是線上開展,這讓他有更多時間關注工業界的動態。那時候大模型的浪潮已經初顯苗頭,OpenAI、DeepMind這些機構都在加速推進大規模語言模型研發,學術界和工業界的研究模式差異越來越明顯。
翁家翌敏銳地察覺到,AI行業的競爭焦點正在從算法創新轉向工程落地能力,單純做學術研究已經跟不上工業界的迭代速度了。
基于這個判斷,他提出了一個大膽的觀點,要是想進工業界,讀博可能不是最優選擇。在他看來,博士階段的研究大多聚焦細分領域的理論突破,而工業界更需要能快速搭建系統、解決實際問題的工程人才。
所以在CMU期間,他把重心放在強化工程能力和拓展行業視野上,為進入工業界最前沿做好了準備。
2022年碩士畢業時,翁家翌收到的offer堪稱神仙打架,谷歌、英偉達、臉書AI研究院,還有幻方浩方也就是后來的DeepSeek,都向他伸出了橄欖枝。
其中幻方的offer很有吸引力,當時幻方正計劃組建AI實驗室,專注AI基礎設施研發,和他的技術方向高度匹配。
在很多人看來,選幻方是更穩妥的選擇,作為本土崛起的AI巨頭,幻方有充足的資金和算力支持,還能給他核心研發崗位和廣闊的成長空間。
翁家翌也認真考慮過這個選項,他坦言要是當時沒有更好的選擇,大概率會選幻方。但最后他還是拒絕了DeepSeek,選擇了OpenAI。
這個決定背后,是他對頂級研究方法論的追求。在他心里,OpenAI和DeepMind是當時AI領域最強的兩個實驗室,這里聚集了全球最頂尖的人才,還有一套成熟的工業級研究體系。
他想要的不是高薪,而是能親身感受世界最前沿的研究是如何系統性落地的機會。
和谷歌這些大廠比,OpenAI的非螺絲釘式工作模式更吸引他。他不想在大廠里做自己不感興趣的前后端工作,變成龐大系統里可有可無的一員。而OpenAI的扁平化架構,還有用工程能力驅動研究的文化,剛好契合他的職業追求。
另外,當時OpenAI正在全力推進強化學習人類反饋技術研發,這和他在天授框架里積累的經驗完美契合,能讓他把強化學習技術用到億級用戶的產品上。
面試時的一次智力較量,更讓他堅定了加入OpenAI的決心。
![]()
他的面試官是OpenAI聯合創始人,也是PPO算法的發明者John Schulman,算是現代強化學習領域的奠基人。
這場面試沒有考套路化的算法題,而是給了他一個開放性的全流程任務,John Schulman給了他三個小時,讓他從零開始寫一個完整系統。翁家翌只用了兩個小時就完成了開發,演示時出現的漏洞也當場修復,整個過程流暢又高效。
John Schulman對他的表現特別認可,后來也解釋過選擇他的原因,一是他GitHub倉庫里的代碼質量很高,邏輯清晰干凈,二是他相信有扎實系統工程能力的人才,能給任何研究項目帶來正向增益。
這次面試不僅讓他拿到了OpenAI的offer,還得到了行業泰斗的認可和指導。
OpenAI封神,基建鑄爐者的技術突圍
2022年7月,翁家翌正式加入OpenAI,成了當時團隊里第一個碩士應屆畢業生,也是最年輕的研發工程師之一。他順利加入了John Schulman領導的強化學習團隊,直接參與ChatGPT的后續研發。
那時候ChatGPT還沒發布,但OpenAI已經意識到強化學習人類反饋技術的核心價值,翁家翌帶來的強化學習和系統優化經驗,剛好填補了團隊的技術空白。
剛入職沒多久,他就展現出了驚人的工程能力。他不僅熟悉各種強化學習算法,還能從系統層面優化訓練流程,解決大規模分布式訓練中的性能瓶頸。
在ChatGPT 3.5的后訓練階段,他主導優化了強化學習人類反饋的訓練管線,大幅提升了模型的迭代速度和穩定性,為ChatGPT的成功發布打下了堅實基礎。
翁家翌對John Schulman充滿感激,他說John Schulman不僅給了他進入OpenAI的機會,還教會了他系統性做研究的方法。
John Schulman離職那天,他甚至關掉電腦難過了一下午,這份知遇之恩也讓他更加珍惜在OpenAI的工作機會,全身心投入到技術研發中。
OpenAI核心貢獻,鑄造大模型成長的奠基人
如果把預訓練比作讓模型讀完互聯網上所有書籍,那后訓練包括強化學習人類反饋和指令微調,就是教模型怎么像人一樣交流,遵守安全規則。
翁家翌主導搭建的后訓練基礎設施,就是連接這兩個階段的核心橋梁。他也是極少數全程參與ChatGPT 3.5、GPT-4、GPT-4V、GPT-4o、GPT4.5、GPT-5后訓練流程的工程師,OpenAI近三年來所有核心模型的研發,都有他的參與。
![]()
翁家翌核心貢獻主要集中在三個方面,首先是大規模分布式訓練系統的搭建。OpenAI訓練模型要調動成千上萬個GPU協同工作,任何一個節點出問題都可能導致整個訓練中斷。
通過優化節點通信協議,設計容錯機制,保證了訓練集群的穩定運行,大幅降低了訓練中斷的風險。他中學時養成的優化習慣在這里派上了大用場,靠著摳細節修漏洞,把GPU的利用率拉滿,為OpenAI節省了巨額的算力成本。
其次是多模態融合基礎設施的研發。隨著GPT-4V、GPT-4o這些多模態模型推出,OpenAI需要同時處理文本、音頻、視頻等多種數據的訓練。
翁家翌還帶領團隊重構了訓練管線,實現了不同模態數據的高效融合和協同訓練,解決了多模態數據處理中的延遲和一致性問題,為模型的多模態能力突破提供了技術支持。
最后是強化學習人類反饋訓練流程的迭代優化。這項技術直接決定模型能不能對齊人類價值觀,翁家翌通過優化獎勵模型訓練、策略迭代等核心環節,讓模型能更快學習人類反饋,同時提升了訓練過程的可解釋性和穩定性。
他搭建的強化學習基礎設施,成了OpenAI后續所有大模型迭代的核心支撐,也讓他成了團隊里不可或缺的技術核心。
翁家翌曾說過,模型公司本質上拼的是基礎設施修復漏洞的速度。在他看來,AI行業從來不缺想法,缺的是能快速驗證想法、把技術落地的工程能力。
每家公司的基礎設施都有漏洞,誰能更快修復優化,誰就能在模型迭代中搶占先機。
其實翁家翌的封神之路,不只是一個人的成長故事,更是一代中國青年工程師在全球化技術浪潮中突圍的縮影。他的經歷,給無數想進入AI行業的年輕人提供了寶貴的啟示。
扎實的底層能力永遠是核心競爭力。從少年時代的數學和編程積累,到清華期間打磨工程能力,翁家翌的每一步都在夯實基礎。現在AI行業迭代很快,算法和模型層出不窮,但底層的工程能力和邏輯思維,永遠是立足的根本。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.