MIT天才博士,清華學(xué)霸肖光烜官宣,正式加盟Thinking Machines,下一步主攻大模型預(yù)訓(xùn)練。
MIT天才博士一畢業(yè),火速加盟OpenAI前CTO初創(chuàng)!
最近,肖光烜(Guangxuan Xiao)在社交媒體官宣,剛剛完成了MIT博士學(xué)位。
下一步,他將加入Thinking Machines,專注于大模型預(yù)訓(xùn)練的工作。
![]()
評論區(qū)下方,英偉達(dá)科學(xué)家、xAI研究員、UCSD等一眾大佬,為他本人送上了祝賀。
![]()
![]()
清華雙學(xué)位學(xué)霸,MIT博士開掛人生
打開他的個人主頁,多元而充實的經(jīng)歷便映入眼簾。
肖光烜本科畢業(yè)于清華大學(xué),拿到了雙學(xué)位,主修的是計算機(jī)科學(xué),金融學(xué)是第二學(xué)位。
![]()
在此期間,他獲得了清華大學(xué)綜合優(yōu)秀獎學(xué)金(2019)、全國大學(xué)生數(shù)學(xué)建模競賽(CUMCM)一等獎(2020)、國家獎學(xué)金(2020)、清華大學(xué)「未來學(xué)者」獎學(xué)金(2021)等多項獎項。
他曾于2020–2021年作為訪問生(Visiting Student),前往斯坦福大學(xué)計算機(jī)系開展科研工作。
2022年,肖光烜加入MIT攻讀博士學(xué)位,導(dǎo)師為韓松(Song Han)教授。
個人研究方向聚焦于:深度學(xué)習(xí)的高效算法與系統(tǒng),尤其是大規(guī)模基礎(chǔ)模型(Foundation Model)。
![]()
他于2022年9月至2026年1月,在MIT EECS擔(dān)任全職研究助理(Research Assistant)。
讀博期間,肖光烜曾多次進(jìn)入全球頂級科技大廠從事前沿研究實習(xí),具備了豐富的一線工業(yè)研發(fā)的經(jīng)驗。
![]()
論文地址:https://arxiv.org/pdf/2309.17453
2024年2-5月期間,他作為英偉達(dá)實習(xí)生,研究方向是為長上下文大語言模型推理加速。
他和團(tuán)隊提出了DuoAttention,結(jié)合檢索與流式注意力頭,實現(xiàn)高效推理。
![]()
論文地址:https://research.nvidia.com/labs/eai/publication/duoattention/
隨后,他又參與了多項核心研究項目,其中包括:
XAttention:基于反對角評分的塊稀疏注意力機(jī)制
StreamingVLM:面向無限視頻流的實時理解模型
FlashMoBA:混合塊注意力(Mixture of Block Attention)的高效優(yōu)化
值得一提的是,肖光烜在研究之外,還有豐富的興趣愛好,比如足球、乒乓球、圍棋、鋼琴。
他曾擔(dān)任所在院系足球隊的隊長兼先鋒,貝多芬的作品是個人最愛。
![]()
一篇博士論文,破解LLM三大難題
比起耀眼的履歷,肖光烜的博士論文本身更值得深入研析與拆解。
![]()
不得不承認(rèn),如今大模型已經(jīng)無所不能,但它們依然太貴了。
顯存爆炸、推理太慢、長上下文直接OOM(內(nèi)存溢出),這是幾乎所有LLM工程團(tuán)隊每天都在面對的現(xiàn)實。
Efficient Algorithms and Systems for Large Language Models這篇論文,給出了一個罕見的、從工程到理論、從算法到架構(gòu)的完整答案。
論文中, 他們提出了SmoothQuant,解決了一個長期困擾工業(yè)界的問題——激活值異常(activation outliers)。
SmoothQuant通過一個巧妙的數(shù)學(xué)等價變換,把量化難點從「激活」轉(zhuǎn)移到「權(quán)重」。
結(jié)果,它實現(xiàn)了首個在十億級模型上W8A8無損量化,無需重新訓(xùn)練,顯存更小、推理更快。
針對超長序列的處理,作者在StreamingLLM中發(fā)現(xiàn)了「注意力匯點」(attention sink)現(xiàn)象——
即使沒有任何語義,初始token會被后續(xù)token持續(xù)關(guān)注。這些token的作用不是「理解」,而是數(shù)值穩(wěn)定。
結(jié)果,實現(xiàn)了常數(shù)內(nèi)存的流式推理,模型上下文長度從數(shù)千token擴(kuò)展到百萬級。
更進(jìn)一步,他們又把這一思想推廣到多模態(tài),StreamingVLM可以在保持時間一致性的同時處理長達(dá)數(shù)小時的視頻內(nèi)容。
對于超長上下文場景,團(tuán)隊又提出一個互補(bǔ)方案,分別針對不同的性能瓶頸。
KVCache太大,采用DuoAttention
注意力頭本身就有分工:少數(shù)負(fù)責(zé)「全局檢索」,多數(shù)只看「最近上下文」。
DuoAttention用混合策略,大幅降低顯存,卻幾乎不掉性能。
預(yù)填充(Prefill)太慢,采用XAttention
利用反對角線評分機(jī)制,僅識別、計算必要的注意力塊,從而實現(xiàn)顯著的加速效果。
論文的最后,并沒有止步于「優(yōu)化現(xiàn)有模型」,通過對MoBA(塊混合注意力) 的信噪比分析,作者證明了:
理論上,block越小越好。
但現(xiàn)實是,GPU不答應(yīng),于是有了FlashMoBA,一種定制化的CUDA內(nèi)核,使小塊架構(gòu)在實踐中可行,并實現(xiàn)了最高可達(dá)9倍的速度提升。
這篇論文的價值在于,構(gòu)建了一整套高效大模型的完整框架,既回應(yīng)了當(dāng)下的現(xiàn)實挑戰(zhàn),也為下一代計算高效、普惠可及的AGI奠定了基礎(chǔ)。
平均350萬年薪,碾壓OpenAI
最后來到一個大家比較感興趣的話題——薪資。
去年,硅谷人才爭奪戰(zhàn)激烈,BI一篇獨家挖到了Thinking Machines(TML)給員工們開出的薪資——
基礎(chǔ)年薪高達(dá)50萬美元(約350萬元)。
![]()
據(jù)BI獲取的招聘數(shù)據(jù),TML向兩名技術(shù)員工支付了45萬美元的基礎(chǔ)年薪,另一名員工的年薪則高達(dá)50萬美元。
第四名員工被列為「聯(lián)合創(chuàng)始人/機(jī)器學(xué)習(xí)專家」,其年薪同樣為45萬美元。
這些薪酬數(shù)據(jù),來自2025年第一季度,早于Murati以100億美元的估值,成功完成20億美元的種子輪融資。
總體來看,TML為這四名技術(shù)員工提供的平均年薪達(dá)到462,500美元。
相較之下,TML明顯高于業(yè)內(nèi)更為成熟LLM公司——
OpenAI在相關(guān)申報文件中列出的29名技術(shù)員工,平均年薪為292,115美元。
其中最高薪資為53萬美元,最低為20萬美元。
Anthropic向14名技術(shù)員工支付的平均年薪為387,500美元,薪資區(qū)間在30萬至69萬美元之間。
雖然比起Meta瘋狂的超1億美元薪酬還差得遠(yuǎn),但這一水平也在硅谷數(shù)一數(shù)二。
果然,21世紀(jì)最貴的還是人才。
![]()
參考資料:
https://x.com/Guangxuan_Xiao/status/2008779396497502337
https://guangxuanx.com/
https://scholar.google.com/citations?user=sRGO-EcAAAAJ
https://www.eecs.mit.edu/eecs-events/doctoral-thesis-efficient-algorithms-and-systems-for-large-language-models/
https://www.businessinsider.com/muratis-new-ai-startup-salary-technical-talent-2025-6
文章來源:新智元。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.