<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

      關(guān)于 AI Infra 的一切 | 42章經(jīng)

      0
      分享至

      本文嘉賓朱亦博可以說是國內(nèi)最了解 AI Infra 的人之一,
      從微軟、字節(jié) AI Infra 負(fù)責(zé)人到谷歌、再到階躍聯(lián)創(chuàng),他的職業(yè)經(jīng)歷幾乎和 AI Infra 的發(fā)展并行。

      本期
      播客對談原文約 19000 字,本文經(jīng)過刪減整理后約 7000 字。

      曲凱:從你的視角來看,怎么理解 AI Infra?

      亦博:AI Infra 包括硬件和軟件兩部分。

      硬件是指 AI 芯片、GPU、交換機(jī)等設(shè)備。軟件層面我喜歡用云計算來類比,可以分為三層:

      最底層類似 IaaS,解決的是最基礎(chǔ)的計算、通信和存儲問題。

      中間一層類似 PaaS,包含資源調(diào)度、資源管理等平臺。MaaS(Model-as-a-Service)就歸屬這一層。

      最上層近似 SaaS 應(yīng)用層,但在 AI Infra 領(lǐng)域,我更傾向于把這一層理解為訓(xùn)練及推理框架的優(yōu)化層。

      曲凱:可以說你的職業(yè)生涯跟 AI Infra 的發(fā)展基本是同步的嗎?

      亦博:是,但我其實是第二批 AI Infra 人,第一批是賈揚(yáng)清、李沐、陳天奇這些有算法背景的人。他們當(dāng)時要做先進(jìn)的算法,需要充分利用 GPU,于是就做了 AI Infra。

      曲凱:所以是第一批人從無到有把這件事做了出來?

      亦博:可以這么理解。我們這第二批人干的更多是上規(guī)模的事情,讓 AI Infra 在工業(yè)界得到應(yīng)用。

      曲凱:那大模型這兩年的興起,對 Infra 從業(yè)者來說應(yīng)該是一個特別好的機(jī)會吧?因為 AI Infra 一下子進(jìn)入了主舞臺。

      亦博:確實如此,這也是為什么我覺得一定要出來創(chuàng)業(yè)。

      過去 Infra 人才很難參與到一個公司的初創(chuàng)過程中,因為 Infra 服務(wù)于上層應(yīng)用和數(shù)據(jù)處理,只有當(dāng)業(yè)務(wù)規(guī)模足夠大時,對 Infra 的需求才會凸顯。

      但是大模型確實帶來了一個非常好的機(jī)會。

      上一次類似的節(jié)點,是搜索引擎剛剛興起的時候。比如 Google 當(dāng)年面對的是規(guī)模空前的互聯(lián)網(wǎng)數(shù)據(jù),而要處理這些數(shù)據(jù),它就需要世界一流的 Infra。所以從某種程度上講, Google 本質(zhì)是一家 Infra 公司,它的成功從一開始就離不開它強(qiáng)大的 Infra。

      而如今,大模型一上來就對算力和數(shù)據(jù)提出了前所未有的要求,所以我認(rèn)為現(xiàn)在是 Infra 從業(yè)者真正進(jìn)入核心舞臺的少有機(jī)會。這樣的窗口,可能十年、二十年才會出現(xiàn)一次。

      曲凱:那移動互聯(lián)網(wǎng)的 Infra 和 AI Infra 有哪些異同?

      亦博:它們的底層目標(biāo)是一致的,就是要高效穩(wěn)定地整合計算、通信和存儲資源。

      但在實操層面,它們對硬件、網(wǎng)絡(luò)互聯(lián)、存儲方式的要求都完全不同。比如,AI Infra 的絕對核心是 GPU,而傳統(tǒng) Infra 的核心是 CPU。

      在 Infra 的世界里,太陽底下沒有太多的新鮮事,但 AI Infra 在很多方面要做到更極致、更貼合 AI 的特殊需求。

      曲凱:那在這樣的背景下,未來做 AI Infra 的人,更多會是新一批成長起來的工程師,還是由傳統(tǒng) Infra 人轉(zhuǎn)型而來的?

      亦博:我覺得都會有。這方面 Infra 和算法很不一樣。

      算法非常依賴年輕人。甚至我有做算法的朋友說過,算法人只有兩年的保質(zhì)期,兩年后 Ta 把自己的聰明才智發(fā)揮完了,就會陷入思維定勢,反而跟不上后面的新東西了。

      但 Infra 相對來說更強(qiáng)調(diào)積累。

      曲凱:那你們關(guān)注的核心指標(biāo)有哪些?

      亦博:比如在線上服務(wù)側(cè),我們會看模型響應(yīng)的首字延遲、后面吐字是不是穩(wěn)定順暢、整體的成本能不能降低等等。在訓(xùn)練側(cè),我們主要看每張 GPU 能處理的數(shù)據(jù)量和訓(xùn)練效率。

      曲凱:聽起來是不是只有規(guī)模很大的公司才需要用到 AI Infra?

      亦博:其實所有的產(chǎn)品都依賴 Infra,區(qū)別在于你要不要投入成本去做自己的 Infra,以及這種投入對你的業(yè)務(wù)來說值不值得。

      這筆賬其實很好算。

      假設(shè)你有 1 萬張 GPU,每月租金 1 個億。如果你雇了一批 Infra 工程師,能把 GPU 利用率提升 10%,那你每月就能節(jié)省 1000 萬,或者說多賺 1000 萬。

      那你愿意為了這 1000 萬投入多少人力成本?

      無論是在前司還是現(xiàn)司,我們優(yōu)化 Infra 之后省下的錢,都可以很輕松地 cover 這部分的人力成本。從這個角度來說,投入 Infra 是可以幫公司掙錢的,而且這件事的確定性很高。

      對于一些較小的公司來說,也可以用同樣的邏輯進(jìn)行計算:你值不值得雇 10 個人來優(yōu)化百分之多少的性能?

      你可以對比一下,要做到同樣的優(yōu)化效果,云廠商的標(biāo)準(zhǔn)化方案需要多少錢。如果你自己做不到更低的成本,那就說明用 MaaS 或公有云服務(wù)更劃算。

      這也是現(xiàn)在這些服務(wù)商的價值錨點:幫助規(guī)模較小的公司節(jié)省 Infra 優(yōu)化的成本。

      曲凱:那按理說,Infra 這件事應(yīng)該是云廠商和模型方做到極致了才對,為什么還有一些第三方公司在做?

      亦博:短期來看,第三方的價值,是為客戶提供一個「API 集貿(mào)市場」,讓他們自由選擇不同的 API,因為模型廠商的 Infra 主要服務(wù)于自家的模型或 API。雖然有些公有云也在提供類似的服務(wù),但還是有第三方的空間。

      不過長遠(yuǎn)來看,如果第三方公司沒有獨(dú)特的價值,確實很容易被云廠商或模型公司吃掉。

      那突破口在哪里?我是這么思考的:

      AI Infra 的底層是硬件,上層是模型。當(dāng)硬件和模型都逐漸趨于開放和普及時,只做中間那一層 Infra 的價值確實會很有限,而且會非常卷。因為說白了,沒人能在 Infra 這一層拉開特別大的技術(shù)差距,也很難形成長期壁壘。你今天領(lǐng)先一點,幾個月后可能就被趕上了。

      所以我認(rèn)為,第三方想做出壁壘,就得和硬件或者模型去做垂直整合。

      以 MaaS 的生意為例。MaaS 可以看作是一個 API 的分發(fā)平臺,除了標(biāo)準(zhǔn) API 之外,真正能留住用戶的,是那些別人沒有的東西。

      就像你為什么要買 PS5?是因為這個游戲機(jī)上有一些獨(dú)占的游戲。

      同理,有的 MaaS 服務(wù)商與特定的硬件廠商有深度合作,能以更低成本獲得算力資源,同時它還有對硬件的獨(dú)到見解,那這些就是它的差異化優(yōu)勢。

      所以這里可以給從業(yè)者一個建議,就是不要做夾在模型和硬件中間的那個人。

      我現(xiàn)在選擇站在模型這一側(cè),你也可以選擇站在硬件那一端。

      這是因為 AI Infra 有個非常獨(dú)特的背景,就是當(dāng)前是硬件和模型都在追求極致的時刻。如果有人想做出像 DeepSeek 那樣在硬件上跑得非常有效率和性價比的模型,就需要既懂硬件又懂模型。而這種「兩頭通」的能力,恰恰是 Infra 人的特長。

      所以,如果你愿意邁出這一步,往上和模型做深度整合,或往下與硬件做 co-design,就有很多機(jī)會。但如果你固步自封,只在中間做優(yōu)化,那確實就把路走窄了。

      曲凱:但和模型或者硬件綁定之后,萬一最后發(fā)現(xiàn)選錯了怎么辦?

      亦博:所以關(guān)鍵在于你必須是主動的參與者,而不是被動搭便車的人。

      如果你比硬件廠商更懂模型,那你就可以影響硬件的設(shè)計方向。如果你比模型團(tuán)隊更懂硬件,也可以反向影響模型架構(gòu)的設(shè)計。

      當(dāng)你具備了這種影響力,成功了當(dāng)然是共贏,即使失敗,那也是你主動做出的判斷和選擇。

      曲凱:明白。

      我們前面講的主要是 Infra 降本增效的事情,那實際上它對模型最終的訓(xùn)練效果到底有多大的影響?該怎么評判?

      亦博:Infra 水平確實會影響模型的效果,這也是為什么 Infra 對大模型公司而言非常重要。

      其實各家公司都在參與同一場比賽,就是「給定算力,怎么訓(xùn)出最好的模型」。

      假設(shè)大家都拿 5000 張卡,在其他條件相同的前提下,如果我的 Infra 優(yōu)化得更好,效率高出 20%,那在同樣的時間里,我就能多學(xué) 20% 的數(shù)據(jù),訓(xùn)練出的模型自然也會有更好的效果。

      曲凱:所以 Infra 是有標(biāo)準(zhǔn)化的性能指標(biāo)的?

      亦博:對,比如 MFU 就是一個比較常見的指標(biāo)。它衡量的是硬件利用率,分子是實際完成的浮點運(yùn)算次數(shù),分母是理論最大算力,MFU 越高,說明硬件被用得越充分。

      曲凱:我記得當(dāng)時 DeepSeek 公開了他們的 MFU?

      亦博:實際上 DeepSeek 的 MFU 是偏低的,但你也不能說他們的 Infra 做得不好。

      衡量 Infra 的性能其實很復(fù)雜,僅靠單一指標(biāo)很難判斷 Infra 的優(yōu)劣。Infra 的性能和硬件、模型,還有優(yōu)化目標(biāo)都密切相關(guān)。

      其實 DeepSeek 之所以能沖出來,一大原因是選對了優(yōu)化目標(biāo)。

      當(dāng)時 DeepSeek 的優(yōu)化目標(biāo)和其他所有人都不一樣。比如我們當(dāng)時的優(yōu)化目標(biāo)是「給定訓(xùn)練算力,怎么訓(xùn)出最好的模型」,而 DeepSeek 的目標(biāo)是「給定推理的成本,怎么訓(xùn)出最好的模型」。

      至少在 24 年上半年時,DeepSeek 的基模并不比大家強(qiáng)。

      那這個局面什么時候扭轉(zhuǎn)了呢?

      就是在 24 年 9 月 o1 發(fā)布之后。

      o1 讓大家看到,如果在推理階段讓模型多思考一會,模型最終輸出的效果會更好。這種訓(xùn)練方式,正是強(qiáng)化學(xué)習(xí)的典型機(jī)制。而因為 DeepSeek 的優(yōu)化目標(biāo)更符合強(qiáng)化學(xué)習(xí)的需求,所以他們能以更低的推理成本、更快的速度去輸出結(jié)果和訓(xùn)練模型。于是他們率先完成了 R1,一下子甩開了其他團(tuán)隊。

      你可以說 DeepSeek 的成功有一些運(yùn)氣因素。他們最初在設(shè)定優(yōu)化目標(biāo)時,大概率也沒料到 Test-Time Scaling 會在 24 年下半年變成關(guān)鍵趨勢。但很多事情的成功,靠的就是天時地利人和。

      所以說回來,Infra 確實有各種性能指標(biāo),但如果想取得好的結(jié)果,最重要的是你要想清楚,哪一個指標(biāo)的優(yōu)先級最高。這個指標(biāo)不僅要符合你的產(chǎn)品需求,也要順應(yīng)整個行業(yè)的發(fā)展方向和未來技術(shù)趨勢。

      不同團(tuán)隊的技術(shù)水平固然有高低之分,但真正拉開差距的,往往是有沒有選對努力方向。

      曲凱:所以當(dāng)下有比較通用的第一指標(biāo)嗎?

      亦博:這件事還有很多非共識。

      其實從 o1、 R1 驗證了強(qiáng)化學(xué)習(xí)的路徑之后,我認(rèn)為當(dāng)前最重要的指標(biāo)就是 decoding 的速度。

      推理分為輸入和輸出兩部分。輸入的關(guān)鍵指標(biāo)是模型處理長文本的速度,輸出的關(guān)鍵指標(biāo)則是模型吐字的速度。我認(rèn)為現(xiàn)在最重要的指標(biāo)是后者。它決定了線上業(yè)務(wù)的成本,也直接決定了強(qiáng)化學(xué)習(xí)的效率。因為如果你輸出很慢,那你獲得 reward 的速度就比其他模型要慢。

      但現(xiàn)在還有人很看重 MFU 之類的老指標(biāo)。在我看來,還特別關(guān)注這類指標(biāo)的人,對當(dāng)下技術(shù)的認(rèn)知是有問題的。

      曲凱:你前面有提到,Infra 人是既懂硬件又懂模型的人,那算法人是什么樣的?二者該怎么合作?

      亦博:最理想也最簡單的合作方式,就是大家像一個團(tuán)隊一樣,為共同目標(biāo)協(xié)作。

      很多事情都有 trade-off,比如有時損傷系統(tǒng)性能,但能換來算法上的提升,有時候則是反過來。遇到這些情況,最好是兩邊能一起討論該誰來讓步。

      不過這是小團(tuán)隊的優(yōu)勢。在很多大廠里,很難實現(xiàn)這一點。

      在大廠,Infra 總被視為支持性的角色。很多時候是算法人給 Infra 人提需求,但是 Infra 人沒有反向的影響力。

      曲凱:對,而且在很多人眼里,Infra 的核心就是「降本」,但「降本」通常不是一個最優(yōu)先的目標(biāo)。

      亦博:這正是我認(rèn)為需要被糾正的觀念。前面提到過,Infra 實際上是可以對模型效果有正向影響的,而不僅僅是只能降本。

      曲凱:聽起來就是要 Infra 人發(fā)揮主觀能動性?

      亦博:還不夠。比如你帶一個 Infra 團(tuán)隊,另一個人帶算法團(tuán)隊,大家向同一個 leader 匯報,但這個 leader 只懂算法,那你猜會發(fā)生什么?

      所以很多問題到最后都是組織架構(gòu)的問題。

      模型其實由算法、Infra 和數(shù)據(jù)這個鐵三角決定。三者缺一不可,必須協(xié)同。

      但很多人對模型的理解存在偏差。比如,一個模型的算法效果往往取決于數(shù)據(jù),而不是算法;一個模型的效率成本主要由 Infra 決定,也不是算法。

      所以實際上比較合理的組織架構(gòu)是,讓 Infra 人去設(shè)計模型結(jié)構(gòu),因為 Infra 人最知道該怎么提高效率、節(jié)省成本,讓數(shù)據(jù)的人去負(fù)責(zé)刷模型的點數(shù)和 benchmark 分?jǐn)?shù),因為他們最懂怎么喂模型,而算法人應(yīng)該主要負(fù)責(zé)訓(xùn)練的范式革新。

      曲凱:聽起來很合理啊,現(xiàn)在很多團(tuán)隊不是這樣的嗎?

      亦博:不是。現(xiàn)在在很多團(tuán)隊中,基本都是算法人在設(shè)計模型結(jié)構(gòu)、刷模型點數(shù)。但實際上算法人不一定最適合做這些事。

      曲凱:所以階躍從一開始就在用最正確的方法嗎?還是也踩過一些坑?

      亦博:當(dāng)然也踩過坑哈哈。比如我們一開始對自己的算力和能力都過于自信,所以干了一個比 Llama 還大的模型。雖然我們把它訓(xùn)出來了,但是這個巨大的模型有一些問題,過程中我們也犯了一些錯誤。

      但我覺得這也沒什么。你賭的所有事情就是可能會錯,踩過坑之后再爬起來往前走唄。這一局輸了,那下一局我再干回來。

      曲凱:還有什么業(yè)內(nèi)真實的踩坑案例嗎?

      亦博:比如最近有家公司開源了一個模型,聲稱自己雖然參數(shù)量不大,但因為算法做得好,所以效果可以越級媲美更大的模型。

      但這個模型因為架構(gòu)設(shè)計的問題,實際運(yùn)行效率非常低,甚至還不如那些大模型快。

      這背后反映的問題是,其實很多做算法的人并不真正懂硬件,也不了解模型在 Infra 層是怎么運(yùn)行的。

      算法人員做模型架構(gòu)研究的時候,可能會畫一張圖,橫軸是模型的尺寸或激活量,縱軸是某些算法效果指標(biāo)。然后他們會試圖在這張圖上找到一個 sweet point,能讓模型在尺寸不大的情況下,算法效果還不錯,然后就丟給 Infra 人去做優(yōu)化了。

      即便 Infra 人能滿足算法人的需求,模型實際運(yùn)行起來也會出問題。

      如果真要畫圖,橫軸應(yīng)該是模型的實際運(yùn)行成本或運(yùn)行效率,縱軸是模型效果。你得跑大量實驗,才能在這張圖上畫出各種點,然后在其中找到那個真正可落地的最優(yōu)點。

      而這件事情只有在拉通所有團(tuán)隊之后,才有可能完成。

      曲凱:是。模型這邊上一個 Aha Moment 仍然是年初的 DeepSeek。雖然最近一直有傳言說 GPT-5 要發(fā)布了,但到底什么時候發(fā)、表現(xiàn)怎么樣,還沒人說得準(zhǔn)。而且很多人一直在說 scaling law 撞墻了、數(shù)據(jù)不夠了等問題。

      那你怎么看未來模型的發(fā)展?

      亦博:模型范式的革新不會那么快,但多模態(tài)還是有一些突破的可能性的,尤其是多模態(tài)生成和理解的統(tǒng)一。

      現(xiàn)在多模態(tài)的狀態(tài),其實挺像 20 年的 bert 模型,就是具備了理解能力,但還沒有真正做通理解和生成。

      做通的標(biāo)志,是同一個模型在理解任務(wù)上能超越專門做理解的模型,在生成任務(wù)上也能擊敗專門做生成的模型。就像 GPT-3.5 出來之后,直接讓很多做翻譯之類的專用模型退休了一樣。

      曲凱:Google Veo 3 的效果看起來已經(jīng)很不錯了。

      亦博:但 Veo 3 還是偏上一代的模型,核心是做生成。只不過它的工程做得比較好,把配樂之類的各種功能都很好地融合了起來。

      其實技術(shù)突破和產(chǎn)品效果并不是線性相關(guān)的。Veo 3 確實把上一代的技術(shù)發(fā)揮到了非常強(qiáng)的水平,但它本身并沒有帶來太多范式上的創(chuàng)新。

      曲凱:明白。那你覺得對于初創(chuàng)或者第三方的 AI Infra 公司來講,機(jī)會在哪?

      亦博:我個人覺得訓(xùn)練側(cè)的商業(yè)模式不太成立。因為現(xiàn)在訓(xùn)模型的人都非常懂行,所以你很難掙到這些人的錢。而且他們也不太愿意把訓(xùn)練過程中的研發(fā)細(xì)節(jié)交給第三方,否則就泄露了自己的核心競爭力。

      排除訓(xùn)練之后,推理側(cè)還是有一些機(jī)會的,比如推理加速、推理優(yōu)化。

      曲凱:那開源模型對 AI Infra 市場來講會有什么影響嗎?

      亦博:整體而言,開源模型對 AI Infra 的發(fā)展是有促進(jìn)作用的。因為一個開源模型火起來,大家就會去研究怎么把它跑得更好,這個過程其實就促進(jìn)了 AI Infra 的進(jìn)步。

      但所有事情都有兩面性。如果某個開源模型太火,然后大家都花很多精力去優(yōu)化它,可能反而會影響創(chuàng)新。比如 DeepSeek 出來之前,很多人都在優(yōu)化 Llama,結(jié)果 DeepSeek 的新范式一出,之前大家在 Llama 上的很多積累就廢掉了。

      這里我還想再補(bǔ)充一點。現(xiàn)在的 Infra 基本都是圍繞英偉達(dá)卡來做優(yōu)化的,雖然也有團(tuán)隊嘗試用國產(chǎn)芯片替代英偉達(dá),但很多時候國產(chǎn)卡不是跑不動,而是性價比不如英偉達(dá)。

      舉個例子,當(dāng) DeepSeek 這樣非常好用的開源模型出現(xiàn)之后,一些做一體機(jī)的公司會發(fā)現(xiàn),他們用英偉達(dá)卡跑 DeepSeek 就是比用國產(chǎn)卡更有性價比,所以他們就更愿意選擇英偉達(dá)的卡。

      但我們非常希望國產(chǎn)卡在技術(shù)層面也能具備競爭力。比如,是不是可以根據(jù)國產(chǎn)卡的特性去專門設(shè)計模型結(jié)構(gòu),讓它在國產(chǎn)卡上也能高效運(yùn)行,并達(dá)到 SOTA 水平?

      我們最近開源的 Step 3,就是在這個方向上的一次實踐。Step 3 是國內(nèi)首個支持第三方商用的、數(shù)百 B 規(guī)模的視覺推理模型,并且能跑出 SOTA 水平。

      曲凱:怎么理解視覺推理?

      亦博:視覺推理就是模型可以根據(jù)圖片、視頻抽幀等視覺信息,直接完成推理任務(wù)。

      比如,你讓機(jī)器人去柜子里拿一個東西,但那個目標(biāo)物品被雜物遮擋住了。這時機(jī)器人要完成這個任務(wù),就要進(jìn)行視覺推理,來進(jìn)行任務(wù)的拆解和決策。

      對于機(jī)器人或者手機(jī)、汽車等智能設(shè)備來說,它們天然就有視覺這個模態(tài)。那么根據(jù)周邊的環(huán)境、看到的東西去決定怎么完成復(fù)雜任務(wù)的過程,就是典型的視覺推理模型做的事情。

      視覺推理模型還有一個更常見的應(yīng)用場景,就是拍照解題。

      曲凱:這件事之前也有一些模型可以做到,它們應(yīng)該就是把圖片轉(zhuǎn)成文字,再去做文字推理。

      亦博:但我認(rèn)為這種方式不是真正的視覺推理。我們現(xiàn)在不需要中間那段轉(zhuǎn)文字的過程,而是讓模型好似真的能看懂圖片,然后直接看圖推理。

      還是舉剛才那個讓機(jī)器人拿東西的例子。如果你要拿的那個目標(biāo)物品周圍有很多遮擋,你其實很難用文字把它們在物理世界中的位置關(guān)系描述清楚,也會丟掉很多信息。

      但如果模型直接看圖,就能很直觀地知道應(yīng)該先把這個東西拿開,再把那個東西拿開,最后拿到目標(biāo)物品。

      曲凱:明白。那你們?yōu)槭裁催x擇開源?

      亦博:我們希望做到全國上下產(chǎn)業(yè)都獲益。

      我們決定給所有國產(chǎn)芯片一份免費(fèi)商用的授權(quán),開放模型權(quán)重,并且盡量幫他們做好模型適配。同時我們也把 Step 3 在國產(chǎn)卡上的推理成本壓到了一個很低的水平,提高了國產(chǎn)卡在性價比上的競爭力。

      通過開源,我們希望能夠幫助國產(chǎn)芯片構(gòu)建商業(yè)競爭力,也希望他們能推廣我們的模型,最后實現(xiàn)共贏。

      曲凱:我突然想到一個問題,就是多模態(tài)模型的成本未來到底會以什么速度下降到什么程度?因為現(xiàn)在多模態(tài)還是太貴了。

      亦博:多模態(tài)理解現(xiàn)在已經(jīng)不算貴了,不過生成還是挺貴的,尤其是視頻生成。

      但我對成本降低還是蠻樂觀的。我覺得一年后,應(yīng)該能下降很多,能不能到十分之一不好說,但幾分之一沒問題。

      曲凱:你覺得現(xiàn)在做 Infra 的人在很多公司里,是不是還是容易被低估?

      亦博:在大模型時代,這種情況已經(jīng)好很多了。現(xiàn)在 Infra 已經(jīng)是模型能力的核心組成部分之一。

      之前也有人說過,DeepSeek 做得好就是因為梁文鋒是 Infra 人。

      曲凱:這怎么講?

      亦博:因為梁文鋒是做量化出身的,而量化很強(qiáng)調(diào)低延遲,所以他需要對 Infra 有研究。在算法、數(shù)據(jù)和 Infra 之間,他可能最擅長的就是 Infra。這在業(yè)界也算是共識。

      而且據(jù)我所知,DeepSeek 的 Infra 工程師數(shù)量比算法工程師要多。

      但在很多大公司里,這個情況是反過來的。這可能也是在過去一段時間里,一些大廠比較掙扎的原因之一。

      其實在大模型快速發(fā)展的階段,就是需要有大量的 Infra 人,來把硬件設(shè)計和模型優(yōu)化做到極致,并且做好垂直整合。但在大廠里,他們的人才結(jié)構(gòu)是錯配的,不符合做好 AI 的本質(zhì)需求。

      曲凱:明白。最后,你會給正在做或者想轉(zhuǎn)行做 AI Infra 的人什么建議?

      亦博:前面有提到過,我的建議就是靠近模型,或者靠近硬件。

      另外,希望你還是打心底對 Infra 感興趣,有足夠的主觀能動性去做各種各樣的 co-design。

      最后我想再補(bǔ)充一點。我最喜歡的一篇文章就是 Richard Sutton 的《The Bitter Lesson》。文中的核心觀點是,從長期來看,勝出的永遠(yuǎn)是那些能最大程度利用計算資源的方法。短期內(nèi)各種奇技淫巧可能有效,但都不能本質(zhì)地解決問題。

      雖然這篇文章是從算法視角寫的,但對 Infra 人也同樣有很重大的指導(dǎo)意義。因為我們最根本的任務(wù),就是設(shè)計出能發(fā)揮硬件全部性能的模型和系統(tǒng)軟件,讓模型能充分利用這些資源。

      當(dāng)然,我最希望的是也許有朝一日,我們還能反過來影響硬件,換取摩爾定律的不斷延續(xù)。

      42章經(jīng)

      思考事物本質(zhì)

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點推薦
      部分地區(qū)氣溫下降10℃以上,大雪大雨要來了!

      部分地區(qū)氣溫下降10℃以上,大雪大雨要來了!

      魯中晨報
      2025-12-28 21:10:07
      康熙將鰲拜滿門抄斬,問其女:可知罪?女孩反問他,當(dāng)場臉色大變

      康熙將鰲拜滿門抄斬,問其女:可知罪?女孩反問他,當(dāng)場臉色大變

      千秋文化
      2025-12-24 23:35:07
      史詩級暴漲!馬斯克,突爆大消息!

      史詩級暴漲!馬斯克,突爆大消息!

      新浪財經(jīng)
      2025-12-28 15:31:17
      央視《今日說法》主持人被騙1000元買茶葉,嫌犯已被抓獲:被害人不止我一個,考慮對方家里有2個孩子,簽了諒解書

      央視《今日說法》主持人被騙1000元買茶葉,嫌犯已被抓獲:被害人不止我一個,考慮對方家里有2個孩子,簽了諒解書

      揚(yáng)子晚報
      2025-12-28 21:39:22
      南博事件后,知名博主爆料:江西博物館的《米芾三札》疑似被調(diào)包

      南博事件后,知名博主爆料:江西博物館的《米芾三札》疑似被調(diào)包

      奇思妙想生活家
      2025-12-28 12:11:18
      姜昆“美國唱紅歌”事件再度升級,郭德綱和寧靜的話,一針見血

      姜昆“美國唱紅歌”事件再度升級,郭德綱和寧靜的話,一針見血

      得得電影
      2025-12-26 13:58:03
      戴佩妮成都站深情開唱,現(xiàn)場宣布取消北京、廣州兩站

      戴佩妮成都站深情開唱,現(xiàn)場宣布取消北京、廣州兩站

      封面新聞
      2025-12-28 07:53:05
      瓜太大了!有網(wǎng)友質(zhì)疑,江博從故博借出來的《米芾三札》為假貨

      瓜太大了!有網(wǎng)友質(zhì)疑,江博從故博借出來的《米芾三札》為假貨

      火山詩話
      2025-12-28 07:05:19
      3大國家保密中成藥:中風(fēng)急救、心梗康復(fù),心血管的護(hù)身符!

      3大國家保密中成藥:中風(fēng)急救、心梗康復(fù),心血管的護(hù)身符!

      展望云霄
      2025-12-25 21:39:14
      元旦,別再說“元旦快樂”,太土!試試這20句,一看就是文化人

      元旦,別再說“元旦快樂”,太土!試試這20句,一看就是文化人

      狼小妖
      2025-12-27 00:13:54
      中國不是就業(yè)難,是已經(jīng)全面進(jìn)入「零工社會」

      中國不是就業(yè)難,是已經(jīng)全面進(jìn)入「零工社會」

      匹夫來搞笑
      2025-12-28 13:12:18
      中方下“逐客令”,直言:一粒大米也不要,直接叫停900萬噸訂單

      中方下“逐客令”,直言:一粒大米也不要,直接叫停900萬噸訂單

      愛吃醋的貓咪
      2025-12-27 16:24:13
      百度為什么越來越垃圾了?廣告主吐槽:亂投關(guān)鍵詞,虧光10萬轉(zhuǎn)化率為0

      百度為什么越來越垃圾了?廣告主吐槽:亂投關(guān)鍵詞,虧光10萬轉(zhuǎn)化率為0

      回旋鏢
      2025-12-28 21:27:25
      美國務(wù)院46年來罕見發(fā)火,鄭麗文喊話大陸,時代結(jié)束

      美國務(wù)院46年來罕見發(fā)火,鄭麗文喊話大陸,時代結(jié)束

      生活的哲學(xué)
      2025-12-29 02:26:13
      美國“斬殺線”斬落知名童星?

      美國“斬殺線”斬落知名童星?

      新民晚報
      2025-12-28 12:48:10
      痛心!安徽“半掛西施”王迪去世,有三臺X6000,出事前剛換輪胎

      痛心!安徽“半掛西施”王迪去世,有三臺X6000,出事前剛換輪胎

      鋭娛之樂
      2025-12-28 08:48:03
      南通一轎車沖入河中,當(dāng)?shù)兀很囕v已被打撈上岸,車內(nèi)一名38歲女子不幸身亡

      南通一轎車沖入河中,當(dāng)?shù)兀很囕v已被打撈上岸,車內(nèi)一名38歲女子不幸身亡

      極目新聞
      2025-12-28 18:37:39
      財政部:明年財政將促進(jìn)居民就業(yè)增收

      財政部:明年財政將促進(jìn)居民就業(yè)增收

      極目新聞
      2025-12-28 12:14:55
      美媒一定程度上承認(rèn)了“斬殺線”存在

      美媒一定程度上承認(rèn)了“斬殺線”存在

      環(huán)球時報國際
      2025-12-28 15:40:48
      領(lǐng)先全球!殲36雙機(jī)編隊首飛曝光,美媒:中國重新定義六代機(jī)

      領(lǐng)先全球!殲36雙機(jī)編隊首飛曝光,美媒:中國重新定義六代機(jī)

      華人星光
      2025-12-24 14:48:06
      2025-12-29 03:40:49
      42章經(jīng) incentive-icons
      42章經(jīng)
      創(chuàng)投圈第一自媒體
      58文章數(shù) 138關(guān)注度
      往期回顧 全部

      科技要聞

      特斯拉將在華布局自動駕駛?記者求證→

      頭條要聞

      途經(jīng)俄羅斯航班墜機(jī)38人身亡 機(jī)身或被彈片擊中

      頭條要聞

      途經(jīng)俄羅斯航班墜機(jī)38人身亡 機(jī)身或被彈片擊中

      體育要聞

      MVP概率達(dá)82.5%!約基奇連超大鳥喬丹

      娛樂要聞

      白敬亭現(xiàn)身冰雪大世界 拍視頻還翻車了

      財經(jīng)要聞

      英偉達(dá)的收購史

      汽車要聞

      理想的2026:L9不容有失,i9再戰(zhàn)純電?

      態(tài)度原創(chuàng)

      教育
      旅游
      房產(chǎn)
      公開課
      軍事航空

      教育要聞

      高校忙著“保就業(yè)”,但崗位仍在“結(jié)構(gòu)性收縮”,畢業(yè)生太難了

      旅游要聞

      什剎海這三條斜街胡同彰顯獨(dú)特意蘊(yùn)

      房產(chǎn)要聞

      降維打擊!三亞CBD驚現(xiàn)“豪宅新王”,高端局要變天了!

      公開課

      李玫瑾:為什么性格比能力更重要?

      軍事要聞

      普京:俄方已無興趣等待烏從其占領(lǐng)區(qū)撤出

      無障礙瀏覽 進(jìn)入關(guān)懷版 主站蜘蛛池模板: 少妇熟女视频一区二区三区| 亚洲男同志网站| 国产aⅴ夜夜欢一区二区三区| 人妻?制服?丝袜| 欧美3p视频| 日韩在线天堂| 色吊丝中文字幕| 石榴AV| 精品国产一区二区三区四区阿崩| 狠狠干欧美| 国产拳交视频| 欧洲AV在线| 欧美成人精品三级网站| 国产av无码专区亚洲aⅴ| 99国产精品免费视频观看8| 亚洲精品国产AV| 奇米777四色影视在线看| 亚洲精品国偷拍自产在线观看蜜臀| 色窝窝无码一区二区三区| 亚洲国产精品ⅴa在线观看| 91探花在线| 三级做爰高清视频| 波多野结衣久久一区二区| 国产亚洲av夜间福利香蕉149| 6699嫩草久久久精品影院| 久久发布国产伦子伦精品| 人妻av一区二区三区av免费| 亚洲无码2| 无码人妻久久久一区二区三区| 性无码一区二区三区在线观看| 午夜精品久久久久久久99| 久久综合亚洲鲁鲁九月天| 少妇人妻大乳在线视频| 国产免费播放一区二区三区| 日韩日韩日韩日韩日韩| 无码免费中文字幕视频| 铁岭市| 亚洲精品天堂在线观看| 国产亚洲精品a在线| 宜都市| 18岁以下禁止观看的网站|