馬斯克旗下xAI一名工程師,名叫Sulaiman Ghori(下面就叫他阿蘇吧),這兩天把xAI再次拱上輿論風(fēng)口:1月18日,在接受一家播客訪談時(shí),他口無(wú)遮攔,透露了xAI內(nèi)部運(yùn)作許多細(xì)節(jié)以及和特斯拉合作的一些核心戰(zhàn)略。結(jié)果節(jié)目播出后第二天,馬斯克立馬跳起來(lái)把人開(kāi)了。
阿蘇是一名灣區(qū)的機(jī)器學(xué)習(xí)工程師,在加入xAI之前,他成立了一家AI初創(chuàng)公司。后來(lái),xAI的聯(lián)合創(chuàng)始人Greg Yang聯(lián)系了阿蘇,并把他招進(jìn)了xAI。入職后,阿蘇參與了很多不同項(xiàng)目,包括Grok的X平臺(tái)集成工作、圖像及視頻生成器Gork Imagine、AI軟件業(yè)務(wù)、MacronHard、人類(lèi)模擬器等等。
也因?yàn)榇耍佑|和掌握了大量xAI內(nèi)部的核心信息。不過(guò)也許是天性使然,他并未能識(shí)別出真實(shí)世界和內(nèi)部表達(dá)之間的界限,在訪談中毫無(wú)保留地坦誠(chéng)了所有信息。
那么阿蘇在訪談中究竟說(shuō)了些什么呢?以下是播客以及文字實(shí)錄,訪談時(shí)長(zhǎng)1小時(shí)10分,文字整理有部分刪減,其中小標(biāo)題為編者所加,全文9000字左右,閱讀大約需要20分鐘。如果現(xiàn)在沒(méi)有完整時(shí)間,可以加個(gè)星標(biāo)、或者用收聽(tīng)模式閱讀。
以下,enjoy:
0:41 xAI全力沖刺AGI
1:46 馬斯克預(yù)判瓶頸
3:05 馬斯克的時(shí)間線哲學(xué)
9:23 利用特斯拉百萬(wàn)車(chē)算力
11:59 虛擬Optimus機(jī)器人,取代數(shù)字任務(wù)
13:14 馬斯克如何解決極端問(wèn)題
20:33 馬斯克Cybertruck賭注
21:12 如何在122天內(nèi)建成Colossus
25:51 xAI招聘強(qiáng)度極高,短期內(nèi)海量面試
34:55 馬斯克不斷調(diào)整他對(duì)項(xiàng)目時(shí)間線的預(yù)估
40:36 在xAI工作最爽的體驗(yàn)
48:25 以為虛擬機(jī)器人是員工
50:00 虛擬機(jī)器人最大的失誤
53:23 與馬斯克開(kāi)會(huì)的感覺(jué)
54:22 馬斯克雖強(qiáng)勢(shì),但愿意被實(shí)驗(yàn)證明自己錯(cuò)了
59:21 當(dāng)馬斯克在X上看到錯(cuò)誤的Grok輸出時(shí)會(huì)發(fā)生什么
一切都應(yīng)該是“昨天就完成”
要么慢慢等死,要么自己把一切都建出來(lái)
機(jī)架當(dāng)天搭好,當(dāng)天就開(kāi)始訓(xùn)練
主持人(Ti Morse):很高興邀請(qǐng)到 xAI 的工程師 Sulaiman Ghori。我從2023年,也就是馬斯克剛啟動(dòng) xAI 的時(shí)候,就一直在關(guān)注這家公司。我覺(jué)得它可能是史上增長(zhǎng)最快的公司之一。你能不能聊聊,現(xiàn)在 xAI 到底發(fā)生了什么?
阿蘇:是的,我們基本上沒(méi)有真正意義上的截止日期,一切都應(yīng)該是“昨天就完成”。至少在公司內(nèi)部,沒(méi)有任何人為制造的阻礙。馬斯克一直強(qiáng)調(diào)“追根溯源”,找到最底層、最根本的限制是什么,如果是物理層面的限制,那我們會(huì)盡可能快地直面它、解決它。
這在軟件領(lǐng)域其實(shí)挺反常的,因?yàn)檐浖こ處熗ǔ2粫?huì)去思考“物理極限”這種事,但在 xAI,我們確實(shí)會(huì)這樣做。而且嚴(yán)格來(lái)說(shuō),我們現(xiàn)在已經(jīng)不完全是一家純軟件公司了。說(shuō)實(shí)話,我們最大的優(yōu)勢(shì)可能就在硬件上。因?yàn)樵诓渴鹨?guī)模這件事上,幾乎沒(méi)有任何其他公司能接近我們。
主持人: 馬斯克非常擅長(zhǎng)提前預(yù)判瓶頸,甚至能提前幾個(gè)月、幾年看到未來(lái)的問(wèn)題,然后倒推現(xiàn)在應(yīng)該怎么布局。那在 xAI,普通工程師是怎么在日常工作中采用這種思維方式的?
阿蘇:通常當(dāng)我們啟動(dòng)一個(gè)新項(xiàng)目時(shí),要么是團(tuán)隊(duì)里的人,要么是馬斯克本人,會(huì)很快提出一個(gè)非常核心的指標(biāo),這個(gè)指標(biāo)通常直接關(guān)聯(lián)到財(cái)務(wù)回報(bào)、物理回報(bào),或者兩者兼而有之。之后,幾乎所有事情都會(huì)圍繞這個(gè)指標(biāo)展開(kāi)。
我們不接受“人為限制”,如果真的有極限,那它必須是一個(gè)足夠底層、足夠真實(shí)的物理或理論限制,而不是因?yàn)榱鞒獭⒘?xí)慣或慣性導(dǎo)致的。尤其是在軟件領(lǐng)域,過(guò)去十多年 Web 開(kāi)發(fā)的環(huán)境讓很多人默認(rèn)接受了一些“速度和延遲就是這樣”的結(jié)論,但這些結(jié)論很多時(shí)候并不成立。如果你把這些東西拆掉,很多系統(tǒng)都可以輕松提速 2 到 8 倍。
主持人: 你最近一次親身經(jīng)歷“傳統(tǒng)認(rèn)知被打破”是什么時(shí)候?
阿蘇:最近的一次是在我們做“巨硬”模型(macrohard)的時(shí)候。得益于我們非常強(qiáng)的超級(jí)計(jì)算團(tuán)隊(duì),他們基本上拆除了傳統(tǒng)訓(xùn)練流程里的大多數(shù)障礙。我們基本能做到:一個(gè)機(jī)架當(dāng)天搭好,當(dāng)天就開(kāi)始訓(xùn)練,有時(shí)甚至幾小時(shí)內(nèi)就能跑起來(lái)。
主持人: 這聽(tīng)起來(lái)完全不正常,通常這些事情要花好幾天甚至幾周。
阿蘇:是的。過(guò)去十年,大家習(xí)慣把這些事情外包給 AWS 或 Google,你能用多少資源,完全取決于他們給你多少。但在 AI 時(shí)代,這是不可接受的。所以只有兩個(gè)選擇:要么慢慢等死,要么自己把一切都建出來(lái)。
直接利用特斯拉車(chē)隊(duì)部署計(jì)算機(jī)
同時(shí)推進(jìn)二三十個(gè)方向的實(shí)驗(yàn)
馬斯克最擅長(zhǎng)的就是快速“拆彈”
“我還能怎么幫你們把這件事做得更快?”
主持人: 你能講講你加入xAI,以及最初幾周是什么樣的嗎?
阿蘇:我當(dāng)時(shí)在做自己的創(chuàng)業(yè)項(xiàng)目,搬到灣區(qū)后,Greg Yang(xAI 的核心成員之一)聯(lián)系了我。他的招聘能力真的很強(qiáng)。一開(kāi)始我還以為那是垃圾郵件,差點(diǎn)就刪掉了,但我看到域名是 xAI,才意識(shí)到不對(duì)勁。
后來(lái)我再次聯(lián)系 Greg,他直接說(shuō)“明天來(lái)面試吧”。面完之后,下周一我就入職了。入職第一天,沒(méi)人告訴我該干嘛,只給了我一臺(tái)電腦和一張工牌。我甚至沒(méi)有被分配座位,只能坐在當(dāng)天沒(méi)來(lái)人的桌子上。
后來(lái)我主動(dòng)去找 Greg,才開(kāi)始參與Grok的 X 平臺(tái)集成工作。很快我發(fā)現(xiàn)一個(gè)很震撼的事情:我從座位上站起來(lái),指一圈辦公室,就能指出每一個(gè)系統(tǒng)是誰(shuí)親手寫(xiě)的。這種感覺(jué)非常酷。當(dāng)時(shí)工程團(tuán)隊(duì)只有一百多人,比其他大模型實(shí)驗(yàn)室小一個(gè)數(shù)量級(jí),但我們已經(jīng)做出了Grok3。
主持人: xAI用122天建成 Colossus 數(shù)據(jù)中心,這在業(yè)內(nèi)幾乎是神話。黃仁勛也一直在公開(kāi)稱(chēng)贊你們。這種基礎(chǔ)設(shè)施能力,對(duì)公司文化產(chǎn)生了什么影響?
阿蘇:它讓模型和產(chǎn)品團(tuán)隊(duì)可以默認(rèn):我們需要的資源一定會(huì)到位。我們確實(shí)不算“資源匱乏”,甚至已經(jīng)在同時(shí)推進(jìn)二三十個(gè)方向的實(shí)驗(yàn)。
實(shí)際上,Grok 4、Grok 5 的規(guī)模和設(shè)計(jì),在我入職前就已經(jīng)規(guī)劃好了。這種確定性讓我們能更長(zhǎng)期地思考。比如我們?cè)菊J(rèn)為系統(tǒng)的最低延遲下限要高得多,結(jié)果發(fā)現(xiàn)真實(shí)物理?xiàng)l件允許我們做到快三倍。我們現(xiàn)在在做的一些新架構(gòu),如果沒(méi)有極高的實(shí)驗(yàn)頻率,根本無(wú)法推進(jìn),因?yàn)樗鼈儾唤⒃谌魏我延醒芯恐希枰碌念A(yù)訓(xùn)練方式和新數(shù)據(jù)集。
這時(shí)基礎(chǔ)設(shè)施就成了關(guān)鍵。比如一個(gè)問(wèn)題是:如果我們要部署 100 萬(wàn)個(gè)“人類(lèi)模擬器”,那意味著100萬(wàn)臺(tái)計(jì)算機(jī),這怎么可能?答案很快就出現(xiàn)了:Tesla 車(chē)載計(jì)算機(jī)。這些設(shè)備在資本效率上遠(yuǎn)超云計(jì)算或傳統(tǒng)服務(wù)器。我們甚至可以直接在車(chē)上運(yùn)行完整的“人類(lèi)數(shù)字工作站”,成本極低。
主持人: 也就是說(shuō),可以直接利用現(xiàn)有的特斯拉車(chē)隊(duì)?
阿蘇:是的。北美有幾百萬(wàn)輛特斯拉,大部分時(shí)間它們是閑置、充電、聯(lián)網(wǎng)的。我們可以付費(fèi)給車(chē)主,在不影響使用的情況下運(yùn)行人類(lèi)模擬器。這幾乎不需要額外基建,只是一個(gè)軟件問(wèn)題。
Ti Morse:馬斯克 最擅長(zhǎng)的似乎就是快速“拆彈”。你有沒(méi)有親眼見(jiàn)過(guò)某個(gè)重大問(wèn)題,被他非常迅速地解決?
阿蘇:最明顯的是基礎(chǔ)設(shè)施建設(shè)。尤其是在新硬件上線時(shí),驅(qū)動(dòng)、編譯器、算子經(jīng)常會(huì)出問(wèn)題。有幾次他在會(huì)議中聽(tīng)到這些障礙,直接打一個(gè)電話,第二天 Nvidia 的軟件補(bǔ)丁就到位了,我們并肩把問(wèn)題解決,然后立刻開(kāi)始訓(xùn)練模型。
原本需要幾周的溝通,被壓縮成一天。很多時(shí)候,會(huì)議快結(jié)束時(shí),他會(huì)直接問(wèn)一句:“我還能怎么幫你們把這件事做得更快?”
主持人: 我知道你們?cè)诓⑿型七M(jìn)很多不同的產(chǎn)品,這在某種程度上也是不得不這么做。但在大多數(shù)組織里,同時(shí)在多個(gè)方向推進(jìn),其實(shí)很難始終保持對(duì)單一目標(biāo)的專(zhuān)注。你們是如何做到的?
阿蘇:關(guān)鍵在于規(guī)模擴(kuò)大之后的信息流動(dòng)方式。我們并不是隨時(shí)對(duì)所有項(xiàng)目都有完整視圖,通常是在全員會(huì)議,或者和不同人私下聊天時(shí),才逐漸拼湊出大家各自在做什么、進(jìn)度如何。
在這里,當(dāng)你提出一個(gè)想法,反饋通常只有兩種:要么是“這想法很蠢”,要么是“那為什么這還沒(méi)做完?”如果是后者,那你就直接去做,做完就結(jié)束了。幾乎不需要同步、不需要審批,也不需要等任何人。
主持人: 在馬斯克的公司里,好像你可以直接“要責(zé)任”,然后就進(jìn)入一種“成王敗寇”的狀態(tài)。事情做成了,你就能繼續(xù)要更多責(zé)任;做不成,就出局。你的體驗(yàn)是這樣嗎?
阿蘇:完全是這樣。我參與過(guò)很多不同的項(xiàng)目,大多數(shù)時(shí)候只是因?yàn)橛腥苏椅規(guī)兔Γ揖鸵恢睅拖氯ィ詈蟀l(fā)現(xiàn)自己莫名其妙就“擁有”了那一整塊技術(shù)棧,甚至好幾塊。對(duì)所有人來(lái)說(shuō)都是如此。如果你在幾天內(nèi)快速迭代并解決了某個(gè)問(wèn)題,那這塊基本就歸你了。沒(méi)有任何正式流程。
說(shuō)實(shí)話,我們的 HR 系統(tǒng)早就失真了。官方記錄里我可能還在做語(yǔ)音和 iOS,安全系統(tǒng)甚至認(rèn)為我還在負(fù)責(zé) X 的集成,但這些都沒(méi)人更新,也沒(méi)人關(guān)心。
小到可憐的團(tuán)隊(duì)規(guī)模
卻有著驚人的創(chuàng)造力和能量
工程師和馬斯克打賭
24小時(shí)內(nèi)在新GPU上跑起來(lái)
就能拿到一輛Cybertruck
主持人: 那你從入職到現(xiàn)在,大概都做過(guò)哪些項(xiàng)目?
阿蘇:一開(kāi)始我做的是 Grok 和相關(guān)集成,也和后端團(tuán)隊(duì)一起解決穩(wěn)定性和擴(kuò)展問(wèn)題,因?yàn)楫?dāng)時(shí)增長(zhǎng)非常快。后來(lái)我基本是一個(gè)人把桌面端產(chǎn)品體系搭建到內(nèi)部可用狀態(tài)。再之后,我被拉去支援 Imagine 的發(fā)布和 iOS。
說(shuō)實(shí)話,xAI 的 iOS 團(tuán)隊(duì)小得離譜,你根本猜不到有多少人。
主持人: 五個(gè)人?三個(gè)人?
阿蘇:三個(gè)人。當(dāng)時(shí)我就是第三個(gè)。相對(duì)于用戶規(guī)模來(lái)說(shuō),這簡(jiǎn)直不可思議,但每個(gè)人都非常強(qiáng)。這也是我第一次感覺(jué)到,必須拼命工作才能跟上團(tuán)隊(duì)整體的速度和水平。
主持人: 什么時(shí)候你第一次意識(shí)到,自己真的被“用到了極限”?
阿蘇:是在 Imagine 項(xiàng)目上。那是一種 24 小時(shí)一輪的迭代節(jié)奏。我們每天晚上發(fā)布版本,第二天早上拿到全部反饋,然后立刻修 bug、加新功能、適配最新模型輸出。循環(huán)極快。那可能是我人生中連續(xù)在辦公室待得最長(zhǎng)的一段時(shí)間。
主持人: 那段時(shí)間持續(xù)了多久?
阿蘇:大概兩三個(gè)月。那段時(shí)間基本沒(méi)有周末。但我并不討厭,反而很高興知道自己能承受這種強(qiáng)度。之后我被調(diào)去做 MacroHard 產(chǎn)品,當(dāng)時(shí)整個(gè)項(xiàng)目只有兩個(gè)人。我從立項(xiàng)開(kāi)始就一直在做這個(gè)項(xiàng)目。
主持人: Colossus 數(shù)據(jù)中心的建設(shè)過(guò)程本身就像戰(zhàn)爭(zhēng)故事合集。電力、芯片、GPU、冷卻,全是瓶頸。你在其中的感受是什么?
阿蘇:真的有太多戰(zhàn)爭(zhēng)故事了。有一次,Tyler (Tyer Storm,xAI工程師)跟馬斯克打了個(gè)賭,說(shuō)如果能在 24 小時(shí)內(nèi)讓新 GPU 完成訓(xùn)練運(yùn)行,就能拿到一輛 Cybertruck。結(jié)果當(dāng)晚我們就跑起來(lái)了。那輛車(chē)現(xiàn)在我在食堂窗戶外還能看到。
主持人: 還有沒(méi)有那種“本不該成功,但卻成功了”的故事?
阿蘇:比如說(shuō),Colossus 用地的租約本質(zhì)上是臨時(shí)的。這是為了最快拿到許可、盡快開(kāi)工。我相信之后會(huì)轉(zhuǎn)為正式許可,但當(dāng)下是“技術(shù)上臨時(shí)”。
主持人:這聽(tīng)起來(lái)像是利用制度漏洞?
阿蘇:本地和州政府有一種特殊條款,允許“臨時(shí)地面設(shè)施”,原本是給嘉年華之類(lèi)用的。所以是的,我們算是“嘉年華公司”。但122天就建完了。
如何做規(guī)劃:
從“最高杠桿點(diǎn)”進(jìn)行倒推
先刪掉不必要的東西
等發(fā)現(xiàn)真的需要,再加回來(lái)
找到那些“10行解法”,敢于挑戰(zhàn)需求的人
主持人: 你們?nèi)绾卧跇O不確定的情況下做 12 到 24 個(gè)月的規(guī)劃?
阿蘇:我們總是從“最高杠桿點(diǎn)”倒推。比如,如果目標(biāo)是在某個(gè)時(shí)間點(diǎn)實(shí)現(xiàn) 1000 萬(wàn)或 1 億美元收入,那從經(jīng)濟(jì)角度看,最值得做的事情是什么?先確定系統(tǒng)和產(chǎn)品形態(tài),再推導(dǎo)需要什么軟件、什么物理資源。物理?xiàng)l件反而通常是最后才確定的。
主持人: 那是不是也在用 SpaceX 那套“先刪再加”的方法?
阿蘇:是的,經(jīng)常這樣。先刪掉不必要的東西,等發(fā)現(xiàn)真的需要,再加回來(lái)。
主持人: 最近一次是什么時(shí)候?
阿蘇:就是今天。MacroHard 需要在各種不同硬件上部署,顯示器從 30 年前的老設(shè)備到最新的 5K 顯示器都要支持。我把多個(gè)視頻編碼器的特殊分支邏輯刪掉了,結(jié)果發(fā)現(xiàn)某些編碼器在 5K 分辨率下有像素上限,只好把那一層特殊處理再加回來(lái)。
主持人: 你覺(jué)得關(guān)于 xAI,還有哪些事情值得被更多人知道?
阿蘇:這里有很多“怪人”,但都是正向的怪人。在這里,杠桿效應(yīng)非常強(qiáng)。你能用比過(guò)去少得多的時(shí)間和精力,做成大得多的事,這和你共事的人、內(nèi)部工具、以及管理方式高度相關(guān)。
主持人: 那什么樣的人會(huì)想來(lái)這里工作?
阿蘇:大多數(shù)人一開(kāi)始都非常有熱情,而且高度使命驅(qū)動(dòng)。有的人追求管理影響力,有的人更想“擁有”技術(shù)棧的一大塊。比如現(xiàn)在,我們?cè)谥貙?xiě)核心生產(chǎn) API,幾乎是一個(gè)人帶著 28個(gè)agent 在干,而且干得很好。你完全可以一個(gè)人負(fù)責(zé)極大一部分代碼。
主持人: xAI 在招聘上還有哪些不尋常的做法?
阿蘇:我曾經(jīng)連續(xù)兩三周,每周面 20 多個(gè)人。我有一道自己曾經(jīng)解決過(guò)的計(jì)算機(jī)視覺(jué)問(wèn)題,會(huì)讓候選人在半小時(shí)內(nèi)嘗試實(shí)現(xiàn)。問(wèn)題本身非常簡(jiǎn)單,但很多人會(huì)過(guò)度設(shè)計(jì)。
我特別看重能不能找到“10行解法”。因?yàn)槲覀円茉诳缍?30 到 40 年的硬件和系統(tǒng)上,如果不追求極簡(jiǎn),下周代碼就會(huì)膨脹到千萬(wàn)行。AI 很容易寫(xiě)出 200 行代碼,但真正重要的是,誰(shuí)能先想到那 10 行。
主持人: 你剛才提到“杠桿效應(yīng)”,那你個(gè)人在招人或合作時(shí),還會(huì)特別看重哪些“放大器”?
阿蘇:我非常看重那些敢于挑戰(zhàn)需求、敢于挑戰(zhàn)我的人。我是從 Chester Z Ford 那里學(xué)到這一點(diǎn)的,我覺(jué)得這個(gè)方法特別好。他在招聘時(shí),經(jīng)常會(huì)在題目里故意加入一個(gè)錯(cuò)誤的需求、不可能完成的條件,或者邏輯上不成立的設(shè)定。他期待候選人能站出來(lái)說(shuō):“這個(gè)是錯(cuò)的,這個(gè)不可能實(shí)現(xiàn),你這里有問(wèn)題。”如果對(duì)方什么都不說(shuō),直接照著做,那他基本就不會(huì)招這個(gè)人。我后來(lái)也完全照著這個(gè)方式來(lái)用,效果非常好。
越是聰明的人其實(shí)越樂(lè)于合作
抱怨完“完全不合理”的交付時(shí)間
轉(zhuǎn)念就想怎么在期限內(nèi)把事情做完
永遠(yuǎn)可以嘗試用一個(gè)月去做一件
原本要一年才能完成的事
主持人: 節(jié)奏這么快,而你又不斷在不同項(xiàng)目之間切換,你通常是怎么在一個(gè)新任務(wù)或新項(xiàng)目上快速“上手”的?
阿蘇:這要看具體情況。如果是代碼量比較大的項(xiàng)目,那就老老實(shí)實(shí)地讀代碼,用最原始的方法,一路 go to definition,反復(fù)跳轉(zhuǎn)。其實(shí)這樣理解得非常快。當(dāng)然,如果是一個(gè)正在高速演進(jìn)中的項(xiàng)目,那就不一樣了,可能同時(shí)存在二三十個(gè)版本,你甚至分不清哪個(gè)才是“當(dāng)前主線”。
這種時(shí)候就只能去找人聊。好在大家都非常開(kāi)放,這是我入職后最驚喜的一點(diǎn)。我原本以為這里的人會(huì)非常聰明、但也可能很傲慢,結(jié)果恰恰相反:大家都很聰明,而且非常友好、樂(lè)于幫忙,真的有一種“在同一條船上”的感覺(jué)。
因?yàn)楣?jié)奏太快,我們基本不寫(xiě)文檔,根本來(lái)不及寫(xiě)。現(xiàn)在我們甚至在嘗試,用系統(tǒng)自動(dòng)生成文檔。另一方面,我們有 Grok,而且可以無(wú)限制使用,這本身就是一種巨大優(yōu)勢(shì)。我們可以去嘗試很多“看起來(lái)很蠢”的想法,看它到底行不行。在別的創(chuàng)業(yè)公司,這樣的實(shí)驗(yàn)可能要燒掉幾十萬(wàn)甚至上百萬(wàn)美元的算力成本,而我們幾乎是零成本。這意味著我們可以失敗很多次,而失敗次數(shù)越多,成功的實(shí)驗(yàn)反而越多。
主持人: 你有沒(méi)有經(jīng)歷過(guò)那種,原本覺(jué)得一個(gè)項(xiàng)目周期應(yīng)該很長(zhǎng),但最后卻被你們硬生生壓縮了幾周甚至幾個(gè)月的情況?
阿蘇:基本上每一次都是這樣。每次從內(nèi)部會(huì)議或者和外部人溝通完,聽(tīng)到一個(gè)看起來(lái)“完全不合理”的交付時(shí)間,我們通常會(huì)先花幾分鐘抱怨一下,然后剩下的時(shí)間就全部用來(lái)想:怎么在這個(gè)時(shí)間內(nèi)把事情做完。
你會(huì)發(fā)現(xiàn),所謂的“時(shí)間預(yù)估”,其實(shí)是建立在一堆假設(shè)之上的。當(dāng)時(shí)間被砍到原來(lái)的二分之一、甚至十分之一時(shí),你就會(huì)重新審視這些假設(shè):哪些是真正必要的?哪些可以刪掉?每推翻一個(gè)假設(shè),時(shí)間線就會(huì)直接縮短一截。這樣反復(fù)幾次,往往就能滿足看起來(lái)“不可能”的要求。
主持人: 在 SpaceX 和特斯拉上,馬斯克的時(shí)間預(yù)期往往比現(xiàn)實(shí)短很多,但正因?yàn)檫@個(gè)激進(jìn)預(yù)期,事情最終反而做得更快。在 xAI 這邊是不是類(lèi)似?而且你們現(xiàn)在看起來(lái)甚至更接近他給出的時(shí)間線。
阿蘇:我覺(jué)得他本人也在不斷校準(zhǔn)自己的時(shí)間判斷。畢竟現(xiàn)在已經(jīng)多次在極大規(guī)模上部署過(guò)硬件,所以對(duì)周期的把握比過(guò)去準(zhǔn)很多。而且他的時(shí)間線更新得非常快,有時(shí)候幾乎是按天更新的。比如某個(gè)硬件訂單如果能插進(jìn)生產(chǎn)批次,就可能一下子省掉一兩個(gè)月。
在軟件側(cè)也是同樣的邏輯。他一直說(shuō)的一點(diǎn)是:你永遠(yuǎn)可以嘗試用一個(gè)月去做一件原本要一年才能完成的事。你也許做不完,但可能兩個(gè)月就搞定了,那依然快得多。
馬斯克已經(jīng)不招AI研究員了
只招工程師
xAI內(nèi)部只有三個(gè)層級(jí)
幾乎所有管理層都會(huì)寫(xiě)代碼
一些看起來(lái)“不該出現(xiàn)在這里”的人
最后卻做成了非常大的事情
主持人: 我記得馬斯克曾說(shuō)過(guò),現(xiàn)在已經(jīng)沒(méi)有“AI 研究員”這種角色了,只有工程師。
阿蘇:是的,有一次我們?cè)谟懻撜衅该枋鰰r(shí),他花了十幾分鐘反復(fù)強(qiáng)調(diào):工程師,工程師,只要是優(yōu)秀的問(wèn)題解決者就行,不管背景是做模型、做基礎(chǔ)設(shè)施還是別的。
主持人: 為什么這個(gè)定義這么重要?
阿蘇:因?yàn)樗銐驅(qū)挕_@樣一來(lái),來(lái)自非常不同背景的人都能進(jìn)入這個(gè)系統(tǒng)。SpaceX 早期也有很多類(lèi)似的例子,一些看起來(lái)“不該出現(xiàn)在這里”的人,最后卻做成了非常大的事情。
主持人: 對(duì)你個(gè)人來(lái)說(shuō),每天在這里工作,最有趣的是什么?
阿蘇:沒(méi)人跟我說(shuō)“不”。如果我有一個(gè)好想法,通常當(dāng)天就能實(shí)現(xiàn)、展示,然后跑評(píng)測(cè)、給客戶看、或者直接給馬斯克看。當(dāng)天就能知道這是不是正確方向。沒(méi)有冗長(zhǎng)討論,沒(méi)有官僚流程,這一點(diǎn)我非常喜歡。
我原本以為,從極小的創(chuàng)業(yè)公司跳到一家 100 人規(guī)模的公司,必然會(huì)犧牲一些自由度。但相對(duì)于馬斯克的其他公司,這里依然非常小,也確實(shí)非常扁平,幾乎沒(méi)有額外負(fù)擔(dān)。
主持人: 有沒(méi)有哪些你入職前的假設(shè),被徹底打破了?
阿蘇:我原以為會(huì)是非常自上而下的管理,但實(shí)際上比我想象中更自下而上。整個(gè)公司基本只有三層:工程師、創(chuàng)始人和少數(shù)管理者、然后就是 馬斯克。
管理層級(jí)極少,而且幾乎所有管理者都會(huì)寫(xiě)代碼。即便現(xiàn)在有些人要管上百人,但本質(zhì)上他們依然是工程師。我記得入職第一周吃晚飯時(shí),坐在我旁邊的人說(shuō)他在做銷(xiāo)售,我心想“算了,不聊了”。結(jié)果他開(kāi)始給我講他正在訓(xùn)練的模型。后來(lái)我才發(fā)現(xiàn),銷(xiāo)售團(tuán)隊(duì)全是工程師。當(dāng)時(shí)公司里,非工程師的人可能不到 8 個(gè)。每個(gè)人都在為這臺(tái)機(jī)器貢獻(xiàn)力量。
主持人: 是不是因?yàn)閷蛹?jí)少,工程師可以更直接理解客戶問(wèn)題,然后迅速落地?
阿蘇:是的。層級(jí)越多,信息損失越嚴(yán)重。語(yǔ)言本身就是有損的。如果你從客戶到銷(xiāo)售,再到經(jīng)理,再到工程師,每一層都是一次“壓縮”,最后拿到的信息已經(jīng)嚴(yán)重失真。而如果工程師直接面對(duì)客戶,就只壓縮一次,解決方案自然會(huì)好得多。
主持人: 你覺(jué)得團(tuán)隊(duì)人數(shù)這么少,反而是一件好事嗎?
阿蘇:是的,絕對(duì)是。我一直認(rèn)為,一件本來(lái)一個(gè)人就能完成的工作,如果交給兩個(gè)人來(lái)做,往往反而會(huì)花兩倍的時(shí)間,這個(gè)規(guī)律在任何規(guī)模下都成立。尤其是在現(xiàn)在這個(gè)階段,你已經(jīng)不需要像過(guò)去那樣親自寫(xiě)那么多代碼了,你更多是在做決策、做架構(gòu)設(shè)計(jì)。某種意義上,每個(gè)人都可以是架構(gòu)師,并不需要那么多“手”,一個(gè)人的大腦能完成的事情比以前多得多。
馬斯克如何開(kāi)會(huì):
要么是非常高層的反饋
要么是非常底層的細(xì)節(jié)
常會(huì)出現(xiàn)那種“沖鋒式”的時(shí)刻
比如馬斯克半夜突然進(jìn)公司
醒著的人直接拉來(lái)開(kāi)始處理
主持人: 你參與過(guò)的馬斯克會(huì)議一般是什么樣的?
阿蘇:其實(shí)都挺簡(jiǎn)單的,而且我運(yùn)氣不錯(cuò),大多數(shù)都進(jìn)行得比較順利。所謂“順利”,通常意味著反饋很少,或者只是點(diǎn)個(gè)頭,表示方向是對(duì)的,下周再更新。如果出現(xiàn)了明確的反饋,甚至要求徹底改變方向,那通常說(shuō)明我們?cè)谀硞€(gè)地方出了問(wèn)題。反而從上往下的節(jié)奏,有時(shí)候確實(shí)會(huì)顯得有點(diǎn)混亂。
主持人: 在 SpaceX 那樣的環(huán)境里,成本和零件細(xì)節(jié)極其重要。但在這里,馬斯克給反饋的方式是不是不太一樣?
阿蘇:通常要么是非常高層的反饋,要么是非常底層的細(xì)節(jié),中間層反而不多。高層反饋可能是產(chǎn)品方向、用戶定位,比如只聚焦某一個(gè)細(xì)分市場(chǎng),或者干脆不要做某件事。而在底層層面,尤其是涉及算力效率或延遲時(shí),他幾乎總會(huì)給出一個(gè)非常具體的建議,比如“試試這個(gè)”。他也非常愿意被證明是錯(cuò)的,但前提是要有實(shí)驗(yàn)結(jié)果,而不是觀點(diǎn)之爭(zhēng)。只要實(shí)驗(yàn)結(jié)果足夠有說(shuō)服力,我們就會(huì)采納。
主持人: 能舉些具體的例子嗎?
阿蘇:比如在算力效率上選擇小模型,帶來(lái)了很多我們?cè)緵](méi)想到的改進(jìn)。有些是直接的,有些是間接的。最明顯的好處當(dāng)然是速度大幅提升,但更重要的是,小模型讓迭代速度變得極快。特斯拉在自動(dòng)駕駛上也發(fā)現(xiàn)了這一點(diǎn)。以前可能四周才能發(fā)布一個(gè)版本,現(xiàn)在一周就可以。這也是為什么我們可以同時(shí)跑二十多個(gè)實(shí)驗(yàn),很多連鎖效應(yīng)都源自這個(gè)小模型決策。
Ti Morse:我看到過(guò)一些情況,有人在 X 上指出 Grok 的回答明顯不對(duì),馬斯克說(shuō)“我們會(huì)修”,然后十幾個(gè)小時(shí)后問(wèn)題就解決了。內(nèi)部一般是怎么處理這種事情的?
阿蘇:他會(huì)直接指出哪里出了問(wèn)題。只要當(dāng)時(shí)有清醒的人,就會(huì)立刻拉一個(gè)線程開(kāi)始處理,必要時(shí)再拉幾個(gè)人進(jìn)來(lái)。問(wèn)題解決之后,會(huì)做一次復(fù)盤(pán),讓所有人都清楚問(wèn)題是怎么發(fā)生的,以及未來(lái)如何避免。犯一次錯(cuò)是可以接受的,但同樣的錯(cuò)誤犯第二次,就是大問(wèn)題了。
主持人: 在 SpaceX 的發(fā)展歷史中,包括在特斯拉,也經(jīng)常會(huì)出現(xiàn)那種“沖鋒式”的時(shí)刻,比如馬斯克半夜突然進(jìn)公司,直接全員通知說(shuō)所有能來(lái)的人都得來(lái),一起連夜推進(jìn)事情。這里也發(fā)生過(guò)類(lèi)似的情況嗎?
阿蘇:這種情況更多出現(xiàn)在大模型相關(guān)的項(xiàng)目上。就 Macro這條線來(lái)說(shuō),我們已經(jīng)在“戰(zhàn)情室”模式下連續(xù)運(yùn)轉(zhuǎn)了四個(gè)月了,所以基本一直都處在那種高強(qiáng)度推進(jìn)狀態(tài)。
主持人: 那你們真的在門(mén)口掛了個(gè)“戰(zhàn)情室”的牌子嗎?
阿蘇:其實(shí)有過(guò)。最早的那個(gè)戰(zhàn)情室,后來(lái)我們把東西全都搬走了。有一次他走進(jìn)那個(gè)房間,發(fā)現(xiàn)里面空無(wú)一人,就問(wèn)“人呢?怎么回事?”然后他又走到我們現(xiàn)在所在的地方,也就是原本的健身房。我們把健身房清空了,把所有人都塞進(jìn)來(lái),然后他就在那里臨時(shí)開(kāi)始挨個(gè)問(wèn)項(xiàng)目進(jìn)展。那一晚真的很漫長(zhǎng)。
主持人: 在這種很多事情被突然打亂、然后迅速往前推進(jìn)的夜晚,或者說(shuō)在這種“沖鋒時(shí)刻”,你的感受是什么?
阿蘇:我前幾天剛好看到 Igor(Igor Babuschkin,xAI聯(lián)合創(chuàng)始人)發(fā)過(guò)一條內(nèi)容,大意是:有些月份,幾天就過(guò)去了;但有些夜晚,仿佛發(fā)生了好幾個(gè)月的事情。那一晚絕對(duì)就是后者。當(dāng)然,“幾個(gè)月”可能有點(diǎn)夸張,但我覺(jué)得如果按正常節(jié)奏推進(jìn),我們可能也能在幾周內(nèi)達(dá)到同樣的技術(shù)結(jié)果。但把這件事壓縮到一個(gè)晚上完成,意義完全不一樣,那確實(shí)是一次極限推進(jìn),而且非常累。
主持人: 有沒(méi)有出現(xiàn)過(guò)那種情況,比如公司里的人連續(xù)五天、甚至一周幾乎都沒(méi)離開(kāi)過(guò)辦公室?
阿蘇:有的。模型搜索階段經(jīng)常會(huì)導(dǎo)致很多人直接在公司通宵。
主持人: 你剛才提到公司里有五六個(gè)睡眠艙,大家輪流用?
阿蘇:對(duì),有一些睡眠艙,現(xiàn)在還有幾張上下鋪,條件就沒(méi)那么好了,但確實(shí)能睡。后來(lái)那張“帳篷”的照片傳出來(lái)之后,很多人都發(fā)給我。我只能說(shuō),帳篷是有的,但我從沒(méi)見(jiàn)過(guò)一次性全都搭出來(lái)的情況。
我骨子里還是一個(gè)創(chuàng)業(yè)者
在這里個(gè)人的杠桿效應(yīng)最大
能產(chǎn)生的直接影響更大
主持人: 在加入現(xiàn)在這家公司之前,你嘗試過(guò)創(chuàng)辦多家公司,也同時(shí)做過(guò)很多不同的項(xiàng)目。是什么讓你選擇來(lái)這里?是使命感、文化,還是別的什么因素?
阿蘇:說(shuō)實(shí)話,我一直都挺“馬斯克粉”的
(看到這,想到第二天他就要被開(kāi)除,挺心酸的)。他從小就是我的個(gè)人英雄之一,尤其是看到獵鷹火箭第一次成功回收的時(shí)候,給我留下了非常深的印象。我還專(zhuān)門(mén)去現(xiàn)場(chǎng)看了第五次星艦發(fā)射,那次是第一次成功捕獲,真的非常震撼,是我這輩子看過(guò)最酷的事情。所以,只要是和這些事情哪怕沾一點(diǎn)邊的項(xiàng)目,對(duì)我來(lái)說(shuō)都非常有吸引力。
主持人: 那為什么不是 SpaceX 或 Tesla,而是選擇了現(xiàn)在這家公司?
阿蘇:我骨子里還是一個(gè)創(chuàng)業(yè)者。這家公司是幾家里面最小、也最新的一家。我當(dāng)時(shí)的判斷是,而且后來(lái)基本也被證明是對(duì)的,在這里個(gè)人的杠桿效應(yīng)最大。因?yàn)閺谋壤峡矗阍诠纠锼嫉谋戎剡h(yuǎn)遠(yuǎn)高于那些更大的公司。這并不是說(shuō)在大公司就做不了酷的事情,或者個(gè)人不重要,而是這里你能產(chǎn)生的直接影響更大。
Ti Morse:謝謝你接受今天的訪談。
小編:說(shuō)實(shí)話,整理完整場(chǎng)訪談,似乎并沒(méi)有從中看到什么會(huì)絕對(duì)導(dǎo)致阿蘇“應(yīng)當(dāng)”被開(kāi)除掉的內(nèi)容。有些可能比較敏感,比如將幾百萬(wàn)輛特斯拉變成車(chē)載分布式計(jì)算機(jī)啥的。相反,阿蘇在訪談中講了大量非常有“營(yíng)養(yǎng)”和值得思考的內(nèi)容。從這個(gè)意義上講,這真的是一場(chǎng)值得正兒八經(jīng)推薦的訪談。
問(wèn)馬會(huì)繼續(xù)整理并發(fā)布那些高價(jià)值的內(nèi)容。如果你也對(duì)一個(gè)全新的未來(lái)充滿好奇,也在尋找能夠穿越周期的力量,歡迎關(guān)注AskMusk,或者添加主理人VX:askmusk001
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.