![]()
整理 | 褚杏娟
Sulaiman Ghori 在一期播客中,用了一個多小時詳細(xì)講述了他在 xAI 的經(jīng)歷。他說,在那里“從來沒有人對我說不”,每個人都被充分信任去做正確的事;只要是好想法,當(dāng)天就能落地、當(dāng)天就能得到反饋。他還提到,馬斯克愿意被證明是錯的,只要你能拿出實驗數(shù)據(jù)。
他也坦言,在上一家公司,很多事情也許他一個人能做得更快;但在 xAI,整體反而更快,因為幾乎沒有官僚流程。這些話,聽起來都是對公司的認(rèn)同和馬斯克的贊揚,實際上他還說自己是馬斯克粉絲。
然后,播客發(fā)出來后第 3 天,他被解雇了。
外界猜測是因為他說了太多敏感信息。節(jié)目中,他透露了利用閑置特斯拉汽車驅(qū)動的人類模擬器 AI 代理的計劃、還有馬斯克如何快速構(gòu)建 Colossus 超級集群、xAI 在模型策略上的核心決策,曝光了公司內(nèi)部部署測試的 AI 虛擬員工等,還有 xAI 也被完全曝光。他坦率地談到了激進(jìn)的時間表、馬斯克親自參與的 Cybertruck 獎金計劃、內(nèi)部文化和運營方式以及一些非公開的策略,這些言論引發(fā)了外界的強烈反響。
![]()
經(jīng)歷被玩梗:如何在 1 小時內(nèi)毀掉你的一生,對應(yīng)了最近 x 的爆文“如何在 1 小時內(nèi)修復(fù)你的一生”
Sulaiman 自 2019 年起持續(xù)創(chuàng)業(yè)。在德國上大學(xué)一個月后退學(xué),為了實現(xiàn)童年創(chuàng)辦航天公司的夢想,在自家后院親手制造過一臺液體燃料火箭發(fā)動機。創(chuàng)業(yè)失敗后,他進(jìn)入 xAI。對于他的經(jīng)歷,有網(wǎng)友表示,“這位兄弟跑去上播客,沒拿到明確授權(quán),就順手把一堆內(nèi)部敏感信息抖出來,這就是純純的新手行為。可以說,這是職業(yè)生涯級別的大忌。任何一家嚴(yán)肅的公司都會立刻把你原地開除,更別說是像馬斯克這樣的人。”
我們翻譯并整理了他這期“超級爆料”的播客對話,并在不改變原意基礎(chǔ)上進(jìn)行了刪減,以饗讀者。
在 xAI,事情永遠(yuǎn)是
“昨天就該完成”
主持人:今天我很高興能和 Sulaiman Ghori 坐下來聊聊,他是 xAI 的一名工程師。我從 2023 年馬斯克剛開始搞 xAI 的時候就一直很關(guān)注這家公司,感覺它可能是史上增長最快的公司之一。你能不能跟大家講講,現(xiàn)在 xAI 到底在發(fā)生什么?
Sulaiman:說實話,我們幾乎沒有所謂的 deadline,永遠(yuǎn)都是“昨天就該完成”。基本沒有什么人為障礙。馬斯克一直強調(diào)要“追根溯源”,找到最底層、最根本的東西,不管是物理層面的還是其他的。我們通常會非常快地深入到那個層面,能多快就多快。
這在軟件行業(yè)其實挺有意思的,因為你平時不太會把硬件這件事放在心上,但我們確實花了很多精力去考慮這些。而且嚴(yán)格來說,我們現(xiàn)在也不完全算是一家純軟件公司了,畢竟基礎(chǔ)設(shè)施的建設(shè)占了很大一部分。
主持人:對,現(xiàn)在明顯是被硬件限制住的。
Sulaiman:沒錯。硬件可能是我們最大的優(yōu)勢之一,因為在部署能力上,幾乎沒有其他公司能接近我們。不過,軟件方面的人才密度也高得驚人,我從來沒在任何地方見過這樣的團隊。
主持人:我覺得馬斯克有一點特別厲害:他很擅長提前判斷未來幾個月、甚至幾年后會出現(xiàn)什么瓶頸,然后從那個未來的瓶頸反推,確保自己現(xiàn)在就站在一個很好的位置上。這種思維方式在日常工作中是怎么影響普通工程師、AI 開發(fā)者的?
Sulaiman:通常我們一旦要快速啟動一個新項目,不管是我們還是他自己,都會先定一個指標(biāo)。這個指標(biāo)一般都非常核心,要么直接關(guān)系到財務(wù)回報,要么關(guān)系到硬件層面的產(chǎn)出,有時候兩者都有。之后,所有事情都會圍繞著這個指標(biāo)來推進(jìn)。而且我們不太接受那種“這事本來就不可能”的說法,就算真有極限,那也必須是一個扎根在最底層的、本質(zhì)性的限制,而不是人為的。
軟件行業(yè)里,尤其是過去十年做 Web 開發(fā)的人,往往會默認(rèn)、接受很多所謂的限制,比如速度、延遲之類的。但實際上這些限制很多都是假的。技術(shù)棧里有大量沒必要的開銷和“蠢東西”,如果你能把這些清掉,很多系統(tǒng)都能直接提升 2 到 8 倍,至少是那些相對比較新的東西。當(dāng)然,也有些老東西確實不好動。
主持人:你最近一次真正感受到“傳統(tǒng)認(rèn)知被徹底打碎”的經(jīng)歷是什么?
Sulaiman:最近一次就是我們在 Macrohood 上做模型迭代。我們同時在做幾種全新的架構(gòu),而且是并行推進(jìn)的。現(xiàn)在我們幾乎每天都會出新版本,有時候一天不止一次,有些甚至是從預(yù)訓(xùn)練階段就開始重新來。這在業(yè)內(nèi)其實非常少見。
這背后有幾個原因:第一,我們有一支非常強的超算團隊,他們解決了很多訓(xùn)練過程中常見的障礙。即便我們的硬件環(huán)境變化很大,但通常一個機架搭好后,一天之內(nèi)就能開始訓(xùn)練,有時候甚至幾個小時就可以。
主持人:這真的很不正常,一般不是都要好幾天嗎?
Sulaiman:甚至好幾周。過去十年里,大多數(shù)人都是把這些事情抽象掉,交給 Amazon、Google 去管,他們給你多少算力你就用多少。但在 AI 時代,這種方式是行不通的。要么你死掉,要么你自己把這些東西建出來。
入職初體驗:沒人管,
做模型和產(chǎn)品默認(rèn)資源到位
主持人:當(dāng)初為什么加入 xAI,以及前幾周入職體驗怎樣?
Sulaiman:我當(dāng)時剛搬到灣區(qū),在做自己的創(chuàng)業(yè)項目。那段時間,xAI 的聯(lián)合創(chuàng)始人之一 Greg Yang 主動聯(lián)系了我。他真的很會招人。
我一開始收到郵件的時候還以為是垃圾郵件,因為那時候我經(jīng)常收到那種“嘿,想聊聊嗎”“我很欣賞你做的事情”之類的郵件。正準(zhǔn)備刪掉的時候,看到發(fā)件人的域名是 xAI,我一下反應(yīng)過來:等等,這不是那幫人嗎?當(dāng)時他們大概成立了八個月左右,我就答應(yīng)先聊聊。我們聊了好幾次,我本來還想再試試別的機會,但后來發(fā)現(xiàn)時機不太對。
那個項目最后也沒做下去,原因很明顯:用一百萬美元是不可能把 Macrohard 這種東西做出來的,但想法本身是對的。接下來六七個月,我基本是在燒錢,做各種航天相關(guān)的小項目,還試過一個“空氣空間”相關(guān)的概念,后來也發(fā)現(xiàn)大概率行不通,但至少試過了。于是,我又給 Greg 發(fā)郵件,說能不能再聊聊。他直接回我:要不要明天面試?我說“好”。
面試還算順利,我周一就搬家,直接入職了。第一天真的沒人管我,就給了我一臺電腦和工牌。我當(dāng)時想:那現(xiàn)在怎么辦?我去找 Greg,說我連團隊都沒有,也沒人告訴我該干嘛。他當(dāng)初招我進(jìn)來,更多是因為他認(rèn)可我之前做的事情,也覺得和 Macrohard 的長期方向相關(guān),但那時候 Macrohood 甚至還算不上一個正式項目。
后來正好 Ask Grok 要啟動,做和 X 的集成,他們問我能不能幫忙,我說當(dāng)然可以。第一周我基本就是和另外一個人一起干活。但我很快意識到,在 xAI,你坐在工位上,甚至站起來一看,就能指著某個東西說:哦,這是那個人做的。這種感覺非常酷。而且我連固定工位都沒有,就坐在當(dāng)天沒來的人桌子旁。
主持人:那時候公司里人其實也不多吧?
Sulaiman:對,大概也就幾百人,工程團隊一百來號人。基礎(chǔ)設(shè)施團隊具體多少人我也說不太清,因為有些人是從其他團隊慢慢轉(zhuǎn)到我們正式編制里的。但整體規(guī)模確實比其他實驗室小個數(shù)量級。當(dāng)時我們剛做完 Grok 3。
主持人:真的很酷。我特別喜歡的一點是,xAI 從成立到現(xiàn)在的速度實在太夸張了。我記得馬斯克一開始還說,不確定在別人已經(jīng)領(lǐng)先好幾年的情況下能不能成功。結(jié)果你們第一個 Colossus 數(shù)據(jù)中心 122 天就建完了,這在行業(yè)里幾乎是不可想象的。這種速度塑造了一種怎樣的文化?
Sulaiman:他讓我們在做模型和產(chǎn)品的時候,可以默認(rèn)資源是到位的。事實也確實如此,我們并沒有被資源嚴(yán)重卡住。
當(dāng)然,我們還是會把資源用到極限,但那是因為同時在推進(jìn)二三十個、甚至更多事情。有大量訓(xùn)練任務(wù)并行跑著,通常是由少數(shù)幾個人在推動。這也是為什么我們在模型和產(chǎn)品迭代上能這么快。而且這種速度讓我們可以更長期地去思考。比如 Grok 4、Grok 5,其實在我加入之前、甚至 Grok 3 落地之前,規(guī)模和預(yù)期就已經(jīng)設(shè)計好了。
主持人:也就是說,至少提前一年在規(guī)劃?
Sulaiman:對,而且你能感覺到,這些預(yù)期大概率是能實現(xiàn)的,因為團隊整體非常可靠。這就極大地解放了你的思維,讓你不用老是糾結(jié)“我會不會做不到”。舉個例子,我們之前假設(shè)的最低延遲,其實比真正需要的高了大概三倍,而基礎(chǔ)設(shè)施的建設(shè)讓我們可以做到這一點。
主持人:這是什么意思?
Sulaiman:我們在做的一種新架構(gòu),如果沒有足夠高的實驗頻率,基本是不可能推進(jìn)的,因為它完全不建立在現(xiàn)有研究基礎(chǔ)之上。你需要全新的預(yù)訓(xùn)練體系,也需要新的數(shù)據(jù)集。這本身并不完全受制于硬件資源,雖然也有一些因素,比如 Tesla 計算平臺的問題。這個其實已經(jīng)是公開的了。
我們現(xiàn)在在想一件事:如果我們用 Macrohard 去做“人類模擬器”,那要怎么部署?如果要部署一百萬個“人類模擬器”,就需要一百萬臺計算機,這怎么可能?
結(jié)果兩天后答案就出現(xiàn)了:Tesla 車載計算機。它的資本效率非常高,我們可以在上面跑模型,甚至跑一個完整的人類工作環(huán)境,成本比在 AWS、Oracle 的虛擬機上,甚至直接買 Nvidia 硬件都要低得多。這讓我們可以假設(shè):我們能以更快的速度、在更大的規(guī)模上部署。所以我們也相應(yīng)調(diào)整了預(yù)期。
主持人:也就是說,你們基本上可以直接利用汽車網(wǎng)絡(luò)?
Sulaiman:所以這其實是一種潛在的解決方案。簡單來說,我們想要一百萬個虛擬人(VMs)。僅在北美,就已經(jīng)有大約 400 萬輛特斯拉汽車。假設(shè)其中有三分之二,或者哪怕一半,已經(jīng)配備了 Hardware 4。而且在 78% 到 80% 的時間里,這些車基本都是停在那里,要么閑置、要么在充電。那我們完全可以付費,讓車主把車的算力時間“租”給我們。車本身已經(jīng)有網(wǎng)絡(luò)、有散熱、有電力。我們可以直接在車上運行一個“人類模擬器”,也就是 Digital Optimus。這樣一來,車主的租賃費用能被覆蓋,我們這邊則得到一個可以投入工作的完整人類模擬器。整個過程幾乎不需要額外的基礎(chǔ)設(shè)施建設(shè),基本就是一個純軟件層面的方案。
主持人:對,這個資產(chǎn)本來就放在那里,你們只是把它用起來了,太厲害了。那從宏觀層面看,這種“人類模擬器”規(guī)模化到幾百萬個,它的目的是什么?
Sulaiman:其實核心概念非常簡單。Optimus 就是把人類能做的任何物理任務(wù),讓機器人自動完成,成本更低,而且可以 24×7 全天候運行。
我們現(xiàn)在做的,是把這個邏輯復(fù)制到“數(shù)字世界”。凡是人類需要通過鍵盤、鼠標(biāo)、看屏幕、做決策來完成的數(shù)字化工作,我們都可以直接去模擬人類的操作過程。完全不需要軟件方做任何適配,也不需要改系統(tǒng)。只要現(xiàn)在有一個崗位是人類在用電腦做的,我們理論上都可以直接部署。
主持人:挺有意思的。那具體會怎么推進(jìn)、怎么落地呢?
Sulaiman:我們還沒公開詳細(xì)的落地計劃,整體來說會是先慢后快。對我們來說在于,要么基礎(chǔ)設(shè)施已經(jīng)建好了,要么我們可以直接用特斯拉的網(wǎng)絡(luò),或者自己擴數(shù)據(jù)中心、測試算力。實際上,從一千個“人類模擬器”擴展到一百萬個,差別對我們來說并沒有想象中那么大,這反而不是最難的部分。
馬斯克一個電話“救火”,
個人“生死自負(fù)”
主持人:馬斯克最擅長的一件事,就是在公司里不斷“救火”,哪里有問題就沖到哪里把問題解決掉。你有沒有見過那種,本來是個大問題,但被他非常快地解決掉的情況?
Sulaiman:有,最典型的就是基礎(chǔ)設(shè)施建設(shè),這是最大的一個。模型這邊也有過一些小波折,但整體還算順利。在模型側(cè),因為涉及很多非常底層、非常具體的算子,每一代 ASIC、CPU 都是為特定操作優(yōu)化的,當(dāng)我們引入新硬件,比如從 Nvidia 或其他廠商拿到新產(chǎn)品時,往往不是所有東西都能直接跑起來。
去年年初有幾次內(nèi)部會議,他聽到這些問題之后直接打了一個電話,第二天軟件團隊就給我們交付了補丁。我們幾乎是并肩作戰(zhàn),直到問題解決,然后就能很快在新硬件上跑模型或訓(xùn)練任務(wù),否則這種來回溝通可能要拖上好幾周。
所以很多這種“卡點”,真的就是一個電話就解決了。要么是我們主動提出來,要么他自己會問。經(jīng)常在會議快結(jié)束、或者討論暫時停頓的時候,他會突然來一句:“我能怎么幫忙?怎么能把這件事再加快一點?”然后就有人把問題拋出來。
主持人:我知道你們在并行做很多不同的產(chǎn)品,這在一定程度上是必須的。但在大多數(shù)組織里,同時推進(jìn)多個目標(biāo),其實很難保持專注。你們是怎么做到多線并行還能高效執(zhí)行的?
Sulaiman:說實話,很多時候,是在全員會議或者大家私下聊天時,我們才真正搞清楚每個人在做什么、各個項目進(jìn)展到哪一步。
比如,我們當(dāng)時做語音模型和語音部署,其實很多極低延遲的端到端能力早就已經(jīng)在系統(tǒng)里了,從數(shù)據(jù)包發(fā)到客戶端那一整套鏈路都準(zhǔn)備好了。后來只是把正確的開關(guān)打開、解決一些沖突,延遲就直接降了兩三倍。
這種情況非常常見:在軟件或硬件某個角落里,存在一個“很蠢”的問題,而恰好已經(jīng)有人想好了方案。你可能是在翻代碼庫的時候發(fā)現(xiàn),或者隨口問一句,有人就會說:“哦,這個 XYZ 已經(jīng)搞定了,你去找他就行。”基本不需要花太多時間對齊、同步、請示。提出一個想法,反饋要么是“這想法不行”,要么是“那為什么還沒做完?”然后你就直接去做,事情就這么推進(jìn)了。
主持人:在馬斯克的公司里,好像你只要主動要責(zé)任,就得“生死自負(fù)”。事情做成了就擔(dān)負(fù)更多責(zé)任,做不成可能就出局。你的體驗是這樣嗎?
Sulaiman:是的,基本就是這樣。我參與過很多不同的項目,大多只是因為有人找我?guī)兔Γ揖鸵恢睅拖氯ァ=Y(jié)果到最后,我就成了某個模塊、甚至一大塊系統(tǒng)的負(fù)責(zé)人。
對所有人來說都是這樣。如果你在某個領(lǐng)域有經(jīng)驗,或者能非常快地推進(jìn)事情,幾天之內(nèi),這個組件就歸你負(fù)責(zé)了。從“正式流程”上看其實挺混亂的。我在 HR 系統(tǒng)里可能還是掛在 voice 和 iOS 名下,安全系統(tǒng)甚至還以為我在做 X 的集成,從來沒人更新這些信息。
主持人:也就是說,你進(jìn)公司時并沒有一個非常清晰的工作方向,就是先開始干活,然后不斷在不同項目之間流動,誰需要你你就去哪?
Sulaiman:差不多是這樣,會有很多重疊和流動。入職之后,我通常同時參與兩三個項目,哪個最緊急、或者我能幫上最多忙,就會占用我大部分時間。然后項目之間會像瀑布一樣自然切換。
主持人:那從入職到現(xiàn)在,你大概都做過哪些項目?
Sulaiman:一開始我做的是 Ask Grok 以及相關(guān)集成,也和后端團隊一起處理過可靠性和擴展性問題,當(dāng)時系統(tǒng)規(guī)模增長得很快;之后我獨立承擔(dān)了桌面端套件的開發(fā),把它做到內(nèi)部可用的完整狀;接著又被拉去幫做 Imagine 的發(fā)布,以及 iOS 相關(guān)工作。說真的,iOS 團隊小得離譜,和用戶規(guī)模完全不匹配,你絕對猜不到有多少人。
主持人:五個?
Sulaiman:三個。當(dāng)時推出時,我正好是第三個。但大家都非常強。這是我第一次感覺到,自己必須拼命跑才能跟上整體的節(jié)奏和人才密度。
主持人:那你第一次真正感覺到“自己被充分使用”的時刻是什么?
Sulaiman:肯定是 Imagine 的那次發(fā)布。我們基本是 24 小時一個迭代周期:晚上收到反饋,當(dāng)晚就改;第二天早上再看新一輪反饋,接著馬上修 bug、加大家想要的新功能。模型這邊有新變化,我們也立刻跟進(jìn)。整個節(jié)奏非常快,那可能是我連續(xù)每天都在辦公室待著時間最長的一段時期。
主持人:那段時間持續(xù)了多久?
Sulaiman:大概兩三個月。那段時間幾乎沒有周末,但我反而挺開心的,也算驗證了自己能扛住這種強度。之后我就被調(diào)去做 Macrohard 產(chǎn)品了,當(dāng)時那邊只有另一個人,一開始就我們倆。我從項目啟動一直做到現(xiàn)在。
瘋狂推進(jìn)度,
馬斯克直接送 Cybertruck
主持人:關(guān)于 Colossus 的建設(shè),我不知道你了解多少。早期 xAI 團隊為了把 Colossus 跑起來,在供電、算力、各種基礎(chǔ)條件上都做了很多“瘋狂”的事。到現(xiàn)在,其實還是到處是瓶頸,總覺得還需要更多芯片、更多 GPU、更快的速度。你當(dāng)時的感受是什么?
Sulaiman:這一路上有太多“戰(zhàn)爭故事”,也下過不少賭注。
主持人:挑幾個講講吧。
Sulaiman:好。我記得 Tyler 當(dāng)時和馬斯克打了個賭。我們在上新機柜的時候,具體是哪一代 GPU 我都忘了。馬斯克說,“如果你能在 24 小時內(nèi)用這些 CPU 跑起來一次訓(xùn)練,我今晚就送你一輛 Cybertruck。”結(jié)果那天晚上我們真的把訓(xùn)練跑起來了。
主持人:他拿到了嗎?
Sulaiman:拿到了。現(xiàn)在從我們午餐的窗戶望去就能看到那輛車,馬斯克人挺酷的。
說到供電,其實我們必須和市政、電力公司還有州一級的電力機構(gòu)高度協(xié)同。因為當(dāng)他們那邊負(fù)載飆升時,我們就得立刻切斷公共電網(wǎng),全部切到自備電源上——大概是八十臺,甚至可能更多,用卡車?yán)瓉淼囊苿影l(fā)電機。
整個切換過程必須無縫完成,不能影響任何正在跑的訓(xùn)練任務(wù)。你要知道,那些訓(xùn)練極其不穩(wěn)定,GPU 和硬件的功耗可以在毫秒級別上下波動,動輒就是幾兆瓦。這件事本身就非常夸張。
主持人:那是不是也是為什么你們會把巨型電池組直接放在數(shù)據(jù)中心旁邊?這樣負(fù)載上下波動就能更快響應(yīng)?
Sulaiman:對。沒有電池的話,很難這么快地調(diào)整負(fù)載,發(fā)電機畢竟是物理設(shè)備,你是在讓一個真實旋轉(zhuǎn)的東西加速或減速,它天然就有時間延遲,電池的反應(yīng)速度要快得多。從物理層面看,整個鏈路是:本地電容、數(shù)據(jù)大廳側(cè)的電容、電池、發(fā)電機,最后才是公共電網(wǎng)。當(dāng)然,這套架構(gòu)我們現(xiàn)在可能也在不斷調(diào)整,尤其是散熱這塊,反應(yīng)速度必須非常快。
主持人:你還有沒有那種“本來不可能,但最后居然成了”的故事?
Sulaiman:有。比如我們這塊地的租約,從法律意義上講其實是臨時的。這樣做是為了最快通過審批、盡快開工。我猜以后會轉(zhuǎn)成永久的,但現(xiàn)在確實是短期租約。對數(shù)據(jù)中心來說,這是目前能把事情推進(jìn)得最快的方式。
主持人:他們是怎么允許這種操作的?
Sulaiman:算是一種地方和州政府層面的特殊豁免。你只是“臨時”改造這塊土地,類似嘉年華那種用途。
主持人:所以 xAI 本質(zhì)上就是個要來的“嘉年華”?
Sulaiman:差不多就是這個意思(笑)。但正因為這樣,事情推進(jìn)得特別快。內(nèi)部規(guī)劃加建設(shè),全程不到一個月就搞定了。
主持人:規(guī)模接下來肯定會繼續(xù)瘋狂擴張。馬斯克 也說過,能源會是最大的瓶頸,其次才是芯片。在這種很難預(yù)測未來一到兩年項目和資源需求的情況下,你們是怎么做規(guī)劃的?
Sulaiman:我們會盡量從“杠桿率最高的目標(biāo)”倒推。先想清楚:在某個時間點之前,我們最值得做的事情是什么。比如,如果我們想在某個日期前做到一千萬甚至一億美元收入,那從經(jīng)濟和系統(tǒng)設(shè)計角度,最有效的事情是什么?然后再倒推:需要什么軟件、什么物理基礎(chǔ)設(shè)施,最后一步步拆解。所以我們幾乎不會從“硬件需求”開始,那通常是最后才考慮的。
主持人:那是不是也有一套類似 SpaceX 的“讓事情發(fā)生”的算法?
Sulaiman:你是說那種“先刪掉,再加回來”的邏輯?那確實一直都在用。我們經(jīng)常先把某個東西砍掉,等確認(rèn)必須要的時候再加回來。
主持人:你最近一次這么干是什么時候?
Sulaiman:今天(指錄制當(dāng)天)。Macrohard 上部署大量變化極快的物理硬件,讓測試變得很難,所以我們盡量減少下游的“特殊情況”。比如,我們要讓三十年前的老顯示器到最新的 5K Apple 顯示器,全都跑在同一套技術(shù)棧上,結(jié)果發(fā)現(xiàn)并不是所有系統(tǒng)在任何時候都能愉快地配合。比如視頻編碼器,在某些層級上就得反復(fù)調(diào)。
我之前不知道,后來才發(fā)現(xiàn),有些編碼器對“最大像素數(shù)”是有硬上限的。所以我們一開始刪掉了多編碼器的特殊分支,后來在 5K 分辨率上撞墻了,又不得不把這個特殊邏輯加回來。
馬斯克極限壓縮時間,
“辦法總會有的”
主持人:在你看來,xAI 本身有哪些特別值得講的地方?
Sulaiman:首先是人,這里的角色非常多樣;其次是我們的招聘方式也挺“怪”的。有些我原本覺得很蠢的做法,結(jié)果發(fā)現(xiàn)居然行得通,那我們就直接試。比如搞 hackathon,如果能從五百個人里挑出五個頂級選手,這件事就非常劃算。他們未來給公司帶來的預(yù)期價值,遠(yuǎn)遠(yuǎn)高于這次活動的成本。
我們前幾天還算了一筆賬,現(xiàn)在主倉庫里,每一次 commit 的“價值”大概是 250 萬美元。我今天提交了五次。
主持人:那你今天直接加了差不多一千兩百萬美元?
Sulaiman:輕輕松松的一天(笑)。確實不錯,杠桿效應(yīng)非常強。你用更少的努力和時間就能做更多事,因為身邊的人和內(nèi)部工具都很棒。還有我的老板。
主持人:那什么樣的人會想來這里工作?我聽你描述,感覺第一天來的人就已經(jīng)準(zhǔn)備好周末、熬夜、全天候投入了。
Sulaiman:大家剛來的時候都非常興奮,非常有熱情。
主持人:使命感驅(qū)動?
Sulaiman:是的,但野心的類型不一樣。有些人想往管理層走,看有多少人向自己匯報;也有人想“擁有”一大塊技術(shù)棧。比如現(xiàn)在,我們在重構(gòu)核心生產(chǎn) API,基本上是一個人 +20 個 Agent 在做,而且做得非常好。你完全可以獨立擁有代碼庫中的很大部分。
主持人:有點像 X 被收購之后那樣,人很少,但每個人負(fù)責(zé)的范圍巨大。
Sulaiman:沒錯。
主持人:除了 hackathon,你們在招聘上還有什么不太常規(guī)的做法?
Sulaiman:我們在 Macrohard 上推得非常猛。有兩、三周的時間,我每周面試 20 多個人。有的只聊十五分鐘,有的就是一整小時的技術(shù)面。優(yōu)秀的人太多了,反而變得很難判斷。
主持人:那你怎么判斷?
Sulaiman:我有一道自己解決過的、非常具體的問題,是幾年前在創(chuàng)業(yè)時遇到的一個計算機視覺問題。我會給候選人半小時去實現(xiàn)解決方案。
這個問題本身其實很簡單,但“簡單得很有欺騙性”,大多數(shù)人都會想復(fù)雜。我特別看重一點:你能否不過度思考,給出一個樸素但有效的方案。因為我們的系統(tǒng)要跑在跨三、四十年的各種硬件、操作系統(tǒng)上,如果不保持簡單,下周代碼量就能膨脹到一千萬行。
主持人:你還會看重哪些杠桿能力?
Sulaiman:我喜歡會質(zhì)疑需求、也會質(zhì)疑我的人。這個方法我從 Chester Ford 那里學(xué)來的。
他在招聘時,常常會故意在題目里塞一個錯誤的需求、不可能的條件,期待候選人指出來。如果對方?jīng)]發(fā)現(xiàn),他就不招。我現(xiàn)在也這么干,效果非常好。
主持人:你們的節(jié)奏真的快到離譜。你自己也在做很多不同的事情,面對新任務(wù)時,怎么最快上手?
Sulaiman:要看具體是什么。如果是代碼多,那就老老實實讀代碼,反復(fù)跳轉(zhuǎn)定義,很快就能摸清楚。很多時候,實現(xiàn)代碼比想象的要少。只有在高度活躍開發(fā)的模塊里,才會同時存在二十個版本,你根本不知道哪個是主線,這時候就只能去問人。
讓我驚喜的是,這里的人都非常開放、友好。我原本以為大家會很聰明、也很傲慢,但事實是:大家都很聰明,而且非常樂于幫忙。
我們不怎么寫文檔,因為寫文檔的速度跟不上開發(fā)速度(笑)。現(xiàn)在我們也在嘗試用 AI 自動生成文檔。好處是,我們有幾乎無限的算力和很聰明的 AI,可以大膽試各種“蠢辦法”。在別的創(chuàng)業(yè)公司,這可能要燒掉幾十萬、上百萬美元,但我們幾乎是零成本。結(jié)果就是:實驗更多、失敗更多,但成功也更多。
馬斯克極限壓縮時間,
“辦法總會有的”
主持人:在實驗這件事上,你們是怎么最大化“嘗試次數(shù)”的?
Sulaiman:通常都會有時間限制。我們經(jīng)常在模型側(cè)同時跑兩、三個實驗。有時候不是因為時間緊,而是因為兩周后某個前置條件才會就緒:可能是硬件,也可能是數(shù)據(jù)。但今天你必須上線一個東西,那就先跑幾種方案,看哪個今天就能交付、能產(chǎn)生收入或客戶效果,兩周后條件成熟了再切換。這種做法在 Macrohard 里是常態(tài)。
主持人:你有沒有遇到過這種情況:按理說一個項目的周期應(yīng)該拉得很長,但你們卻壓縮后提前了好幾周甚至幾個月完成?這種事經(jīng)常發(fā)生嗎?
Sulaiman:每次都是這樣,無論是跟馬斯克的會議,還是內(nèi)部討論,只要有人強力推動一件事,或者有外部的人——哪怕他并不對這件事負(fù)責(zé)——提出了新的需求、要求你把某件事做出來。我們一開始都會覺得,這個時間要求太離譜了。通常會花兩分鐘想一想、抱怨幾句,然后剩下的時間就全部用來想:怎么在這個時間內(nèi)把事情做完。
說到底,對完成時間的預(yù)估,永遠(yuǎn)建立在一堆假設(shè)之上。一旦時間被壓到原來的二分之一、甚至十分之一,你就會回頭看這些假設(shè)并問自己:這些假設(shè)對時間的影響到底有多大?然后你要么把它們砍掉,要么調(diào)整掉。這樣一來,時間線立刻就能快一倍。你多做幾次這樣的優(yōu)化,基本上任何要求都能滿足。當(dāng)然,最終還是會撞上物理極限,但一開始的時候,你離那個極限其實遠(yuǎn)得很。
主持人:我知道像完全自動駕駛、SpaceX 的火箭也是類似的情況。馬斯克給的時間線通常都比實際要長得多,所謂的 “馬斯克時間” 可能只有真實周期的四分之一或者一半。但正因為一開始把時間線定得這么激進(jìn),事情反而真的快了好幾倍。xAI 這邊是不是也差不多?雖然現(xiàn)在更多是軟件,但哪怕在數(shù)據(jù)中心這類硬件側(cè),感覺進(jìn)展也快得離譜,而且基本都落在他最初說的那個時間范圍內(nèi)。
Sulaiman:我覺得他自己也在不斷校準(zhǔn)他的時間判斷。畢竟現(xiàn)在馬斯克已經(jīng)在大規(guī)模部署各種各樣的硬件了,所以他的估算明顯比以前準(zhǔn)很多。而且他更新時間線的頻率也更高了,有時候甚至每天都在變。他會跟我們不斷溝通,根據(jù)不同的參數(shù)來調(diào)整進(jìn)度。
有些變化甚至是他那邊直接帶來的,尤其是在基礎(chǔ)設(shè)施層面。比如某個交易提前敲定了,或者某批設(shè)備可以提前排進(jìn)生產(chǎn),那就可能直接省下一個月、兩個月,甚至更多,具體要看部署的情況。軟件這邊其實也是一樣。
他一直說的一句話是:你完全可以試著用一個月去做一件原本要一年才能做完的事,最后你可能兩個月就搞定了,但那也已經(jīng)快得多了。
主持人:我記得在 SpaceX 的早期,有一種內(nèi)部共識:馬斯克說每拖延一天,就相當(dāng)于損失一千萬美元的收入。我不知道在 xAI 是什么感覺,你心里會不會也有一種直覺:如果今天沒有再 push 一點、沒有把事情往前拱一步,就等于損失了多少本可以創(chuàng)造的價值?
Sulaiman:有的。至少在 Macrohard 這個項目上,我們確實有一些非常明確的收入目標(biāo)。具體數(shù)字我不能說,但在我腦子里,只要一件事被延遲或者被加速,我?guī)缀趿⒖叹湍芩愠鰜恚何覀儎倓偸嵌噘嵙硕嗌馘X,或者少賺了多少錢。
主持人:這也太夸張了。
Sulaiman:是的,數(shù)字會非常大。一方面是因為預(yù)期回報本身就極高,另一方面是時間線實在太短了。所以哪怕只是幾天的變化,按比例來看,對收入的影響都已經(jīng)非常可觀了。
主持人:馬斯克一直以“快速下重注”聞名。有沒有那種在一次會議里,就做出了投入巨大資本、時間或者承諾的決定?
Sulaiman:有一個非常典型的決定,就是在 Macrohard 上,我們選擇了一條路線:模型的速度至少要比人類快 1.5 倍,而現(xiàn)在看起來,實際速度遠(yuǎn)遠(yuǎn)不止如此。
在其他實驗室,類似“人類模擬器”的嘗試,更多是走“更強推理能力、更大的模型”這條路。但我們當(dāng)時的這個決定,幾乎是完全走在了和所有人相反的方向上。之后我們做的幾乎所有事情,基本都是這個決定的下游結(jié)果。雖然不能說百分之百,但它影響了絕大多數(shù)事情,而且這個決定是在非常早期就定下來的。
這在某種程度上也是一種共識,尤其是類比完全自動駕駛就很容易理解。沒有人會等電腦花十分鐘去做一件自己五分鐘就能做完的事。但如果電腦十秒就能搞定,那我愿意為此付出任何價格。這其實是個非常直觀的判斷。
正常情況下,我們這些工程師可能會站出來反對,有二十個理由說明事情不能這么做。但當(dāng)一個決定已經(jīng)被拍板了,你只能從結(jié)果倒推路徑,辦法總會有的。
沒有 AI 研究員, 就是工程師
主持人:我記得馬斯克之前說過一次,好像是在 YC 的活動上,他和 Gary Tan 做問答。Gary 提到 AI 研究員這件事,結(jié)果馬斯克說不存在什么 AI 研究員了,現(xiàn)在全都是 AI 工程師。
Sulaiman:對,我們跟他開過一次關(guān)于招聘的會,也有人提到過類似的話題,比如崗位描述之類的。然后他大概講了十分鐘,核心就一句話:工程師,就是工程師,別的都不重要。只要是好工程師,本質(zhì)上是個會解決問題的人就行。不管你以前是做哪一塊的,用過什么架構(gòu)、做過哪種基礎(chǔ)設(shè)施,這些都不重要。
主持人:為什么“工程師”這么重要?
Sulaiman:因為這樣邊界就被拉得很寬。意味著我們可以從很多不同背景的人里招人,現(xiàn)實中也確實是這樣。AI 領(lǐng)域可能還不算特別明顯,但 SpaceX 有很多這樣的故事:有人來自你完全想不到的背景,按傳統(tǒng)眼光根本不可能進(jìn)來,但最后卻在工程上做成了非常大的事情。所以定義寬一點,就等于給這些人留了一條路,也能幫助我們整體跑得更快。
“沒人指揮你干這個、干那個”
主持人:那對你個人來說,在那工作最有意思的地方是什么?
Sulaiman:沒人管我。真的,沒人指揮你干這個、干那個。如果我有個好想法,通常當(dāng)天就能自己動手把它做出來,然后拿去展示。看看合不合理,跑個評估,或者直接給客戶看,給馬斯克看,給相關(guān)的人看,一般當(dāng)天就能知道這個方向?qū)Σ粚Α?/p>
沒有冗長的討論,也不用等各種流程和官僚審批,我特別喜歡這一點。說實話,我從非常小的創(chuàng)業(yè)公司來更大的公司,本以為會犧牲一些自由度。我加入時公司 100 人, 是我之前公司的 10 倍。但對馬斯克的公司來說算小的,確實感覺很小的公司,沒有什么繁文縟節(jié)。
主持人:你進(jìn)去之前,有沒有什么特別大的預(yù)期,結(jié)果后來發(fā)現(xiàn)完全不是那么回事的?
Sulaiman:我原來以為會更“自上而下”一些,結(jié)果發(fā)現(xiàn)有一些,但不多。管理層級非常少,基本就三層:最底下是 IC,中間是聯(lián)合創(chuàng)始人和一些新晉的經(jīng)理,再往上就是馬斯克,沒有了。
現(xiàn)在每個經(jīng)理下面的人都很多,事情反而很少是自上而下推動的。通常是我們自己先想出解決方案,跟經(jīng)理對一下,馬斯克點頭,就直接干了。有反饋就再調(diào)整。整體比我想象中要“自下而上”得多。
主持人:感覺就是在刻意設(shè)計一種狀態(tài),讓所有人都在做東西,管理者更少,真正的“建造者”更多。
Sulaiman:對。我剛加入的時候,幾乎所有經(jīng)理都還在寫代碼。現(xiàn)在有些人下面管著上百號人,寫得少了一點,但總體上,大家還是工程師。
我記得第一周,有天吃晚飯,一個人坐我旁邊。我就隨口問他在哪個團隊。他說他是做銷售的,主要負(fù)責(zé)企業(yè)客戶。我當(dāng)時還想,“哦,原來是銷售。”結(jié)果,他接著跟我講他最近在訓(xùn)練的模型。
沒錯,銷售也是工程師。銷售團隊全是工程師,幾乎每個人都是工程師。那會兒公司里,可能真正不算工程師的人不到八個。即便如此,大家也都是在為同一臺“機器”做貢獻(xiàn)。
主持人:所以是不是更像這樣:一個工程師負(fù)責(zé)一個項目,可以直接面對客戶,理解他們的問題,然后快速實現(xiàn)解決方案?
Sulaiman:是的,而且層級越少,信息損失就越小。本質(zhì)上是信息壓縮的問題。語言本身就是有損的。如果信息要從客戶腦子里變成語言,再進(jìn)銷售腦子,再變成語言、再到經(jīng)理、再到工程師,每過一層,就像傳話游戲一樣丟一大截。如果你能盡量減少層級,那就只剩下一次壓縮:客戶直接告訴你他們要什么、體驗是什么,然后工程師直接去解決。
主持人:有沒有什么你以前在別的公司從沒見過,但 xAI 在做的事情,能讓事情推進(jìn)得特別快?
Sulaiman:最讓我意外的是團隊之間、職責(zé)之間的“模糊性”。這在其他大公司,甚至規(guī)模差不多的公司里,都很少見。
比如我要修虛擬機基礎(chǔ)設(shè)施的一個問題,我就直接修,修完給負(fù)責(zé)那塊的人看一眼,對方說 OK,馬上合并、上線。幾乎沒有那種嚴(yán)格的邊界,大家基本都可以改任何東西。當(dāng)然,危險的操作還是有檢查的,但總體上,公司是信任你的,默認(rèn)你會把事情做對。這種感覺真的很不一樣。
主持人:我記得之前馬斯克在搞 DOGE 的時候,刪掉了一些防控措施然后又很快加回來了。在這種高速試錯的過程中,有沒有什么東西被刪掉、又重新做回來的?
Sulaiman:幾乎沒有那種不可逆的破壞。我想不起來有什么東西是真的被永久性毀掉的。但像你說的,刪掉、移除某個東西,然后有人說“我需要這個”,這種情況非常常見。可能一個小時后就回滾了。
也有那種情況,一個項目做了好幾個月,依賴某塊基礎(chǔ)設(shè)施,結(jié)果等你真要上線的時候,那塊基礎(chǔ)設(shè)施已經(jīng)被重構(gòu)過三次了。那就再適配一次,繼續(xù)往前走。
主持人:你覺得工程團隊人這么少是件好事嗎?
Sulaiman:絕對是。人越多,反而越慢。一個人能做完的事,兩個人來做,往往要花兩倍時間,這在任何規(guī)模下都成立。尤其是現(xiàn)在,你已經(jīng)不需要像以前那樣寫那么多代碼了,更多是在做決策、做架構(gòu)設(shè)計。每個人都可以是架構(gòu)師,不需要那么多“手”,一個大腦能做的事情多得多。
主持人:你之前自己也嘗試過創(chuàng)業(yè),做過很多不同的項目。是什么讓你決定來這里?使命感也好,文化也好,哪一點真正打動了你?
Sulaiman:說實話,我一直是馬斯克的粉絲。小時候第一次看到獵鷹火箭回收著陸,那種震撼真的忘不了。我后來還專門跑去看了 星艦的第五次發(fā)射,那次是第一次成功“接住”,真的值回票價,是我這輩子見過最酷的事情。所以只要能參與任何跟這些事情沾點邊的東西,對我來說就已經(jīng)非常有吸引力了。
主持人:那你當(dāng)初為什么選擇這家公司,而不是 SpaceX 或特斯拉?
Sulaiman:主要還是因為我骨子里就是個創(chuàng)業(yè)者吧。xAI 是這幾家公司里規(guī)模最小、也最新的一家。我當(dāng)時的一個判斷,就是在這種體量的公司里,個人能產(chǎn)生的杠桿和改變會最大,事實也基本驗證了這一點。因為從比例上看,你在公司里的“占比”更大。不是說其他公司不酷、或者個人不重要,而是這種比例帶來的影響力不一樣。
主持人:也就是說,對決策產(chǎn)生影響的可能性要大得多。
Sulaiman:甚至不只是決策,而是從想法到落地、到看到結(jié)果,速度都非常快。我之前以為很多事情自己單干會更快,比如自己做某個功能、跑某個實驗。但現(xiàn)實是,在 xAI 反而更快,因為已經(jīng)有現(xiàn)成的基礎(chǔ)設(shè)施和團隊,很多我本來要手動完成的步驟,他們早就做過了,而且基本沒人會對你說“不”。
內(nèi)部 AI 虛擬員工
主持人:你之前提到,公司里不同人、不同事情之間的邊界其實挺模糊的。那你能不能隨時去找其他同事幫忙?
Sulaiman:經(jīng)常啊。基本就是走到別人桌前,直接說:“我有個問題。你現(xiàn)在在做什么?我能不能幫你一點?你能不能幫我這個?”大家都在同一棟樓里,這種事非常自然。
挺有意思的是,我們后來在公司內(nèi)部測試“虛擬員工”(human emulator),有時候甚至沒提前告訴大家,所以就會出現(xiàn)這種情況:有個真人員工在干活,突然有人找他說“你能不能幫我做這個”,虛擬員工就回:“行啊,來我工位吧。”結(jié)果那人真的走過去,發(fā)現(xiàn)什么都沒有。
好幾次我收到消息說:“組織架構(gòu)里這個人向你匯報,他今天是不是沒來?”但其實他是個 AI,是虛擬員工。
不過整體來說,大家默認(rèn)都是在同一棟樓、隨時能聯(lián)系到的。所以互相求助這件事非常頻繁。我可以找別人幫忙,別人也經(jīng)常來找我。
主持人:那在這些過程中,最容易“翻車”或者最讓你意外的點是什么?
Sulaiman:主要發(fā)生在“人類行為模擬”這塊,尤其是和客戶一起做的時候。我們會盡量全面地理解客戶的工作內(nèi)容:先聊天、訪談,讓他們講,或者寫下來他們是怎么做這份工作的。再過一周,我們回頭看虛擬員工犯的錯誤,發(fā)現(xiàn)它總是在某些特定場景出問題。
這時候我們就去觀察真人是怎么做的,結(jié)果發(fā)現(xiàn)真實流程里其實有二、三十個步驟,對方之前完全沒提。我們一問,他們就說:“哦對,這一步我們是這么做的,剛才忘了說,不好意思。”這種情況太常見了。
很多事情在人腦里是默認(rèn)存在的,全靠“自動駕駛模式”在跑。就像你開車開了一小時,完全不記得自己剛才是怎么開的。人類對任何重復(fù)性的工作都是這樣,而我們想解決的正是這些問題:把人類現(xiàn)在反復(fù)做、其實根本不需要人來做的“蠢活”,全部替掉。
主持人:那你是怎么決定“先解決哪一類問題”的?除了開車以外,人類還有哪些事情是天天在做、但其實沒必要繼續(xù)做的?
Sulaiman:只要是電腦上的重復(fù)性工作,基本都在這個范圍內(nèi)。比如客服就是一個特別典型的場景:不斷接收各種格式、各種內(nèi)容的用戶輸入,然后把它們轉(zhuǎn)化成一個標(biāo)準(zhǔn)化的處理流程。這樣人類就可以去做更有創(chuàng)造性、更需要大腦的事情。
這和編程領(lǐng)域發(fā)生的變化幾乎是完全平行的:以前你要把同樣的實現(xiàn)寫二十遍,現(xiàn)在你用三句話描述一下,它就幫你搞定了,這是一次巨大的“壓縮”。我們做的,其實就是把這種“壓縮”,應(yīng)用到所有數(shù)字化工作流上。
主持人:在公司內(nèi)部推這些“虛擬員工”的時候,除了“人不存在但被叫去工位”這種情況,還有什么讓你覺得意外的嗎?
Sulaiman:意外的一點是,它的泛化能力比我們預(yù)期的強很多。有很多測試案例,模型根本沒針對這個任務(wù)訓(xùn)練過,但表現(xiàn)卻非常完美,遠(yuǎn)遠(yuǎn)超出我們的預(yù)期。因此,可以很確定地說,泛化效果真的比想象中好,而且我們現(xiàn)在還處在非常早期的階段,之后只會越來越強。
這點其實和完全自動駕駛很像:有些場景并不在訓(xùn)練數(shù)據(jù)里,但車就是能正確應(yīng)對。這本質(zhì)上是一個“權(quán)重效率”的問題。
馬斯克給反饋,
要么宏觀、要么細(xì)節(jié)
主持人:你參加過幾次和馬斯克的會議?那種會議一般是什么樣的?
Sulaiman:說實話都挺簡單的,而且我運氣不錯,大多數(shù)都進(jìn)行得很順利。
主持人:在 SpaceX 這種地方,成本和零部件細(xì)節(jié)特別重要。但在你們這里,他給反饋時會不會不太一樣?比如不會去摳每個流程的細(xì)節(jié)?
Sulaiman:他的反饋通常要么非常宏觀,要么非常微觀,很少停在中間。
宏觀層面上,可能是產(chǎn)品方向、客戶判斷,比如“只專注這個細(xì)分市場”“這件事完全不要做”。微觀層面,尤其是算力效率、延遲這些問題,他往往會給出非常具體的建議,比如“試試這個方案”。而且他是愿意被證明錯的,但前提是要有證據(jù),必須做實驗、看結(jié)果,而不是靠觀點對噴。有些實驗的結(jié)果甚至?xí)龊跛腥说囊饬希缓笪覀兙晚樦莻€方向繼續(xù)走。
主持人:所以你們后來選擇小模型,而不是一味堆大模型。
Sulaiman:對,小模型在算力效率上的選擇,帶來了很多改進(jìn)。有些是直接的,有些是間接的。最直觀的當(dāng)然是響應(yīng)更快。但更重要的是,特斯拉在自動駕駛上也發(fā)現(xiàn)了同樣的事:模型小了,迭代速度就快得多。
不僅模型對環(huán)境反應(yīng)更快,部署新版本的速度也快了。以前可能四周一次,現(xiàn)在一周一次。這又反過來影響了實驗方式:為什么我們能同時跑二十個實驗,其實就是源于這個早期決策。
主持人:那一開始的設(shè)想,是不是想直接上大模型?
Sulaiman:算是吧。我們確實想比所有人都快,但后來發(fā)現(xiàn),“快”這件事的效果,被放大了很多倍。
“war room”真實存在
主持人:維基百科一直被詬病有偏見,馬斯克也很關(guān)注構(gòu)建一個“更接近真實”的替代體系。那你們怎么看待清理互聯(lián)網(wǎng)來找到真相這件事?
Sulaiman:這是個極其困難的問題,因為互聯(lián)網(wǎng)本身往往并不是所謂的“事實真相”。我們能做的,是盡可能往“底層原理”去鉆,但這本身也很難。比如你問“憲法在物理意義上的底層原理是什么”,這其實很難有人真正給出一個嚴(yán)謹(jǐn)?shù)拇鸢浮?/p>
但思路是類似的:盡量往下挖,再從那里往上構(gòu)建。問題是真正這樣寫、這樣做的資料并不多。比較接近的一個例子,是 James Burke 的《Connections》系列,他會把看似完全不相關(guān)的概念,通過物理和發(fā)明串聯(lián)起來,非常有意思。我們想做的,其實是類似的事情,只不過這條路還很新。
主持人:你們是怎么找到更好的數(shù)據(jù)的?
Sulaiman:數(shù)據(jù)并不是決定結(jié)果的唯一因素。
主持人:我有時候會在 X 上看到有人貼出 Grok 的輸出,說“這明顯不對”,然后馬斯克直接回復(fù)說“我們會修”,接著可能過了十二個小時、一天,他又說“好了,已經(jīng)修好了”。這種事情發(fā)生時,內(nèi)部一般是怎么運作的?
Sulaiman:通常是他把哪里出問題了直接指給我們看,然后當(dāng)時還醒著的人就會馬上拉一個線程開始解決問題,一般先是個人處理,如果需要就再拉幾個人。之后我們會做一次復(fù)盤,把到底哪里出了問題、以后怎么避免都講清楚。原則上,犯一次錯是可以接受的,但同樣的錯誤犯第二次就很嚴(yán)重了。
主持人:在 SpaceX 的歷史里,包括特斯拉,其實有過很多這種“沖刺時刻”。比如馬斯克半夜突然出現(xiàn),發(fā)一封全公司郵件,說大家都來公司干活。你們也有這種情況嗎?
Sulaiman:這種更多發(fā)生在做大模型的時候。就 Macrohard 這個項目來說,我們已經(jīng)在“作戰(zhàn)室”里連續(xù)干了四個月了,基本一直就是這種狀態(tài)。
主持人:你們門口是不是還真掛著一塊牌子寫著“war room”?
Sulaiman:是的,真的。最早那個作戰(zhàn)室后來擴張了,我們就把東西全搬走了。有一次馬斯克走進(jìn)作戰(zhàn)室,發(fā)現(xiàn)里面空無一人,就問“人呢?怎么回事?”然后他又走到我們現(xiàn)在待的地方,其實就是健身房,我們把健身器材全清掉,把人都塞進(jìn)來了——然后他就在那兒開始一連串追問到底發(fā)生了什么。
主持人:在那種很多事情被打亂又被迅速推進(jìn)的夜晚,或者經(jīng)歷那種大規(guī)模沖刺時,是什么感覺?
Sulaiman:我最近正好看到 xAI 的一位聯(lián)合創(chuàng)始人 Igor 發(fā)的一條內(nèi)容。他人特別好,我也很喜歡跟他一起工作。他以前在 StarCraft AI 工作,大概十年前吧,是我高中時嘗試復(fù)現(xiàn)過的最酷的機器學(xué)習(xí)項目之一,難得要命,所以后來能和他一起共事真的挺神奇的。
他說的一句話我特別有共鳴:有些時間里,感覺只過去了幾天;但有些夜晚里,仿佛發(fā)生了幾個月的事情。那天晚上就是這樣。說“幾個月”可能有點夸張,技術(shù)結(jié)果我們本來也可能幾周內(nèi)做到,但一晚上把它搞出來,沖擊感非常大,而且真的熬了一個通宵。
主持人:有沒有那種情況,大家連續(xù)五天、甚至一整周都沒怎么離開過辦公室?
Sulaiman:有的。模型沖刺的時候,經(jīng)常會有很多人直接在公司過夜。
主持人:之前提到你們有五、六個睡眠艙,大家輪著用?
Sulaiman:對,有睡眠艙,現(xiàn)在還有一些上下鋪,條件差點,但至少能睡。后來帳篷那張照片傳出來后,很多人都發(fā)給我。我只能說確實有帳篷,但我從沒見過一次搭那么多。反正……確實挺極端的。
成長經(jīng)歷:從小不服權(quán)威
主持人:我知道你小時候做過很多不同的項目,好像還做過指尖陀螺。可能是在你房間里搞的?這種折騰、動手的心態(tài),對你現(xiàn)在的工作影響大嗎?
Sulaiman:影響挺大的。我很小就開始學(xué)編程,大概十一歲的時候,我爸給我買了一本書。我一開始覺得還行,但真正開始喜歡是在我意識到它能賺錢之后。我在網(wǎng)上認(rèn)識了一些人,他們給游戲?qū)懩_本、外掛,然后賣一點錢。對我來說,能在網(wǎng)上賺到幾百美元已經(jīng)是天大的事了。
主持人:第一次有人給你錢,那種感覺真的很奇怪。
Sulaiman:太瘋狂了。我還記得當(dāng)時得讓我爸幫我弄一個 PayPal 的托管賬戶之類的,然后錢真的打進(jìn)來了。對我來說,那簡直是世界上最酷的事情。我干了幾個月,攢了點錢,當(dāng)時我對 3D 打印特別著迷,RepRap 那套體系正火。
那其實就是一群大學(xué)生搞的項目,目標(biāo)是造一臺能打印出自己大部分零件的機器,所以才叫 RepRap。他們在不同大學(xué)里搞了一些實驗室,從一臺打印機開始,讓它打印下一臺的零件,一步步擴展。當(dāng)然,這里面問題很多,他們也一直在解決,但那確實推動了后來的 3D 打印浪潮。我當(dāng)時特別癡迷,就照著他們的零件清單,在阿里巴巴上把東西全買齊了。
主持人:然后呢?
Sulaiman:一個月后東西到齊了,我一晚上把它裝起來,但過程其實挺慘的。我在拆電源的銅線,那是個非常不靠譜的電源,結(jié)果真的著火了。銅線全散開,有一根直接扎進(jìn)我拇指里,大概有五厘米深。
主持人:去醫(yī)院了嗎?
Sulaiman:沒有。那是個上學(xué)的夜晚,已經(jīng)凌晨了。我十三歲,動手能力也不行,在衛(wèi)生間用鑷子折騰了一個小時也沒拔出來,最后我干脆把露在外面的剪掉了。接下來幾周,它一點點往外長,我每天早上再剪一點。現(xiàn)在想想還挺離譜的。
不過打印機最后還是裝好了。那時候正好趕上指尖陀螺爆火。我從中國買了一千個滑板軸承,在自己臥室里搞了個小工廠。晚上每隔兩個小時起來一次清理打印平臺,重新打印一批陀螺。白天上學(xué)前,我在車庫里裝軸承、噴漆、晾干,然后跑去其他學(xué)校的公交站,把貨賣給“分銷商”,其實就是別的學(xué)校的學(xué)生。他們白天賣,我放學(xué)后收錢,線上也賣、發(fā)貨。
生意做了兩個月,最后被叫停了。官方理由是,學(xué)校餐飲公司有獨家銷售權(quán),不能在校園里賣東西。但我覺得,他們主要是不爽我一邊分散大家注意力,一邊還賺錢。這事讓我學(xué)到了一種“健康的不服從權(quán)威”。
主持人:這種對權(quán)威保持距離,好像一直貫穿你的經(jīng)歷。你提到你不太信任機構(gòu),這種態(tài)度是怎么形成的?在你的人生里具體體現(xiàn)在哪?
Sulaiman:我從很小就知道,我想要的是一種不尋常的結(jié)果,而走一條常規(guī)路徑,基本不可能得到。于是我本能地抗拒一切“慣例”,而機構(gòu)的本質(zhì)就是維護(hù)慣例。我覺得,幾乎所有真正有創(chuàng)造力、有意思的成果,都是來自自由的人。至少在我看到的世界里是這樣。所以,忠于這一點,對我來說才是正確的選擇。
主持人:我很喜歡 John Carlson 的一個觀點:所有東西都這么難造、難實現(xiàn)。看看周圍,世界就是充滿人們的激情項目。
Sulaiman:對,完全就是個奇跡。每一樣?xùn)|西背后都有故事,比你想象的要多得多。我記得以前讀過 YKK 拉鏈的故事。你會發(fā)現(xiàn),全世界真正做得好的拉鏈廠商就兩、三家。拉鏈看起來很便宜,但機械結(jié)構(gòu)其實挺復(fù)雜的。之所以能這么便宜、這么可靠,是因為有極少數(shù)公司、甚至可以說是極少數(shù)人,花了幾十年把這件事做到極致。
這幾乎適用于所有東西。任何特別具體、又能大規(guī)模生產(chǎn)的東西,背后通常只有幾家公司、甚至幾個人在做。就像有時候你會聽說,德國某個不起眼的小公司一停產(chǎn),大眾汽車整條產(chǎn)線都得停。疫情期間這種事就更明顯了。
主持人:在我們見面之前,你還做了一個液體燃料火箭發(fā)動機,我記得很小一個,你說是臨時起意,二十四小時內(nèi)點火的?
Sulaiman:整個項目其實前后做了大概四周。一開始我就是買了一堆教材,研究火箭發(fā)動機的設(shè)計原理。和軟件完全不一樣,軟件你可以上 GitHub 看別人的代碼,但火箭沒有現(xiàn)成文件。你得搞清楚材料特性、化學(xué)性質(zhì)、怎么加工、參數(shù)怎么定,推力怎么估算,怎么避免超壓。還有噴注器的設(shè)計,這個特別難,大概占了一半時間。
主持人:這是最難的部分嗎?
Sulaiman:是的,噴注器最難,也是最后問題最大的地方。我花了三、四周時間,找中國工廠加急做了很多零件。那時候正好感恩節(jié),我準(zhǔn)備飛回東海岸看家人。我當(dāng)時想,要么今晚把它裝好、點火,要么就拖兩周,然后我決定不能拖,就現(xiàn)在干。我早上灌了很多咖啡,一整天都在干活,搭測試架、裝發(fā)動機,當(dāng)晚就點火了。當(dāng)然,為了能當(dāng)晚完成,做了不少妥協(xié)。
主持人:我真的覺得特別好笑,你當(dāng)時離它其實就幾步遠(yuǎn)?
Sulaiman:對。我其實設(shè)計了遠(yuǎn)程點火,但問題是,用來給板載計算機供電的電源還沒到,只能用筆記本通過 USB 供電。而我最長的 USB 線只有一米多,所以我只能站在旁邊點火。我心里估計,大概有三成概率它會炸,或者噴得到處都是火。
視頻里其實能看到,我的外套著火了。因為噴注器設(shè)計不好,產(chǎn)生了很多超壓,沒完全燃燒的乙醇直接噴出來,濺到我身上就點著了。那件燒焦的外套現(xiàn)在還留著,當(dāng)紀(jì)念品了。
https://www.youtube.com/watch?v=8jN60eJr4Ps&t=41s
聲明:本文為 AI 前線整理,不代表平臺觀點,未經(jīng)許可禁止轉(zhuǎn)載。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.