或許是因為最近Meta財報發布,或許是因為最近Llama受到的非議太多,或許是因為小扎個人的分享欲爆棚,他在和的前后腳,還接受了這檔商業人文播客Dwarkesh Podcast的訪談。
,這個訪談犀利點評他人更多,他聊到了OpenAI、聊到了谷歌的Gemini,聊到了 Anthropic,全程還提及14次DeepSeek,8次China,4次Trump。
![]()
本次訪談的幾大主題
Llama 4、基準測試刷榜、開源vs閉源之爭
AI爆炸,但AGI 的商業模式是什么?
DeepSeek和中國、export controls和Trump
Orion智能眼鏡、人與 AI 的關系,如何避免被技術的獎勵機制劫持?
Llama 4 和其他AI模型的比較
以下是整個訪談的內容目錄,本篇只包含前四部分。下篇幾天后發出,里面提到了美國科技巨頭是否會配合 Trump的問題,也挺有意思,歡迎關注本號,敬請期待。
一、How Llama 4 compares to other models
二、Intelligence explosion
三、AI Friends, Therapists & Girlfriend
四、 DeepSeek & China
五、Open source AI
六、Monetizing AGI
七、The role of a CEO
八、Is big tech aligning with Trump?
九、100x productivity
一、How Llama 4 compares to other models
Dwarkesh Patel:Mark,感謝你再次參加我們的播客。
Mark Zuckerberg:很高興來,見到你很開心。
DP:彼此彼此。上次你來,我們聊的是 Llama 3,現在你們發布了 Llama 4。
MZ:嚴格來說,是 Llama 4 的首個版本。
DP:沒錯。有哪些新亮點?發生了什么變化?
MZ:整個領域變化太快了。自上次交談以來,真是天翻地覆。Meta AI 的月活用戶已逼近十億,著實令人驚嘆。
我覺得今年會是大年,尤其是當我們真正跑通用戶的個性化閉環,就是利用算法掌握關于興趣的context,包括信息流、個人檔案、社交圖譜,還有基于你與 AI 對話的內容,這種“個性化”,將成為下一個令人振奮的大方向,我對此十分看好。
模型本身也在突飛猛進。我對 Llama 4 的首批發布相當滿意。我們官宣了四個模型,率先放出其中兩個,Scout 和 Maverick,算是中小模型。
Llama 3 最受歡迎的是 80 億參數版本,所以 Llama 4 也會有同等規模的后繼,內部代號Little Llama,預計數月內上線。
Scout 和 Maverick的“單位成本智能”極高(highest intelligence per cost),原生多模態、高效、單機即可運行,專為低延遲場景打造,我們會先滿足內部需求,再開源給大眾,這一直是我們的做法。
我同樣期待即將到來的Behemoth,這是我們首個“前沿級”模型,參數量逾 2 萬億,非常龐大。僅僅是為它做后訓練,我們就得搭一堆新基礎設施。
現在要思考的是,普通開發者如何用得上?也許需要蒸餾成更易部署的尺寸,畢竟消費級產品,不可能直接跑這么大的模型。
回想Llama 3 的節奏,首發很激動人心,隨后一年我們持續迭代,3.1 是4050 億參數版本,3.2 加入完整多模態,今年我們同樣有類似路線圖,事情很多。
DP:有人覺得,過去一年頂級閉源模型與頂級開源模型的差距更大了,雖說 Llama 4 全系列尚未放完,但 Llama 4 Maverick 在 Chatbot Arena 僅排第 35,在多項主流基準上,同級別的 o4-mini 或 Gemini 2.5 Flash 的表現都更好,你怎么看?
MZ:幾點想法吧,第一,今年總體對開源模型而言絕對是大年,去年像樣的創新開源模型幾乎只有 Llama,如今優秀模型百花齊放。
普遍預測稱,今年開源模型的使用量將超過閉源,我認為很有可能。令人驚喜的是,不止 Llama,很多模型都很出色。
再說推理模型現象,你提到的 o3、o4 等,現在出現了專業化:若要在數學、編程等任務上做到最好,就需要推理模型在推理時,投入更多算力,換取更高智能。
我們也在做 Llama 4 的推理版本,日后會放出。
但對我們關注的大量應用來說,延遲與單位成本智能(intelligence per cost),更為關鍵。面向消費者時,沒人愿意多等半分鐘,若能在半秒給出足夠好的答案,那就是最好的。
兩條路線,都很重要,我也看好將推理模型與核心語言模型融合——Google 最新的 Gemini 就在走這條路,未來會出現多種形態。
你提到 Chatbot Arena,這暴露了基準測試的弊病:如何評估模型在哪些任務表現優異?
過去一年,我們更多把模型錨定在Meta AI 的北極星用例(Meta AI product north star use cases)。
許多開源基準,偏向極其特定的場景,未必符合普通用戶真實需求,它們衡量的能力組合,與用戶在產品中真正關心的往往不同。
過度迎合這些基準,就會跑偏,未必帶來最佳產品體驗和最高使用量。我們的北極星是用戶反饋,用戶說想要什么,以及實際行為,很多基準也很容易被“刷榜”。
舉例說,Sonnet 3.7 是好模型,卻排不上前列,我們團隊其實可以輕松把 Llama 4 Maverick 調優到榜首,但現在發布的模型,壓根沒為榜單做微調,所以排名靠后。
對這些榜單,要審慎看待,我們主要還是以產品價值為依據。
DP:你覺得有沒有某種基準,能客觀衡量你所謂的“用戶價值”北極星,讓你說:“我得讓 Llama 4 在這項基準上拿第一?”
MZ:我們的基準,就是Meta AI 的用戶價值user value。
DPa:可那無法與其他模型對比吧?
MaZ:也許能,因為我們可以內部運行其他模型做對照,這正是開源的一大優勢,社區能幫你揪出模型的短板與長處。
現實是,各模型的優化組合略有不同。所有領先實驗室,都在追求同一個終點:人工通用智能AGI、或者人工超級智能ASI,讓每個人擁有超人級工具,創造任何想要的東西,極大賦能個人并帶來經濟紅利。
但不同團隊確有各自的側重,Anthropic更聚焦編程及相關智能體,OpenAI 近期更偏向推理。
我猜最終使用最廣的,會是那種響應迅速、交互自然、原生多模態、能融入日常的模型。
你應該試過我們即將發布的新 Meta AI App,我們放了個全雙工語音(full-duplex voice)的 Demo。雖然還早,還沒設為默認語音模型,但其自然對話的感覺,非常吸引人。
把這與正確的“個性化”結合,未來的產品體驗將是,幾年后,我們日常會一直與 AI 交談。
拿著手機瀏覽信息流時,它與你對話,提供上下文、回答問題,在消息應用中,輔助溝通。最終,我們走在街頭,戴著眼鏡或其他 AI 設備,與之無縫互動。
這就是北極星,只要某項基準能讓人們覺得質量足夠好、愿意使用,那才對我們最重要。
二、 Intelligence Explosion 智能爆炸
DP:我同時體驗了 Orion 和 Meta AI App,語音模式流暢得驚人,真的很出色。
關于各大實驗室所追求的優化方向,如果非得為他們的觀點做辯護,他們通常認為,一旦徹底自動化軟件工程與 AI 研究,就能引爆一場“智能爆炸”。
屆時,數以百萬計的“軟件工程師的副本copies of software engineers”,會把 Llama 1 到 Llama 4 之間那種量級的進步再復制一遍,只是時間從數年縮短到數周或數月。
所以,只要把“軟件工程師”這個環節閉環起來,你就能率先抵達人工超級智能ASI,你怎么看?
MZ:我認為這個設想頗具說服力,這也是我們在 Meta 內部大力投入編碼代理的原因。鑒于我們并不是一家企業級軟件公司,我們主要是為自身需求構建這些工具。
我們的目標很明確——不是去做一個通用的開發者工具,而是打造能推進 Llama 研究的編碼代理coding agent和 AI 研究代理research agent,并且它們完全接入了我們的內部工具鏈toolchain。
這的確重要,也必將成為 AI 研發的關鍵一環。我猜在未來 12-18 個月內,為這些項目編寫的大部分代碼,都將由 AI 完成,而且我指的不是自動補全。現在自動補全已經不錯:你開始寫一段代碼,它可以把一整段補全。
我說的是,你只需給出目標,它就能運行測試、改進功能、定位問題,寫出的代碼質量,已超過團隊里一般優秀工程師的平均水平,我確信這會非常關鍵。
但我并不認為這就是全部,這個行業很大,AI 的開發方式也會多種多樣。我不相信最終只會出現一家擁有單一優化函數、能最好地服務所有人的公司。
不同實驗室會在不同領域領跑:有的更偏向企業或編碼場景,有的專注效率提升,有的聚焦社交或娛樂。
即便在助手領域,也會有注重信息與生產力的助手,也會有偏向陪伴的助手,或者純粹有趣、娛樂,直接出現在信息流里的內容。
總之空間巨大,奔向 AGI 的道路上既有共同要邁的臺階,也有大量仍待創造的全新事物,我猜未來會看到各團隊之間的進一步專業化。
DP:有意思的是,你基本同意會出現“智能爆炸”,最終會誕生超級智能。如果我沒理解錯的話,在這種情況下,為什么還要費心開發個人助手之類的應用?為什么不先把超級智能做出來,其他東西晚點再說?
MZ:那只是飛輪flywheel的一部分。我不太認同“快速起飛fast take-off”論的一個原因是——建設實體基礎設施需要時間。
如果要建一個吉瓦級算力集群gigawatt cluster of compute,就需要時間。NVIDIA 需要時間穩定新一代系統,你還得規劃網絡架構,建設機房,拿許可證,搞能源——可能是燃氣輪機,也可能是可再生能源——無論哪種,背后都有完整的供應鏈。
我們上次播客里,聊過很多這類問題。這些都是現實世界、以人類時間尺度推進的事。當你在某一層獲得更高智能,往往會撞到另一層的瓶頸。
工程學永遠如此:解決一個瓶頸,下一個瓶頸就出現。
另一個瓶頸是:人們需要時間去適應、去學習如何與系統形成反饋閉環。
這些系統不會一現身,就讓所有人瞬間會用,它們與人的使用方式是共同進化的,人學著如何最好地用助手,助手也在學用戶在乎什么,開發者再把助手做得更好。
同時,我們還在積累上下文。一年兩年后回頭看,助手能引用你兩年前聊過的話,這非常酷。如果它今天才上線,就算再完美,也不可能引用兩年前不存在的對話。
所以我的觀點是:智能增速確實陡峭。人們與 AI 助手的交互量和數據反饋飛輪同樣增長迅猛。
同時,算力供應鏈、基礎設施、監管框架也都在建設中,單有“寫代碼”那一環,遠遠不夠。
舉個例子:幾年前,我們廣告團隊做過一個項目,自動化廣告排序實驗。那是個相對封閉的環境,并非開放式編碼,系統會回溯公司歷史上每一次廣告實驗,分析成敗和結果,然后提出新假設去做試驗,提高廣告效果。
結果我們發現,瓶頸在于運行實驗的算力,以及可用的用戶分層。哪怕 Meta 有 35 億用戶,每個實驗仍需幾十萬甚至上百萬人,才能顯著統計,我們已經有更多優質想法,但算力和受試人群都不夠用。
因此,僅僅生成更多實驗想法,并不會帶來增益。AI 生成的“假設”,如果未來能有價值,平均質量得先超越目前“上線門檻”以上的、由頂尖工程師提出的想法才行。
我相信我們會很快達到哪里,但這不是“AI 會寫代碼,一切瞬間升級”的故事,現實約束很多。你得有算力,有人群做實驗,隨著 AI 質量持續提升。
也許五到十年后,沒有任何人類團隊能再提出比 AI 更好的假設了,也許吧,但那絕非現在。
DP:如果你認同智能走向這幅圖景,那看好 Meta 的理由,顯然在于你們擁有龐大分發渠道,也能由此收集更多可用于訓練的數據,你說Meta AI現在已有十億活躍用戶。
MZ:不是獨立App,本次單獨推出的 App 才剛上線,供想嘗鮮的人使用,體驗確實不錯,里面有些新點子值得聊。
但我所說的“十億”,主要發生在我們的各大應用里。
用Meta AI 用得最多的是WhatsApp,而 WhatsApp 的主戰場在美國以外。雖然我們在美國已突破一億用戶,但美國的主流消息平臺其實是 iMessage,所以美國用戶往往低估了Meta AI 的實際使用量。
也正因如此,獨立App就很重要。美國無論如何都是關鍵市場,可WhatsApp在這兒確實不是老大,我們需要別的路徑交付一流體驗,讓Meta AI 真正出現在美國用戶面前。
DP:如果 AI 的未來不再只是答疑,而是成為虛擬同事,那么在 WhatsApp里集成 Meta AI ,是否就無助于訓練出完全自主的程序員或遠程工作者?那時,誰擁有更大語言模型的分發量,或許就沒那么重要了?
MZ:我還是覺得場景會多元,想象一下互聯網剛誕生時,你問:互聯網的主戰場會是什么?知識工作還是面向大眾的消費級應用?
結果,其實兩者都成了支柱。
世界如此龐雜,通常不會由一家企業包攬所有需求。
具體到你的問題:人們確實不會在 WhatsApp 里寫代碼,我絲毫不覺得那會成為主要用例。但人們肯定會讓 AI 去做很多事,其中不少都需要 AI 寫代碼,只是用戶未必意識到。
我們內部有大批工程師在用 Meta AI,公司內還有名為 MetaMate 的工具,以及一系列圍繞它打造的編碼與研究代理,這條反饋循環可以大幅提速我們的內部研發。
AI 幾乎肯定會帶來知識工作和編碼的革命,我也相信它會定義下一代搜索,幫助完成更復雜的信息任務。
此外,人們會用它來娛樂自己,如今互聯網到處都是梗和段子,未來也一樣。人類傾注大量精力去娛樂、去推動文化、用幽默闡釋觀察到的現象,這點永遠不會變。
回顧Instagram、Facebook 的演變:十幾、二十年前主要是文字,后來手機有了攝像頭,圖片成主流,再后來移動網絡提速,手機看視頻不再卡頓,于是視頻崛起。過去十年,大多數人在 FB 和 IG 上花的時間,都在看視頻。
那你覺得五年后,大家還會只是刷視頻嗎?不會的,內容會變得可互動:你滑到一條看似Reels 的內容,卻能跟它對話,它會回應你,甚至像游戲一樣,讓你跳進去互動,這一切都將由 AI 驅動。
所有形態將百花齊放,我們野心很大,會涉獵多個領域,但我不認為任何一家公司能包辦全部。
三、 AI Friends, Therapists, Girlfriend
DP:關于 AI 生成內容與 AI 互動這點,現在已經有人與 AI 心理咨詢師、AI 朋友,甚至更多角色建立了有意義的關系。隨著 AI 變得更獨特、更有個性、更聰明、更即興、更風趣,這種關系只會愈發緊密。
人們肯定會和 AI 建立關系,我們該如何確保這些關系是健康的?
MZ:很多問題只有真正看到用戶行為后,才能回答。最重要的前提是,在每一步都主動提出這個問題,并認真對待。但是,如果一開始就過于武斷,認定某些做法必然不好,往往會扼殺掉價值。
人們之所以使用某樣東西,是因為它對他們有價值。我設計產品的核心原則之一是:用戶是聰明的,他們知道什么對自己有用。
偶爾產品里會出現負面情況,你要盡量把風險降到最低。可如果你覺得某件事不好,而用戶卻樂此不疲,大多數情況下,以我的經驗,用戶肯定是對的,你錯了。
只是你尚未找到解釋框架,理解為何這件事對他們有益,這就是我的基本思路。
我相信人們會把 AI 用在許多社交場景。實際上,我們已經看到不少人用 Meta AI 來練習與親友的艱難對話:
“我和女友出現問題,該怎么談?”
“我得跟老板進行一場硬碰硬的交流,該怎么說?”
這樣的功能很有幫助,等到個性化閉環真正跑起來,AI 越來越了解你,這種體驗會更具吸引力。
有個我常提的數據:平均美國人擁有的“真朋友”不足 3 個。可他們心里期望的朋友數量,大約是 15 個。到某個點,人們會覺得“我太忙,顧不過來了”,但大多數人都渴望比現實更多的聯結,也經常感到孤獨。
有人擔心 AI 會取代現實中的面對面關系,我傾向認為不會。線下交流有無可替代的優勢,只是現實中很多人得不到足夠的連接感。
今天,一些 AI 心理師、AI 女友之類的應用,仍帶著輕微的“污名”。隨著時間推移,社會會逐漸找到合適的解釋,說明它們的價值、使用者的合理性,以及它們怎樣真正改善了生活,但現在仍然非常早期。
目前做虛擬治療師、虛擬伴侶的公司,不過寥寥數家,而且“具身化”很弱,打開應用只是一張頭像,最多有點粗糙的動畫,談不上真正的具身。
你見過我們 Reality Labs 的 Codec Avatars,那真的像真人一樣。這正是未來,你將能隨時與 AI 進行視頻對話,而手勢同樣關鍵,真實對話中,超過一半的信息并非語言,而是非語言信號。
DP:前幾天我體驗了 Orion,印象相當深刻。我總體對這項技術持樂觀態度,也像你說的那樣較為“自由主義”,如果用戶選擇做某事,很可能對他們有益。
雖說,我不確定一個沉迷 TikTok 的人,是否真的滿意自己花在 TikTok 上的時間。
而我之所以樂觀,是因為要在未來 AGI 世界生存,我們也需要用這類工具升級自身能力,而且世界會因此更美,比如處處都能見到“吉卜力風”。
不過,你們團隊展示的一個標志性場景,讓我有些擔心,我坐在早餐桌前,余光里不斷劃過一排排 Reels,也許將來屏幕另一側還會有我的 AI 女友。
這很糟糕,技術的“獎勵劫持reward-hacked”的所有阻力,似乎正在被全部消除,該怎么確保五年后不會變成這樣?
MZ:我仍然相信人們清楚自己想要什么,你看到的只是一個多任務與全息演示,僅用于展示能力。我同意未來不該是視野邊角總有東西爭奪注意力,大多數人不會喜歡那樣。
在設計眼鏡時,我們尤其注意這一點。對眼鏡而言,首要任務是“隱形”,它本質上是一副好眼鏡。這也是 Ray-Ban Meta 受歡迎的原因,它能聽歌、接電話、拍照錄像,AI 只有在你需要時才出現,當你不需要時,它就是一副好看的眼鏡。
把存在感降到最低,這將是 AR 時代至關重要的設計原則。
更宏觀地看,數字世界在我們生活中如此重要,卻只能通過“物理數字屏幕”來訪問——手機、電腦、墻上的電視,這些都是大塊硬件。
技術已經走到讓物理與數字徹底融合的階段,比如全息疊加holographic overlays就是實現路徑。
我同意,設計原則必須圍繞人與人互動,你可隨時把數字對象帶入對話,比如:
想展示什么?直接拉出一個屏幕,三維可交互;
想打牌?來,一副虛擬牌,我們一起玩;
我們倆面對面,第三位朋友可以“全息”加入。
但正如沒人愿意讓現實空間過度雜亂,因為精神上會被壓垮,人們同樣不會想讓混合現實空間顯得擁擠不堪。
這更像一種美學規范,最終會形成共識,我相信我們會找到平衡。
四、DeepSeek and China
DP:回到 AI 這個話題。你剛才提到,物理基礎設施會成為非常大的瓶頸。拿其他開源模型來說,比如 DeepSeek,他們目前掌握的算力明顯少于 Meta 這樣的實驗室,可有人認為它的表現已經能和 Llama 系列抗衡。
如果中國在搭建物理基礎設施、擴大工業規模、獲取電力以及上線數據中心方面更有優勢,你會不會擔心他們最終在這條賽道上超過我們?
MZ:這確實是一場真刀真槍的競賽,而你已經能看到各國產業政策在發揮作用。中國正在并網更多電力,因此,美國必須加快數據中心建設和能源生產的流程,否則我們會落入相當不利的境地。
與此同時,針對芯片等產品的export control,也的確在產生效果。大家談到 DeepSeek 時常說,他們做了很多“令人驚嘆的底層優化”。沒錯,他們確實做到了,而且相當厲害。
可接著就要問:為什么 DeepSeek 得這么做,而美國的實驗室卻不用?
原因是,他們用的是經export controls“降級”后的 NVIDIA 芯片,而美國實驗室可以直接用完整版。DeepSeek 只好把大量精力花在低層基礎設施優化上,這是美國同行不必付出的成本。
結果是,DeepSeek 在文本任務上,拿出了漂亮的成績,但他們目前只支持文本。他們的優化很驚艷,文本效果也不錯,可如今每個重磅新模型都是多模態:既能處理圖像,也能處理語音,而 DeepSeek 的模型做不到。
為什么?并不是他們能力不足,而是他們必須先投入資源去彌補export controls帶來的硬件缺口。
再看 Llama 4 與 DeepSeek 的比較。我們的推理版本還沒發布,所以 R1 的對標暫時不清楚。但就文本任務而言,我們用更小的模型,就能達到和 DeepSeek 相同的水平,因此單位智能成本(cost-per-intelligence)更低。在多模態上,我們目前處于領先,而他們的模型根本沒有這部分能力。
綜合來看,Llama 4 表現很強,我相信大多數人最終會更愿意使用 Llama 4。不過,DeepSeek 那邊顯然也有一支優秀的團隊。你提到的電力、算力與芯片的可獲得性,確實至關重要。不同實驗室能夠做什么、做到何種程度,在很大程度上都取決于這些前置條件。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.