文 | 字母AI
最近馬斯克很頭疼:Grok在X上脫人衣服這件事,眼瞅著平息不了了。
X前腳正式宣布限制措施,不再允許通過Grok在X平臺上對真實人物的照片進行“脫衣服”或生成/編輯成“暴露服裝”(如比基尼、內衣等)的操作。
![]()
后腳,加州就啟動了對xAI和Grok的調查。事到如今,Grok“脫衣”爭議已經“集齊”十個國家和地區的公開批評或者調查,包括英國、歐盟、法國、加拿大、澳大利亞、印度等等。
Grok從誕生之初,就因為會整活、不搞“政治正確”而娛樂性拉滿,而馬斯克針對其“擦邊”屬性也是一貫頭鐵。去年Grok最引人注目的更新,當屬引入兩個性感的虛擬角色。
“擦邊”之下,用戶增長明顯,Grok最新月活用戶數已經突破3000萬,月初引入將靜態照片轉變為動態視頻的功能Grok Imagine,一度登頂蘋果應用商店美區免費榜第一。
但用戶的爭搶之下,AI公司真正需要爭搶的其實是“商業前景”與資金。C端是不是那個答案?目前還要打一個問號。OpenAI目前的主要收入來源是用戶訂閱,ChatGPT月活用戶數8億,但是每年的虧損越來越大,并且這樣的虧損擴大還會持續幾年。
馬斯克前不久要求OpenAI和微軟賠償790億到1340億美元,給出的理由是早期提供了幾千萬美元種子資金,因為OpenAI的5000億美元估值有一大部分應該給他,頗有點盯上“友商”錢包的意味。
翻年之后,馬斯克接連受到打擊,已經準備好在AI編程領域奮起直追了。不僅承認Grok的編程能力不如對家Anthropic,還宣布下個月有兩個AI編程領域的大動作。
“擦邊”雖好,論賺錢,哪有AI編程香?
肉眼可見的區別是,坐上AI編程一號位的Anthropic,收入結構中企業用戶占大頭,目前已經將AI編程的優勢絲滑進階到了生產力提升。雖然年營收遠不及OpenAI,但Anthropic的盈利節點很有可能比OpenAI早。
不僅是馬斯克的xAI,以C端見長的OpenAI,以及字節,都紛紛在去年加強AI編程領域的投入。
說到底,AI頭部玩家逐漸看清事實,那就是,C端主要爭名,AI編程則連接著廣闊的B端想象力。
馬斯克受刺激了
馬斯克正在傳達一個強烈的信號:Grok要開始認真在AI編程上發力了。
1月,馬斯克先是在X上公開承認Grok的編程能力不如Anthropic的Claude。
緊接著,他又透露,2月Grok Code將迎來重大更新:“下個月Grok Code將迎來重大升級。它將一鍵處理許多復雜編碼任務。”
而其中提到的“一鍵處理復雜編碼任務”,外界認為這是在暗示xAI將發布vibe-coding的工具,即用戶只需描述感覺和意圖,如“建一個類似Twitter的app”,AI就可以自動規劃、生成代碼、測試、部署。
看來馬斯克是受到了不小的刺激。
新年剛過一周,Anthropic就“拔網線”,對第三方平臺采取封鎖措施,一時之間,通過編程助手Cursor、開源AI編碼工具??OpenCode等第三方平臺使用Claude Code時觸發報錯,顯示工具權限為Claude Code獨有,不允許外部調用。
xAI遭了大殃,甚至xAI聯合創始人Tony Wu給全員發緊急通知。
而這條slack消息被泄露,揭開了一個小秘密——原來很多xAI員工,都通過Cursor調用Claude模型寫代碼。
當時Tony Wu就表示:“我們的生產力會受到影響,但這確實會倒逼我們開發自己的編程產品/模型。”
不久之后,馬斯克也在X上給別人回復時承認Anthropic“拔網線”事件是一個“激勵因素”。
![]()
此前xAI的Grok主要以通用能力見長,模型能力很強大,但是在AI編碼能力方面不算翹楚。
根據llm-stats的最新排行榜,在SWE-Bench Verified中,xAI最出色的模型是Grok Code Fast 1,排在第20位。
該測試從真實的GitHub問題中選取500個經過驗證的軟件工程問題子集,由人工標注者驗證,用于評估語言模型通過為Python代碼庫生成補丁來解決現實世界編碼問題的能力。
![]()
![]()
SWE-Bench Verified排名前五的模型來自Anthropic、OpenAI、谷歌。
在Human Eval中,xAI排名最高的模型是Grok-2,排在第18位。該基準測試用于衡量從文檔字符串合成程序的功能正確性,包含164個原創編程問題,旨在評估語言理解能力、算法能力和簡單的數學運算能力。
![]()
![]()
Human Eval排名前五的模型分別來自于Kimi、Anthropic、OpenAI、阿里。
在Live Code Bench中,xAI表現較好,Grok-3 Mini、Grok 4 Fast、Grok-3分別排在第三、四、五位。這是一個全面且無污染的大型代碼語言模型評估基準。它持續從編程競賽中收集新問題,以便評估模型訓練截止后發布的未見過的問題。
![]()
Live Code Bench排名前二的模型來自DeepSeek和MiniMax。
值得一提的是,此前xAI在AI編程領域最為關鍵的舉措是推出了Grok Code Fast,這個模型講求實用,從名字就能看出來,側重在“快”。其價格也非常有競爭力,輸入成本每百萬tokens僅需0.2美元,輸出為1.5美元,是當前最便宜的專用編碼模型之一。
相比而言,Claude Sonnet 4.5價格是其15倍。
它特別適合預算有限的個人開發者、初創團隊和高頻迭代場景,而非追求“零容忍錯誤”的頂級企業生產級任務,更像是馬斯克在AI編碼領域用錯位競爭的方式“小試牛刀”。
但問題在于,當AI編程正從“便宜好用的工具”演進為決定研發效率與組織形態的核心能力時,僅靠一款強調性價比和速度的Grok Code Fast,顯然已經無法滿足馬斯克的野心。
AI編程已經勢不可擋
事實上,AI編程這條線,已經被牌桌上的頭部玩家同時盯上。
最典型的,還是Anthropic。
Anthropic不再只強調模型“會不會寫代碼”,而是直接接管工程師的工作流。從拆解需求、規劃代碼結構,到多文件修改、反復調試,Claude Code更像一個全天候的“虛擬工程師”。
本月發生的那場“拔網線事件”,反而成了它成功的注腳——當Anthropic收緊第三方調用權限,大量依賴Claude Code的外部工具和團隊立刻受到影響,xAI就是其中之一。
這種變化在一線工程師那里體現得更直接。
谷歌首席工程師、Gemini API負責人Jaana Dogan公開表示,她只用幾句提示詞、一個多小時,就借助Claude Code完成了相當于過去一年工作量的成果。
![]()
這類表態之所以被廣泛傳播,是因為它擊中了很多工程師的真實感受:AI編程已經開始根本改變生產效率。
也正因為如此,其他巨頭不可能坐視不管。
OpenAI在近一年的更新中,明顯把更多資源壓向代碼能力。從模型在復雜代碼理解、長上下文修改上的強化,到API層面對函數調用、工具鏈集成的持續優化,目標非常明確——讓開發者在真實工程場景里,用GPT寫得更久、更深。
Google的策略則更“體系化”。Gemini不只是模型本身在代碼能力上追趕,而是被直接嵌入到Google自己的開發者工具、云服務和工程環境中,試圖把AI編程變成一種默認選項,而不是額外插件。
從榜單結果來看,幾家公司的差距正在迅速拉近,排名頻繁交錯,已經進入貼身肉搏階段。
這種趨勢同樣傳導到了國內。字節跳動其實很早就意識到AI編程的重要性。去年1月,字節發布了面向軟件工程場景的工具TREA,隨后持續迭代。對這樣體量的公司來說,是否補齊這塊能力,直接關系到內部研發成本和組織效率。
把這些動作放在一起看,會發現一個越來越清晰的變化:AI編程正在從“大模型能力展示的一部分”,變成所有玩家都繞不開的核心戰場。
在這樣的背景下,Grok Code Fast那種強調便宜、夠用、夠快的錯位打法,顯然很難再讓馬斯克安心停留。
“擦邊”哪有編程香?
紛紛擾擾之間,真正把這條賽道推到臺前的,并不只是模型能力的進步,而是它背后越來越清晰,也越來越現實的商業指向。
AI編程,是目前少數已經被驗證“能真正落地”的大模型應用場景之一。
xAI的Grok,長期以來最突出的優勢一直在C端。去年Grok最受關注的,并不是編程能力,而是各種“擦邊”動作,更少限制、更大膽,也屢次引發爭議。
最近一段時間,類似的原因再次把Grok推上風口浪尖。這種路徑在拉新和話題度上確實有效,但問題也很明顯:它很難轉化為穩定、可規模化的收入。
這一點,其實并不只發生在xAI身上。OpenAI和字節跳動在某種程度上也面臨類似結構性問題。OpenAI擁有ChatGPT這樣的超級C端入口,字節背靠抖音、TikTok這樣的社交與內容帝國,馬斯克則掌控著X。
它們在用戶規模、分發能力和產品打磨上極具優勢,但也恰恰因為C端體量太大,商業模式反而更復雜:訂閱增長有天花板,內容合規成本高,任何一次失誤都會被無限放大。
相比之下,to B的世界要“冷靜”得多,也現實得多。這正是AI編程的吸引力所在。
對企業來說,AI是否“好玩”并不重要,重要的是它能不能穩定地節省人力、縮短研發周期、降低交付風險。
這也是為什么,幾家公司的盈利預期開始明顯分化。
以Anthropic為例,多家行業分析機構預測,Anthropic有望在2028年前后實現盈虧平衡。
行業普遍估計,Anthropic約70%–80%的收入來自企業客戶,主要是API調用和企業級合同。這種收入模式增長未必最快,卻足夠穩定,也更容易覆蓋持續攀升的算力成本。
相比之下,OpenAI的體量更大,但路徑不同。
公開分析普遍認為,OpenAI當前的收入結構中,大約七成仍來自C端訂閱(如ChatGPT Plus等),真正來自企業API和企業合同的收入占比約三成左右。
與此同時,OpenAI還承擔著極高的算力和基礎設施支出壓力,其實現整體盈利的時間點可能要到2030年前后。
它對規模、資本和耐心的要求顯然更高。
而xAI的情況則更為激進,也更脆弱一些。
市場估算顯示,xAI在2025年的年化收入規模約5億美元左右,遠低于OpenAI(約130億美元)和Anthropic(約70億~90億美元)。目前,xAI的主要收入仍高度依賴Grok在C端的訂閱與其與X平臺的聯動。
盡管xAI已開始推出Grok Business、Grok Enterprise等B端產品,試圖向企業市場延伸,但其盈利時間點可能仍要等到2027–2028年之后。
這也可以解釋為什么近期OpenAI、谷歌相繼在“廣告”與“購物”上發力,這也是在為C端引入更多商業空間。
馬斯克想要在AI編程上發力,本質上是在為xAI尋找一條更確定、可持續的商業出口。
在算力成本高企、市場耐心下降的當下,AI編程賽道帶來的確定性本身,就是稀缺資源。
這種選擇,其實從Anthropic一開始就已經埋下伏筆。Anthropic多次公開表示,他們更愿意把AI定位為生產力工具,而非娛樂產品,甚至直言“AGI”這一概念本身已經變得模糊而過時。
在具體實踐上,這種理念體現為對安全性、可控性和工程穩定性的長期投入。
這些看起來“慢”的工作,卻恰恰是AI編程能進入企業核心流程的地基。今天Claude在編程領域的領先,并非突然爆發,而是一步步打出來的。
也正因如此,其他玩家想在AI編程領域趕超Anthropic,注定是一場硬仗。
這不是多發幾個模型、多刷幾次榜單就能解決的問題,而是對工程能力、產品理解和企業需求的長期消化。
從時間線上看,Google的布局其實并不晚。Gemini的優勢不只在模型本身,而在于與Google Cloud、開發者工具、工程體系的“全棧聯通”。
OpenAI近一年也在持續把資源向編程能力傾斜,字節同樣通過TREA等工具不斷補課。放在這個坐標系里,馬斯克此時大幅加碼AI編程,多少顯得有些姍姍來遲。
更現實的一點是,AI編程恰恰也是“出事成本”最高的應用場景之一。
在強應用環境里,不出問題則已,一旦出問題,就是實打實的生產事故。
前幾天,編程工具Cursor曾對外披露,一次實驗中GPT-5.2連續運行7天,生成約300萬行代碼,構建出一個堪比Chrome的瀏覽器。
消息一出,立刻引發轟動,但很快就被開發者“打假”,質疑其可復現性和工程真實性。這場風波本身,恰恰說明了AI編程的門檻。
也正是在這樣的現實約束下,AI編程這條路才顯得格外“香”,也格外難走。
至于馬斯克和Grok,能否在這條已經被反復驗證、競爭激烈的賽道上追上來,答案恐怕只能交給時間。
馬斯克已經承諾下個月就有大動作,讓我們拭目以待。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.