![]()
AI 的競爭成為模型公司全棧能力和創新的博弈。
文丨江思遠
2000 年,美國互聯網泡沫破滅時,Google 面臨巨大的商業化壓力。當時他們搜索引擎的流量暴漲,但離盈利還有一段距離。Google 曾嘗試把自己的技術授權給友商,以賺取微薄的 “經費”。但還是無法支撐公司的長遠發展。
公司作為商業組織本質是逐利的。但有技術信仰的企業,往往會在短期利益與長期投入之間,選擇那條更難、更慢、也更燒錢的路徑。
Google 沒有放棄技術。2002 年,Google 的工程師們發現,用戶在搜索框中輸入關鍵詞,不只是為了搜尋信息,也是在表達購買意圖。Google 將 “用戶搜索意圖” 與 “商業廣告” 通過競價排名結合,在行業中找到了一個獨特的身位,將技術和商業化真正連接了起來。
偉大的技術突破往往能帶企業打開新的市場。蘋果未止步于個人電腦,而締造出了劃時代的 iPhone;字節跳動抓住推薦算法,才完成對信息流的重構;OpenAI 固執地進行大模型訓練,讓算法涌現出了智能。
但過去兩年,AI 技術受困于找不到落地場景,商業化受阻。2025 年,DeepSeek 在保持成本優勢的同時,展現出接近人類的思考能力,讓 C 端用戶對 AI 的價值有了新的認知。不久后,OpenAI 的原生多模態模型 GPT-4o,展現了其對圖片內容的理解能力,讓 AI 生成 “吉卜力” 畫風的圖片引爆社交網絡。
AI 技術的進展帶來了解決以下兩大難題的可能性,讓市場重新評估 AI 的商業潛力。
- 物理: AI 對真實世界的理解和執行能力不足。
- 商業: 推理成本過高,限制了 AI 的大規模應用。
2025 年底,百度發布文心大模型 5.0,Google 發布 Gemini 3,模型實現在統一原生架構下能理解圖片、看懂視頻,大模型統一原生多模態的潛力被逐步看到。
技術進步也帶來商業化的可能。目前,大模型有望通過算法層、架構層、系統層,乃至芯片側的全棧優化,降低推理成本,提高模型效能,如 Anthropic 的 Claude 系列、Google 的 Gemini 系列、百度文心系列。
AI 行業的競爭不止在于算力、數據,也成為一個公司全棧工程能力和基礎創新的綜合博弈。
AI 能力正從文本生成走向原生多模態
大模型還無法做到完全理解用戶的意圖,但語言模型正在進入 “收益平臺期”——盡管算力、數據投入指數級增加,但大模型在預測下一個 Token 的任務上,所表現出的泛化性曲線已明顯放緩。單一文本維度的縮放路徑,無法滿足大模型智能繼續進化的目標。
業界一個廣泛流傳的觀點是,大模型要理解世界。“現在的大模型達不到 AGI”,大模型理解世界,需要視覺、聽覺、語言等多種感官信息的融合。兩位圖靈獎得主,楊立昆、Geoffrey Hinton 都曾提出類似的觀點。
目前,多數多模態模型就像 “傳話筒”,圖像、語音等信號需經過獨立模型解碼后再轉譯給語言模型,最終實現理解、生成。構建原生多模態大模型,可以讓模型從訓練階段起,就具備理解圖片、語音等各種模態信息的能力。
原生多模態模型就是能像人一樣,“端到端” 理解各種模態的信息——前者訓練時只需專注處理單一模態信息,難在保持 “傳話” 過程中不出現信息失真的現象;后者則是在訓練時就要讓模型理解圖片、視頻、語音等信息,但難在讓各種類型數據的意義互通。但原生多模態模型在訓推中需要處理大量多模態的數據,給架構設計、訓練過程和推理等多個層面都帶來了指數級的壓力。
Google 從開始訓練 Gemini 系列,便確定原生多模態的技術路徑。但訓練數據較難統一,剛開始 Google 的模型在應用側的效果并算不突出。直到 2025 年末,Gemini 3.0 展現的多模態理解能力,讓業界重新相信了 “原生多模態”。
2025 年,國內企業發布的模型開始呈現原生多模態轉向,發布的模型有各自的特點。階躍星辰的 Step-3 針對國產芯片帶寬進行了優化,降低了企業的商用成本;智譜的 GLM-4.6V 和字節的豆包大模型 1.8,都是將工具調用能力原生融入大模型,讓 AI 可以行動;阿里發布的 Qwen 3-Omni 主要通過優化用戶交互與開源,擴大生態。
![]()
百度文心大模型 5.0 則專注于模型本身,發布了參數量達 2.4 萬億的原生全模態大模型。在國內為數不多的全模態模型中,參數量最大,并在底層架構實現了文本、圖像、音頻、視頻多模態的統一。
![]()
真實世界本質是跨模態的信號流,大模型要理解世界,原生多模態是技術上的趨勢。以百度文心大模型 5.0 為例,其文本與視覺理解能力體現出的泛化性,均在 LMArena 大模型競技場相應領域的全球排行榜中,占據前列。
![]()
通過原生多模態架構,模型能捕捉到更多非語言信息,AI 能夠像人類一樣感知現實,并通過 Agent 建立與世界更深層的連接。這也讓大模型切入具身智能、智能座艙、消費硬件等萬億美金級賽道的商業場景成為可能。
推理成本定義 AI 商業化拐點
2024 年底,行業從 “快思考” 轉向 “慢思考”。慢思考是讓模型在回答問題之前,先模仿人類思考路徑,在后臺列出完整思維鏈條,自我修正后再生成回答。慢思考模式下用戶每提一個問題,單次消耗的 token 數量都激增。
OpenRouter 發布的年度報告指出,2025 年推理任務消耗 token 的占比不斷升高,模型專用于推理類任務的調用量,占 token 消耗總額的超 50% 。用戶規模擴大后,模型廠商需為用戶消耗的 token 支付高額的成本。
能否降低推理成本,成為 AI 走向商業化的關鍵。
2025 年初,DeepSeek 憑借 MLA 架構和精細化的 MoE 設計,顯著降低大模型計算消耗的同時,提高了模型的性能,被行業視為 “效率標桿”。
但 DeepSeek 只是語言模型。語言模型的降本經驗并不能直接平移到多模態領域。GPT-5、Gemini 3、豆包 1.8、文心 5.0 等原生多模態模型,需要處理視覺和音頻流,其對訓練算力的需求是純文本模型的 5 到 10 倍,推理過程也更加復雜。GPT-4o 訓練投入超 1000 PFlop/s-day,大約相當于數千臺頂級 GPU 滿負荷運行數周。
![]()
原生多模態模型若要實現 DeepSeek 式的降本,僅靠模型層面的算法創新是不夠的。以文心 5.0 為例,依托飛槳深度學習框架進行大規模 MoE 模型訓練,模型預訓練性能較基線提速 230%,激活參數比低至 3%。
在國產芯片替代的大背景下,大模型降本需要同時掌握芯片、框架、模型和應用四個層面的自主權,對企業全棧系統工程能力提出了更高的要求。目前國內具備這種閉環能力的只有百度和華為。
當推理成本降低,模型可以在后臺持續完成自我博弈、工具調用和邏輯反思,以 Manus 為代表的通用 Agent 就能實現在網頁間穿梭,完成報表分析。這不光重塑了軟件,也驅動模型能力從 “云端” 向 “端側” 下沉。原本昂貴的 AI 被嘗試融合進 AI 眼鏡、智能座艙和手機 OS 中。
顯然,AI 的下半場不再只是比拼模型規模,而是比 “誰能以更低的成本提供更深的智能”。在這場效率革命中,降本不是目的,而是手段。
誰是 AI 時代下一個 “超級入口”?
2000 年,百度也憑借自身技術,為搜狐、新浪、網易等門戶網站提供搜索方面的支持。彼時,這些門戶網站雖然擁有龐大的搜索流量,但 “搜索” 卻僅被其視為一個附屬的功能模塊,沒進行深度優化。2001 年,李彥宏力排眾議要推出自己的門戶網站,以搜索引擎為核心的入口 “百度”(Baidu.com)應運而生。
百度憑借超鏈分析技術和精準的中文分詞,從門戶網站的索引中脫穎而出。那時,百度的成功在于解決了 “搜得準” 的問題。百度成為了最初的 “平臺級入口”。
時間回到 2025 年,AI 技術讓 “超級入口” 的邏輯發生了質變,下一代超級入口正從 “匯聚流量的 app” 轉向 “多模態的智能助手”。
在 “超級入口” 之爭上,國內能與大廠競爭的創業公司屈指可數。大廠不會放棄任何一種擴張的可能。字節跳動、阿里、騰訊與百度正依托各自的生態,搶占 “平臺級入口” 這一高地。
12 月 1 日,字節發布和中興努比亞合作開發的豆包手機助手,試圖重塑人機交互的底層邏輯。用戶僅通過語音交互,就可以讓豆包手機助手直接接管用戶屏幕。
同期,阿里調動整個集團資源,打造 AI 時代的超級助手。阿里成立千問 C 端事業群,將之前阿里云事業部下通義千問 APP 改名 “千問 APP” 發布,以 “一周一更新” 的速度迭代。近日,千問 APP 已接入高德地圖,未來阿里或把夸克、UC、天貓精靈等功能也整合進千問 APP。
百度基于搜索,也上線了百度文心助手,對標 Gemini 3,競爭超級入口。百度搜索全面升級文心助手 AIGC 創作能力,支持 AI 圖片、AI 視頻、AI 音樂、AI 播客等多種模態創作。從硬件布局的演進趨勢來看,百度可以依托文心 5.0 大模型的技術底座,通過蘿卜快跑接管物理空間,用小度占據家庭交互入口,讓信息實現從虛擬空間向真實空間的滲透。
幾周前,Google 將 Gemini 3 嵌入核心搜索業務,通過跨應用的數據調取,實時生成能與用戶交互的 UI 頁面,向用戶直接交付搜索結果。Google 通過自研 AI 芯片和 Google Cloud 支持大模型訓練、推理,訓練出的先進的模型又能與自身搜索、云盤、Android 生態等入口融合,繼續產生相應領域的高質量數據,持續推動智能升級。
有行業人士認為,Google 已形成 “算力-模型-數據-應用” 的系統級飛輪,而百度是中國為數不多能與 Google 對標的 “AI 六邊形戰士”。因為下個時代的 AI 競爭的不止是模型能力,而是演進為全棧式的系統競爭,比拼的是誰能完成 “算力—系統—模型—入口—資源—行動能力” 六個層面的閉環。
他們認為,百度依托昆侖芯、智能云作為算力與系統底座,以文心大模型作為能力中樞,鏈接搜索、網盤、小度等流量入口,并通過搜索、地圖與自動駕駛等業務將能力落地到現實世界,形成了六大要素閉環,是國內最接近 “AI 六邊形戰士” 形態的公司之一,具備長期演進的系統飛輪能力。
![]()
圖源網絡
水面之下,騰訊同樣暗流涌動。12 月下旬,騰訊新成立 AI Infra 部、AI Data 部、數據計算平臺部,27 歲的前 OpenAI 研究員姚順雨出任 “CEO / 總裁辦公室” 首席 AI 科學家。過去數月里,騰訊也以加倍薪資挖角 AI 人才,強化研發體系。
在生成式人工智能的第一波流量交鋒中,有的公司水漲船高,有的公司陷入沉靜。但在喧囂之下,堅守 “技術信仰” 的企業,正在等待那個規則被重新定義的時刻。
題圖來源:Transformers: Dark of the Moon
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.