網易首頁 > 網易號 > 正文申請入駐

會議軟件Zoom也來搞AI了，稱在AI最難考試上“擊敗”了Gemini 3

2025-12-15 17:00:52　來源: DeepTech深科技

北京舉報

分享至

最近，視頻會議軟件公司 Zoom 發布了一條出人意料的消息：他們宣稱在“人類最后的考試”（Humanity s Last Exam，簡稱 HLE）這個號稱當前 AI 領域最具挑戰性的基準測試上，取得了 48.1％的成績，比此前由 Google Gemini 3 Pro（帶工具）保持的 45.8％高出 2.3 個百分點。

這是什么概念？一家做視頻會議起家的 SaaS 公司，跑去和 OpenAI、Anthropic、Google 這些 AI 前沿實驗室在同一張考卷上比分數，而且還贏了（至少按他們自己的說法）。

消息一出，許多人的第一反應是：“誰，Zoom？”甚至有人好奇：“難道 Zoom 現在也是個前沿 AI 實驗室了？”

圖丨相關評論（來源：X）

不過且慢，仔細看看，這個“SOTA”（state-of-the-art，最先進水平）的含金量，恐怕需要打個問號。

先說 HLE 這個基準測試到底是什么。它由 Scale AI 與 Center for AI Safety（CAIS，人工智能安全中心）聯合推出，包含 2,500 道由全球近千位學科專家貢獻的高難度問題，涵蓋數學、物理、生物醫學、人文社科、計算機科學等數十個領域。

設計初衷是應對“基準飽和”問題：此前流行的 MMLU 等測試，頂級模型早已刷到 90％以上，區分度幾乎喪失。HLE 的難度足以讓大多數當前模型的得分停留在個位數到兩位數低端，被稱為“為衡量 AI 進展而設計的最后一道封閉式學術測試”。

那么 Zoom 是怎么做到的？

根據 Zoom 首席技術官黃學東在官方博客中的介紹，核心在于他們的“聯邦 AI 方法”（Federated AI Approach）。這套架構的思路說起來并不復雜：不依賴單一大模型，而是把 Zoom 自研的小型語言模型（SLM，Small Language Model）與 OpenAI、Anthropic、Google 等公司的閉源和開源模型組合起來，通過一套叫做“Z-scorer”的自研評分系統來選擇或精煉不同模型的輸出。

具體到這次 HLE 測試，Zoom 使用了一種名為“探索－驗證－聯邦”（explore–verify–federate）的智能體工作流：不是讓單一模型生成長鏈推理，而是策略性地識別最有價值的推理路徑，再由多個模型通過“辯證協作”來生成、挑戰、修正答案，最終整合全部上下文做出判斷。

所以，Zoom 并沒有從頭訓練自己的前沿模型，只是在現有模型之上做了聚合和腳手架。這次 48.1％的成績也并未出現在 HLE 官方排行榜上。Scale AI 維護的 HLE 官方榜單上，列出的是各家廠商提交的單一模型成績，而 Zoom 的“聯邦 AI 系統”嚴格來說是一個由多模型協作加自研編排層組成的復合系統。

圖丨在 HLE 全集基準測試上的表現（來源：Zoom）

有評論者直言，這不過是“把問題分發給三個頂尖模型，榨出幾個百分點的提升，然后宣稱自己達到 SOTA”的策略，確實是創意，但這跟“Zoom AI”本身有多大關系呢？

就在 Zoom 發布公告的同一天，另一家名為 Sup AI 的初創公司宣布以 52.15％的準確率超越了所有現有系統，同樣采用的是多模型編排方案。HLE 官方排行榜還沒來得及更新，這個“SOTA”就已經易主了。可見這種基于工具調用和模型聚合的測試成績，也是一個相當卷的競技場。

那么 Zoom 為什么要做這件事？

要回答這個問題，得先理解 Zoom 這幾年的處境。疫情紅利消退后，這家公司一直在尋找新的增長敘事，而 AI 成了最順理成章的選項，為此，Zoom 挖來在微軟工作 30 余年的黃學東擔任 CTO。

圖丨黃學東（來源：WikiPedia）

2023 年 9 月，Zoom 推出了 AI Companion 功能，提供會議摘要、待辦事項提取、實時問答等能力，并且對原付費用戶免費開放，無需額外加購。

背后支撐這些功能的，正是 Zoom 所謂的聯邦 AI 架構。簡單說，他們不是一味調用最貴的模型來處理所有任務，而是建了一套路由機制：簡單任務交給自研的 20 億參數小模型，復雜任務才調用外部大模型；同時用 Z-scorer 來判斷初次輸出的質量，如果不達標再讓第二個模型來修正。這樣一來，每次 API 調用的平均成本就被壓下來了。Zoom 自己在 2023 年底宣稱，這套方案能以 GPT-4 約 6％的推理成本達到接近的輸出質量。

2024 年起，Zoom 進一步深化了這個思路。今年 10 月，他們與 NVIDIA 合作，把 Nemotron 推理模型接入了聯邦架構，并且自研了一個 490 億參數的中等規模 LLM。盡管規模不大，但足以在其所涉及的企業協作場景里把事情干得更穩、更快、更便宜。

這其實也是 2024 年以來企業 AI 領域一個越來越清晰的趨勢。對于絕大多數 SaaS 公司來說，從頭訓練一個前沿大模型既不現實也沒必要。于是，它們面臨兩條路：要么深度綁定某一家大模型廠商，要么走多模型編排路線，在上層建立自己的調度和優化能力。

Zoom 選擇了后者，而且走得相當激進。它不僅同時接入 OpenAI 和 Anthropic 的模型，還自研了用于特定任務的小模型，再加上 Perplexity 提供的網絡搜索能力。這套架構的好處是靈活：新模型出來了可以快速接入，不同任務可以選用最合適的模型，成本也可以通過靈活的策略來控制。

所以，與其說 Zoom“戰勝”了 OpenAI 和 Google，不如說他們驗證了另一條路徑的可行性：不造巨型模型，而是做好模型的調度和協同。

誰能把不同模型、工具調用、企業數據與工作流拼成穩定、可控、高質量的生產力輸出，誰就能在企業市場占據優勢。這和微軟 CEO 納德拉提出的“AI 成為業務應用的邏輯編排層”思路一致，也類似于 Salesforce 試圖通過 Agentforce 把 AI Agent 深度嵌入 CRM 流程的策略。

只不過，微軟背后有 Azure 和 OpenAI，Salesforce 有自己的 Data Cloud 和收購來的技術資產，而 Zoom 的護城河主要在于它龐大的會議用戶基礎和對“會議場景”的深度理解。

這家公司在 2025 年 9 月的 Zoomtopia 大會上正式發布了 AI Companion 3.0，主打智能體 AI（Agentic AI）能力：不僅能總結會議、提取待辦事項，還能主動分析日程、自動安排會議、跨平臺（包括 Microsoft Teams 和 Google Meet）抓取信息、與 ServiceNow 等第三方 Agent 協作。黃學東將其定位為從“被動助手”到“主動協作者”的躍遷。

按 Zoom 的說法，這套系統底層依然是聯邦多模型架構，前端則通過統一的 AI Companion 入口呈現給用戶。

這意味著什么？意味著 Zoom 正在把 AI 能力從單點功能升級為平臺級服務。它不再滿足于“幫你總結會議”，而是試圖成為企業工作流中的 AI 中樞，一個能夠理解上下文、調用多種模型和工具、在不同應用間穿梭執行任務的智能層。這和微軟、Salesforce、ServiceNow 等巨頭的愿景高度重合，只不過各家的起點和路徑不同。

在大模型能力快速商品化的背景下，差異化競爭的焦點正在向“編排能力”和“場景整合能力”轉移。訓練一個萬億參數的基礎模型需要數億美元和數萬塊 GPU，這注定是少數玩家的游戲；但如何把現有模型用好、用對、用便宜，這是每一家企業軟件公司都可以、也必須認真思考的問題。Zoom 的聯邦 AI 路線，本質上是對后一個問題的回答。

參考資料：

1.https://www.zoom.com/en/blog/humanitys-last-exam-zoom-ai-breakthrough/?utm_source=social&utm_medium=organic-social

2.https://www.zoom.com/en/blog/federated-ai-approach-best-quality-for-most-popular-features/?utm_source=social&utm_medium=organic-social&DeviceId=92a0a21e-4914-432c-b54c-91f0bcba09eb&SessionId=1765775112166

運營/排版：何晨龍

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.