網易首頁 > 網易號 > 正文申請入駐

AI當高級白領牛馬，哪家大模型最強

2025-10-03 21:18:31　來源: 未盡研究

上海舉報

分享至

AI大模型也好，智能體也好，在各種測評榜上刷得不亦樂乎。對于跟蹤模型進展，發現模型能力上限確實有用；不過衡量的是模型的抽象能力，而不是具有經濟價值的產出。

從投資界、產業界到公眾，對于人工智能的刷榜和演示能力固然感到驚艷，但他們關注的重心，正在從“核彈級的炸裂”，轉移到真正的拷問，花這么多錢和這么多名校絕頂聰明的孩子，搞這些東西，最終用來干什么？

就是AI的經濟價值有多大，在實際工作中，替代或者增強人類的潛力有多大；如果很大的話，現在發揮出了多少？AI交付實際工作的能力，可能更需要衡量，如果說現在排上用場，人們還不放心的話。

硅谷的AI招聘獨角獸公司Mercor也想知道，幫助那些頂級AI大廠和獨角獸企業找到的學霸們，弄出來的大模型，除了又當學霸之外，還能干什么實際工作。

“人工智能在奧林匹克數學方面已經超越人類，但這些能力可能與經濟發展脫節。擁有一萬個博士學位固然很好，但擁有一個能可靠地幫你報稅的模型就更好了。”

他們設計了一個AI生產力指數（AI Productivity Index, APEX)，首先選取了4個最高經濟價值的白領行業進行測試，邀請了投行、咨詢、法律、醫學的資深專家，把它們在實際工作中遇到和解決的問題搬出來，讓23個大模型下到職場，當下這四個行業的“牛馬”：投資銀行助理、管理顧問、大型律師事務所助理和初級保健醫生 (MD)。

表現如何？結果如下：

排名前五的，都達到了及格線60分，排名第5-10名的，接近及格線。總體來看，OpenAI的模型家族，當牛馬的能力最強。

GPT-5、Grok4、Gemini 2.5位居前三，值得關注的是，Qwen 3 235B和DeepSeek R1分別獲得第7名和第9名，在開源模型中排名前兩位，GPT OSS 120B（Medium）名列開源第三。相比之下，編程明星Sonnet 4 表現一般。

下面這個測試的案例，來自一家律所最近遇到的一個真實客戶，這位音樂家的版權繼承人遇到了麻煩，想找律師幫助解決問題。律所助理要對這個客戶的合法繼承問題做出初步判斷。該測試涉及到22條標準，8個法律來源，不超過10萬個token。

諸如此類的案例，總共200個，每個行業50個，分別由20名左右資深專家設計。Mercor通過自己的平臺找到了這些專家：

投資銀行：20 位投資銀行家，經驗從業 2 至 18 年不等，平均 8.7 年。他們曾在高盛、Evercore 和摩根大通等公司任職。
管理咨詢：18位管理咨詢師，經驗從業2至20年不等，平均6.9年。他們曾在麥肯錫、波士頓咨詢公司和貝恩等公司任職。
法律：20名律師均擁有大型律所工作經驗，從業經驗在3至22年之間，平均5年。他們曾在Latham & Watkins、Skadden和Cravath, Swaine & Moore等律所任職，并擁有哈佛、耶魯、斯坦福等美國頂尖14所法學院的法學博士學位。
醫學：18名醫生擁有3至22年初級保健臨床經驗，平均8.8年。他們曾在布萊根婦女醫院和西奈山醫院等醫院工作，并擁有賓夕法尼亞大學、西北大學、康奈爾大學等美國頂尖醫學院的醫學博士學位。

這些專家共同創建了一個數據庫APEX-v1.0 ，所有的案例和提示，都來自真實世界。這些任務，專家們自己干，一般要用1-8個小時，平均3.5小時。

專家們找到權威和真實的來源，建立了標準和評分細則。然后由Mercor去搜集各模型的回答，再由語言模型根據專家標準打出分數。關于為什么用語言模型進行評判，以及它們與人工專家評判之間的差異，可以參考論文了解細節。

Mercor稱APEX是首個基于AI執行具有經濟價值的知識工作能力的基準測試。APEX-v1.0 測試了 23 個模型，除亞馬遜的 Nova Pro（發布于 2024 年 12 月）和 OpenAI 的 GPT 4o（最初發布于 2024 年 5 月，最后更新于 2024 年 11 月）外，所有模型均于 2025 年發布。最新的模型是 GPT 5（Thinking = High），發布于 2025 年 8 月初。模型響應于 2025 年 8 月初收集。13 個閉源模型通過各自的 API 訪問，10 個開源模型通過開源提供商訪問。

測試還有些發現，值得拿出來說下：

開源和閉源模型的性能有何不同？

還是有差距的。閉源模型的平均得分為55.2%，而開源模型的平均得分為 45.8%，下降了9.4個百分點。在成對勝率方面，差距更大，分別為57.6% 和40.2%，下降了15個百分點以上。也有兩個例外，Qwen3 235B和DeepSeek R1還是能和有些前沿閉源模型掰手腕的。

性能更強大的模型（工作中）表現是否更好？

不一定，而且這些模型的“考試”表現和“工作”表現，有時反差挺大的。Claude模型家族的Opus 4在所有四個性能指標上的表現都比Sonnet 4差。o3 Pro在平均分數方面僅比o3高 0.1%，在其他三個指標上的表現更差。Gemini 2.5 Flash的平均分數比 Gemini 2.5 Pro高 0.3%，它在成對獲勝率和排名第一的次數百分比方面也表現出色。這些結果表明，功能更強大的模型版本（通常價格更高）并不一定更擅長執行現實世界中高經濟價值的任務。同一家族中不同代模型的性能略有提升。

響應是不是越長越好？

Qwen 3 235B和DeepSeek R1都提供了大量關于其思維過程的細節，并且高度重復，且在某些地方偏離主題。然而，由于沒有對長度進行懲罰，因此兩者都獲得了較高的平均分數，并且它們提供了足夠多的正確信息來通過許多標準。另一方面，一些表現較差的模型（例如 GPT 4o、Phi 4 Multimodal 和Nova Pro（Thinking = CoT））的平均回復長度最短（分別排名第一、第二和第四）。分析顯示回復長度與結果之間相關度幾乎為零。

大家最關心的問題，哪個領域牛馬最有可能被AI增（替）強（代）。

得分依次為法律56.9%，管理咨詢52.5%，投資銀行47.6%，醫學47.5%。看來AI在法律行業的表現最好，醫學最難。APEX 的未來迭代會涵蓋更多崗位，下面4個可能是軟件工程、教學、保險和平面設計。

最后，AI 模型提升勞動生產率的能力，正日益成為研究的熱點，中國這方面的研究相對較少，也許更多是直接把模型當牛馬到職場上去溜溜了？

論文原文及參考：

https://arxiv.org/html/2509.25721v2

https://mercor.com/blog/introducing-apex-ai-productivity-index/

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.