AI大模型也好,智能體也好,在各種測評榜上刷得不亦樂乎。對于跟蹤模型進展,發現模型能力上限確實有用;不過衡量的是模型的抽象能力,而不是具有經濟價值的產出。
從投資界、產業界到公眾,對于人工智能的刷榜和演示能力固然感到驚艷,但他們關注的重心,正在從“核彈級的炸裂”,轉移到真正的拷問,花這么多錢和這么多名校絕頂聰明的孩子,搞這些東西,最終用來干什么?
就是AI的經濟價值有多大,在實際工作中,替代或者增強人類的潛力有多大; 如果很大的話,現在發揮出了多少?AI交付實際工作的能力,可能更需要衡量,如果說現在排上用場,人們還不放心的話。
硅谷的AI招聘獨角獸公司Mercor也想知道,幫助那些頂級AI大廠和獨角獸企業找到的學霸們,弄出來的大模型,除了又當學霸之外,還能干什么實際工作。
“人工智能在奧林匹克數學方面已經超越人類,但這些能力可能與經濟發展脫節。擁有一萬個博士學位固然很好,但擁有一個能可靠地幫你報稅的模型就更好了。”
他們設計了一個AI生產力指數 (AI Productivity Index, APEX),首先選取了4個最高經濟價值的白領行業進行測試,邀請了投行、咨詢、法律、醫學的資深專家,把它們在實際工作中遇到和解決的問題搬出來,讓23個大模型下到職場,當下這四個行業的“牛馬”:投資銀行助理、管理顧問、大型律師事務所助理和初級保健醫生 (MD)。
表現如何?結果如下:
![]()
排名前五的,都達到了及格線60分,排名第5-10名的,接近及格線。總體來看,OpenAI的模型家族,當牛馬的能力最強。
GPT-5、Grok4、Gemini 2.5位居前三,值得關注的是,Qwen 3 235B和DeepSeek R1分別獲得第7名和第9名,在開源模型中排名前兩位,GPT OSS 120B(Medium)名列開源第三。相比之下,編程明星Sonnet 4 表現一般。
下面這個測試的案例,來自一家律所最近遇到的一個真實客戶,這位音樂家的版權繼承人遇到了麻煩,想找律師幫助解決問題。律所助理要對這個客戶的合法繼承問題做出初步判斷。該測試涉及到22條標準,8個法律來源,不超過10萬個token。
![]()
諸如此類的案例,總共200個,每個行業50個,分別由20名左右資深專家設計。Mercor通過自己的平臺找到了這些專家:
投資銀行:20 位投資銀行家,經驗從業 2 至 18 年不等,平均 8.7 年。他們曾在高盛、Evercore 和摩根大通等公司任職。
管理咨詢:18位管理咨詢師,經驗從業2至20年不等,平均6.9年。他們曾在麥肯錫、波士頓咨詢公司和貝恩等公司任職。
法律:20名律師均擁有大型律所工作經驗,從業經驗在3至22年之間,平均5年。他們曾在Latham & Watkins、Skadden和Cravath, Swaine & Moore等律所任職,并擁有哈佛、耶魯、斯坦福等美國頂尖14所法學院的法學博士學位。
醫學:18名醫生擁有3至22年初級保健臨床經驗,平均8.8年。他們曾在布萊根婦女醫院和西奈山醫院等醫院工作,并擁有賓夕法尼亞大學、西北大學、康奈爾大學等美國頂尖醫學院的醫學博士學位。
這些專家共同創建了一個數據庫APEX-v1.0 ,所有的案例和提示,都來自真實世界。這些任務,專家們自己干,一般要用1-8個小時,平均3.5小時。
專家們找到權威和真實的來源,建立了標準和評分細則。然后由Mercor去搜集各模型的回答,再由語言模型根據專家標準打出分數。關于為什么用語言模型進行評判,以及它們與人工專家評判之間的差異,可以參考論文了解細節。
![]()
Mercor稱APEX是首個基于AI執行具有經濟價值的知識工作能力的基準測試。APEX-v1.0 測試了 23 個模型,除亞馬遜的 Nova Pro(發布于 2024 年 12 月)和 OpenAI 的 GPT 4o(最初發布于 2024 年 5 月,最后更新于 2024 年 11 月)外,所有模型均于 2025 年發布。最新的模型是 GPT 5(Thinking = High),發布于 2025 年 8 月初。模型響應于 2025 年 8 月初收集。13 個閉源模型通過各自的 API 訪問,10 個開源模型通過開源提供商訪問。
測試還有些發現,值得拿出來說下:
開源和閉源模型的性能有何不同?
還是有差距的。閉源模型的平均得分為55.2%,而開源模型的平均得分為 45.8%,下降了9.4個百分點。在成對勝率方面,差距更大,分別為57.6% 和40.2%,下降了15個百分點以上。也有兩個例外,Qwen3 235B和DeepSeek R1還是能和有些前沿閉源模型掰手腕的。
性能更強大的模型(工作中)表現是否更好?
不一定,而且這些模型的“考試”表現和“工作”表現,有時反差挺大的。Claude模型家族的Opus 4在所有四個性能指標上的表現都比Sonnet 4差。o3 Pro在平均分數方面僅比o3高 0.1%,在其他三個指標上的表現更差。Gemini 2.5 Flash的平均分數比 Gemini 2.5 Pro高 0.3%,它在成對獲勝率和排名第一的次數百分比方面也表現出色。這些結果表明,功能更強大的模型版本(通常價格更高)并不一定更擅長執行現實世界中高經濟價值的任務。同一家族中不同代模型的性能略有提升。
響應是不是越長越好?
Qwen 3 235B和DeepSeek R1都提供了大量關于其思維過程的細節,并且高度重復,且在某些地方偏離主題。然而,由于沒有對長度進行懲罰,因此兩者都獲得了較高的平均分數,并且它們提供了足夠多的正確信息來通過許多標準。另一方面,一些表現較差的模型(例如 GPT 4o、Phi 4 Multimodal 和Nova Pro(Thinking = CoT))的平均回復長度最短(分別排名第一、第二和第四)。分析顯示回復長度與結果之間相關度幾乎為零。
大家最關心的問題,哪個領域牛馬最有可能被AI增(替)強(代)。
得分依次為法律56.9%,管理咨詢52.5%,投資銀行47.6%,醫學47.5%。看來AI在法律行業的表現最好,醫學最難。APEX 的未來迭代會涵蓋更多崗位,下面4個可能是軟件工程、教學、保險和平面設計。
最后,AI 模型提升勞動生產率的能力,正日益成為研究的熱點, 中國這方面的研究相對較少,也許更多是直接把模型當牛馬到職場上去溜溜了?
論文原文及參考:
https://arxiv.org/html/2509.25721v2
https://mercor.com/blog/introducing-apex-ai-productivity-index/
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.