<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      AI當高級白領牛馬,哪家大模型最強

      0
      分享至

      AI大模型也好,智能體也好,在各種測評榜上刷得不亦樂乎。對于跟蹤模型進展,發現模型能力上限確實有用;不過衡量的是模型的抽象能力,而不是具有經濟價值的產出。

      從投資界、產業界到公眾,對于人工智能的刷榜和演示能力固然感到驚艷,但他們關注的重心,正在從“核彈級的炸裂”,轉移到真正的拷問,花這么多錢和這么多名校絕頂聰明的孩子,搞這些東西,最終用來干什么?

      就是AI的經濟價值有多大,在實際工作中,替代或者增強人類的潛力有多大; 如果很大的話,現在發揮出了多少?AI交付實際工作的能力,可能更需要衡量,如果說現在排上用場,人們還不放心的話。

      硅谷的AI招聘獨角獸公司Mercor也想知道,幫助那些頂級AI大廠和獨角獸企業找到的學霸們,弄出來的大模型,除了又當學霸之外,還能干什么實際工作。

      “人工智能在奧林匹克數學方面已經超越人類,但這些能力可能與經濟發展脫節。擁有一萬個博士學位固然很好,但擁有一個能可靠地幫你報稅的模型就更好了。”

      他們設計了一個AI生產力指數 (AI Productivity Index, APEX),首先選取了4個最高經濟價值的白領行業進行測試,邀請了投行、咨詢、法律、醫學的資深專家,把它們在實際工作中遇到和解決的問題搬出來,讓23個大模型下到職場,當下這四個行業的“牛馬”:投資銀行助理、管理顧問、大型律師事務所助理和初級保健醫生 (MD)。

      表現如何?結果如下:


      排名前五的,都達到了及格線60分,排名第5-10名的,接近及格線。總體來看,OpenAI的模型家族,當牛馬的能力最強。

      GPT-5、Grok4、Gemini 2.5位居前三,值得關注的是,Qwen 3 235B和DeepSeek R1分別獲得第7名和第9名,在開源模型中排名前兩位,GPT OSS 120B(Medium)名列開源第三。相比之下,編程明星Sonnet 4 表現一般。

      下面這個測試的案例,來自一家律所最近遇到的一個真實客戶,這位音樂家的版權繼承人遇到了麻煩,想找律師幫助解決問題。律所助理要對這個客戶的合法繼承問題做出初步判斷。該測試涉及到22條標準,8個法律來源,不超過10萬個token。


      諸如此類的案例,總共200個,每個行業50個,分別由20名左右資深專家設計。Mercor通過自己的平臺找到了這些專家:

      • 投資銀行:20 位投資銀行家,經驗從業 2 至 18 年不等,平均 8.7 年。他們曾在高盛、Evercore 和摩根大通等公司任職。

      • 管理咨詢:18位管理咨詢師,經驗從業2至20年不等,平均6.9年。他們曾在麥肯錫、波士頓咨詢公司和貝恩等公司任職。

      • 法律:20名律師均擁有大型律所工作經驗,從業經驗在3至22年之間,平均5年。他們曾在Latham & Watkins、Skadden和Cravath, Swaine & Moore等律所任職,并擁有哈佛、耶魯、斯坦福等美國頂尖14所法學院的法學博士學位。

      • 醫學:18名醫生擁有3至22年初級保健臨床經驗,平均8.8年。他們曾在布萊根婦女醫院和西奈山醫院等醫院工作,并擁有賓夕法尼亞大學、西北大學、康奈爾大學等美國頂尖醫學院的醫學博士學位。

      這些專家共同創建了一個數據庫APEX-v1.0 ,所有的案例和提示,都來自真實世界。這些任務,專家們自己干,一般要用1-8個小時,平均3.5小時。

      專家們找到權威和真實的來源,建立了標準和評分細則。然后由Mercor去搜集各模型的回答,再由語言模型根據專家標準打出分數。關于為什么用語言模型進行評判,以及它們與人工專家評判之間的差異,可以參考論文了解細節。


      Mercor稱APEX是首個基于AI執行具有經濟價值的知識工作能力的基準測試。APEX-v1.0 測試了 23 個模型,除亞馬遜的 Nova Pro(發布于 2024 年 12 月)和 OpenAI 的 GPT 4o(最初發布于 2024 年 5 月,最后更新于 2024 年 11 月)外,所有模型均于 2025 年發布。最新的模型是 GPT 5(Thinking = High),發布于 2025 年 8 月初。模型響應于 2025 年 8 月初收集。13 個閉源模型通過各自的 API 訪問,10 個開源模型通過開源提供商訪問。

      測試還有些發現,值得拿出來說下:

      開源和閉源模型的性能有何不同?

      還是有差距的。閉源模型的平均得分為55.2%,而開源模型的平均得分為 45.8%,下降了9.4個百分點。在成對勝率方面,差距更大,分別為57.6% 和40.2%,下降了15個百分點以上。也有兩個例外,Qwen3 235B和DeepSeek R1還是能和有些前沿閉源模型掰手腕的。

      性能更強大的模型(工作中)表現是否更好?

      不一定,而且這些模型的“考試”表現和“工作”表現,有時反差挺大的。Claude模型家族的Opus 4在所有四個性能指標上的表現都比Sonnet 4差。o3 Pro在平均分數方面僅比o3高 0.1%,在其他三個指標上的表現更差。Gemini 2.5 Flash的平均分數比 Gemini 2.5 Pro高 0.3%,它在成對獲勝率和排名第一的次數百分比方面也表現出色。這些結果表明,功能更強大的模型版本(通常價格更高)并不一定更擅長執行現實世界中高經濟價值的任務。同一家族中不同代模型的性能略有提升。

      響應是不是越長越好?

      Qwen 3 235B和DeepSeek R1都提供了大量關于其思維過程的細節,并且高度重復,且在某些地方偏離主題。然而,由于沒有對長度進行懲罰,因此兩者都獲得了較高的平均分數,并且它們提供了足夠多的正確信息來通過許多標準。另一方面,一些表現較差的模型(例如 GPT 4o、Phi 4 Multimodal 和Nova Pro(Thinking = CoT))的平均回復長度最短(分別排名第一、第二和第四)。分析顯示回復長度與結果之間相關度幾乎為零。

      大家最關心的問題,哪個領域牛馬最有可能被AI增(替)強(代)。

      得分依次為法律56.9%,管理咨詢52.5%,投資銀行47.6%,醫學47.5%。看來AI在法律行業的表現最好,醫學最難。APEX 的未來迭代會涵蓋更多崗位,下面4個可能是軟件工程、教學、保險和平面設計。

      最后,AI 模型提升勞動生產率的能力,正日益成為研究的熱點, 中國這方面的研究相對較少,也許更多是直接把模型當牛馬到職場上去溜溜了?

      論文原文及參考:

      https://arxiv.org/html/2509.25721v2

      https://mercor.com/blog/introducing-apex-ai-productivity-index/

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      印度暴發人傳人疫情,死亡率高達75%!泰國普吉機場大量印度游客入境觀光,正向疾控部門尋求指導

      印度暴發人傳人疫情,死亡率高達75%!泰國普吉機場大量印度游客入境觀光,正向疾控部門尋求指導

      都市快報橙柿互動
      2026-01-25 21:35:01
      云南毒紅薯升級!調查組介入,網友扒出黑幕,難怪商戶敢主動投毒

      云南毒紅薯升級!調查組介入,網友扒出黑幕,難怪商戶敢主動投毒

      云舟史策
      2026-01-24 16:14:54
      陳光標怒撕遮羞布:梁小龍哪里是病死,分明是被折騰死的!

      陳光標怒撕遮羞布:梁小龍哪里是病死,分明是被折騰死的!

      奇思妙想草葉君
      2026-01-25 23:58:08
      宋軍繼辭去山東省副省長職務

      宋軍繼辭去山東省副省長職務

      新京報政事兒
      2026-01-25 20:14:18
      特朗普:美國多州進入緊急狀態

      特朗普:美國多州進入緊急狀態

      第一財經資訊
      2026-01-25 08:45:31
      復仇失敗!張本智和遭打臉:連續2年不敵日本天才 領獎時全程冷臉

      復仇失敗!張本智和遭打臉:連續2年不敵日本天才 領獎時全程冷臉

      風過鄉
      2026-01-25 17:57:28
      鼓勵老百姓捐獻器官,還納入見義勇為,這些專家到底想干啥?

      鼓勵老百姓捐獻器官,還納入見義勇為,這些專家到底想干啥?

      眼光很亮
      2026-01-25 09:19:18
      外媒:中國駁斥馬斯克說法!

      外媒:中國駁斥馬斯克說法!

      電動知家
      2026-01-24 15:33:08
      印度與歐盟達成協議 將汽車進口關稅從最高110%下調至40%

      印度與歐盟達成協議 將汽車進口關稅從最高110%下調至40%

      財聯社
      2026-01-25 20:42:06
      不是迷信!臘月初八當天,最不能做的5件事,告訴家人早知道

      不是迷信!臘月初八當天,最不能做的5件事,告訴家人早知道

      阿龍美食記
      2026-01-23 03:09:12
      2-0,皇馬5連勝登頂,維尼修斯無敵突破造殺機,姆巴佩無敵雙響炮

      2-0,皇馬5連勝登頂,維尼修斯無敵突破造殺機,姆巴佩無敵雙響炮

      側身凌空斬
      2026-01-25 05:55:31
      女護士處理男患者隱私部位,會感覺難為情嗎?美女護士說出大實話

      女護士處理男患者隱私部位,會感覺難為情嗎?美女護士說出大實話

      第7情感
      2025-09-17 12:12:15
      特殊的制度:不能連續任元首,盤點不得連選連任元首的15個國家

      特殊的制度:不能連續任元首,盤點不得連選連任元首的15個國家

      夢沉古道
      2026-01-24 21:50:03
      美國放話:誰敢攔截軍售,就是宣戰!中國用實力劃下紅線!

      美國放話:誰敢攔截軍售,就是宣戰!中國用實力劃下紅線!

      華山穹劍
      2026-01-23 20:19:29
      “牢A”說留學生私生活亂:澳洲女留學生說,她們交往三四個男友

      “牢A”說留學生私生活亂:澳洲女留學生說,她們交往三四個男友

      漢史趣聞
      2026-01-24 18:33:30
      全球銷量六連冠!嘲諷豐田不行了的人,非蠢即壞

      全球銷量六連冠!嘲諷豐田不行了的人,非蠢即壞

      象視汽車
      2026-01-24 07:00:03
      聯合國通過調查伊朗鎮壓決議,中國投反對票

      聯合國通過調查伊朗鎮壓決議,中國投反對票

      桂系007
      2026-01-24 19:59:37
      大V曝李湘因洗錢遭禁言!與黃有龍交集被扒,王詩齡的畫成證據!

      大V曝李湘因洗錢遭禁言!與黃有龍交集被扒,王詩齡的畫成證據!

      古希臘掌管月桂的神
      2026-01-25 18:31:59
      U23亞洲杯結束,下一屆分檔曝光:越南躋身一檔 中國隊無緣前二檔

      U23亞洲杯結束,下一屆分檔曝光:越南躋身一檔 中國隊無緣前二檔

      侃球熊弟
      2026-01-26 00:05:03
      不結婚怎么解決生理需求?56歲的歌唱家張也,用行動給出了答案

      不結婚怎么解決生理需求?56歲的歌唱家張也,用行動給出了答案

      秋姐居
      2026-01-25 21:08:47
      2026-01-26 04:27:00
      未盡研究 incentive-icons
      未盡研究
      新能源、人工智能、合成生物、地緣X
      292文章數 61關注度
      往期回顧 全部

      科技要聞

      黃仁勛在上海逛菜市場,可能惦記著三件事

      頭條要聞

      男孩打碎電視屏為"還債"在小區創業 不到2個月賺了6千

      頭條要聞

      男孩打碎電視屏為"還債"在小區創業 不到2個月賺了6千

      體育要聞

      中國足球不會一夜變強,但他們已經創造歷史

      娛樂要聞

      央八開播 楊紫胡歌主演的40集大劇來了

      財經要聞

      隋廣義等80人被公訴 千億騙局進入末路

      汽車要聞

      別克至境E7內飾圖曝光 新車將于一季度正式發布

      態度原創

      數碼
      教育
      家居
      藝術
      公開課

      數碼要聞

      AMD最強APU更新!銳龍AI Max+ 400詳細規格曝光:5.2GHz CPU、3.0GHz GPU

      教育要聞

      西藏考生必看!合肥工業大學招生計劃揭秘

      家居要聞

      在家度假 160平南洋混搭宅

      藝術要聞

      這些肖像看完直呼“爽”!真是好久都沒有看到了!

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 中国china露脸自拍性hd| 在线一区二区三区人妻| 北海市| 一级做a爰片久久毛片16| 精品人妻一| 婷婷四房色播| 一本色道久久综合熟妇人妻| 狠狠色丁香久久婷婷综合五月| 国产乱码精品一区二三区| 97免费公开在线视频| 老司机午夜免费精品视频| 撕开奶罩揉吮奶头高潮AV| 丰满午夜人妻无码AAAA| 亚洲av一本二本三本| 大香蕉一区二区三区| 成人视频在线观看18| 国产精品美女久久久免费| 日韩人妻丰满无码区A片| 欧美巨大极度另类| 亚洲国内自拍| 波多野结衣av无码久久一区| 把女邻居弄到潮喷的性经历| 午夜诱惑| 国产后入又长又硬| www.熟女| 在线看免费无码av天堂的| 伊伊色妹子在线视频| 思热99re视热频这里只精品| 国产午夜视频在线观看| 黄瓜视频在线观看| 在线天堂资源www在线中文| 人妻丝袜| 九九热精品在线视频观看| 亚洲第一成人会所| 亚洲爆乳WWW无码专区| 人人妻人人澡人人爽人人欧美一区 | 腾冲县| 丁香五月麻豆| 亚洲伊人久久综合成人| 日韩中文字幕高清有码| 亚洲日韩日本中文在线|