![]()
距離微軟CEO薩蒂亞·納德拉預(yù)測AI將取代知識(shí)工作已經(jīng)近兩年了——這些白領(lǐng)工作包括律師、投資銀行家、圖書館員、會(huì)計(jì)師、IT人員等職業(yè)。
盡管基礎(chǔ)模型取得了巨大進(jìn)展,但知識(shí)工作的變革卻姍姍來遲。模型已經(jīng)掌握了深度研究和智能體規(guī)劃能力,但不知何故,大多數(shù)白領(lǐng)工作相對未受影響。
這是AI領(lǐng)域最大的謎團(tuán)之一——而訓(xùn)練數(shù)據(jù)巨頭Mercor的新研究終于為我們提供了一些答案。
新研究考察了領(lǐng)先的AI模型在執(zhí)行真實(shí)白領(lǐng)工作任務(wù)時(shí)的表現(xiàn),這些任務(wù)來自咨詢、投資銀行和法律領(lǐng)域。研究產(chǎn)生了一個(gè)名為Apex-Agents的新基準(zhǔn)測試——到目前為止,每個(gè)AI實(shí)驗(yàn)室的成績都不及格。面對真實(shí)專業(yè)人士的問題,即使是最優(yōu)秀的模型也難以答對超過四分之一的問題。絕大多數(shù)情況下,模型都給出了錯(cuò)誤答案或根本無法回答。
參與研究的研究員布倫丹·富迪表示,模型最大的障礙是跨多個(gè)領(lǐng)域追蹤信息——這是人類執(zhí)行大部分知識(shí)工作不可或缺的部分。
"這個(gè)基準(zhǔn)測試的一大變化是我們構(gòu)建了完整的環(huán)境,模擬真實(shí)的專業(yè)服務(wù)環(huán)境,"富迪告訴TechCrunch。"我們工作的方式并不是由某個(gè)人在一個(gè)地方為我們提供所有背景信息。在現(xiàn)實(shí)生活中,你需要在Slack、Google Drive和其他各種工具間操作。"對于許多智能體AI模型來說,這種跨領(lǐng)域推理仍然不穩(wěn)定。
這些場景都來自Mercor專家市場的真實(shí)專業(yè)人士,他們既提出了問題,也設(shè)定了成功回答的標(biāo)準(zhǔn)。瀏覽這些在Hugging Face公開發(fā)布的問題,可以感受到任務(wù)的復(fù)雜程度。
法律部分的一個(gè)問題如下:
在歐盟生產(chǎn)中斷的前48分鐘內(nèi),Northstar的工程團(tuán)隊(duì)將一到兩個(gè)包含個(gè)人數(shù)據(jù)的歐盟生產(chǎn)事件日志捆綁集導(dǎo)出到美國分析供應(yīng)商……根據(jù)Northstar自身的政策,它能否合理地將這一到兩次日志導(dǎo)出視為符合第49條?
正確答案是肯定的,但要得出這個(gè)結(jié)論需要深入評估公司自身的政策以及相關(guān)的歐盟隱私法。
這可能連見多識(shí)廣的人類都會(huì)感到困惑,但研究人員試圖模擬該領(lǐng)域?qū)I(yè)人士的工作。如果大語言模型能夠可靠地回答這些問題,它就能有效地取代今天許多律師的工作。"我認(rèn)為這可能是經(jīng)濟(jì)中最重要的話題,"富迪告訴TechCrunch。"這個(gè)基準(zhǔn)測試非常真實(shí)地反映了這些人所做的實(shí)際工作。"
OpenAI也嘗試通過其GDPVal基準(zhǔn)測試來衡量專業(yè)技能——但Apex Agents測試在重要方面有所不同。GDPVal測試跨廣泛職業(yè)的一般知識(shí),而Apex Agents基準(zhǔn)測試衡量系統(tǒng)在少數(shù)高價(jià)值職業(yè)中執(zhí)行持續(xù)任務(wù)的能力。結(jié)果對模型來說更困難,但也更貼近這些工作是否能被自動(dòng)化。
雖然沒有模型證明已經(jīng)準(zhǔn)備好接管投資銀行家的工作,但有些明顯更接近目標(biāo)。Gemini 3 Flash在小組中表現(xiàn)最佳,一次性準(zhǔn)確率為24%,GPT-5.2緊隨其后,準(zhǔn)確率為23%。其次,Opus 4.5、Gemini 3 Pro和GPT-5的得分都約為18%。
雖然初始結(jié)果不盡如人意,但AI領(lǐng)域有突破挑戰(zhàn)性基準(zhǔn)測試的歷史。現(xiàn)在Apex測試已經(jīng)公開,對于相信自己能做得更好的AI實(shí)驗(yàn)室來說,這是一個(gè)公開的挑戰(zhàn)——富迪完全期待在未來幾個(gè)月內(nèi)看到改進(jìn)。
"它正在快速改善,"他告訴TechCrunch。"現(xiàn)在可以說它像一個(gè)四分之一時(shí)間答對的實(shí)習(xí)生,但去年它是一個(gè)只有5%到10%時(shí)間答對的實(shí)習(xí)生。這種年復(fù)一年的改善能夠如此迅速地產(chǎn)生影響。"
Q&A
Q1:什么是Apex-Agents基準(zhǔn)測試?
A:Apex-Agents是由訓(xùn)練數(shù)據(jù)公司Mercor開發(fā)的新基準(zhǔn)測試,用于評估AI模型在執(zhí)行真實(shí)白領(lǐng)工作任務(wù)時(shí)的表現(xiàn)。測試場景來自咨詢、投資銀行和法律等領(lǐng)域的實(shí)際專業(yè)人士,重點(diǎn)考察AI在跨多個(gè)工具和領(lǐng)域處理復(fù)雜任務(wù)的能力。
Q2:目前AI模型在職場任務(wù)上的表現(xiàn)如何?
A:表現(xiàn)并不理想,即使是最優(yōu)秀的AI模型也難以答對超過四分之一的專業(yè)問題。Gemini 3 Flash表現(xiàn)最佳,一次性準(zhǔn)確率為24%,GPT-5.2為23%。大多數(shù)情況下,模型都給出錯(cuò)誤答案或無法回答,距離取代專業(yè)人士還有很大差距。
Q3:AI模型在處理職場任務(wù)時(shí)的主要困難是什么?
A:最大的困難是跨多個(gè)領(lǐng)域追蹤信息。在現(xiàn)實(shí)工作中,專業(yè)人士需要在Slack、Google Drive等多種工具間操作,整合不同來源的信息。而對于智能體AI模型來說,這種多領(lǐng)域推理和信息整合能力仍然不穩(wěn)定,無法有效模擬真實(shí)的工作環(huán)境。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.