AI智能體是否已準(zhǔn)備好進(jìn)入職場？新基準(zhǔn)測試引發(fā)質(zhì)疑

2026-01-23 23:06:06　來源: 至頂頭條

北京舉報(bào)

分享至

距離微軟CEO薩蒂亞·納德拉預(yù)測AI將取代知識(shí)工作已經(jīng)近兩年了——這些白領(lǐng)工作包括律師、投資銀行家、圖書館員、會(huì)計(jì)師、IT人員等職業(yè)。

盡管基礎(chǔ)模型取得了巨大進(jìn)展，但知識(shí)工作的變革卻姍姍來遲。模型已經(jīng)掌握了深度研究和智能體規(guī)劃能力，但不知何故，大多數(shù)白領(lǐng)工作相對未受影響。

這是AI領(lǐng)域最大的謎團(tuán)之一——而訓(xùn)練數(shù)據(jù)巨頭Mercor的新研究終于為我們提供了一些答案。

新研究考察了領(lǐng)先的AI模型在執(zhí)行真實(shí)白領(lǐng)工作任務(wù)時(shí)的表現(xiàn)，這些任務(wù)來自咨詢、投資銀行和法律領(lǐng)域。研究產(chǎn)生了一個(gè)名為Apex-Agents的新基準(zhǔn)測試——到目前為止，每個(gè)AI實(shí)驗(yàn)室的成績都不及格。面對真實(shí)專業(yè)人士的問題，即使是最優(yōu)秀的模型也難以答對超過四分之一的問題。絕大多數(shù)情況下，模型都給出了錯(cuò)誤答案或根本無法回答。

參與研究的研究員布倫丹·富迪表示，模型最大的障礙是跨多個(gè)領(lǐng)域追蹤信息——這是人類執(zhí)行大部分知識(shí)工作不可或缺的部分。

"這個(gè)基準(zhǔn)測試的一大變化是我們構(gòu)建了完整的環(huán)境，模擬真實(shí)的專業(yè)服務(wù)環(huán)境，"富迪告訴TechCrunch。"我們工作的方式并不是由某個(gè)人在一個(gè)地方為我們提供所有背景信息。在現(xiàn)實(shí)生活中，你需要在Slack、Google Drive和其他各種工具間操作。"對于許多智能體AI模型來說，這種跨領(lǐng)域推理仍然不穩(wěn)定。

這些場景都來自Mercor專家市場的真實(shí)專業(yè)人士，他們既提出了問題，也設(shè)定了成功回答的標(biāo)準(zhǔn)。瀏覽這些在Hugging Face公開發(fā)布的問題，可以感受到任務(wù)的復(fù)雜程度。

法律部分的一個(gè)問題如下：

在歐盟生產(chǎn)中斷的前48分鐘內(nèi)，Northstar的工程團(tuán)隊(duì)將一到兩個(gè)包含個(gè)人數(shù)據(jù)的歐盟生產(chǎn)事件日志捆綁集導(dǎo)出到美國分析供應(yīng)商……根據(jù)Northstar自身的政策，它能否合理地將這一到兩次日志導(dǎo)出視為符合第49條？

正確答案是肯定的，但要得出這個(gè)結(jié)論需要深入評估公司自身的政策以及相關(guān)的歐盟隱私法。

這可能連見多識(shí)廣的人類都會(huì)感到困惑，但研究人員試圖模擬該領(lǐng)域?qū)I(yè)人士的工作。如果大語言模型能夠可靠地回答這些問題，它就能有效地取代今天許多律師的工作。"我認(rèn)為這可能是經(jīng)濟(jì)中最重要的話題，"富迪告訴TechCrunch。"這個(gè)基準(zhǔn)測試非常真實(shí)地反映了這些人所做的實(shí)際工作。"

OpenAI也嘗試通過其GDPVal基準(zhǔn)測試來衡量專業(yè)技能——但Apex Agents測試在重要方面有所不同。GDPVal測試跨廣泛職業(yè)的一般知識(shí)，而Apex Agents基準(zhǔn)測試衡量系統(tǒng)在少數(shù)高價(jià)值職業(yè)中執(zhí)行持續(xù)任務(wù)的能力。結(jié)果對模型來說更困難，但也更貼近這些工作是否能被自動(dòng)化。

雖然沒有模型證明已經(jīng)準(zhǔn)備好接管投資銀行家的工作，但有些明顯更接近目標(biāo)。Gemini 3 Flash在小組中表現(xiàn)最佳，一次性準(zhǔn)確率為24%，GPT-5.2緊隨其后，準(zhǔn)確率為23%。其次，Opus 4.5、Gemini 3 Pro和GPT-5的得分都約為18%。

雖然初始結(jié)果不盡如人意，但AI領(lǐng)域有突破挑戰(zhàn)性基準(zhǔn)測試的歷史。現(xiàn)在Apex測試已經(jīng)公開，對于相信自己能做得更好的AI實(shí)驗(yàn)室來說，這是一個(gè)公開的挑戰(zhàn)——富迪完全期待在未來幾個(gè)月內(nèi)看到改進(jìn)。

"它正在快速改善，"他告訴TechCrunch。"現(xiàn)在可以說它像一個(gè)四分之一時(shí)間答對的實(shí)習(xí)生，但去年它是一個(gè)只有5%到10%時(shí)間答對的實(shí)習(xí)生。這種年復(fù)一年的改善能夠如此迅速地產(chǎn)生影響。"

Q&A

Q1：什么是Apex-Agents基準(zhǔn)測試？

A：Apex-Agents是由訓(xùn)練數(shù)據(jù)公司Mercor開發(fā)的新基準(zhǔn)測試，用于評估AI模型在執(zhí)行真實(shí)白領(lǐng)工作任務(wù)時(shí)的表現(xiàn)。測試場景來自咨詢、投資銀行和法律等領(lǐng)域的實(shí)際專業(yè)人士，重點(diǎn)考察AI在跨多個(gè)工具和領(lǐng)域處理復(fù)雜任務(wù)的能力。

Q2：目前AI模型在職場任務(wù)上的表現(xiàn)如何？

A：表現(xiàn)并不理想，即使是最優(yōu)秀的AI模型也難以答對超過四分之一的專業(yè)問題。Gemini 3 Flash表現(xiàn)最佳，一次性準(zhǔn)確率為24%，GPT-5.2為23%。大多數(shù)情況下，模型都給出錯(cuò)誤答案或無法回答，距離取代專業(yè)人士還有很大差距。

Q3：AI模型在處理職場任務(wù)時(shí)的主要困難是什么？

A：最大的困難是跨多個(gè)領(lǐng)域追蹤信息。在現(xiàn)實(shí)工作中，專業(yè)人士需要在Slack、Google Drive等多種工具間操作，整合不同來源的信息。而對于智能體AI模型來說，這種多領(lǐng)域推理和信息整合能力仍然不穩(wěn)定，無法有效模擬真實(shí)的工作環(huán)境。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.