<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請入駐

      AI智能體是否已準(zhǔn)備好進(jìn)入職場?新基準(zhǔn)測試引發(fā)質(zhì)疑

      0
      分享至


      距離微軟CEO薩蒂亞·納德拉預(yù)測AI將取代知識(shí)工作已經(jīng)近兩年了——這些白領(lǐng)工作包括律師、投資銀行家、圖書館員、會(huì)計(jì)師、IT人員等職業(yè)。

      盡管基礎(chǔ)模型取得了巨大進(jìn)展,但知識(shí)工作的變革卻姍姍來遲。模型已經(jīng)掌握了深度研究和智能體規(guī)劃能力,但不知何故,大多數(shù)白領(lǐng)工作相對未受影響。

      這是AI領(lǐng)域最大的謎團(tuán)之一——而訓(xùn)練數(shù)據(jù)巨頭Mercor的新研究終于為我們提供了一些答案。

      新研究考察了領(lǐng)先的AI模型在執(zhí)行真實(shí)白領(lǐng)工作任務(wù)時(shí)的表現(xiàn),這些任務(wù)來自咨詢、投資銀行和法律領(lǐng)域。研究產(chǎn)生了一個(gè)名為Apex-Agents的新基準(zhǔn)測試——到目前為止,每個(gè)AI實(shí)驗(yàn)室的成績都不及格。面對真實(shí)專業(yè)人士的問題,即使是最優(yōu)秀的模型也難以答對超過四分之一的問題。絕大多數(shù)情況下,模型都給出了錯(cuò)誤答案或根本無法回答。

      參與研究的研究員布倫丹·富迪表示,模型最大的障礙是跨多個(gè)領(lǐng)域追蹤信息——這是人類執(zhí)行大部分知識(shí)工作不可或缺的部分。

      "這個(gè)基準(zhǔn)測試的一大變化是我們構(gòu)建了完整的環(huán)境,模擬真實(shí)的專業(yè)服務(wù)環(huán)境,"富迪告訴TechCrunch。"我們工作的方式并不是由某個(gè)人在一個(gè)地方為我們提供所有背景信息。在現(xiàn)實(shí)生活中,你需要在Slack、Google Drive和其他各種工具間操作。"對于許多智能體AI模型來說,這種跨領(lǐng)域推理仍然不穩(wěn)定。

      這些場景都來自Mercor專家市場的真實(shí)專業(yè)人士,他們既提出了問題,也設(shè)定了成功回答的標(biāo)準(zhǔn)。瀏覽這些在Hugging Face公開發(fā)布的問題,可以感受到任務(wù)的復(fù)雜程度。

      法律部分的一個(gè)問題如下:

      在歐盟生產(chǎn)中斷的前48分鐘內(nèi),Northstar的工程團(tuán)隊(duì)將一到兩個(gè)包含個(gè)人數(shù)據(jù)的歐盟生產(chǎn)事件日志捆綁集導(dǎo)出到美國分析供應(yīng)商……根據(jù)Northstar自身的政策,它能否合理地將這一到兩次日志導(dǎo)出視為符合第49條?

      正確答案是肯定的,但要得出這個(gè)結(jié)論需要深入評估公司自身的政策以及相關(guān)的歐盟隱私法。

      這可能連見多識(shí)廣的人類都會(huì)感到困惑,但研究人員試圖模擬該領(lǐng)域?qū)I(yè)人士的工作。如果大語言模型能夠可靠地回答這些問題,它就能有效地取代今天許多律師的工作。"我認(rèn)為這可能是經(jīng)濟(jì)中最重要的話題,"富迪告訴TechCrunch。"這個(gè)基準(zhǔn)測試非常真實(shí)地反映了這些人所做的實(shí)際工作。"

      OpenAI也嘗試通過其GDPVal基準(zhǔn)測試來衡量專業(yè)技能——但Apex Agents測試在重要方面有所不同。GDPVal測試跨廣泛職業(yè)的一般知識(shí),而Apex Agents基準(zhǔn)測試衡量系統(tǒng)在少數(shù)高價(jià)值職業(yè)中執(zhí)行持續(xù)任務(wù)的能力。結(jié)果對模型來說更困難,但也更貼近這些工作是否能被自動(dòng)化。

      雖然沒有模型證明已經(jīng)準(zhǔn)備好接管投資銀行家的工作,但有些明顯更接近目標(biāo)。Gemini 3 Flash在小組中表現(xiàn)最佳,一次性準(zhǔn)確率為24%,GPT-5.2緊隨其后,準(zhǔn)確率為23%。其次,Opus 4.5、Gemini 3 Pro和GPT-5的得分都約為18%。

      雖然初始結(jié)果不盡如人意,但AI領(lǐng)域有突破挑戰(zhàn)性基準(zhǔn)測試的歷史。現(xiàn)在Apex測試已經(jīng)公開,對于相信自己能做得更好的AI實(shí)驗(yàn)室來說,這是一個(gè)公開的挑戰(zhàn)——富迪完全期待在未來幾個(gè)月內(nèi)看到改進(jìn)。

      "它正在快速改善,"他告訴TechCrunch。"現(xiàn)在可以說它像一個(gè)四分之一時(shí)間答對的實(shí)習(xí)生,但去年它是一個(gè)只有5%到10%時(shí)間答對的實(shí)習(xí)生。這種年復(fù)一年的改善能夠如此迅速地產(chǎn)生影響。"

      Q&A

      Q1:什么是Apex-Agents基準(zhǔn)測試?

      A:Apex-Agents是由訓(xùn)練數(shù)據(jù)公司Mercor開發(fā)的新基準(zhǔn)測試,用于評估AI模型在執(zhí)行真實(shí)白領(lǐng)工作任務(wù)時(shí)的表現(xiàn)。測試場景來自咨詢、投資銀行和法律等領(lǐng)域的實(shí)際專業(yè)人士,重點(diǎn)考察AI在跨多個(gè)工具和領(lǐng)域處理復(fù)雜任務(wù)的能力。

      Q2:目前AI模型在職場任務(wù)上的表現(xiàn)如何?

      A:表現(xiàn)并不理想,即使是最優(yōu)秀的AI模型也難以答對超過四分之一的專業(yè)問題。Gemini 3 Flash表現(xiàn)最佳,一次性準(zhǔn)確率為24%,GPT-5.2為23%。大多數(shù)情況下,模型都給出錯(cuò)誤答案或無法回答,距離取代專業(yè)人士還有很大差距。

      Q3:AI模型在處理職場任務(wù)時(shí)的主要困難是什么?

      A:最大的困難是跨多個(gè)領(lǐng)域追蹤信息。在現(xiàn)實(shí)工作中,專業(yè)人士需要在Slack、Google Drive等多種工具間操作,整合不同來源的信息。而對于智能體AI模型來說,這種多領(lǐng)域推理和信息整合能力仍然不穩(wěn)定,無法有效模擬真實(shí)的工作環(huán)境。

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點(diǎn)推薦
      南部戰(zhàn)區(qū)新聞發(fā)言人發(fā)表談話

      南部戰(zhàn)區(qū)新聞發(fā)言人發(fā)表談話

      界面新聞
      2026-01-20 22:21:05
      罪有應(yīng)得!官方徹查后,閆學(xué)晶再迎噩耗,她最擔(dān)心的事還是發(fā)生了

      罪有應(yīng)得!官方徹查后,閆學(xué)晶再迎噩耗,她最擔(dān)心的事還是發(fā)生了

      奇思妙想草葉君
      2026-01-21 22:47:01
      建議中年女性:老了要少戴手鐲、項(xiàng)鏈,看法國女人對比很明顯

      建議中年女性:老了要少戴手鐲、項(xiàng)鏈,看法國女人對比很明顯

      小陳聊搭配
      2026-01-24 19:07:21
      陳冠希一家洛杉磯參加婚禮,留小胡子像趙本山,女兒更像秦舒培!

      陳冠希一家洛杉磯參加婚禮,留小胡子像趙本山,女兒更像秦舒培!

      明星私服穿搭daily
      2026-01-19 07:30:49
      一語驚醒夢中人!歐洲高官直言:搞垮中國,就是給美國送霸權(quán)!

      一語驚醒夢中人!歐洲高官直言:搞垮中國,就是給美國送霸權(quán)!

      達(dá)文西看世界
      2026-01-24 11:29:41
      河北81歲退休老人堪稱當(dāng)代“愚公”,11年自費(fèi)在深山造出萬步天梯,累計(jì)投入已超百萬元

      河北81歲退休老人堪稱當(dāng)代“愚公”,11年自費(fèi)在深山造出萬步天梯,累計(jì)投入已超百萬元

      大風(fēng)新聞
      2026-01-24 20:18:12
      賣維尼修斯或貝林,TA:皇馬內(nèi)部有人認(rèn)為球隊(duì)需要激進(jìn)的重建

      賣維尼修斯或貝林,TA:皇馬內(nèi)部有人認(rèn)為球隊(duì)需要激進(jìn)的重建

      懂球帝
      2026-01-24 19:03:13
      女游客在新疆被雪豹咬傷面部,“雪山之王”為何亮出獠牙?

      女游客在新疆被雪豹咬傷面部,“雪山之王”為何亮出獠牙?

      新民周刊
      2026-01-24 18:13:18
      浙江18歲小伙愛上40歲女上司,并認(rèn)作干媽,去其家中借宿釀成慘劇

      浙江18歲小伙愛上40歲女上司,并認(rèn)作干媽,去其家中借宿釀成慘劇

      澤澤先生
      2025-04-07 17:41:46
      城投的暴雷潮要來了嗎?

      城投的暴雷潮要來了嗎?

      黯泉
      2026-01-23 22:53:47
      知性大腦管嘴,玉腿管搞怪

      知性大腦管嘴,玉腿管搞怪

      飛娛日記
      2026-01-19 12:04:34
      順豐員工:省考筆試第一,離職備考面試。領(lǐng)導(dǎo)威脅后續(xù)政審不配合

      順豐員工:省考筆試第一,離職備考面試。領(lǐng)導(dǎo)威脅后續(xù)政審不配合

      螞蟻大喇叭
      2026-01-24 14:38:01
      中國移動(dòng):重磅合并重組啟動(dòng)!

      中國移動(dòng):重磅合并重組啟動(dòng)!

      環(huán)球通信
      2026-01-24 11:48:01
      健美選手睪丸萎縮成“蠶豆”大小:瘋狂的肌肉與不可逆的代價(jià)

      健美選手睪丸萎縮成“蠶豆”大小:瘋狂的肌肉與不可逆的代價(jià)

      聽心堂
      2026-01-24 13:11:09
      曹軼歐回憶:1933年,康生親手用斧子劈死了顧順章的家人

      曹軼歐回憶:1933年,康生親手用斧子劈死了顧順章的家人

      文史季季紅
      2026-01-23 13:00:02
      欠中國的錢,委內(nèi)瑞拉不還了?美財(cái)長:中國已無法繼續(xù)獲得委石油

      欠中國的錢,委內(nèi)瑞拉不還了?美財(cái)長:中國已無法繼續(xù)獲得委石油

      我是盲流
      2026-01-22 11:37:44
      美國聲東擊西準(zhǔn)備偷襲伊朗,沒想到底褲被東大民用衛(wèi)星給扒了!

      美國聲東擊西準(zhǔn)備偷襲伊朗,沒想到底褲被東大民用衛(wèi)星給扒了!

      達(dá)文西看世界
      2026-01-23 20:29:49
      CBA爆大冷門:老牌強(qiáng)隊(duì)不敵本土尖兵20分,廖三寧難挽敗局

      CBA爆大冷門:老牌強(qiáng)隊(duì)不敵本土尖兵20分,廖三寧難挽敗局

      7號(hào)觀察室
      2026-01-24 21:46:39
      鐵證如山!高市火速“跑路”,安倍晉三死因逆轉(zhuǎn),兇手竟是受害人

      鐵證如山!高市火速“跑路”,安倍晉三死因逆轉(zhuǎn),兇手竟是受害人

      妙知
      2026-01-23 16:37:53
      胖了一圈的奚夢瑤,面相都變了

      胖了一圈的奚夢瑤,面相都變了

      木子愛娛樂大號(hào)
      2026-01-23 18:07:57
      2026-01-24 22:15:00
      至頂頭條 incentive-icons
      至頂頭條
      記錄和推動(dòng)數(shù)字化創(chuàng)新
      15659文章數(shù) 49687關(guān)注度
      往期回顧 全部

      科技要聞

      特斯拉Cybercrab即將落地 每公里不到1塊錢

      頭條要聞

      越共中央政治局"新面孔"接近一半 現(xiàn)任國家主席沒出現(xiàn)

      頭條要聞

      越共中央政治局"新面孔"接近一半 現(xiàn)任國家主席沒出現(xiàn)

      體育要聞

      當(dāng)家球星打替補(bǔ),他們在故意擺爛?

      娛樂要聞

      回歸還是頂流 鳳凰傳奇將現(xiàn)身馬年春晚

      財(cái)經(jīng)要聞

      “百年老字號(hào)”張小泉遭60億債務(wù)壓頂

      汽車要聞

      有增程和純電版可選 日產(chǎn)NX8或于3-4月間上市

      態(tài)度原創(chuàng)

      藝術(shù)
      本地
      手機(jī)
      公開課
      軍事航空

      藝術(shù)要聞

      砸15億!史玉柱打造的“野生”建筑,竟是巨人網(wǎng)絡(luò)總部!

      本地新聞

      云游中國|格爾木的四季朋友圈,張張值得你點(diǎn)贊

      手機(jī)要聞

      華為Pura 80系列開啟新年禮遇:至高優(yōu)惠1500元,到手即享鴻蒙6

      公開課

      李玫瑾:為什么性格比能力更重要?

      軍事要聞

      俄美烏首次三方會(huì)談在阿聯(lián)酋舉行

      無障礙瀏覽 進(jìn)入關(guān)懷版 主站蜘蛛池模板: 美国十次色一区二区| 专干老熟女视频在线观看| 亚洲精品无码永久在线观看性色| 国产美女久久久亚洲综合| 亚洲国产精品久久久天堂麻豆宅男| av无码不卡| 惠州市| 影音先锋男人av橹橹色| 亚洲国产人成自久久国产| 色欲久久久天天天精品综合网| 四虎永久在线精品免费播放| 欧美黑人添添高潮a片www| 久久久免费精品re6| 九九热在线视频| 亚洲欧美综合精品成| 9久久精品| 久久永久视频| 一区二区三区国产综合在线| 精品少妇爆乳无码aⅴ区| 亚洲中文字幕成人无码| 一本一本久久a久久精品综合| 成熟少妇XXXXX高清视频| 成A人片亚洲日本久久| 婷婷久久久久| 国产三级a三级三级| 亚洲av综合av一区| 日韩精品人妻中文字在线| 欧美xxxx做受欧美| 91??蝌蚪老熟女偷拍| 另类无码| 国产午夜片无码区在线播放| 人与鲁专区| 国产高清在线a视频大全| 中文字幕av无码一区二区三区 | 91视频网页| 18亚洲AV无码成人网站国产| 久久婷婷国产综合精品| 国产精品成人观看视频国产奇米| 日韩人妻精品一区二区三区视频| 亚洲人成电影在线天堂色| 日本va欧美ⅴa欧美Va精品|