人類為AI到底會不會搶走工作操碎了心。被AI取代,與投入巨資卻無法提升生產(chǎn)力同樣糟糕。各類大模型與智能體的評估,正從紙面上的智商競賽,轉(zhuǎn)向?qū)Φ闹苯訙y驗。這有助于人類面對“生存還是毀滅”時,盡可能地端正自己的位置。
從數(shù)據(jù)標注巨頭 Scale AI 的最新報告來看,那些可以居家完成、端到端交付的遠程任務,即便由當下最強大的智能體執(zhí)行,也只有2.5%能達到客戶可接受的標準;它們的經(jīng)濟價值更低,智能體從中獲得的報酬至多占1.2%。但是,按照智庫METR的“”,到了明年底,也許最強智能體就有望完成一半的遠程工作了。
AI被人為地賦予了提升生產(chǎn)力的使命。但“AI能干什么”,并不完整對應著“AI能被市場承認的勞動”。Scale AI想研究的正是,客戶究竟愿不愿意為智能體的勞動付費。
該研究提出了智能體(或具備智能體能力的大模型)遠程工作指數(shù)(RLI)的評估標準。所謂遠程工作,往往是某些可以獨立完成的任務,可以委托、交付、驗證的知識勞動單元,而不是抽象的工作崗位職責。這對于圍繞業(yè)務的真實指標(準確率、延遲、幻覺率、客戶滿意度等)展開具備現(xiàn)實意義。
盡管如此,這些遠程工作本身,也可以是從人類員工或團隊的完整工作流程中拆分出來的——這又為智能體持續(xù)地嵌入生產(chǎn)系統(tǒng)和反饋循環(huán)創(chuàng)造了條件——這時候為此“買單”的就是智能體的人類合作伙伴了。
智能體的遠程工作指數(shù),核心就在于它的“自動化率”(automation rate)。它指的是,智能體提交的任務,最終被客戶認可付費的任務數(shù)量,在所有選定任務中的占比。這些智能體完成的任務,可以是超越對照組的人類員工提交的結果,也可以是符合客戶心理預期的結果。滿足上述任意一項,即可視為完成任務。
Scale AI選定的任務,來自全球最大遠程自由職業(yè)平臺Upwork。研究團隊從64個二級分類(subcategories) 中篩選出23個“可端到端獨立完成”類別,涵蓋了設計、運營、營銷、行政、數(shù)據(jù)/商業(yè)智能、音頻/視頻制作以及其他類別,共240個項目。
這些項目還附有人工交付成果的“黃金標準”,以及人類完成上述任務花費的時間與獲得的報酬。人類完成所有這些任務,需要約6000個小時,獲得14.4萬美元的報酬;其中,單個任務中位勞動時間11個小時,中位勞動報酬200美元。
結果,在所有這些任務中,即使最領先的智能體,能夠讓客戶心甘情愿付費的,也就其中的2.5%。它就是今年出盡風頭的“通用智能體”Manus。其他前沿模型GPT-5、Sonnet 4.5與Grok 4還沒它能打。
![]()
失敗的任務,各有各的難處。約45%是因為“質(zhì)量差”,還有35%是因為“不完整”,以及15%因為“不一致”。而那些成功的任務,往往集中在更為“寬松”的創(chuàng)意類項目,尤其是音頻(例如為復古游戲創(chuàng)建音效、分離人聲和伴奏、為旁白添加背景音樂)和圖像(例如廣告和Logo設計)相關的工作,以及寫作和數(shù)據(jù)檢索/網(wǎng)絡抓取。
如果用“經(jīng)濟價值”來衡量,智能體的表現(xiàn)就更差了。最強的Manus,完成這2.5%的任務,總共獲得了1720美元的報酬,占所有潛在總報酬的1.2%;剩下的幾個模型或智能體,甚至都離1%都還遠著。
這倒側(cè)面證明了最新披露的一組token數(shù)據(jù)。
這家每月消耗1300萬億token的硅谷巨頭,自有模型Gemini通過API每分鐘消耗約70億個token,折合每月約300億,相當于企業(yè)調(diào)用僅占不到25%,絕大多數(shù)token都被谷歌自身龐大的搜索、視頻與廣告等業(yè)務消耗了。目前能高效、規(guī)模兌現(xiàn)token價值的,仍然是硅谷巨頭主導的消費者市場。
目前,全年消耗萬億token的“需求大戶”,也僅150家,差不多每家每年在token上花費百萬美元左右。這意味著“企業(yè)AI”為谷歌云貢獻了0.3%的收入。它們也許已經(jīng)通過了技術驗證,正在不斷嘗試與大模型與智能體磨合,驗證工作流程與商業(yè)模式。
![]()
可見,AI應用在企業(yè)服務領域的爆發(fā),尚需時日。盡管OpenAI最早分析了人類工作的GPT暴露風險,今年又發(fā)布了經(jīng)濟價值評估框架GDPval;Anthropic多次更新了自己的經(jīng)濟指數(shù)(AEI)。但從這兩家AI巨頭最近的用戶使用報告來看,企業(yè)AI滲透率的擴展,確實仍然存在“鴻溝”。
OpenAI發(fā)現(xiàn),ChatGPT用戶超過70%的對話與工作無關。而在與工作有關的活動中,獲取信息(19.3%)、解釋信息含義(13.1%)、記錄信息(12.8%)占比最高,其次是提供咨詢與建議(9.2%)、創(chuàng)造性思考(9.1%)和決策解決問題(8.5%)。
就連更擅長企業(yè)服務的Anthropic也遇到了問題。它發(fā)現(xiàn),旗下Claude API任務的使用分布(usage distribution),呈現(xiàn)了非常明顯的“冪律分布”。即,將近50%的API使用量,映射到了計算機和數(shù)學任務,而靠后80%的任務,只占了10%的使用量。
也就是說,在面對現(xiàn)實工作任務時,AI與智能體還不夠“通用”。OpenAI和Anthropic,采用的工作分類都是傳統(tǒng)的O*NET分類(美國勞工部的職業(yè)數(shù)據(jù)庫),這也意味著它們所謂的“使用”,往往并不意味著讓智能體端到端地替代人類員工。
它當然仍然有用,但無法真實反映生產(chǎn)力層面的提升。事實上,美國METR研究所分析開發(fā)者的實際工作產(chǎn)出時,發(fā)現(xiàn)使用AI的開發(fā)者完成任務的速度,竟比不使用AI時慢了20%。
Claude Sonnet 4.5剛出來的時候,Anthropic就宣稱它能連續(xù)專注工作超30小時。但是,很快就被智庫METR打了臉。該機構測評發(fā)現(xiàn),它實際能以50%成功率完成的任務,相當于1小時53分鐘的人類任務的水平,不及今年8月發(fā)布的GPT-5的2小時15分鐘。
![]()
這也解釋了為什么在Scale AI的遠程任務指數(shù)中,大模型的表現(xiàn)往往不佳;因為有經(jīng)濟價值的獨立任務,即使中位時間也達到了11個小時。
不過,按每7個月翻一番的“智能體摩爾定律”,那一天不會太久。理論上,差不多16個月后,也就是明年底,最強大的智能體,就可以搶走一半不需要互動與協(xié)作的人類遠程工作了。
參考:
https://scale.com/research/rli
https://www.anthropic.com/economic-index
https://openai.com/index/how-people-are-using-chatgpt/
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.