<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

      OpenAI發(fā)布GPT5.4,AI首次比人類更會操作電腦,這些崗位受沖擊

      0
      分享至

      大模型的競爭絲毫沒有冷卻的跡象,OpenAI日前又甩出一個“王炸”——GPT-5.4。這是OpenAI首次將前沿推理、編碼與智能體能力整合于單一模型,官方認為它是“目前面向專業(yè)工作推出的能力最強、效率最高的前沿模型之一”,標志著AI技術從對話交互向自主智能體執(zhí)行任務邁出關鍵一步。

      GPT-5.4在兩個維度上進步明顯:第一、動手能力,它是OpenAI首個具備原生計算機使用能力的通用模型,在桌面操控測試中首次超越了人類平均水平;第二、它的“情商”有所提升,該模型在SimpleQA準確率上達到62.5%,較GPT-4o提升了24%,幻覺率下降了25%。

      與電腦打交道的白領工作,會被GPT-5.4顛覆嗎?

      AI白領超越人類白領

      GPT-5.4最具突破性的創(chuàng)新在于其原生計算機使用能力。此前,無論是ChatGPT Atlas還是AutoGPT類智能體,均采用外掛插件或獨立智能體模式,并非模型原生功能。

      OSWorld-Verified是當前最權威的“計算機使用”評測基準,它測試AI代理通過截圖觀察、鼠標鍵盤操作來完成任務,支持369個真實世界任務,覆蓋文件管理、網(wǎng)頁瀏覽、辦公軟件、多應用協(xié)作等場景。GPT-5.4在該評測中取得了75%的任務成功率,首次超過72.4%的人類平均水平。

      在另一款評估工具GDPval上,GPT-5.4的表現(xiàn)同樣亮眼。GDPval是OpenAI于去年9月推出的評估工具,其獨特之處在于評測“明確任務下的交付質量”,而非簡單的問答能力。評分采用同職業(yè)專家盲評對比——將“模型交付結果”與“人類專家交付結果”并列盲審,由同職業(yè)專家評判優(yōu)劣。結果顯示,GPT-5.4在83%的任務中表現(xiàn)等于或優(yōu)于人類專家,尤其在投行級電子表格建模、演示文稿生成和法律文書等任務上,領先優(yōu)勢更為明顯。

      GPT-5.4帶有“小龍蝦”風格

      “SeeDance2.0、OpenClaw、GPT-5.4……仿佛又回到了GPT-4剛發(fā)布時的那種感覺,每天都有新變化,應接不暇?!鄙虾H斯ぶ悄苎芯吭杭夹g中心主任林圓圓的一句玩笑話,道出了如今AI賽道上“你追我趕”的現(xiàn)狀,每支隊伍都鉚足了勁,一次更新就能引來業(yè)內格局變動。

      行業(yè)的范式轉移已經(jīng)顯現(xiàn)。今年年初舉行的清華大學AGI-Next峰會明確提出,大模型競爭已從“對話”階段正式轉向“智能體”階段,執(zhí)行能力在下半場競爭中至關重要。今年2月,OpenAI 首席執(zhí)行官山姆·奧特曼宣布OpenClaw創(chuàng)始人彼得·斯坦伯格加入OpenAI,致力于推動下一代個人智能體的研發(fā)。



      外號“小龍蝦”的OpenClaw是當下最火爆的AI項目。3月1日,OpenClaw以24.5萬顆星登頂GitHub榜首,超越了長期占據(jù)榜首的Linux和React。奧特曼評價道:“彼得是一位真正的天才,他對未來高度智能的智能體如何協(xié)作以服務人類有著許多令人驚嘆的構想。”

      這一人事變動對GPT-5.4的發(fā)布產生了直接影響。有開發(fā)者觀察到,GPT-5.4的多項核心功能——原生電腦操控、100萬token上下文、工具搜索帶來的47%token成本節(jié)約,恰好踩中了OpenClaw的技術痛點。

      大模型進入差異化競爭時代

      GPT-5.4固然強大,但強大亦有邊界。綜合來看,它在專業(yè)工作場景,特別是金融分析、辦公自動化、知識工作中展現(xiàn)了顯著的能力提升,但在編程能力上落后于Claude Opus 4.6,在科學推理上落后于Gemini 3.1 Pro,在醫(yī)療健康領域甚至出現(xiàn)了小幅退步。另外,盡管GPT-5.4在OSWorld-Verified測試中確實超越了人類基準,但這只是在特定的369個任務上,且測試環(huán)境是可控的虛擬機。在更復雜、更開放的真實場景中,AI與人類的表現(xiàn)差距可能截然不同。

      如果說三年前的大模型還在同一條跑道上競爭,那么如今,已經(jīng)很難用同一把標尺來衡量“各懷絕技”的大模型了。正如一位業(yè)內人士所言:“不再有‘最好的AI’——想操控電腦、做PPT、跑知識工作?選GPT-5.4。想寫代碼、跑智能體、做復雜開發(fā)?選Claude Opus 4.6。想要最強推理、圖片視頻理解、最大上下文、最低價格?選Gemini 3.1 Pro?!?/p>

      價格也是不得不考慮的因素。GPT-5.4的輸入價格達到了30美元/百萬tokens,是Claude Opus 4.6的6倍、Gemini 3.1 Pro的15倍、MiniMax M2.5的100倍,相當于對GPT-5.4 Pro說一句“嗨”,模型思考5分鐘就可能花掉80美元。

      林圓圓認為,大模型的競爭最終將歸于算力。人工智能大模型的快速發(fā)展對高性能算力提出空前需求,算力預計還有成百上千倍的增長空間。今年全國兩會提出在將在包括電網(wǎng)、算力網(wǎng)、新型通信網(wǎng)等在內的“六張網(wǎng)”等重點領域投入超過7萬億元,這一布局意義重大。

      來源 | 文匯報

      作者 | 沈湫莎

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      上海法治聲音 incentive-icons
      上海法治聲音
      市委政法委、上報集團聯(lián)合出品
      17738文章數(shù) 26126關注度
      往期回顧 全部

      專題推薦

      洞天福地 花海畢節(jié) 山水饋贈里的“詩與遠方

      無障礙瀏覽 進入關懷版