<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      剛剛,GPT-5.5發布,顛覆勞動理論

      GPT-5.5發布 有哪些升級

      0
      分享至



      機器之心編輯部

      真的來了,這才是 OpenAI 的大招。



      周五凌晨,OpenAI 正式發布了最新一代大模型 GPT-5.5。

      作為 GPT 系列的重要版本更新,這次升級不止是大模型「聰明一點」,更像是讓人首次體驗到了 AGI。新模型帶來了更強的推理能力(回答聰明的同時更簡潔),更強大、穩定的代碼能力,強大的知識整合能力,更強的工具調用能力,以及更好的長任務能力。

      GPT-5.5 在大部分評測基準成績上領先 Claude Opus 4.7 一個身位,在相同智力水平下 token 消耗是競品的約一半。

      聽起來不夠實際?目前在 OpenAI 擔任研究員的全球頂尖 AI 學者、AI 德撲作者 Noam Brown 說了,現在,人們可以利用 GPT-5.5 來做很多以前難以想象的任務,包括寫 CUDA 內核。



      有提前使用該模型的英偉達工程師甚至表示:「失去對 GPT-5.5 的訪問權限,感覺就像我的肢體被截肢了一樣。」

      在社交網絡上也有人已經表示,與 Codex 中的 GPT-5.5 合作非常有樂趣,它的回答犀利,比任何模型都能更好理解意圖,能不停頓地完成大量工作。總得來說,它能讓 Codex 從代碼工具升級成幫你干活的智能體。



      HackerNews 上的老哥則說得更直接:AI 說不定要顛覆幾個世紀以來的勞動理論了。



      GPT-5.5 目前已在 ChatGPT(Plus、Pro、Business 和 Enterprise 用戶)和 Codex 上逐步上線,并開通了 API 調用。標準版價格是輸入

      在這個階段還敢逆勢漲價,看來 OpenAI 對自己的新模型很有底氣。

      當然,官方也特別提到,新模型更加聰明,在完成相同的 Codex 任務時所需的 Token 數量顯著減少,這會在實際使用中抵消掉一部分單價上漲帶來的成本壓力。

      API 端支持高達 1M(一百萬)Tokens 的極寬上下文窗口,而在 Codex 訂閱計劃中則開放了 400K 的窗口;針對追求極致效率的開發者,Codex 專門推出了 Fast mode(競速模式),允許用戶以 2.5 倍的成本,換取 1.5 倍的 Token 生成速度。

      從基準測試數據來看,GPT-5.5 在幾乎所有核心指標上都超越了前代 GPT-5.4,幅度從略微領先到大幅躍升不等。



      編程任務:Codex 變成了真正的「工程搭檔」

      Codex 是這次發布中著墨最多的產品。在 OpenAI 的定位里,它不是寫代碼的補全工具,而是能接手完整工程任務鏈的自主工作臺:實現功能、重構、調試、測試、寫文檔、跑數據分析,全部在列。

      在代碼能力方面,Terminal-Bench 2.0 得分 82.7%,比 GPT-5.4 的 75.1% 有明顯提升;衡量長周期真實工程任務的內部評測 Expert-SWE 從 68.5% 升至 73.1%;評估真實 GitHub 問題解決能力的 SWE-Bench Pro 達到 58.6%。



      值得注意的是,上述三項測試中,GPT-5.5 在得分提升的同時,消耗的 token 數量均低于 GPT-5.4。



      測試者的反饋大多指向同一件事:模型更清楚自己在干什么了。 它能判斷某個問題為何出現、修復應該落在哪里、改動會牽連哪些其他部分;遇到障礙也不會卡住等人,而是繼續往前推。

      AI 寫作平臺 Every 創始人 Dan Shipper 提供了一個具體驗證案例:他在產品上線后調試了數天的頑固 bug,最終靠工程師重構解決。他用 GPT-5.5 重新面對這個問題,模型給出了與工程師方案高度一致的重構建議;而 GPT-5.4 沒能做到。他將 GPT-5.5 描述為「第一個真正具備概念清晰度的編程模型」。

      MagicPath CEO Pietro Schirano 則描述了另一個場景:GPT-5.5 在約 20 分鐘內,將一個包含數百個前端改動和重構變更的分支與主分支完成合并,一次性解決,幾乎沒有返工。

      OpenAI 披露,目前超過 85% 的 OpenAI 員工每周使用 Codex,覆蓋軟件工程、財務、市場、傳播、數據科學等部門,大幅縮短了數據分析和周報生成的時間。



      提示詞:[attached image] Implement this as a new app using webgl and vite using real data from the artemis II mission. Make sure to test the app thoroughly until it is fully functional and looks like the app in the picture. Pay close attention to the rendering of the planets and fly paths. I want to be able to interact with the 3D rendering. Ensure it has realistic orbital mechanics.



      GPT-5.5 生成的地震追蹤網頁。



      這是一個使用 Codex 和 GPT 模型構建的可玩 3D 地下城競技場原型。Codex 負責游戲架構、TypeScript/Three.js 實現、戰斗系統、敵人遭遇、HUD 反饋以及 GPT 生成的環境紋理。角色模型、角色紋理和動畫使用第三方資源生成工具創建,角色對話則使用 OpenAI API 生成。

      知識工作與多模態接管

      開始真正「用」電腦了

      在非編程的知識工作場景中,GPT-5.5 的提升邏輯與編程類似:更準確地理解用戶的實際意圖,從而減少來回確認、直接推進到有用的輸出。

      不僅限于文本,當模型與 Codex 的計算機使用技能結合時,GPT-5.5 展現出了極強的 GUI(圖形用戶界面)接管能力。它能像人類一樣「看」屏幕、點擊、打字并在不同軟件間穿梭:

      在 GDPval(涵蓋 44 種職業的專業知識工作測試)中拿到 84.9%;復雜客服流程測試 Tau2-bench Telecom 在無提示詞調優的情況下達到 98.0%。在評估模型獨立操作真實計算機環境的 OSWorld-Verified 測試中達 78.7%。同時,帶工具調用的多模態視覺理解(MMMU Pro)達 83.2%,工具調用能力(MCP Atlas)達 75.3%。這標志著模型正在補齊視覺 - 語言 - 動作交互的底層邏輯。





      ChatGPT 中的 GPT-5.5 Thinking 版本主打在復雜問題上給出更快、更簡潔的回答;GPT-5.5 Pro 則面向更高難度、更高精度的工作場景,早期測試者反映在商業、法律、教育和數據科學領域表現尤為突出。

      科研場景

      開始像個真正的研究員了

      科研場景是這次發布中相對新穎的方向。OpenAI 將 GPT-5.5 定位為能夠參與研究全流程的「協作者」,而非僅僅提供信息檢索。

      基準測試中,FrontierMath Tier 4(最難難度數學題)從 27.1% 跳升至 35.4%,ARC-AGI-2 從 73.3% 升至 85.0%,BixBench(生物信息學數據分析)從 74.0% 升至 80.5%。



      此外,OpenAI 報告稱,一個搭配定制工具的 GPT-5.5 內部版本協助發現了一個關于拉姆齊數的新數學證明,并已在形式化證明工具 Lean 中得到驗證。拉姆齊數是組合數學的核心研究對象,此類結果在該領域并不多見。

      杰克遜基因組醫學實驗室免疫學教授 Derya Unutmaz 使用 GPT-5.5 Pro 分析了 62 個樣本、近 28,000 個基因的表達數據集,并生成了包含關鍵問題和洞見的研究報告。他表示,同樣的工作由其團隊完成需要數月。

      波蘭亞當?密茨凱維奇大學數學助理教授 Bartosz Naskr?cki 通過 Codex,僅用一條提示詞、11 分鐘,構建了一個代數幾何應用程序,實現了二次曲面交線的可視化并將其轉換為 Weierstrass 模型。他表示,Codex 現在能夠幫助實現過去需要專用工具才能完成的數學可視化工作流。



      百萬上下文窗口

      實際用起來是什么水平

      官方標注的 100 萬 token 上下文聽起來很大,但對于真正要處理超大型代碼庫或幾十萬字文檔的開發者來說,更關鍵的問題是:精度會隨長度衰減多少?

      根據 OpenAI 公布的 MRCR v2 8-needle 測試數據,GPT-5.5 在 4K-8K 區間準確率為 98.1%,128K-256K 區間仍維持在 87.5%—— 同區間的 Claude Opus 4.7 為 59.2%。當上下文拉到 512K-1M 時,GPT-5.5 降至 74.0%,而 GPT-5.4 在該區間僅為 36.6%。

      超長文本下的精度衰減目前在所有模型中都存在,但 GPT-5.5 與上代之間將近 40 個百分點的差距,說明這一塊確實有了實質性改進。

      基礎設施優化與安全管控機制

      這次發布有一個在技術層面值得關注的細節。

      GPT-5.5 被部署在英偉達 GB200 和 GB300 NVL72 服務器上,并與這套硬件進行了協同設計和訓練。為了在更高能力水平上維持與 GPT-5.4 相當的響應速度,OpenAI 表示對整個推理系統進行了重新設計。

      在這個過程中,Codex 被用于分析數周的生產流量數據,并編寫了自定義的負載均衡啟發式算法,優化了 GPU 的請求分區和工作分配。OpenAI 稱這項工作將 token 生成速度提升了 20% 以上。與此同時,GPT-5.5 本身也參與了推理棧關鍵改進的發現和實現。

      用 OpenAI 自己的表述:這個模型幫助改進了運行它的基礎設施。

      安全方面,OpenAI 將 GPT-5.5 的生物 / 化學和網絡安全能力均評定為其「準備框架」中的「高」級(低于「關鍵」的第二高風險等級),意味著該模型在這兩個方向的能力已需要專項管控。

      GPT-5.5 在內部 CTF(奪旗賽)測試中得分 88.1%(GPT-5.4 為 83.7%),CyberGym 基準達 81.8%(Claude Opus 4.7 為 73.1%)。



      為此,OpenAI 部署了更嚴格的安全分類器,并坦承「部分用戶初期可能會覺得這些限制有些煩」。

      與此同時,OpenAI 推出「Trusted Access for Cyber」機制:經過身份驗證、符合特定信任條件的安全研究人員可以申請更寬松的訪問權限,用于合法的防御性工作,負責關鍵基礎設施防護的組織可單獨申請訪問 GPT-5.4-Cyber 等網絡安全強化版本。OpenAI 還表示正與政府合作伙伴探索將該技術用于保護公共基礎設施,涉及納稅人數據系統、電網和供水系統等。



      最后,人們關心的是 GPT-5.5 和 Opus 4.7 究竟誰厲害。在用于評估大語言模型在復雜、競爭性商業環境中能力的多智能體模擬評估平臺 Vending-Bench Arena 上,GPT 已經超過了 Claude:



      此圖奧特曼看到了馬上轉發。

      實際用起來如何,那就得看大家的反饋了。

      參考內容:

      https://openai.com/index/introducing-gpt-5-5/

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      白人女性與黑人女性的體味差異,網友真實分享引發熱議

      白人女性與黑人女性的體味差異,網友真實分享引發熱議

      特約前排觀眾
      2025-12-22 00:20:06
      被禁60年的影片:這位蔣介石最尊敬的乞丐,不該被中國人遺忘

      被禁60年的影片:這位蔣介石最尊敬的乞丐,不該被中國人遺忘

      華人星光
      2026-04-23 12:12:20
      伊朗末代國王長子回應“是否是以色列特工”:我不是,但我是以色列和猶太人的朋友;報道稱其在德國遇襲

      伊朗末代國王長子回應“是否是以色列特工”:我不是,但我是以色列和猶太人的朋友;報道稱其在德國遇襲

      魯中晨報
      2026-04-24 11:48:08
      悲催!北京土著欲娶北方小縣城留京女,因彩禮問題,男方果斷分手

      悲催!北京土著欲娶北方小縣城留京女,因彩禮問題,男方果斷分手

      火山詩話
      2026-04-23 06:28:37
      楊毅季后賽前曝猛料:北京外援集體罷吃早餐 麥基帶頭引眾怒?

      楊毅季后賽前曝猛料:北京外援集體罷吃早餐 麥基帶頭引眾怒?

      你看球呢
      2026-04-24 10:45:24
      G3輸森林狼!阿德爾曼談攻守問題,展望G4不恐慌,約基奇回應低迷

      G3輸森林狼!阿德爾曼談攻守問題,展望G4不恐慌,約基奇回應低迷

      籃球資訊達人
      2026-04-24 13:40:12
      揭秘哪吒汽車的錢去哪兒了

      揭秘哪吒汽車的錢去哪兒了

      藍媒匯財經plus
      2026-04-23 12:24:20
      何鴻燊最后11年過得是什么樣的日子?說出來可能顛覆很多人的認知

      何鴻燊最后11年過得是什么樣的日子?說出來可能顛覆很多人的認知

      人生錄
      2026-04-22 19:01:34
      直播調整!丁俊暉戰趙心童有變,肖國棟危險,美女裁判抽煙惹爭議

      直播調整!丁俊暉戰趙心童有變,肖國棟危險,美女裁判抽煙惹爭議

      曹說體育
      2026-04-24 13:05:42
      北境新王!巴恩斯成猛龍隊史第二位季后賽單場30分10助的球員

      北境新王!巴恩斯成猛龍隊史第二位季后賽單場30分10助的球員

      北青網-北京青年報
      2026-04-24 13:56:04
      中國“大齡剩女”為何泛濫成災?專家:三大原因,一個比一個現實

      中國“大齡剩女”為何泛濫成災?專家:三大原因,一個比一個現實

      舊時樓臺月
      2026-04-23 13:01:09
      東風導彈泄密案!間諜郭萬鈞一家三口,全部被處以死刑

      東風導彈泄密案!間諜郭萬鈞一家三口,全部被處以死刑

      番外行
      2026-03-31 08:28:28
      陳毅接管上海卻鎮不住場子,陳賡推薦了一個人,讓他徹底放下了心

      陳毅接管上海卻鎮不住場子,陳賡推薦了一個人,讓他徹底放下了心

      老謝談史
      2026-04-23 05:24:38
      ESPN:唐斯表達長期留隊意愿 季后賽表現或將決定是否留隊

      ESPN:唐斯表達長期留隊意愿 季后賽表現或將決定是否留隊

      北青網-北京青年報
      2026-04-24 13:56:04
      何潤東引爆全網,網友考古呂良偉:這是從歷史里走出來的真霸王!

      何潤東引爆全網,網友考古呂良偉:這是從歷史里走出來的真霸王!

      蹲坑看世界
      2026-04-24 10:07:35
      98年劉平平成為植物人,王光美哭成淚人,劉源將姐姐接到家里照顧

      98年劉平平成為植物人,王光美哭成淚人,劉源將姐姐接到家里照顧

      雍親王府
      2026-04-24 10:15:06
      突發!DeepSeek V4 正式發布

      突發!DeepSeek V4 正式發布

      AppSo
      2026-04-24 11:16:55
      主動投案,貴州省監獄管理局原副局長吳道明接受審查調查

      主動投案,貴州省監獄管理局原副局長吳道明接受審查調查

      界面新聞
      2026-04-24 09:33:18
      《妻子的浪漫旅行》45歲金莎宣布備孕,3年前已保存凍卵,太拼了

      《妻子的浪漫旅行》45歲金莎宣布備孕,3年前已保存凍卵,太拼了

      娛君墜星河
      2026-04-24 10:20:37
      老球王戴維斯:我不想貶低丁俊暉,但誰都知道趙心童是更好的球員

      老球王戴維斯:我不想貶低丁俊暉,但誰都知道趙心童是更好的球員

      楊華評論
      2026-04-24 03:04:33
      2026-04-24 14:15:00
      機器之心Pro incentive-icons
      機器之心Pro
      專業的人工智能媒體
      12846文章數 142635關注度
      往期回顧 全部

      科技要聞

      剛剛,DeepSeek-V4 預覽版發布 百萬上下文

      頭條要聞

      華誼兄弟被申請破產:曾坐擁百位明星 如今還不起千萬

      頭條要聞

      華誼兄弟被申請破產:曾坐擁百位明星 如今還不起千萬

      體育要聞

      里程碑之戰拖后腿,哈登18分8失誤

      娛樂要聞

      王思聰被綠!戀愛期間女友被金主包養

      財經要聞

      19家企業要"鋁代銅",格力偏不

      汽車要聞

      全景iDrive 續航近800km 新款寶馬7系/i7亮相

      態度原創

      教育
      家居
      旅游
      公開課
      軍事航空

      教育要聞

      告訴孩子:千萬不要被4種朋友借運,后果比早戀可怕100倍

      家居要聞

      自然肌理 溫潤美學

      旅游要聞

      “經典IP+特色文化”擦亮文旅金字招牌 特色品牌旅游專列圈粉國內外游客

      公開課

      李玫瑾:為什么性格比能力更重要?

      軍事要聞

      美伊陷入互相封鎖僵局

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 激情综合色综合啪啪五月丁香| 中文字幕久久亚洲一区| 蜜臀98精品国产免费观看| 久久午夜无码鲁丝片午夜精品| 法国伦理少妇愉情| 性做久久久久久| 最新亚洲中文字幕在线| 亚洲综合不卡一区二区三区| 正在播放肥臀熟妇在线视频| av免费网站在线免费观看| 国产口爆吞精在线视频2020版| AV最新高清无码专区| 亭亭五月丁香| 中文字幕午夜福利片午夜福利片97| 婷婷99狠狠躁天天躁中| 国产成人无码一区二区在线播放| 91探花国产综合在线精品| 麻豆激情在线免费观看视频| 品精免费产品精品综合精品综合| 精品久久久无码人妻中文字幕| 风韵丰满熟妇啪啪区老熟熟女| 安岳县| 69精品国产久热在线观看| 国产精品欧美亚洲韩国日本久久| 亚洲老妈激情一区二区三区| 亚洲人网站| 国语精品国内自产视频| 大香蕉久久综合| 久久精品国产亚洲一区二区| 亚洲啊v.在线播放| 俺也去网| 亚洲精品国产电影| 亚洲成人网在线观看| 亚洲一级电影| 国产一区二区日韩经典| 亚洲国产欧美在线成人| 亚洲美女高潮不断亚洲| 91九色TS另类国产人妖| 国产成人综合高清在线观看| 国产熟妇久久777777| 97超碰人妻|