<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      剛剛,GPT-5.5 發布!Claude Code 連夜治好降智,「奧特曼癱倒」喜提續集

      0
      分享至

      據外媒 Business Insider 報道,Anthropic 在私募二級市場的估值已突破 1 萬億美元。作為參照,OpenAI 今年 3 月末最新一輪融資的估值,仍停留在 8520 億美元。

      除了業內老生常談的「AI 泡沫論」,這組對比數據也表明了曾經穩坐頭把交椅的 OpenAI,如今正在直面被追趕、被超越的壓力,但沒有讓我們等待多久,OpenAI 的反擊旋即而至。


      就在剛剛,GPT-5.5 正式發布,同步亮相的還有面向更高階任務的 GPT-5.5 Pro 版本。

      如果用一句話總結 GPT-5.5 的核心設計思路,那就是讓用戶把一團雜亂、多步驟的復雜任務直接拋給模型,由它自主規劃路徑、調用工具、校驗結果、消解歧義,并一路推進。

      看似只是 0.1 的版本號迭代,在推理效率上卻判若大版本更新——同樣的 Codex 任務,GPT-5.5 消耗的 token 顯著更少,既更聰明,也更省。


      吐槽了一個多月,偏偏等到 GPT-5.5 發布,Anthropic 才想起要解決降智問題

      GPT-5.5 登場,不講武德的屠榜

      GPT-5.5 的紙面成績非常可觀。

      在知名第三方評測機構 Artificial Analysis 的綜合智能指數榜單上,OpenAI 憑借 GPT-5.5 系列拿下了第一名和第二名,前六席中包攬了四席,競爭對手幾乎毫無招架之力。


      基準測試結果顯示,在 Terminal-Bench 2.0(測試復雜命令行工作流)上,GPT-5.5 達到 82.7%,GPT-5.4 為 75.1%,Claude Opus 4.7 為 69.4%。

      在 SWE-Bench Pro(評估真實 GitHub 問題解決能力)上,GPT-5.5 達到 58.6%,能在單次運行中端到端完成更多任務,超過 GPT-5.4 的 57.7%。


      在 OpenAI 內部的 Expert-SWE 評測上,任務的人類預計完成時間中位數為 20 小時,GPT-5.5 達到 73.1%,GPT-5.4 為 68.5%。且在三項評測上,GPT-5.5 均以更少 token 完成任務。


      只不過,OpenAI 這次也玩起了腳注里的小心思,用一行小字暗戳戳質疑 Claude Opus 4.7 部分成績的可信度。但網友 Deedy 對此并不買賬,在他看來,這行備注更像是轉移注意力 —— 畢竟 OpenAI 自己也沒能拿出一套更透明的公開基準,正面佐證 GPT-5.5 的實力。


      在智能體編碼、computer use(計算機使用)、知識工作和早期科學研究等領域,GPT-5.5 的提升尤為顯著。

      早期測試者反饋,GPT-5.5 在理解大型代碼庫整體結構方面明顯更強,能主動預判潛在問題,提前考慮測試和審查需求,無需額外提示。

      知名評測博主、Every 創始人 Dan Shipper 分享了一個具體案例:他的應用上線后出現問題,自己調試數天未果,最終請來工程師重寫了部分系統。他用 GPT-5.5 重現這一場景,結果模型給出了與工程師相同的解決思路,而 GPT-5.4 則無能為力。

      Cursor 聯合創始人 Michael Truell 表示,GPT-5.5 比 GPT-5.4 更聰明、更有韌性,工具調用更可靠,面對復雜長期任務時能堅持更久而不中途停下。

      更夸張的是,一位英偉達工程師在早期體驗后直言:「失去 GPT-5.5 的訪問權限,感覺就像是我的肢體被截肢了一樣。」


      如無意外,又一個名梗的誕生

      (哈??)不過,考慮到奧特曼看完 GPT-5 演示之后,直接「眩暈無力、癱倒在地」,而且這件事到今天也沒有一個正經解釋,英偉達工程師這句話,好像也沒那么夸張了。


      而在知識工作場景,GPT-5.5 也有著出色的表現。

      在衡量模型橫跨 44 種職業知識工作能力的 GDPval 評測中,GPT-5.5 獲勝或打平比例達 84.9%,GPT-5.4 為 83.0%,Claude Opus 4.7 為 80.3%,Gemini 3.1 Pro 僅 67.3%。

      在 OSWorld-Verified(測試模型能否自主操作真實計算機環境)上,GPT-5.5 達到 78.7%,GPT-5.4 為 75.0%,Claude Opus 4.7 為 78.0%。

      在 Tau2-bench Telecom(測試復雜客服工作流)上,GPT-5.5 在無提示詞調整的情況下達到 98.0%,GPT-5.4 為 92.8%,差距相當明顯。

      在其他專項評測上,GPT-5.5 在 FinanceAgent v1.1 達到 60.0%,內部投行建模任務達到 88.5%,OfficeQA Pro 達到 54.1%(Claude Opus 4.7 為 43.6%,Gemini 3.1 Pro 僅為 18.1%)。

      在 BixBench(圍繞真實生物信息學和數據分析設計)上,GPT-5.5 達到 80.5%,GPT-5.4 為 74.0%,在已發布分數的模型中排名第一。在 GeneBench(測試遺傳學和定量生物學的多階段數據分析)上,GPT-5.5 達到 25.0%,GPT-5.4 為 19.0%,Pro 版本達到 33.2%。這些任務通常對應科學專家數天的工作量。

      OpenAI 內部有超過 85% 的員工每周使用 Codex,覆蓋軟件工程、財務、傳播、市場、數據科學和產品管理等部門。


      財務團隊用 GPT-5.5 審查了 24771 份 K-1 稅務文件,共計 71637 頁,最終比上一年提前兩周完成。傳播團隊打造了一套自動化 Slack 機器人,負責處理低風險請求自動處理,市場團隊的一名員工則用它自動生成每周業務報告,每周節省 5 到 10 小時。

      此外,GPT-5.5 的一大亮點還在于推理基礎設施的協同升級。

      GPT-5.5 與 NVIDIA GB200 和 GB300 NVL72 系統聯合設計和訓練。其中一項關鍵改進是負載均衡和分區策略,Codex 分析了數周的生產流量數據,編寫了自定義啟發式算法來動態優化分區和負載均衡,最終將 token 生成速度提升了超過 20%。

      OpenAI 還指出,GPT-5.5 本身也參與了改進自身推理基礎設施的過程。

      GPT-5.5 即日起向 ChatGPT Plus、Pro、Business、Enterprise 用戶開放,Codex 支持最高 400K 上下文窗口,并提供 1.5 倍速的 Fast 模式(費用為標準價格的 2.5 倍)。GPT-5.5 Pro 則面向 ChatGPT 的 Pro、Business 和 Enterprise 用戶推出。


      API 版本即將上線,標準定價為每百萬輸入 token 5 美元、每百萬輸出 token 30 美元,上下文窗口為 1M token。批量處理和彈性定價為標準價格的一半,優先處理模式為標準價格的 2.5 倍。

      GPT-5.5 Pro 的 API 定價為每百萬輸入 token 30 美元、每百萬輸出 token 180 美元。OpenAI 表示,由于 token 效率的提升,大多數用戶的實際使用成本不會有明顯增加。閉口不提 Claude Opus 4.7,卻句句都在內涵。

      OpenAI 要做 AI 時代的超級入口

      沒有哪一款模型能收獲一邊倒的評價,GPT-5.5 同樣如此。網友 @chetaslua 用一條提示詞在 Codex 中生成了一個帶有風效應物理引擎的完整網站,物理交互和界面設計一并到位,感嘆「這是我第一次覺得 ChatGPT 可以成為解決一切問題的首選 AI 工具」。


      網友 @petergostev 讓模型生成了一個包含倫敦地標和季節變化的玩具鐵路場景,與 GPT-5.4 的輸出對比后,他的結論是「GPT-5.5 更有野心、一致性更強,錯誤更少」,并在更復雜的應用遷移任務中讓模型連續工作數小時,沒有出現卡殼。


      當然,吐槽的聲音同樣存在。網友 @arrakis_ai 發現,GPT-5.5 在遇到復雜布局時有時會直接生成一張圖片了事,處理圖標需求時會從頭硬寫 SVG 而不調用現成庫,同時頻繁暫停追問用戶,執行力反而不如從前果斷。


      文筆方面, 我的個人體驗也有類似感受。GPT-5.5 確實比前代更會組織語言了,至少已經能說點人話,但依然有一股怪味:「我就在這里,不躲,不藏,不繞,不逃, 穩穩地接住你 」。

      并且, 不少網友也注意到,OpenAI 在基準測試榜單上也動了些營銷的心思。


      網友 Haider 認為,GPT-5.5 和 Mythos 的差距沒有預想的那么懸殊,而 Mythos 定價是 GPT-5.5 的兩倍,且不公開發售。他的判斷是,下一代 GPT 趕上 Mythos 應該問題不大。


      據外媒 Techcrunch 報道,面對記者關于「GPT-5.5 是否具備類似 Mythos 能力」的刺探時,OpenAI 技術人員 Mia Glaese 給出了一個滴水不漏卻暗藏鋒芒的回答:「我們在網絡安全方面有著長期且強有力的戰略,并且已經完善了一套持久的、安全推出模型的方法。」

      話外之音已經十分明朗:單一的強大模型終究只是過客。真到了拼數字防御和企業級落地的深水區,OpenAI 的生態壁壘,才是 B 端客戶唯一穩妥的安全牌。

      而隨著 GPT-5.5 的登場,OpenAI 的野心已經足夠清晰:他們不再滿足于做一個聰明的聊天機器人,而是要親手打造一個吞噬一切工作流的「AI 超級應用(Super app)」。

      在接受外媒采訪時,OpenAI 總裁 Greg Brockman 用了一個詞「自主性(Agentic)」來形容這次模型的進步跨越。與前代模型 GPT-5.4 版本相比,GPT-5.5 消耗的 Token 更少,但思考速度更快、邏輯更清晰,開始展現出主動解決復雜問題的能力。

      這正是邁向超級應用的堅實底座。


      奧特曼今晚異常興奮,還更換頭像了

      所謂超級應用,便是將 ChatGPT、Codex 與 AI 瀏覽器深度融合為統一服務。想象未來的工作流:人們不必再在瀏覽器、代碼編輯器、數據分析工具之間反復切換。只需對著這個超級應用下達一個宏觀指令,GPT-5.5 就能自主在后臺打開網頁搜集資料、編寫爬蟲代碼、清洗數據,最終直接交付一份完整的分析報告。

      當然,猶如 Claude 與 Claude Code 的強綁定,OpenAI 也意在替 Codex 的增長勢頭加一把火。最近,奧特曼表示,Codex 活躍用戶在突破 300 萬不到兩周后便直逼 400 萬大關,OpenAI 隨之重置速率限制,以「量大管飽」的姿態收割開發者生態。

      一方面,憑借 GPT-5.5 與 GPT-Image-2 的強勢表現,正面回擊了 Anthropic 在估值預期上的壓力;另一方面,則利用 Codex 的生態粘性緊鎖開發者陣地,穩步構筑起橫跨 C 端消費與 B 端企業級服務的完整服務體系。

      攻守之勢異也,今年以來被詬病掉隊的 OpenAI,終于重新找回兩年前的進攻節奏,并將精力放在了踏踏實實打磨產品上。


      附上 OpenAI 官方博客地址:

      https://openai.com/index/introducing-gpt-5-5/

      *封面由 AI 生成

      我們正在招募伙伴

      簡歷投遞郵箱hr@ifanr.com

      ?? 郵件標題「姓名+崗位名稱」(請隨簡歷附上項目/作品或相關鏈接)


      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      他是強渡烏江的功臣,不滿職務離開八路軍,毛主席說情:留條活路

      他是強渡烏江的功臣,不滿職務離開八路軍,毛主席說情:留條活路

      大海的諾言
      2024-10-08 15:04:01
      韓女星樸娜萊和男性朋友在車上發生了性關系,兩名經紀人被迫圍觀

      韓女星樸娜萊和男性朋友在車上發生了性關系,兩名經紀人被迫圍觀

      西樓知趣雜談
      2026-04-09 09:35:17
      現在還敢辭掉工作回農村老家的,90%是這4類人,你屬于哪一種呢?

      現在還敢辭掉工作回農村老家的,90%是這4類人,你屬于哪一種呢?

      三農老歷
      2026-04-28 18:27:04
      河北一中學教師買賣8支玩具仿真槍獲刑三年,申訴被駁回

      河北一中學教師買賣8支玩具仿真槍獲刑三年,申訴被駁回

      澎湃新聞
      2026-04-28 16:06:27
      為何超市月薪3000元,卻沒人肯辭職?超市員工:“傻子”才辭職

      為何超市月薪3000元,卻沒人肯辭職?超市員工:“傻子”才辭職

      平說財經
      2026-04-26 23:06:17
      白宮晚宴槍手曝光:發言極端激進!仇恨基督教,系無組織獨狼襲擊

      白宮晚宴槍手曝光:發言極端激進!仇恨基督教,系無組織獨狼襲擊

      小小科普員
      2026-04-27 14:33:37
      黑猴也被干趴了!《黑神話》D加密終被破解:歷時一年半

      黑猴也被干趴了!《黑神話》D加密終被破解:歷時一年半

      游民星空
      2026-04-28 11:06:20
      深夜重磅!今天,伊朗贏得重大喜訊

      深夜重磅!今天,伊朗贏得重大喜訊

      阿振觀點
      2026-04-28 00:17:31
      8輪過后,中超5名主帥帥位不穩,3洋帥2土帥,誰會第一個下課?

      8輪過后,中超5名主帥帥位不穩,3洋帥2土帥,誰會第一個下課?

      我就是一個說球的
      2026-04-27 22:03:53
      笑死在張若昀的評論區,網友:一個沒參加浪姐卻無處不在的人

      笑死在張若昀的評論區,網友:一個沒參加浪姐卻無處不在的人

      一盅情懷
      2026-04-27 13:45:59
      醫生發現:老人若長時間不吃甜食,用不了多長時間身體有5大改善

      醫生發現:老人若長時間不吃甜食,用不了多長時間身體有5大改善

      芹姐說生活
      2026-04-23 15:04:44
      馬龍送國乒出征世乒賽,溫瑞博陳熠隨行!國際乒聯發布王楚欽海報

      馬龍送國乒出征世乒賽,溫瑞博陳熠隨行!國際乒聯發布王楚欽海報

      小彭美識
      2026-04-27 16:49:50
      港股交易時段,光通信龍頭突發財報,股價瞬間飆10%,是否違規?

      港股交易時段,光通信龍頭突發財報,股價瞬間飆10%,是否違規?

      金石隨筆
      2026-04-28 09:16:37
      埃及、印尼、泰國接連放棄!殲-10CE越優秀,為何越難賣?

      埃及、印尼、泰國接連放棄!殲-10CE越優秀,為何越難賣?

      Ck的蜜糖
      2026-04-28 19:07:41
      750萬“電雞”壓城:深圳“史上最嚴”整治仍面臨五大難題

      750萬“電雞”壓城:深圳“史上最嚴”整治仍面臨五大難題

      南方都市報
      2026-04-28 07:00:37
      “崩老頭”現象:00后如何收割中年男性

      “崩老頭”現象:00后如何收割中年男性

      流蘇晚晴
      2026-04-25 16:31:35
      克利夫蘭媒體:騎士隊愈發后悔交易得到哈登,已是徹頭徹尾的敗筆

      克利夫蘭媒體:騎士隊愈發后悔交易得到哈登,已是徹頭徹尾的敗筆

      寶哥精彩賽事
      2026-04-28 17:49:58
      名記:杜蘭特或已打完火箭生涯最后一場球,下家是紐約和熱火

      名記:杜蘭特或已打完火箭生涯最后一場球,下家是紐約和熱火

      懂球帝
      2026-04-28 09:32:05
      一個正處級干部退休后的真實生活:落差比想象中大

      一個正處級干部退休后的真實生活:落差比想象中大

      細說職場
      2026-04-27 14:11:52
      每斤降價30元左右!蘇州河蝦價格“跳水”倒計時,五一后迎來嘗鮮最佳時期

      每斤降價30元左右!蘇州河蝦價格“跳水”倒計時,五一后迎來嘗鮮最佳時期

      揚子晚報
      2026-04-28 18:14:56
      2026-04-28 19:43:00
      AppSo incentive-icons
      AppSo
      讓智能手機更好用的秘密
      6321文章數 26830關注度
      往期回顧 全部

      科技要聞

      10億周活目標落空!傳OpenAI爆發內部分歧

      頭條要聞

      15歲女兒遭同學性侵殺害 父親終日借酒澆愁飲酒300斤

      頭條要聞

      15歲女兒遭同學性侵殺害 父親終日借酒澆愁飲酒300斤

      體育要聞

      季后賽最新局勢:雷霆4-0晉級首隊 4隊3-1

      娛樂要聞

      蔡卓妍官宣結婚,老公比她小10歲

      財經要聞

      政治局會議:加強算力網等規劃建設

      汽車要聞

      拒絕瘋狂套娃!現代艾尼氪金星長在未來審美點上

      態度原創

      房產
      旅游
      時尚
      手機
      公開課

      房產要聞

      紅利爆發!海南,沖到全國人口增量第4省!

      旅游要聞

      文化和旅游部:鼓勵各地因地制宜延長熱門景區營業時間

      解鎖劉浩存的「紅運」密碼 | 高清鏡頭后的底氣

      手機要聞

      加速普及“液態玻璃”:蘋果App Store今起要求使用iOS 26 SDK

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 夜夜躁狠狠躁日日躁av| 18亚洲AV无码成人网站国产| 777天堂麻豆爱综合视频| jizz日本69| 国内精品极品久久免费看| 欧美顶级metart裸体全部自慰| 哈密市| 黄色99| 欧美色综合| 制服国产欧美亚洲日韩| 人妻中文字幕在线视频无码| 一区二区三区精品99久久| 乱熟女高潮一区二区在线| 国产ts在线观看| 日产国产精品亚洲系列| 一本一道无码中文字幕精品热| 久久夜精品综合缴情五月| 国产亚洲精品久久久久久大师| 国产在线精品福利91香蕉| 18禁网站免费无遮挡无码中文| 二连浩特市| 无码日韩精品一区二区人妻| 成人网站18禁| 人妻精品无码| 中文字幕一区二区三区擦澡| 少妇人妻精品一区二区| 亚洲第一福利网站在线观看| 西西444WWW大胆无码视频| 免费看无码毛视频成片| 久久天天躁狠狠躁夜夜| 风流少妇bbwbbw69视频| 国产AV中文字幕| 真人抽搐一进一出视频| 成人视频AAA| 亚洲精品成人无码| 蜜臂久久99精品久久久久宅男| 国模av在线| 国产亚洲视频免费播放| 最近中文字幕日韩有码| 日韩av第一页在线播放| 舟曲县|