<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      OpenAI發布GPT-4.1:開發者“特供”,超越4o,但還沒遙遙領先

      0
      分享至


      作者 | 周一笑
      郵箱 | zhouyixiao@pingwest.com

      就在上周,關于OpenAI下一代大模型即將發布的傳聞不斷。從業內消息到代碼庫中發現的新模型標識(如“o4-mini”、“o3”),種種跡象都指向眼前的發布——可能命名為GPT-4.1,被視為GPT-4o的有力繼承者。

      現在,靴子終于落地。OpenAI這次沒有讓大家等太久,正式推出了備受期待的GPT-4.1系列,完整陣容包括旗艦版GPT-4.1、高性價比的GPT-4.1 mini和超輕量的GPT-4.1 nano。值得注意的是,這次更新的焦點并非面向大眾用戶,僅通過API接口提供服務,OpenAI官方文檔直言不諱地指出,這批新模型在各項能力上全面超越了此前的GPT-4o和GPT-4o mini,在編碼能力、指令遵循、長文本處理等核心維度實現了進步,并輔以全新定價策略,其知識庫也已刷新至2024年6月。OpenAI的核心目標明確:為構建Agent應用的開發者提供更強悍、更可靠且更經濟的基礎設施。

      #01

      編程評測表現優于GPT-4.5

      編碼能力的強化是GPT-4.1系列最耀眼的亮點之一。官方數據顯示,在衡量真實世界軟件工程能力的SWE-bench Verified基準測試中,GPT-4.1取得了54.6% 的分數,相比GPT-4o的33.2%,實現了高達21.4個絕對百分點的提升。


      更令人玩味的是,這一成績甚至比定位更高的GPT-4.5(38.0%)還要高出不少,上演了一出“4.1 > 4.5”的有趣戲碼。這意味著GPT-4.1在理解代碼庫、按需完成編程任務、生成能實際運行并通過測試的代碼方面有了質的飛躍。

      不僅如此,GPT-4.1在代碼處理的細節上也更為精進。例如,它在處理代碼差異(diffs)方面更加可靠,根據Aider's polyglot diff benchmark,其表現甚至超越了GPT-4.5。官方還特別提到,模型進行無關編輯(extraneous edits)的頻率從GPT-4o的9%顯著降低到了2%。


      對于前端開發者而言,GPT-4.1生成的網頁應用在功能性和美觀性上也更勝一籌,在內部測試中,人類評估者有80%的時間更偏好GPT-4.1的作品。同時,為了支持更大規模的代碼編輯,GPT-4.1的最大輸出Token限制也提升至32,768個(GPT-4o為16,384個)。據OpenAI官方,來自早期測試伙伴如Windsurf和Qodo的反饋也印證了這些提升,他們觀察到GPT-4.1在實際代碼生成和代碼審查任務中效率更高、錯誤更少。


      各代模型的“推理得分”(Intelligence / MMLU)與“響應延遲”之間的對比

      指令遵循能力的提升同樣是本次更新的重中之重。模型現在能更精準地理解和執行復雜、多步驟的指令。在Scale's MultiChallenge基準測試(評估多輪對話中的指令遵循能力)中,GPT-4.1得分38.3%,較GPT-4o提升了10.5個絕對百分點。

      而在IFEval測試(驗證模型遵循格式、長度、禁用詞等具體約束的能力)中,得分也從81.0%提升至87.4%。OpenAI內部評估也顯示,特別是在處理困難指令時,GPT-4.1的改進尤為明顯。這種可靠性的增強,對于構建能夠自主完成任務的AI Agent系統至關重要,能有效減少開發者“手把手教”的負擔。

      來自Blue J(稅務場景)和Hex(SQL生成)等合作伙伴的真實案例也表明,GPT-4.1在處理復雜規則和歧義、遵循細微指令方面表現更佳,顯著提高了應用準確性和開發效率。

      #02

      全系支持百萬級長文本處理

      全系標配且真正“可用”的百萬級長文本處理能力,是GPT-4.1系列的另一大重點。不僅旗艦版GPT-4.1,連同mini和nano版本,都支持高達100萬Token的上下文窗口(遠超GPT-4o的128k)。OpenAI此次特別強調,這不僅僅是窗口大小的提升,更在于模型在如此長的文本中保持專注和理解的能力得到了強化。經典的“大海撈針”(Needle in a Haystack)測試結果顯示,GPT-4.1系列能在1M長度的文本中穩定、準確地找到隱藏信息。


      為了證明模型在更接近真實世界復雜場景下的長文本能力,OpenAI還開源了兩套新的評估基準:OpenAI-MRCR(測試在長文本中區分和檢索多個相似信息點的能力)和Graphwalks(評估需要跨文本多處進行邏輯跳轉和推理的多跳推理能力)。


      測試結果表明,GPT-4.1在這些更具挑戰性的任務上,相比前代有顯著優勢,并且能在百萬Token級別保持強大的性能。這對需要處理大量代碼、多份冗長法律文件或金融報告的應用場景來說,無疑是巨大的福音。Thomson Reuters和Carlyle等金融和法律領域的早期用戶反饋,GPT-4.1在處理多份復雜長文檔、提取精確信息、進行跨文檔推理方面,準確性顯著提高,克服了以往模型在“大海撈針”、“中間丟失”和多跳推理上的局限。

      當然,處理百萬Token的延遲也是開發者關心的,官方給出的初步數據是,GPT-4.1處理128k Token時首個Token的p95延遲約15秒,1M Token則可能需要半分鐘左右,而mini和nano版本則會快得多。

      #03

      更好的多模態

      此外,GPT-4.1家族的視覺理解能力也保持了高水準。特別是GPT-4.1 mini,在MMMU、MathVista等多個視覺基準測試上的表現甚至優于GPT-4o。旗艦版GPT-4.1則在長視頻理解基準Video-MME(無字幕長視頻問答)上取得了72.0%的新SOTA成績。


      在 Video-MME 中,模型基于無字幕的 30 至 60 分鐘長視頻回答多項選擇題

      伴隨性能提升而來的是極具吸引力的新定價體系。得益于推理效率的優化,GPT-4.1系列的價格相當“香”:

      • GPT-4.1: 輸入 $2.00 / 輸出 $8.00 (每百萬Token),官方稱比GPT-4o的中位數查詢成本低26%。

      • GPT-4.1 mini: 輸入 $0.40 / 輸出 $1.60,在性能接近甚至超越GPT-4o的同時,成本和延遲大幅降低。

      • GPT-4.1 nano: 輸入 $0.10 / 輸出 $0.40,成為OpenAI有史以來最便宜、最快速的模型,且同樣支持1M上下文。

      此外,Prompt Caching(提示緩存)的折扣從之前的50%提高到了75%,對于需要重復傳遞相同上下文的應用能大幅節約成本。同時,使用Batch API(批量處理)還能享受額外的50%折扣。

      需要注意的是,隨著GPT-4.1系列的登場,之前作為預覽版推出的GPT-4.5 Preview API也迎來了謝幕。OpenAI宣布,該API將在2025年7月14日正式關閉,給予開發者3個月的過渡時間,鼓勵大家遷移到性能更優、成本更低的GPT-4.1系列。

      #04

      進步了,但很難全贏

      GPT-4.1的發布,被一些市場觀察者解讀為OpenAI對Anthropic和Google等競爭對手近期積極動作的回應,而非一次顛覆性的技術突破。有不少評論直接指出,盡管進步顯著,但在某些特定基準上,如Aider Polyglot編碼測試,GPT-4.1(約52%)與Google Gemini 2.5 Pro(據報道約73%)相比仍有差距。


      來自第三方基準平臺(如與ChatLLM服務相關的Livebench)的早期結果在一定程度上支持了這種觀點:雖然確認GPT-4.1相較于GPT-4o有所改進('It's better than GPT-4o'),但同時將其描述為一次“增量更新”(incremental update)。更值得注意的是,在OpenAI重點宣傳的編碼能力方面,該基準評估認為其表現“似乎并未優于Google的Gemini 2.5 Pro或Anthropic的Claude 3 Sonnet (或更高版本模型)” 。這似乎意味著AI領域的競爭已進入到更細分、更針對性的能力比拼階段,而非全面的代際碾壓。


      而談及OpenAI,其“迷幻”的命名體系總是繞不開的話題。從GPT-4o、4.5、4.1,到內部代號般的o1、o3、o4系列(還分low/medium/high/mini/pro各種后綴),再到ChatGPT界面上令人困惑的模型選項(4o、o3-mini、o1、Deep Research、4.5、帶任務調度的4o...),“像正常人一樣給模型命名”似乎成了一項不可能完成的任務。這對于一個力求普及AI技術的公司而言,無疑增加了用戶的理解成本。


      盡管如此,OpenAI此次GPT-4.1系列的發布,仍然釋放了一個明確的信號:OpenAI沒有忘記開發者。GPT-4.5的官方API接下來一周內也可以免費使用,每分鐘3次請求,一天200次,TPM1萬。

      不過相較于GPT-4o在多模態交互上的驚艷問世,GPT-4.1系列更像是一次深入生產環節的“內功”修煉,精準解決了開發者在編碼、指令控制、長文本處理等核心痛點。這種API優先、強調實用性和性價比的策略同時,不僅是對自身模型效率提升的自信展示,也勢必給Anthropic、Google、xAI等對手帶來更大的壓力。

      或許OpenAI真正的“大招”還在后面——畢竟o3完整版和o4 mini模型的發布也已箭在弦上。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      小米事故炸翻37萬車主,雷軍左右為難!

      小米事故炸翻37萬車主,雷軍左右為難!

      鳴金網
      2026-02-28 10:45:03
      吉利偷偷換上了朱雀新車標,被18個國家搶購,帥得有點太過分

      吉利偷偷換上了朱雀新車標,被18個國家搶購,帥得有點太過分

      有態度網友17y
      2026-02-26 19:58:08
      率隊2-1絕殺!U23國足隊長留洋爆發:穿10號送助攻雙響 視頻曝光

      率隊2-1絕殺!U23國足隊長留洋爆發:穿10號送助攻雙響 視頻曝光

      侃球熊弟
      2026-02-28 10:06:33
      趙忠祥離世6年后,22年前不惜賭上清白陷害他的饒穎,如今怎樣了

      趙忠祥離世6年后,22年前不惜賭上清白陷害他的饒穎,如今怎樣了

      胡一舸南游y
      2026-02-28 17:19:02
      伊朗外長:目前美伊之間沒有直接聯系

      伊朗外長:目前美伊之間沒有直接聯系

      界面新聞
      2026-02-28 23:26:14
      A股:剛剛,人民日報權威發布,釋放一信號,下周一將迎來新變化

      A股:剛剛,人民日報權威發布,釋放一信號,下周一將迎來新變化

      另子維愛讀史
      2026-02-28 20:23:29
      50歲以后,別心疼錢,少吃花生,多吃8種“堿性食物”,氣色好

      50歲以后,別心疼錢,少吃花生,多吃8種“堿性食物”,氣色好

      美食店主
      2026-02-12 00:08:26
      這次荷蘭沒話說了!中方正式宣布:更換國內供應商,從此不再合作

      這次荷蘭沒話說了!中方正式宣布:更換國內供應商,從此不再合作

      曉劗就是我
      2026-02-26 15:50:07
      美國正式下場了,大場面來了,伊朗的表現可以名譽平反了吧

      美國正式下場了,大場面來了,伊朗的表現可以名譽平反了吧

      明人明察
      2026-02-28 19:47:41
      44歲高云翔天津街邊攤煎餅,穿著樸素動作生澀,直言找到新工作了

      44歲高云翔天津街邊攤煎餅,穿著樸素動作生澀,直言找到新工作了

      一盅情懷
      2026-02-28 17:55:12
      美軍航母“炸”了,史詩級災難,把臉都丟光了

      美軍航母“炸”了,史詩級災難,把臉都丟光了

      毛豆論道
      2026-02-26 19:32:00
      太憋屈!昔日王牌自曝曼聯噩夢:滕哈格毀了他的職業生涯

      太憋屈!昔日王牌自曝曼聯噩夢:滕哈格毀了他的職業生涯

      瀾歸序
      2026-02-28 04:57:16
      名將慘遭5連鞭零封,世錦賽冠軍2-5爆冷出局,丁俊暉種子資格紅燈

      名將慘遭5連鞭零封,世錦賽冠軍2-5爆冷出局,丁俊暉種子資格紅燈

      籃球看比賽
      2026-02-28 16:59:37
      對標庫里南!保時捷全新大型SUV“K1”渲染圖曝光

      對標庫里南!保時捷全新大型SUV“K1”渲染圖曝光

      CNMO科技
      2026-02-28 13:46:09
      大量瑞幸新年禮盒流入閑魚,內含便攜咖啡機,全新最低46塊

      大量瑞幸新年禮盒流入閑魚,內含便攜咖啡機,全新最低46塊

      閑搞機
      2026-02-27 11:02:52
      真當中國不敢動手?中方向全世界宣布一件大事:退出1900億大項目

      真當中國不敢動手?中方向全世界宣布一件大事:退出1900億大項目

      科普100克克
      2025-12-30 00:14:37
      “太恐怖,iPhone半夜自己給陌生人打47分鐘電話!”

      “太恐怖,iPhone半夜自己給陌生人打47分鐘電話!”

      都市快報橙柿互動
      2026-02-25 11:28:41
      都說不去日本,春節赴日的卻是這群人!日媒暗訪揭開真相

      都說不去日本,春節赴日的卻是這群人!日媒暗訪揭開真相

      通鑒史智
      2026-02-28 16:33:46
      內存 / 存儲瘋漲,所以手機也要漲價咯

      內存 / 存儲瘋漲,所以手機也要漲價咯

      電腦吧評測室
      2026-02-28 22:07:07
      終于有人把話說透了:當普通人存款到20–50萬,危險的不是沒錢

      終于有人把話說透了:當普通人存款到20–50萬,危險的不是沒錢

      生活新鮮市
      2026-02-22 06:40:40
      2026-03-01 02:07:00
      硅星GenAI incentive-icons
      硅星GenAI
      比一部分人更先進入GenAl。
      243文章數 14關注度
      往期回顧 全部

      科技要聞

      狂攬1100億美元!OpenAI再創融資神話

      頭條要聞

      伊朗媒體公布反擊美軍軍事行動結果

      頭條要聞

      伊朗媒體公布反擊美軍軍事行動結果

      體育要聞

      球隊主力全報銷?頂風擺爛演都不演了

      娛樂要聞

      周杰倫兒子正面照曝光,與父親好像

      財經要聞

      沖突爆發 市場變天?

      汽車要聞

      嵐圖泰山黑武士版3月上市 搭載華為四激光智駕方案

      態度原創

      家居
      游戲
      旅游
      教育
      公開課

      家居要聞

      素色肌理 品意式格調

      所有人保持嘴角不變!生化危機:安魂曲里昂騷話大盤點

      旅游要聞

      忻州古城×元宵節 | “夯”爆了!看非遺社火解鎖忻州古城的超長年味!

      教育要聞

      “比預估高了20多分,激動得有點想哭!”今天有人歡呼,有人沉默,有人紅了眼眶,這一年都經歷了什么?

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關懷版