![]()
作者 | 周一笑
郵箱 | zhouyixiao@pingwest.com
就在上周,關于OpenAI下一代大模型即將發布的傳聞不斷。從業內消息到代碼庫中發現的新模型標識(如“o4-mini”、“o3”),種種跡象都指向眼前的發布——可能命名為GPT-4.1,被視為GPT-4o的有力繼承者。
現在,靴子終于落地。OpenAI這次沒有讓大家等太久,正式推出了備受期待的GPT-4.1系列,完整陣容包括旗艦版GPT-4.1、高性價比的GPT-4.1 mini和超輕量的GPT-4.1 nano。值得注意的是,這次更新的焦點并非面向大眾用戶,僅通過API接口提供服務,OpenAI官方文檔直言不諱地指出,這批新模型在各項能力上全面超越了此前的GPT-4o和GPT-4o mini,在編碼能力、指令遵循、長文本處理等核心維度實現了進步,并輔以全新定價策略,其知識庫也已刷新至2024年6月。OpenAI的核心目標明確:為構建Agent應用的開發者提供更強悍、更可靠且更經濟的基礎設施。
#01
編程評測表現優于GPT-4.5
編碼能力的強化是GPT-4.1系列最耀眼的亮點之一。官方數據顯示,在衡量真實世界軟件工程能力的SWE-bench Verified基準測試中,GPT-4.1取得了54.6% 的分數,相比GPT-4o的33.2%,實現了高達21.4個絕對百分點的提升。
![]()
更令人玩味的是,這一成績甚至比定位更高的GPT-4.5(38.0%)還要高出不少,上演了一出“4.1 > 4.5”的有趣戲碼。這意味著GPT-4.1在理解代碼庫、按需完成編程任務、生成能實際運行并通過測試的代碼方面有了質的飛躍。
不僅如此,GPT-4.1在代碼處理的細節上也更為精進。例如,它在處理代碼差異(diffs)方面更加可靠,根據Aider's polyglot diff benchmark,其表現甚至超越了GPT-4.5。官方還特別提到,模型進行無關編輯(extraneous edits)的頻率從GPT-4o的9%顯著降低到了2%。
![]()
對于前端開發者而言,GPT-4.1生成的網頁應用在功能性和美觀性上也更勝一籌,在內部測試中,人類評估者有80%的時間更偏好GPT-4.1的作品。同時,為了支持更大規模的代碼編輯,GPT-4.1的最大輸出Token限制也提升至32,768個(GPT-4o為16,384個)。據OpenAI官方,來自早期測試伙伴如Windsurf和Qodo的反饋也印證了這些提升,他們觀察到GPT-4.1在實際代碼生成和代碼審查任務中效率更高、錯誤更少。
![]()
各代模型的“推理得分”(Intelligence / MMLU)與“響應延遲”之間的對比
指令遵循能力的提升同樣是本次更新的重中之重。模型現在能更精準地理解和執行復雜、多步驟的指令。在Scale's MultiChallenge基準測試(評估多輪對話中的指令遵循能力)中,GPT-4.1得分38.3%,較GPT-4o提升了10.5個絕對百分點。
而在IFEval測試(驗證模型遵循格式、長度、禁用詞等具體約束的能力)中,得分也從81.0%提升至87.4%。OpenAI內部評估也顯示,特別是在處理困難指令時,GPT-4.1的改進尤為明顯。這種可靠性的增強,對于構建能夠自主完成任務的AI Agent系統至關重要,能有效減少開發者“手把手教”的負擔。
來自Blue J(稅務場景)和Hex(SQL生成)等合作伙伴的真實案例也表明,GPT-4.1在處理復雜規則和歧義、遵循細微指令方面表現更佳,顯著提高了應用準確性和開發效率。
#02
全系支持百萬級長文本處理
全系標配且真正“可用”的百萬級長文本處理能力,是GPT-4.1系列的另一大重點。不僅旗艦版GPT-4.1,連同mini和nano版本,都支持高達100萬Token的上下文窗口(遠超GPT-4o的128k)。OpenAI此次特別強調,這不僅僅是窗口大小的提升,更在于模型在如此長的文本中保持專注和理解的能力得到了強化。經典的“大海撈針”(Needle in a Haystack)測試結果顯示,GPT-4.1系列能在1M長度的文本中穩定、準確地找到隱藏信息。
![]()
為了證明模型在更接近真實世界復雜場景下的長文本能力,OpenAI還開源了兩套新的評估基準:OpenAI-MRCR(測試在長文本中區分和檢索多個相似信息點的能力)和Graphwalks(評估需要跨文本多處進行邏輯跳轉和推理的多跳推理能力)。
![]()
測試結果表明,GPT-4.1在這些更具挑戰性的任務上,相比前代有顯著優勢,并且能在百萬Token級別保持強大的性能。這對需要處理大量代碼、多份冗長法律文件或金融報告的應用場景來說,無疑是巨大的福音。Thomson Reuters和Carlyle等金融和法律領域的早期用戶反饋,GPT-4.1在處理多份復雜長文檔、提取精確信息、進行跨文檔推理方面,準確性顯著提高,克服了以往模型在“大海撈針”、“中間丟失”和多跳推理上的局限。
當然,處理百萬Token的延遲也是開發者關心的,官方給出的初步數據是,GPT-4.1處理128k Token時首個Token的p95延遲約15秒,1M Token則可能需要半分鐘左右,而mini和nano版本則會快得多。
#03
更好的多模態
此外,GPT-4.1家族的視覺理解能力也保持了高水準。特別是GPT-4.1 mini,在MMMU、MathVista等多個視覺基準測試上的表現甚至優于GPT-4o。旗艦版GPT-4.1則在長視頻理解基準Video-MME(無字幕長視頻問答)上取得了72.0%的新SOTA成績。
![]()
在 Video-MME 中,模型基于無字幕的 30 至 60 分鐘長視頻回答多項選擇題
伴隨性能提升而來的是極具吸引力的新定價體系。得益于推理效率的優化,GPT-4.1系列的價格相當“香”:
GPT-4.1: 輸入 $2.00 / 輸出 $8.00 (每百萬Token),官方稱比GPT-4o的中位數查詢成本低26%。
GPT-4.1 mini: 輸入 $0.40 / 輸出 $1.60,在性能接近甚至超越GPT-4o的同時,成本和延遲大幅降低。
GPT-4.1 nano: 輸入 $0.10 / 輸出 $0.40,成為OpenAI有史以來最便宜、最快速的模型,且同樣支持1M上下文。
此外,Prompt Caching(提示緩存)的折扣從之前的50%提高到了75%,對于需要重復傳遞相同上下文的應用能大幅節約成本。同時,使用Batch API(批量處理)還能享受額外的50%折扣。
需要注意的是,隨著GPT-4.1系列的登場,之前作為預覽版推出的GPT-4.5 Preview API也迎來了謝幕。OpenAI宣布,該API將在2025年7月14日正式關閉,給予開發者3個月的過渡時間,鼓勵大家遷移到性能更優、成本更低的GPT-4.1系列。
#04
進步了,但很難全贏
GPT-4.1的發布,被一些市場觀察者解讀為OpenAI對Anthropic和Google等競爭對手近期積極動作的回應,而非一次顛覆性的技術突破。有不少評論直接指出,盡管進步顯著,但在某些特定基準上,如Aider Polyglot編碼測試,GPT-4.1(約52%)與Google Gemini 2.5 Pro(據報道約73%)相比仍有差距。
![]()
來自第三方基準平臺(如與ChatLLM服務相關的Livebench)的早期結果在一定程度上支持了這種觀點:雖然確認GPT-4.1相較于GPT-4o有所改進('It's better than GPT-4o'),但同時將其描述為一次“增量更新”(incremental update)。更值得注意的是,在OpenAI重點宣傳的編碼能力方面,該基準評估認為其表現“似乎并未優于Google的Gemini 2.5 Pro或Anthropic的Claude 3 Sonnet (或更高版本模型)” 。這似乎意味著AI領域的競爭已進入到更細分、更針對性的能力比拼階段,而非全面的代際碾壓。
![]()
而談及OpenAI,其“迷幻”的命名體系總是繞不開的話題。從GPT-4o、4.5、4.1,到內部代號般的o1、o3、o4系列(還分low/medium/high/mini/pro各種后綴),再到ChatGPT界面上令人困惑的模型選項(4o、o3-mini、o1、Deep Research、4.5、帶任務調度的4o...),“像正常人一樣給模型命名”似乎成了一項不可能完成的任務。這對于一個力求普及AI技術的公司而言,無疑增加了用戶的理解成本。
![]()
盡管如此,OpenAI此次GPT-4.1系列的發布,仍然釋放了一個明確的信號:OpenAI沒有忘記開發者。GPT-4.5的官方API接下來一周內也可以免費使用,每分鐘3次請求,一天200次,TPM1萬。
不過相較于GPT-4o在多模態交互上的驚艷問世,GPT-4.1系列更像是一次深入生產環節的“內功”修煉,精準解決了開發者在編碼、指令控制、長文本處理等核心痛點。這種API優先、強調實用性和性價比的策略同時,不僅是對自身模型效率提升的自信展示,也勢必給Anthropic、Google、xAI等對手帶來更大的壓力。
或許OpenAI真正的“大招”還在后面——畢竟o3完整版和o4 mini模型的發布也已箭在弦上。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.