網易首頁 > 網易號 > 正文申請入駐

OpenAI發布GPT-4.1：開發者“特供”，超越4o，但還沒遙遙領先

2025-04-15 11:02:31　來源: 硅星GenAI

上海舉報

分享至

作者｜周一笑
郵箱｜ zhouyixiao@pingwest.com

就在上周，關于OpenAI下一代大模型即將發布的傳聞不斷。從業內消息到代碼庫中發現的新模型標識（如“o4-mini”、“o3”），種種跡象都指向眼前的發布——可能命名為GPT-4.1，被視為GPT-4o的有力繼承者。

現在，靴子終于落地。OpenAI這次沒有讓大家等太久，正式推出了備受期待的GPT-4.1系列，完整陣容包括旗艦版GPT-4.1、高性價比的GPT-4.1 mini和超輕量的GPT-4.1 nano。值得注意的是，這次更新的焦點并非面向大眾用戶，僅通過API接口提供服務，OpenAI官方文檔直言不諱地指出，這批新模型在各項能力上全面超越了此前的GPT-4o和GPT-4o mini，在編碼能力、指令遵循、長文本處理等核心維度實現了進步，并輔以全新定價策略，其知識庫也已刷新至2024年6月。OpenAI的核心目標明確：為構建Agent應用的開發者提供更強悍、更可靠且更經濟的基礎設施。

#01

編程評測表現優于GPT-4.5

編碼能力的強化是GPT-4.1系列最耀眼的亮點之一。官方數據顯示，在衡量真實世界軟件工程能力的SWE-bench Verified基準測試中，GPT-4.1取得了54.6% 的分數，相比GPT-4o的33.2%，實現了高達21.4個絕對百分點的提升。

更令人玩味的是，這一成績甚至比定位更高的GPT-4.5（38.0%）還要高出不少，上演了一出“4.1 > 4.5”的有趣戲碼。這意味著GPT-4.1在理解代碼庫、按需完成編程任務、生成能實際運行并通過測試的代碼方面有了質的飛躍。

不僅如此，GPT-4.1在代碼處理的細節上也更為精進。例如，它在處理代碼差異（diffs）方面更加可靠，根據Aider's polyglot diff benchmark，其表現甚至超越了GPT-4.5。官方還特別提到，模型進行無關編輯（extraneous edits）的頻率從GPT-4o的9%顯著降低到了2%。

對于前端開發者而言，GPT-4.1生成的網頁應用在功能性和美觀性上也更勝一籌，在內部測試中，人類評估者有80%的時間更偏好GPT-4.1的作品。同時，為了支持更大規模的代碼編輯，GPT-4.1的最大輸出Token限制也提升至32,768個（GPT-4o為16,384個）。據OpenAI官方，來自早期測試伙伴如Windsurf和Qodo的反饋也印證了這些提升，他們觀察到GPT-4.1在實際代碼生成和代碼審查任務中效率更高、錯誤更少。

各代模型的“推理得分”（Intelligence / MMLU）與“響應延遲”之間的對比

指令遵循能力的提升同樣是本次更新的重中之重。模型現在能更精準地理解和執行復雜、多步驟的指令。在Scale's MultiChallenge基準測試（評估多輪對話中的指令遵循能力）中，GPT-4.1得分38.3%，較GPT-4o提升了10.5個絕對百分點。

而在IFEval測試（驗證模型遵循格式、長度、禁用詞等具體約束的能力）中，得分也從81.0%提升至87.4%。OpenAI內部評估也顯示，特別是在處理困難指令時，GPT-4.1的改進尤為明顯。這種可靠性的增強，對于構建能夠自主完成任務的AI Agent系統至關重要，能有效減少開發者“手把手教”的負擔。

來自Blue J（稅務場景）和Hex（SQL生成）等合作伙伴的真實案例也表明，GPT-4.1在處理復雜規則和歧義、遵循細微指令方面表現更佳，顯著提高了應用準確性和開發效率。

#02

全系支持百萬級長文本處理

全系標配且真正“可用”的百萬級長文本處理能力，是GPT-4.1系列的另一大重點。不僅旗艦版GPT-4.1，連同mini和nano版本，都支持高達100萬Token的上下文窗口（遠超GPT-4o的128k）。OpenAI此次特別強調，這不僅僅是窗口大小的提升，更在于模型在如此長的文本中保持專注和理解的能力得到了強化。經典的“大海撈針”（Needle in a Haystack）測試結果顯示，GPT-4.1系列能在1M長度的文本中穩定、準確地找到隱藏信息。

為了證明模型在更接近真實世界復雜場景下的長文本能力，OpenAI還開源了兩套新的評估基準：OpenAI-MRCR（測試在長文本中區分和檢索多個相似信息點的能力）和Graphwalks（評估需要跨文本多處進行邏輯跳轉和推理的多跳推理能力）。

測試結果表明，GPT-4.1在這些更具挑戰性的任務上，相比前代有顯著優勢，并且能在百萬Token級別保持強大的性能。這對需要處理大量代碼、多份冗長法律文件或金融報告的應用場景來說，無疑是巨大的福音。Thomson Reuters和Carlyle等金融和法律領域的早期用戶反饋，GPT-4.1在處理多份復雜長文檔、提取精確信息、進行跨文檔推理方面，準確性顯著提高，克服了以往模型在“大海撈針”、“中間丟失”和多跳推理上的局限。

當然，處理百萬Token的延遲也是開發者關心的，官方給出的初步數據是，GPT-4.1處理128k Token時首個Token的p95延遲約15秒，1M Token則可能需要半分鐘左右，而mini和nano版本則會快得多。

#03

更好的多模態

此外，GPT-4.1家族的視覺理解能力也保持了高水準。特別是GPT-4.1 mini，在MMMU、MathVista等多個視覺基準測試上的表現甚至優于GPT-4o。旗艦版GPT-4.1則在長視頻理解基準Video-MME（無字幕長視頻問答）上取得了72.0%的新SOTA成績。

在 Video-MME 中，模型基于無字幕的 30 至 60 分鐘長視頻回答多項選擇題

伴隨性能提升而來的是極具吸引力的新定價體系。得益于推理效率的優化，GPT-4.1系列的價格相當“香”：

GPT-4.1: 輸入 $2.00 / 輸出 $8.00 (每百萬Token)，官方稱比GPT-4o的中位數查詢成本低26%。
GPT-4.1 mini: 輸入 $0.40 / 輸出 $1.60，在性能接近甚至超越GPT-4o的同時，成本和延遲大幅降低。
GPT-4.1 nano: 輸入 $0.10 / 輸出 $0.40，成為OpenAI有史以來最便宜、最快速的模型，且同樣支持1M上下文。

此外，Prompt Caching（提示緩存）的折扣從之前的50%提高到了75%，對于需要重復傳遞相同上下文的應用能大幅節約成本。同時，使用Batch API（批量處理）還能享受額外的50%折扣。

需要注意的是，隨著GPT-4.1系列的登場，之前作為預覽版推出的GPT-4.5 Preview API也迎來了謝幕。OpenAI宣布，該API將在2025年7月14日正式關閉，給予開發者3個月的過渡時間，鼓勵大家遷移到性能更優、成本更低的GPT-4.1系列。

#04

進步了，但很難全贏

GPT-4.1的發布，被一些市場觀察者解讀為OpenAI對Anthropic和Google等競爭對手近期積極動作的回應，而非一次顛覆性的技術突破。有不少評論直接指出，盡管進步顯著，但在某些特定基準上，如Aider Polyglot編碼測試，GPT-4.1（約52%）與Google Gemini 2.5 Pro（據報道約73%）相比仍有差距。

來自第三方基準平臺（如與ChatLLM服務相關的Livebench）的早期結果在一定程度上支持了這種觀點：雖然確認GPT-4.1相較于GPT-4o有所改進（'It's better than GPT-4o'），但同時將其描述為一次“增量更新”（incremental update）。更值得注意的是，在OpenAI重點宣傳的編碼能力方面，該基準評估認為其表現“似乎并未優于Google的Gemini 2.5 Pro或Anthropic的Claude 3 Sonnet (或更高版本模型)” 。這似乎意味著AI領域的競爭已進入到更細分、更針對性的能力比拼階段，而非全面的代際碾壓。

而談及OpenAI，其“迷幻”的命名體系總是繞不開的話題。從GPT-4o、4.5、4.1，到內部代號般的o1、o3、o4系列（還分low/medium/high/mini/pro各種后綴），再到ChatGPT界面上令人困惑的模型選項（4o、o3-mini、o1、Deep Research、4.5、帶任務調度的4o...），“像正常人一樣給模型命名”似乎成了一項不可能完成的任務。這對于一個力求普及AI技術的公司而言，無疑增加了用戶的理解成本。

盡管如此，OpenAI此次GPT-4.1系列的發布，仍然釋放了一個明確的信號：OpenAI沒有忘記開發者。GPT-4.5的官方API接下來一周內也可以免費使用，每分鐘3次請求，一天200次，TPM1萬。

不過相較于GPT-4o在多模態交互上的驚艷問世，GPT-4.1系列更像是一次深入生產環節的“內功”修煉，精準解決了開發者在編碼、指令控制、長文本處理等核心痛點。這種API優先、強調實用性和性價比的策略同時，不僅是對自身模型效率提升的自信展示，也勢必給Anthropic、Google、xAI等對手帶來更大的壓力。

或許OpenAI真正的“大招”還在后面——畢竟o3完整版和o4 mini模型的發布也已箭在弦上。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.