網易首頁 > 網易號 > 正文申請入駐

OpenAI新模型gpt-oss-120b怎么樣？三大場景實測首發（對比GLM-4.5-Air）

2025-08-07 16:16:31　來源: AI進化論花生

北京舉報

分享至

Claude Opus 4.1、gpt-oss-120b、Google Genie 3，看到又蹦出的這一堆新模型你是不是要懵了...昨天可以說是AI領域的瘋狂星期三了。

我在凌晨一點看到Anthropic發布Claude Opus 4.1時還稍稍有點興奮，快速寫了這么篇介紹文章

寫完發布之后，看了眼X，發現糟了，寫早了。OpenAI又給我整出了gpt-oss-120b和gpt-oss-20b這兩個開源模型。

再到第二天一早醒來，看到Google發布世界模型Genie 3，我徹底感覺麻了...科技博主的命也是命啊，真寫不過來了。

不過，OpenAI這次的發布還是挺有意思，值得聊聊的：

一是這代表OpenAI再次Open了，gpt-oss是OpenAI時隔6年，繼GPT-2之后首次發布開源權重語言模型；

二是對LLM開源生態來說，本來開源模型的SOTA之爭早就成了中國的內部競爭，DeepSeek、Kimi、Qwen、智譜這幾家近期輪流坐上開源模型的頭把交椅，而OpenAI的入局還是給這場本來已經結束的戰爭增添了不少變數，開源SOTA模型似乎又要回到中美競爭的格局了。

01gpt-oss-120b到底怎么樣？

首先是參數規模。OpenAI的gpt-oss-120b擁有1170億總參數，其中每次推理僅激活51億參數，占比僅為4.4%。這種超稀疏的設計，使得gpt-oss-120b在處理結構化和嚴密邏輯任務時，推理效率和性能極其突出。

其次是架構設計上的獨特性。gpt-oss系列同樣采用了混合專家（MoE）架構，并原生支持MXFP4量化方案，用官方的話說是能夠高效地在 80G GPU的高性能電腦上運行？

Excuse me？80G？誰家好人家用的電腦能配一張英偉達H100 GPU呢

（外網的網友和我有同樣的疑問）

所以，對普通用戶來說，暫時就別想著在自己電腦上部署gpt-oss-120b了，老老實實等第三方平臺的API，或者使用OpenAI提供的體驗平臺去試試吧。

從公布的benchmark上，OpenAI的這個新開源模型在數學（AIME）、推理以及編程（Codeforces）上的能力比較強。但是就歷史情況來說，OpenAI模型的編程能力只停留在跑分中。

02gpt-oss-120b VS GLM-4.5-Air

所以，OpenAI這個新開源模型到底怎么樣，我覺得需要測一測。

尤其是，如果我們只把它放在開源模型的行列中，去和國產開源模型掰掰手腕，它會表現如何呢？我打算拿前幾天文章里介紹過的智譜最新的模型去做評測。

從公平性的角度看，我沒選智譜最強的總參數量達到3550億的模型GLM-4.5去做對比，而是拿了智譜更輕量級，參數量規模和gpt-oss-120b接近的GLM-4.5-Air，它同樣是MoE架構的混合專家模型，GLM-4.5-Air的參數規模略小一些，總參數1060億，每次激活參數是120億，占比達到11.3%。這個更高的激活比例，意味著GLM-4.5-Air在泛化能力和跨領域綜合表現上會更為出色，特別是在開放性任務，比如軟件開發、創意生成和多語言翻譯等場景。

注：由于都是開源模型，部署方式和API調用的系統提示詞似乎都會影響模型表現，所以為了保證評測的公平性，這兩個模型我都通過他們的官方網頁版直接使用:

1）gpt-oss-120b: https://gpt-oss.com/ Reasoning level選擇High的狀態

2）GLM-4.5-Air: https://chat.z.ai/ 打開“自動推理”，關閉“工具”中的全網搜索功能

評測1：物理邏輯模擬

我們先來試一個很經典的測試模型物理邏輯模擬能力的編程題，就是讓AI寫一個有20個小球在旋轉的六邊形中彈跳的python腳本，這個問題的提示詞風格和類型有很多，我自己調整迭代了個中文版本的，方便大家理解和復用

編寫一個 Python 程序，在一個旋轉的 六邊形內部模擬 20 個小球彈跳。
要求如下：
- 單個 Python 文件。
- 多邊形繞其中心勻速旋轉，每 5 秒旋轉 360°。
- 小球受重力和摩擦力影響。
- 實現碰撞檢測與響應：球與旋轉邊壁碰撞時，需考慮墻壁的運動，實現真實的反彈效果。球與球之間不發生彈性碰撞。
- 所有小球從多邊形中心初始化，半徑相同。
- 在起始狀態下，球從六邊形內部不同位置受重力影響開始下落
- 多邊形尺寸需足夠大以始終容納所有球。
- 模擬應保持大約 60 FPS 的流暢動畫。
- 代碼結構應模塊化、清晰、帶注釋。

GLM-4.5-Air的效果如下

gpt-oss-120b的效果

GLM-4.5-Air勝，gpt-oss-120b有些很奇怪的表現，比如小球卡在多邊形的邊上，以及，小球會逐漸爆出，越蹦越少。測完這個任務，我已經開始對gpt-oss-120b怎么能在Codeforces跑出那么高分有疑問了。而接下來的一個任務對比，則可能會讓你大跌眼鏡。

評測2：用html創建原型

接下來，我們再試一個我很常用的讓模型生成app原型界面的任務，這個任務既可以測試模型的前端代碼撰寫能力，也能比較好的評估模型的設計審美。

因為這次不是在AI Coding工具中調用大模型，而是直接使用網頁版做單次生成，所以我簡單調整了下我的提示詞要求，只讓模型生成app首頁一個界面的設計

我想開發一個擁有播客、視頻、圖文等多種內容形式的社區app，現在需要輸出高保真的原型圖，請通過以下方式幫我完成app首頁的原型設計，并確保該原型界面可以直接用于開發：
1、用戶體驗分析：先分析這個 App 的主要功能和用戶需求，確定核心交互邏輯。
2、產品界面規劃：作為產品經理，定義關鍵界面，確保信息架構合理。
3、高保真 UI 設計：作為 UI 設計師，設計貼近真實 iOS/Android 設計規范的界面，使用現代化的 UI 元素，使其具有良好的視覺體驗。
4、HTML 原型實現：使用 HTML + Tailwind CSS（或 Bootstrap）生成所有原型界面，并使用 FontAwesome（或其他開源 UI 組件）讓界面更加精美、接近真實的 App 設計。
拆分代碼文件，保持結構清晰：
5、界面在單個html文件中呈現。
- 真實感增強：
  - 界面尺寸應模擬 iPhone 15 Pro，并讓界面圓角化，使其更像真實的手機界面。
  - 使用真實的 UI 圖片，而非占位符圖片（可從 Unsplash、Pexels、Apple 官方 UI 資源中選擇）。
  - 添加頂部狀態欄（模擬 iOS 狀態欄），并包含 App 導航欄（類似 iOS 底部 Tab Bar）。
請按照以上要求生成完整的 HTML 代碼，并確保其可用于實際開發。

先來看下GLM-4.5-Air的效果，不能說很驚艷，但很符合我預計，屬于中規中矩的設計風格，從Claude 4.0以來，比較頂尖的Coding模型大致都會有類似表現。

GLM-4.5-Air

再來看下gpt-oss-120b的效果，emmm...我都不好意思貼圖，如果不是我自己測出來的，我甚至會覺得我這是特意給OpenAI寫的黑稿

gpt-oss-120b

后面嘗試過幫gpt-oss-120b挽尊，又嘗試了幾次抽卡，但還是不行，事實確實就這么糟...

我仔細看了看gpt-oss-120b為我生成的html代碼，算是發現了一點問題所在：讓你給我寫代碼，你“...省略”是個怎么回事...

我的這份無語也省略了。

評測3：邏輯推理題

再測代碼問題的話，就是對OpenAI的不禮貌了...所以，我們還是跑點別的任務吧，比如邏輯推理。

背景：有五棟并排的房子，每棟房子的顏色都不同。每棟房子里都住著一個不同國籍的人。每個人都喝不同的飲料，抽不同品牌的雪茄，養不同的寵物。 已知條件： 
1. 英國人住在紅色的房子里。 
2. 瑞典人養狗。 
3. 丹麥人喝茶。 
4. 綠房子在白房子的正左邊。 
5. 綠房子的主人喝咖啡。 
6. 抽 Pall Mall 牌雪茄的人養鳥。 
7. 黃房子的主人抽 Dunhill 牌雪茄。 
8. 住在中間那棟房子里的人喝牛奶。 
9. 挪威人住在第一棟房子里。 
10. 抽 Blends 牌雪茄的人住在養貓的人旁邊。 
11. 養馬的人住在抽 Dunhill 牌雪茄的人旁邊。 
12. 抽 Bluemasters 牌雪茄的人喝啤酒。 
13. 德國人抽 Prince 牌雪茄。 
14. 挪威人住在藍色房子的旁邊。 
15. 抽 Blends 牌雪茄的人，他的鄰居喝水。 
問題：誰養魚？請展示你的推理過程。

在這個問題上，GLM-4.5-Air和gpt-oss-120b都給了我正確答案：德國人養魚

GLM-4.5-Air

gpt-oss-120b

不過整個過程中，gpt-oss-120b的思考速度讓我感覺是很快，我測了兩次，分別是思考了6秒鐘和36秒，而GLM-4.5-Air好像是想得有點過多和過于謹慎了，大概花了90秒才給出答案，所以這個問題就當是推理能力一致的情況下，gpt-oss-120b以速度優勢小勝吧。

通過上面的三組測試，我自己的感受是，gpt-oss-120b這個模型離開源模型的SOTA還有點距離，包括他們發出的benchmark分數也像吳恩達所說的，我們可能還需要再期待下第三方的公允測試才行。

以及，我自己不是技術出身，但是我的感覺是MoE架構的大模型，如果激活參數太少的話，做起依賴邏輯的數學、推理題可能問題不大，但是在知識的準確性上會出些問題，就像我們都知道的“大模型是互聯網知識的模糊壓縮”，參數量越小，壓縮率越高，所看見的知識也就越模糊。

所以，51億的激活參數給了gpt-oss-120b更快的推理速度，但犧牲的就是你所獲得結果的準確性，不管是代碼中一個開源圖片的索引鏈接，還是你想知道的關于這個世界的任何知識。

我很高興OpenAI進入開源模型領域攪局，我們有機會看到更激烈的開源大模型的“巔峰對決”，但是就這一刻來說，我不會把編程的任務交給gpt-oss-120b，或者交給任何的OpenAI模型。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.