Claude Opus 4.1、gpt-oss-120b、Google Genie 3,看到又蹦出的這一堆新模型你是不是要懵了...昨天可以說是AI領域的瘋狂星期三了。
我在凌晨一點看到Anthropic發布Claude Opus 4.1時還稍稍有點興奮,快速寫了這么篇介紹文章
寫完發布之后,看了眼X,發現糟了,寫早了。OpenAI又給我整出了gpt-oss-120b和gpt-oss-20b這兩個開源模型。
再到第二天一早醒來,看到Google發布世界模型Genie 3,我徹底感覺麻了...科技博主的命也是命啊,真寫不過來了。
不過,OpenAI這次的發布還是挺有意思,值得聊聊的:
一是這代表OpenAI再次Open了,gpt-oss是OpenAI時隔6年,繼GPT-2之后首次發布開源權重語言模型;
二是對LLM開源生態來說,本來開源模型的SOTA之爭早就成了中國的內部競爭,DeepSeek、Kimi、Qwen、智譜這幾家近期輪流坐上開源模型的頭把交椅,而OpenAI的入局還是給這場本來已經結束的戰爭增添了不少變數,開源SOTA模型似乎又要回到中美競爭的格局了。
01gpt-oss-120b到底怎么樣?
首先是參數規模。OpenAI的gpt-oss-120b擁有1170億總參數,其中每次推理僅激活51億參數,占比僅為4.4%。這種超稀疏的設計,使得gpt-oss-120b在處理結構化和嚴密邏輯任務時,推理效率和性能極其突出。
其次是架構設計上的獨特性。gpt-oss系列同樣采用了混合專家(MoE)架構,并原生支持MXFP4量化方案,用官方的話說是能夠高效地在 80G GPU的高性能電腦上運行?
Excuse me?80G?誰家好人家用的電腦能配一張英偉達H100 GPU呢
(外網的網友和我有同樣的疑問)
所以,對普通用戶來說,暫時就別想著在自己電腦上部署gpt-oss-120b了,老老實實等第三方平臺的API,或者使用OpenAI提供的體驗平臺去試試吧。
從公布的benchmark上,OpenAI的這個新開源模型在數學(AIME)、推理以及編程(Codeforces)上的能力比較強。但是就歷史情況來說,OpenAI模型的編程能力只停留在跑分中。
02gpt-oss-120b VS GLM-4.5-Air
所以,OpenAI這個新開源模型到底怎么樣,我覺得需要測一測。
尤其是,如果我們只把它放在開源模型的行列中,去和國產開源模型掰掰手腕,它會表現如何呢?我打算拿前幾天文章里介紹過的智譜最新的模型去做評測。
從公平性的角度看,我沒選智譜最強的總參數量達到3550億的模型GLM-4.5去做對比,而是拿了智譜更輕量級,參數量規模和gpt-oss-120b接近的GLM-4.5-Air,它同樣是MoE架構的混合專家模型,GLM-4.5-Air的參數規模略小一些,總參數1060億,每次激活參數是120億,占比達到11.3%。這個更高的激活比例,意味著GLM-4.5-Air在泛化能力和跨領域綜合表現上會更為出色,特別是在開放性任務,比如軟件開發、創意生成和多語言翻譯等場景。
注:由于都是開源模型,部署方式和API調用的系統提示詞似乎都會影響模型表現,所以為了保證評測的公平性,這兩個模型我都通過他們的官方網頁版直接使用:
1)gpt-oss-120b: https://gpt-oss.com/ Reasoning level選擇High的狀態
2)GLM-4.5-Air: https://chat.z.ai/ 打開“自動推理”,關閉“工具”中的全網搜索功能
評測1:物理邏輯模擬
我們先來試一個很經典的測試模型物理邏輯模擬能力的編程題,就是讓AI寫一個有20個小球在旋轉的六邊形中彈跳的python腳本,這個問題的提示詞風格和類型有很多,我自己調整迭代了個中文版本的,方便大家理解和復用
編寫一個 Python 程序,在一個旋轉的 六邊形內部模擬 20 個小球彈跳。
要求如下:
- 單個 Python 文件。
- 多邊形繞其中心勻速旋轉,每 5 秒旋轉 360°。
- 小球受重力和摩擦力影響。
- 實現碰撞檢測與響應:球與旋轉邊壁碰撞時,需考慮墻壁的運動,實現真實的反彈效果。球與球之間不發生彈性碰撞。
- 所有小球從多邊形中心初始化,半徑相同。
- 在起始狀態下,球從六邊形內部不同位置受重力影響開始下落
- 多邊形尺寸需足夠大以始終容納所有球。
- 模擬應保持大約 60 FPS 的流暢動畫。
- 代碼結構應模塊化、清晰、帶注釋。GLM-4.5-Air的效果如下
gpt-oss-120b的效果
GLM-4.5-Air勝,gpt-oss-120b有些很奇怪的表現,比如小球卡在多邊形的邊上,以及,小球會逐漸爆出,越蹦越少。測完這個任務,我已經開始對gpt-oss-120b怎么能在Codeforces跑出那么高分有疑問了。而接下來的一個任務對比,則可能會讓你大跌眼鏡。
評測2:用html創建原型
接下來,我們再試一個我很常用的讓模型生成app原型界面的任務,這個任務既可以測試模型的前端代碼撰寫能力,也能比較好的評估模型的設計審美。
因為這次不是在AI Coding工具中調用大模型,而是直接使用網頁版做單次生成,所以我簡單調整了下我的提示詞要求,只讓模型生成app首頁一個界面的設計
我想開發一個擁有播客、視頻、圖文等多種內容形式的社區app,現在需要輸出高保真的原型圖,請通過以下方式幫我完成app首頁的原型設計,并確保該原型界面可以直接用于開發:
1、用戶體驗分析:先分析這個 App 的主要功能和用戶需求,確定核心交互邏輯。
2、產品界面規劃:作為產品經理,定義關鍵界面,確保信息架構合理。
3、高保真 UI 設計:作為 UI 設計師,設計貼近真實 iOS/Android 設計規范的界面,使用現代化的 UI 元素,使其具有良好的視覺體驗。
4、HTML 原型實現:使用 HTML + Tailwind CSS(或 Bootstrap)生成所有原型界面,并使用 FontAwesome(或其他開源 UI 組件)讓界面更加精美、接近真實的 App 設計。
拆分代碼文件,保持結構清晰:
5、界面在單個html文件中呈現。
- 真實感增強:
- 界面尺寸應模擬 iPhone 15 Pro,并讓界面圓角化,使其更像真實的手機界面。
- 使用真實的 UI 圖片,而非占位符圖片(可從 Unsplash、Pexels、Apple 官方 UI 資源中選擇)。
- 添加頂部狀態欄(模擬 iOS 狀態欄),并包含 App 導航欄(類似 iOS 底部 Tab Bar)。
請按照以上要求生成完整的 HTML 代碼,并確保其可用于實際開發。先來看下GLM-4.5-Air的效果,不能說很驚艷,但很符合我預計,屬于中規中矩的設計風格,從Claude 4.0以來,比較頂尖的Coding模型大致都會有類似表現。
GLM-4.5-Air
再來看下gpt-oss-120b的效果,emmm...我都不好意思貼圖,如果不是我自己測出來的,我甚至會覺得我這是特意給OpenAI寫的黑稿
gpt-oss-120b
后面嘗試過幫gpt-oss-120b挽尊,又嘗試了幾次抽卡,但還是不行,事實確實就這么糟...
我仔細看了看gpt-oss-120b為我生成的html代碼,算是發現了一點問題所在:讓你給我寫代碼,你“...省略”是個怎么回事...
我的這份無語也省略了。
評測3:邏輯推理題
再測代碼問題的話,就是對OpenAI的不禮貌了...所以,我們還是跑點別的任務吧,比如邏輯推理。
背景:有五棟并排的房子,每棟房子的顏色都不同。每棟房子里都住著一個不同國籍的人。每個人都喝不同的飲料,抽不同品牌的雪茄,養不同的寵物。 已知條件:
1. 英國人住在紅色的房子里。
2. 瑞典人養狗。
3. 丹麥人喝茶。
4. 綠房子在白房子的正左邊。
5. 綠房子的主人喝咖啡。
6. 抽 Pall Mall 牌雪茄的人養鳥。
7. 黃房子的主人抽 Dunhill 牌雪茄。
8. 住在中間那棟房子里的人喝牛奶。
9. 挪威人住在第一棟房子里。
10. 抽 Blends 牌雪茄的人住在養貓的人旁邊。
11. 養馬的人住在抽 Dunhill 牌雪茄的人旁邊。
12. 抽 Bluemasters 牌雪茄的人喝啤酒。
13. 德國人抽 Prince 牌雪茄。
14. 挪威人住在藍色房子的旁邊。
15. 抽 Blends 牌雪茄的人,他的鄰居喝水。
問題:誰養魚?請展示你的推理過程。在這個問題上,GLM-4.5-Air和gpt-oss-120b都給了我正確答案:德國人養魚
GLM-4.5-Air
gpt-oss-120b
不過整個過程中,gpt-oss-120b的思考速度讓我感覺是很快,我測了兩次,分別是思考了6秒鐘和36秒,而GLM-4.5-Air好像是想得有點過多和過于謹慎了,大概花了90秒才給出答案,所以這個問題就當是推理能力一致的情況下,gpt-oss-120b以速度優勢小勝吧。
03
通過上面的三組測試,我自己的感受是,gpt-oss-120b這個模型離開源模型的SOTA還有點距離,包括他們發出的benchmark分數也像吳恩達所說的,我們可能還需要再期待下第三方的公允測試才行。
以及,我自己不是技術出身,但是我的感覺是MoE架構的大模型,如果激活參數太少的話,做起依賴邏輯的數學、推理題可能問題不大,但是在知識的準確性上會出些問題,就像我們都知道的“大模型是互聯網知識的模糊壓縮”,參數量越小,壓縮率越高,所看見的知識也就越模糊。
所以,51億的激活參數給了gpt-oss-120b更快的推理速度,但犧牲的就是你所獲得結果的準確性,不管是代碼中一個開源圖片的索引鏈接,還是你想知道的關于這個世界的任何知識。
我很高興OpenAI進入開源模型領域攪局,我們有機會看到更激烈的開源大模型的“巔峰對決”,但是就這一刻來說,我不會把編程的任務交給gpt-oss-120b,或者交給任何的OpenAI模型。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.