北京時間8月5日,OpenAI 終于發布了其自 GPT-2 以來的首個開源大模型 gpt-oss,整個技術圈瞬間沸騰。在眾多媒體和開發者涌向官方博客和性能榜單的同時,我更習慣直奔主題——扒開它在 Hugging Face 上公開的 config.json 配置文件,從最底層的技術架構,一探究竟。
這次時隔多年的“Open”,究竟是革命性的技術突破,還是現有技術的精巧組合?它與 Qwen3、Kimi K2 等國產開源大模型相比,在設計思路上有何本質不同?其實際體驗和可玩性又如何?
本文將從 【技術架構解析與對比】、【上手體驗與感悟】 和 【快速使用指南】 三個部分,為你帶來一份全面且深入的 gpt-oss 分析報告。
Part.01
開源技術分析和國內開源大模型對比
我第一時間去hugging face上扒了120B模型的config文件,也就是模型的描述文件,就想看看它這次時隔多年的開源,到底有沒有什么重磅內容。
這是詳細內容,layer_ types層是sliding_ attention和full_attention的交錯分布,所以省略了。
作為對比,這里放了Qwen3的結構。
先來看GPT oss的結構,MoE寫的明明白白了:GptOssForCausalLM,現在的大模型暫時還跑不出MoE這種結構范圍內,畢竟這種結構兼容了性能和速度,不二之選。
獨特的Attention交替排列
attention大家都用,傳統full attention,linear attnetion挺多,但是這種sliding_ attention和full_ attention交替排列的還是在開源大模型里面第一次見。
Qwen用的full_attention,剛剛看了下Kimi K2,也是full attention(繼承的DeepSeek R1結構),可以說這個交錯的attention使用或者應用,算是GPT oss一個獨創性的工作。
這種方式的直接效果就是極大的減少內容的使用,這也是120B可以放到單卡H100,20B消費級顯卡就可以使用的一個重要原因。
但是相比起full_attention,這種方式必定會減少一定程度的性能,但是至于是多少,得看更多的案例分析。
很稀疏的MoE + 路由器的強行均衡
num_local_experts: 128
experts_per_token: 4: 4在其內部,每一層都設有128個“專家”網絡,但在處理任何一個任務時,系統只會智能地激活最相關的4位專家來協同工作。
但有一個細節,router_ aux_ loss_ coef: 0.9,解釋一下,比如有很多個專家,但是系統可能會抽風,那么就會老讓最熱門的幾個專家(比如數學和編程專家)干活,他們肯定會忙不過來,造成交通擁堵,針對這種可能性GPT oss定了一個非常嚴格的規矩(router_aux_loss_coef: 0.9)。這個規矩強制調度員必須公平地給各位專家分配任務,確保冷門的專家也能得到鍛煉,不會出現“旱的旱死,澇的澇死”的情況。
與此相比,Qwen3 模型在專家協作上則采用了截然不同的策略,它一次會激活 8位專家(是 gpt-oss 的兩倍),相當于為每個任務都組建一個更龐大的“專家小組”,理論上能調動的瞬時智慧更多。
更關鍵的是,它的“調度員”規則非常寬松(router_ aux_ loss_coef: 0.001),幾乎不干涉專家的選擇。這更像一個“自由市場”,允許最頂尖的專家處理絕大部分他們擅長的問題,從而可能在特定領域形成極強的專業優勢。
在這一點兒上,OpenAI非常的保守,它通過強有力的外部規則來保證系統的整體穩定和健康,相信一個泛化、均衡的系統是通往強大通用人工智能的更可靠路徑。
而國內的大多數開源大模型要激進一些,它相信通過賦予模型內部組件最大的自由,能夠涌現出更高效、更專業化的內部結構,從而沖擊更高的性能極限。
Context:128K
這個上下文并沒有很夸張,中規中矩,畢竟Gemini直接干到了100萬,kimi也是。
就是RoPE + YaRN,核心代碼就是這里,本來的4096個,翻了32倍,直接干到128K。
Qwen3沒用這個,不過在Kimi k2,也就是DeepSeek R1上找到了類似的用法。
區別就是factor和rope_theta。
但是相比起開源的早晚,DeepSeek很早就應用了這個技術并開源,功德更高。
詞表大小
只是列舉出區別,之前聽過有大佬說,這玩意也不是越大越好,但事實上GPT oss的詞表最大。
GPT oss:201088
Qwen3: 151936
Kimi k2: 129280
選擇性的量化
還是追求性能,應該就是要把模型塞進單卡里作為一個硬性約束,直接做了4bit的量化,不過在關鍵的部位依舊保持高精度。
DeepSeek也有類似的應用,不過比起4bit要柔和了不少,用的8bit。
Part.02
體驗效果分享和感悟
開源大模型從整體上暫時弱于閉源大模型。
這種弱幾乎是全方面的。
所以比較性能意義不大,之需要知道這個大模型還不錯,可以單卡運行即可。
要關注的是它的可玩性:
Apache 2.0 許可:可自由用于實驗、定制和商業部署。
可調的推理力度:可設為“低、中、高”三檔,以平衡延遲與性能。
完整的思維鏈:完全訪問模型的推理過程,便于調試和建立信任(不建議對終端用戶展示)。
可微調:支持參數微調,以完全適應特定業務。
原生智能體能力:內置函數調用、網頁瀏覽、代碼執行和結構化輸出能力。
原生 MXFP4 量化:訓練時自帶的量化精度,使120B模型能在單張H100上運行,20B模型僅需16GB內存。
我在OpenRouter上用20B的模型跟,Qwen3的30B,GLM4.5 Air和Kimi K2做了對比實驗。
結果粗看大家性能都差不太多,GLM4.5 Air成功的破解了問題里預設的“雞蛋陷阱”,而GPT oss結果有點兒小問題,還是比較低級的計算問題,kimi k2發現了雞蛋陷阱,但是方法采用的是假設法,不是很理想。Qwen3也有點兒小問題,那就是最開始的時候竟然沒有區分公斤和斤,在做了提示之后沒什么問題,也避開了陷阱。
Part.03
使用方法介紹
OpenAI建議通過Huggingface使用:https://huggingface.co/openai/gpt-oss-120b
其中OpenAI提供了免費玩的地方:
本地玩玩的話,推薦用Ollama,連代碼都不用運行,直接一鍵激活下載功能。
有老哥在M1 ultra上測試了,token速度還可以。
最后,開源這個模型,對于OpenAI來說很重要,因為終于它Open了一把,但是對于整個開源大模型社區,意義不是特別大,只是現有技術的組合應用,相信很快會有基于GPT oss的二創。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.