網易首頁 > 網易號 > 正文申請入駐

OpenAI 下場，國產開源還有機會嗎？從 gpt-oss 與 Qwen3/DS 的技術路線說起

2025-08-06 08:20:02　來源: 平凡AI

海外舉報

分享至

北京時間8月5日，OpenAI 終于發布了其自 GPT-2 以來的首個開源大模型 gpt-oss，整個技術圈瞬間沸騰。在眾多媒體和開發者涌向官方博客和性能榜單的同時，我更習慣直奔主題——扒開它在 Hugging Face 上公開的 config.json 配置文件，從最底層的技術架構，一探究竟。

這次時隔多年的“Open”，究竟是革命性的技術突破，還是現有技術的精巧組合？它與 Qwen3、Kimi K2 等國產開源大模型相比，在設計思路上有何本質不同？其實際體驗和可玩性又如何？

本文將從 【技術架構解析與對比】、【上手體驗與感悟】 和 【快速使用指南】 三個部分，為你帶來一份全面且深入的 gpt-oss 分析報告。

Part.01

開源技術分析和國內開源大模型對比

我第一時間去hugging face上扒了120B模型的config文件，也就是模型的描述文件，就想看看它這次時隔多年的開源，到底有沒有什么重磅內容。

這是詳細內容，layer_ types層是sliding_ attention和full_attention的交錯分布，所以省略了。

作為對比，這里放了Qwen3的結構。

先來看GPT oss的結構，MoE寫的明明白白了：GptOssForCausalLM，現在的大模型暫時還跑不出MoE這種結構范圍內，畢竟這種結構兼容了性能和速度，不二之選。

獨特的Attention交替排列

attention大家都用，傳統full attention，linear attnetion挺多，但是這種sliding_ attention和full_ attention交替排列的還是在開源大模型里面第一次見。

Qwen用的full_attention，剛剛看了下Kimi K2，也是full attention（繼承的DeepSeek R1結構），可以說這個交錯的attention使用或者應用，算是GPT oss一個獨創性的工作。

這種方式的直接效果就是極大的減少內容的使用，這也是120B可以放到單卡H100，20B消費級顯卡就可以使用的一個重要原因。

但是相比起full_attention，這種方式必定會減少一定程度的性能，但是至于是多少，得看更多的案例分析。

很稀疏的MoE + 路由器的強行均衡

num_local_experts: 128
experts_per_token: 4: 4

在其內部，每一層都設有128個“專家”網絡，但在處理任何一個任務時，系統只會智能地激活最相關的4位專家來協同工作。

但有一個細節，router_ aux_ loss_ coef: 0.9，解釋一下，比如有很多個專家，但是系統可能會抽風，那么就會老讓最熱門的幾個專家（比如數學和編程專家）干活，他們肯定會忙不過來，造成交通擁堵，針對這種可能性GPT oss定了一個非常嚴格的規矩（router_aux_loss_coef: 0.9）。這個規矩強制調度員必須公平地給各位專家分配任務，確保冷門的專家也能得到鍛煉，不會出現“旱的旱死，澇的澇死”的情況。

與此相比，Qwen3 模型在專家協作上則采用了截然不同的策略，它一次會激活 8位專家（是 gpt-oss 的兩倍），相當于為每個任務都組建一個更龐大的“專家小組”，理論上能調動的瞬時智慧更多。

更關鍵的是，它的“調度員”規則非常寬松（router_ aux_ loss_coef: 0.001），幾乎不干涉專家的選擇。這更像一個“自由市場”，允許最頂尖的專家處理絕大部分他們擅長的問題，從而可能在特定領域形成極強的專業優勢。

在這一點兒上，OpenAI非常的保守，它通過強有力的外部規則來保證系統的整體穩定和健康，相信一個泛化、均衡的系統是通往強大通用人工智能的更可靠路徑。

而國內的大多數開源大模型要激進一些，它相信通過賦予模型內部組件最大的自由，能夠涌現出更高效、更專業化的內部結構，從而沖擊更高的性能極限。

Context：128K

這個上下文并沒有很夸張，中規中矩，畢竟Gemini直接干到了100萬，kimi也是。

就是RoPE + YaRN，核心代碼就是這里，本來的4096個，翻了32倍，直接干到128K。

Qwen3沒用這個，不過在Kimi k2，也就是DeepSeek R1上找到了類似的用法。

區別就是factor和rope_theta。

但是相比起開源的早晚，DeepSeek很早就應用了這個技術并開源，功德更高。

詞表大小

只是列舉出區別，之前聽過有大佬說，這玩意也不是越大越好，但事實上GPT oss的詞表最大。

GPT oss：201088

Qwen3: 151936

Kimi k2: 129280

選擇性的量化

還是追求性能，應該就是要把模型塞進單卡里作為一個硬性約束，直接做了4bit的量化，不過在關鍵的部位依舊保持高精度。

DeepSeek也有類似的應用，不過比起4bit要柔和了不少，用的8bit。

Part.02

體驗效果分享和感悟

開源大模型從整體上暫時弱于閉源大模型。

這種弱幾乎是全方面的。

所以比較性能意義不大，之需要知道這個大模型還不錯，可以單卡運行即可。

要關注的是它的可玩性：

Apache 2.0 許可：可自由用于實驗、定制和商業部署。
可調的推理力度：可設為“低、中、高”三檔，以平衡延遲與性能。
完整的思維鏈：完全訪問模型的推理過程，便于調試和建立信任（不建議對終端用戶展示）。
可微調：支持參數微調，以完全適應特定業務。
原生智能體能力：內置函數調用、網頁瀏覽、代碼執行和結構化輸出能力。
原生 MXFP4 量化：訓練時自帶的量化精度，使120B模型能在單張H100上運行，20B模型僅需16GB內存。

我在OpenRouter上用20B的模型跟，Qwen3的30B，GLM4.5 Air和Kimi K2做了對比實驗。

結果粗看大家性能都差不太多，GLM4.5 Air成功的破解了問題里預設的“雞蛋陷阱”，而GPT oss結果有點兒小問題，還是比較低級的計算問題，kimi k2發現了雞蛋陷阱，但是方法采用的是假設法，不是很理想。Qwen3也有點兒小問題，那就是最開始的時候竟然沒有區分公斤和斤，在做了提示之后沒什么問題，也避開了陷阱。

Part.03

使用方法介紹

OpenAI建議通過Huggingface使用：https://huggingface.co/openai/gpt-oss-120b

其中OpenAI提供了免費玩的地方：

本地玩玩的話，推薦用Ollama，連代碼都不用運行，直接一鍵激活下載功能。

有老哥在M1 ultra上測試了，token速度還可以。

最后，開源這個模型，對于OpenAI來說很重要，因為終于它Open了一把，但是對于整個開源大模型社區，意義不是特別大，只是現有技術的組合應用，相信很快會有基于GPT oss的二創。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.