<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      OpenAI 下場,國產開源還有機會嗎?從 gpt-oss 與 Qwen3/DS 的技術路線說起

      0
      分享至

      北京時間8月5日,OpenAI 終于發布了其自 GPT-2 以來的首個開源大模型 gpt-oss,整個技術圈瞬間沸騰。在眾多媒體和開發者涌向官方博客和性能榜單的同時,我更習慣直奔主題——扒開它在 Hugging Face 上公開的 config.json 配置文件,從最底層的技術架構,一探究竟。

      這次時隔多年的“Open”,究竟是革命性的技術突破,還是現有技術的精巧組合?它與 Qwen3、Kimi K2 等國產開源大模型相比,在設計思路上有何本質不同?其實際體驗和可玩性又如何?

      本文將從 【技術架構解析與對比】【上手體驗與感悟】【快速使用指南】 三個部分,為你帶來一份全面且深入的 gpt-oss 分析報告。

      Part.01

      開源技術分析和國內開源大模型對比

      我第一時間去hugging face上扒了120B模型的config文件,也就是模型的描述文件,就想看看它這次時隔多年的開源,到底有沒有什么重磅內容。

      這是詳細內容,layer_ types層是sliding_ attention和full_attention的交錯分布,所以省略了。

      作為對比,這里放了Qwen3的結構。

      先來看GPT oss的結構,MoE寫的明明白白了:GptOssForCausalLM,現在的大模型暫時還跑不出MoE這種結構范圍內,畢竟這種結構兼容了性能和速度,不二之選。

      獨特的Attention交替排列

      attention大家都用,傳統full attention,linear attnetion挺多,但是這種sliding_ attention和full_ attention交替排列的還是在開源大模型里面第一次見。

      Qwen用的full_attention,剛剛看了下Kimi K2,也是full attention(繼承的DeepSeek R1結構),可以說這個交錯的attention使用或者應用,算是GPT oss一個獨創性的工作。

      這種方式的直接效果就是極大的減少內容的使用,這也是120B可以放到單卡H100,20B消費級顯卡就可以使用的一個重要原因。

      但是相比起full_attention,這種方式必定會減少一定程度的性能,但是至于是多少,得看更多的案例分析。

      很稀疏的MoE + 路由器的強行均衡

      num_local_experts: 128
      experts_per_token: 4: 4

      在其內部,每一層都設有128個“專家”網絡,但在處理任何一個任務時,系統只會智能地激活最相關的4位專家來協同工作。

      但有一個細節,router_ aux_ loss_ coef: 0.9,解釋一下,比如有很多個專家,但是系統可能會抽風,那么就會老讓最熱門的幾個專家(比如數學和編程專家)干活,他們肯定會忙不過來,造成交通擁堵,針對這種可能性GPT oss定了一個非常嚴格的規矩(router_aux_loss_coef: 0.9)。這個規矩強制調度員必須公平地給各位專家分配任務,確保冷門的專家也能得到鍛煉,不會出現“旱的旱死,澇的澇死”的情況。

      與此相比,Qwen3 模型在專家協作上則采用了截然不同的策略,它一次會激活 8位專家(是 gpt-oss 的兩倍),相當于為每個任務都組建一個更龐大的“專家小組”,理論上能調動的瞬時智慧更多。

      更關鍵的是,它的“調度員”規則非常寬松(router_ aux_ loss_coef: 0.001),幾乎不干涉專家的選擇。這更像一個“自由市場”,允許最頂尖的專家處理絕大部分他們擅長的問題,從而可能在特定領域形成極強的專業優勢。

      在這一點兒上,OpenAI非常的保守,它通過強有力的外部規則來保證系統的整體穩定和健康,相信一個泛化、均衡的系統是通往強大通用人工智能的更可靠路徑。

      而國內的大多數開源大模型要激進一些,它相信通過賦予模型內部組件最大的自由,能夠涌現出更高效、更專業化的內部結構,從而沖擊更高的性能極限。

      Context:128K

      這個上下文并沒有很夸張,中規中矩,畢竟Gemini直接干到了100萬,kimi也是。

      就是RoPE + YaRN,核心代碼就是這里,本來的4096個,翻了32倍,直接干到128K。

      Qwen3沒用這個,不過在Kimi k2,也就是DeepSeek R1上找到了類似的用法。

      區別就是factor和rope_theta。

      但是相比起開源的早晚,DeepSeek很早就應用了這個技術并開源,功德更高。

      詞表大小

      只是列舉出區別,之前聽過有大佬說,這玩意也不是越大越好,但事實上GPT oss的詞表最大。

      GPT oss:201088

      Qwen3: 151936

      Kimi k2: 129280

      選擇性的量化

      還是追求性能,應該就是要把模型塞進單卡里作為一個硬性約束,直接做了4bit的量化,不過在關鍵的部位依舊保持高精度。

      DeepSeek也有類似的應用,不過比起4bit要柔和了不少,用的8bit。

      Part.02

      體驗效果分享和感悟

      開源大模型從整體上暫時弱于閉源大模型。

      這種弱幾乎是全方面的。

      所以比較性能意義不大,之需要知道這個大模型還不錯,可以單卡運行即可。

      要關注的是它的可玩性:

      • Apache 2.0 許可:可自由用于實驗、定制和商業部署。

      • 可調的推理力度:可設為“低、中、高”三檔,以平衡延遲與性能。

      • 完整的思維鏈:完全訪問模型的推理過程,便于調試和建立信任(不建議對終端用戶展示)。

      • 可微調:支持參數微調,以完全適應特定業務。

      • 原生智能體能力:內置函數調用、網頁瀏覽、代碼執行和結構化輸出能力。

      • 原生 MXFP4 量化:訓練時自帶的量化精度,使120B模型能在單張H100上運行,20B模型僅需16GB內存。

      我在OpenRouter上用20B的模型跟,Qwen3的30B,GLM4.5 Air和Kimi K2做了對比實驗。

      結果粗看大家性能都差不太多,GLM4.5 Air成功的破解了問題里預設的“雞蛋陷阱”,而GPT oss結果有點兒小問題,還是比較低級的計算問題,kimi k2發現了雞蛋陷阱,但是方法采用的是假設法,不是很理想。Qwen3也有點兒小問題,那就是最開始的時候竟然沒有區分公斤和斤,在做了提示之后沒什么問題,也避開了陷阱。

      Part.03

      使用方法介紹

      OpenAI建議通過Huggingface使用:https://huggingface.co/openai/gpt-oss-120b

      其中OpenAI提供了免費玩的地方:

      本地玩玩的話,推薦用Ollama,連代碼都不用運行,直接一鍵激活下載功能。

      有老哥在M1 ultra上測試了,token速度還可以。

      最后,開源這個模型,對于OpenAI來說很重要,因為終于它Open了一把,但是對于整個開源大模型社區,意義不是特別大,只是現有技術的組合應用,相信很快會有基于GPT oss的二創。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      老婆是語文老師,校長天天找她麻煩,那天我去接她,校長當場傻眼

      老婆是語文老師,校長天天找她麻煩,那天我去接她,校長當場傻眼

      千秋文化
      2025-12-24 22:35:39
      詹俊:曼聯節禮日上演小鬼當家,表現最突出的是海文

      詹俊:曼聯節禮日上演小鬼當家,表現最突出的是海文

      懂球帝
      2025-12-27 06:49:03
      王俊凱自從不火之后,好像面相都變了!近照曝光,眼袋腫沒精神氣

      王俊凱自從不火之后,好像面相都變了!近照曝光,眼袋腫沒精神氣

      小娛樂悠悠
      2025-12-27 08:59:35
      王欣瑜談擊敗斯瓦泰克:我今天運氣太好了,確實非常開心

      王欣瑜談擊敗斯瓦泰克:我今天運氣太好了,確實非常開心

      畫夕
      2025-12-27 14:03:08
      李詠妻子哈文在美國過圣誕!吃全聚德烤鴨,調侃自己過成了中國年

      李詠妻子哈文在美國過圣誕!吃全聚德烤鴨,調侃自己過成了中國年

      娛樂圈圈圓
      2025-12-27 10:37:31
      幸虧中國沒中標!泰國高鐵選擇日本人建設,建成后讓泰國欲哭無淚

      幸虧中國沒中標!泰國高鐵選擇日本人建設,建成后讓泰國欲哭無淚

      王姐懶人家常菜
      2025-12-27 11:05:11
      以前只覺得卡拉斯就是單純的壞,現在才發現她是真的就是愚蠢罷了

      以前只覺得卡拉斯就是單純的壞,現在才發現她是真的就是愚蠢罷了

      達文西看世界
      2025-12-26 17:03:55
      告別冠軍后腰茹薩,上海海港要如何補強中場

      告別冠軍后腰茹薩,上海海港要如何補強中場

      米奇兔
      2025-12-26 19:35:04
      大家都看走眼了:最愛享受的泰王,居然相當精通權謀

      大家都看走眼了:最愛享受的泰王,居然相當精通權謀

      黃娜老師
      2025-12-27 01:28:41
      “客廳5不放,子孫一直旺”:不管房子多大,這些東西趕緊請出去

      “客廳5不放,子孫一直旺”:不管房子多大,這些東西趕緊請出去

      阿離家居
      2025-12-26 16:06:39
      收臺時機到了?中國油輪被扣,可對等反制,直接扣押美售臺軍火?

      收臺時機到了?中國油輪被扣,可對等反制,直接扣押美售臺軍火?

      墨印齋
      2025-12-26 16:27:53
      胖東來13.8萬喬丹球衣被曝買走,網友稱這個價格算是撿漏

      胖東來13.8萬喬丹球衣被曝買走,網友稱這個價格算是撿漏

      映射生活的身影
      2025-12-26 18:52:10
      炸裂?曝皇馬已決定出售1.5億帝星:僅標價1億歐 17場0球坑慘佛爺

      炸裂?曝皇馬已決定出售1.5億帝星:僅標價1億歐 17場0球坑慘佛爺

      風過鄉
      2025-12-27 08:20:37
      民族英雄從課本移除,“民族英雄”卻受到吹捧,這事該反思嗎

      民族英雄從課本移除,“民族英雄”卻受到吹捧,這事該反思嗎

      何氽簡史
      2025-12-27 13:45:11
      前NBA教練:東契奇打不了無球,但庫里總在積極無球跑動和空切

      前NBA教練:東契奇打不了無球,但庫里總在積極無球跑動和空切

      懂球帝
      2025-12-27 13:49:28
      藏不住了 徐湖平2位“貴人”浮出水面 多個情人 龐家曝發票造假鐵證

      藏不住了 徐湖平2位“貴人”浮出水面 多個情人 龐家曝發票造假鐵證

      寒律
      2025-12-27 09:18:58
      廣東宏遠今日早報!徐杰最新傷情,朱芳雨深夜發聲,挖出最大水貨

      廣東宏遠今日早報!徐杰最新傷情,朱芳雨深夜發聲,挖出最大水貨

      多特體育說
      2025-12-27 07:40:03
      住院5天點了48頓VIP餐,男子續保被拒,一家三口想換其他保險公司也被風控;保險公司回應:該產品不保證續保

      住院5天點了48頓VIP餐,男子續保被拒,一家三口想換其他保險公司也被風控;保險公司回應:該產品不保證續保

      揚子晚報
      2025-12-26 12:36:59
      上甘嶺的戰報傳到臺灣,蔣介石看完后久久沉默,在日記里如此評價

      上甘嶺的戰報傳到臺灣,蔣介石看完后久久沉默,在日記里如此評價

      古書記史
      2025-12-24 20:22:16
      帶走82歲南博原院長徐湖平法律很尷尬

      帶走82歲南博原院長徐湖平法律很尷尬

      觀星賞月
      2025-12-27 08:54:47
      2025-12-27 14:59:00
      平凡AI incentive-icons
      平凡AI
      高校AI從業者
      54文章數 23關注度
      往期回顧 全部

      科技要聞

      小米也漲價了!業界稱終端再不漲明年必虧

      頭條要聞

      牛彈琴:賠了夫人又折兵 尹錫悅活成世界的一個大笑話

      頭條要聞

      牛彈琴:賠了夫人又折兵 尹錫悅活成世界的一個大笑話

      體育要聞

      NBA教練圈的布朗尼,花了22年證明自己

      娛樂要聞

      劉宇寧:我的價值不需要靠番位來證明

      財經要聞

      注意,開始拉物價了!

      汽車要聞

      好音響比大屏更重要?車企開始“聽”用戶的

      態度原創

      游戲
      親子
      手機
      公開課
      軍事航空

      《死亡森林》重制版登陸Switch 經典恐怖冒險

      親子要聞

      幼兒園老師帶隊闖進我家蘭花圃,拔走名貴品種,美其名:上自然課

      手機要聞

      小米三件大事,vivo國產第一,榮耀新機賣爆

      公開課

      李玫瑾:為什么性格比能力更重要?

      軍事要聞

      英法德三國領導人通話 重申對烏支持

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 亚洲男人皇宫| 日日摸天天爽天天爽视频| 浏阳市| 精品九九在线| 国内精品熟女亚洲精品熟女| 熟妇人妻av中文字幕老熟妇| 女人被狂躁到高潮视频免费软件 | 久久亚洲视频| 亚洲日韩在线中文字幕| 亚洲人成网站观看在线观看| 美女黄网站人色视频免费国产| 精品无码国产不卡在线观看| 亚洲精品一区| 日韩欧美的偷拍?一区二区| 中文字幕无码Av在线看| 国产一级真人做受| AV无码中文| 日本色导航| 亚洲中文天堂| 欧洲码亚洲码的区别入口| 狠狠色婷婷久久综合频道日韩 | 亚洲AV网一区二区三区| 亚洲精品久久久久久久久久吃药| 人妻人人摸| 无码久久久久久| 丰满熟妇高潮一二三区| 正在播放:?37岁大奶美人妻打开双腿狂舔黑鲍鱼! | 97se亚洲国产综合自在线观看| 久久97| 超碰w| 久久99人妻无码精品一区| 欧美福利导航| 欧美xb| 免费av网站| 久久发布国产伦子伦精品| 美女综合网| 欧美啪啪视频| A级毛片18以上观看视频免费| 亚洲熟女視頻| 精品国产国产2021| www免费视频|