<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      OpenAI新模型gpt-oss-120b怎么樣?三大場景實測首發(對比GLM-4.5-Air)

      0
      分享至

      Claude Opus 4.1、gpt-oss-120b、Google Genie 3,看到又蹦出的這一堆新模型你是不是要懵了...昨天可以說是AI領域的瘋狂星期三了。

      我在凌晨一點看到Anthropic發布Claude Opus 4.1時還稍稍有點興奮,快速寫了這么篇介紹文章

      寫完發布之后,看了眼X,發現糟了,寫早了。OpenAI又給我整出了gpt-oss-120b和gpt-oss-20b這兩個開源模型。

      再到第二天一早醒來,看到Google發布世界模型Genie 3,我徹底感覺麻了...科技博主的命也是命啊,真寫不過來了。

      不過,OpenAI這次的發布還是挺有意思,值得聊聊的:

      一是這代表OpenAI再次Open了,gpt-oss是OpenAI時隔6年,繼GPT-2之后首次發布開源權重語言模型;

      二是對LLM開源生態來說,本來開源模型的SOTA之爭早就成了中國的內部競爭,DeepSeek、Kimi、Qwen、智譜這幾家近期輪流坐上開源模型的頭把交椅,而OpenAI的入局還是給這場本來已經結束的戰爭增添了不少變數,開源SOTA模型似乎又要回到中美競爭的格局了。

      01gpt-oss-120b到底怎么樣?

      首先是參數規模。OpenAI的gpt-oss-120b擁有1170億總參數,其中每次推理僅激活51億參數,占比僅為4.4%。這種超稀疏的設計,使得gpt-oss-120b在處理結構化和嚴密邏輯任務時,推理效率和性能極其突出。

      其次是架構設計上的獨特性。gpt-oss系列同樣采用了混合專家(MoE)架構,并原生支持MXFP4量化方案,用官方的話說是能夠高效地在 80G GPU的高性能電腦上運行?

      Excuse me?80G?誰家好人家用的電腦能配一張英偉達H100 GPU呢

      (外網的網友和我有同樣的疑問)

      所以,對普通用戶來說,暫時就別想著在自己電腦上部署gpt-oss-120b了,老老實實等第三方平臺的API,或者使用OpenAI提供的體驗平臺去試試吧。

      從公布的benchmark上,OpenAI的這個新開源模型在數學(AIME)、推理以及編程(Codeforces)上的能力比較強。但是就歷史情況來說,OpenAI模型的編程能力只停留在跑分中。

      02gpt-oss-120b VS GLM-4.5-Air

      所以,OpenAI這個新開源模型到底怎么樣,我覺得需要測一測。

      尤其是,如果我們只把它放在開源模型的行列中,去和國產開源模型掰掰手腕,它會表現如何呢?我打算拿前幾天文章里介紹過的智譜最新的模型去做評測。

      從公平性的角度看,我沒選智譜最強的總參數量達到3550億的模型GLM-4.5去做對比,而是拿了智譜更輕量級,參數量規模和gpt-oss-120b接近的GLM-4.5-Air,它同樣是MoE架構的混合專家模型,GLM-4.5-Air的參數規模略小一些,總參數1060億,每次激活參數是120億,占比達到11.3%。這個更高的激活比例,意味著GLM-4.5-Air在泛化能力和跨領域綜合表現上會更為出色,特別是在開放性任務,比如軟件開發、創意生成和多語言翻譯等場景。

      注:由于都是開源模型,部署方式和API調用的系統提示詞似乎都會影響模型表現,所以為了保證評測的公平性,這兩個模型我都通過他們的官方網頁版直接使用:

      1)gpt-oss-120b: https://gpt-oss.com/ Reasoning level選擇High的狀態

      2)GLM-4.5-Air: https://chat.z.ai/ 打開“自動推理”,關閉“工具”中的全網搜索功能

      評測1:物理邏輯模擬

      我們先來試一個很經典的測試模型物理邏輯模擬能力的編程題,就是讓AI寫一個有20個小球在旋轉的六邊形中彈跳的python腳本,這個問題的提示詞風格和類型有很多,我自己調整迭代了個中文版本的,方便大家理解和復用

      編寫一個 Python 程序,在一個旋轉的 六邊形內部模擬 20 個小球彈跳。
      要求如下:
      - 單個 Python 文件。
      - 多邊形繞其中心勻速旋轉,每 5 秒旋轉 360°。
      - 小球受重力和摩擦力影響。
      - 實現碰撞檢測與響應:球與旋轉邊壁碰撞時,需考慮墻壁的運動,實現真實的反彈效果。球與球之間不發生彈性碰撞。
      - 所有小球從多邊形中心初始化,半徑相同。
      - 在起始狀態下,球從六邊形內部不同位置受重力影響開始下落
      - 多邊形尺寸需足夠大以始終容納所有球。
      - 模擬應保持大約 60 FPS 的流暢動畫。
      - 代碼結構應模塊化、清晰、帶注釋。

      GLM-4.5-Air的效果如下

      gpt-oss-120b的效果

      GLM-4.5-Air勝,gpt-oss-120b有些很奇怪的表現,比如小球卡在多邊形的邊上,以及,小球會逐漸爆出,越蹦越少。測完這個任務,我已經開始對gpt-oss-120b怎么能在Codeforces跑出那么高分有疑問了。而接下來的一個任務對比,則可能會讓你大跌眼鏡。

      評測2:用html創建原型

      接下來,我們再試一個我很常用的讓模型生成app原型界面的任務,這個任務既可以測試模型的前端代碼撰寫能力,也能比較好的評估模型的設計審美。

      因為這次不是在AI Coding工具中調用大模型,而是直接使用網頁版做單次生成,所以我簡單調整了下我的提示詞要求,只讓模型生成app首頁一個界面的設計

      我想開發一個擁有播客、視頻、圖文等多種內容形式的社區app,現在需要輸出高保真的原型圖,請通過以下方式幫我完成app首頁的原型設計,并確保該原型界面可以直接用于開發:
      1、用戶體驗分析:先分析這個 App 的主要功能和用戶需求,確定核心交互邏輯。
      2、產品界面規劃:作為產品經理,定義關鍵界面,確保信息架構合理。
      3、高保真 UI 設計:作為 UI 設計師,設計貼近真實 iOS/Android 設計規范的界面,使用現代化的 UI 元素,使其具有良好的視覺體驗。
      4、HTML 原型實現:使用 HTML + Tailwind CSS(或 Bootstrap)生成所有原型界面,并使用 FontAwesome(或其他開源 UI 組件)讓界面更加精美、接近真實的 App 設計。
      拆分代碼文件,保持結構清晰:
      5、界面在單個html文件中呈現。
      - 真實感增強:
        - 界面尺寸應模擬 iPhone 15 Pro,并讓界面圓角化,使其更像真實的手機界面。
        - 使用真實的 UI 圖片,而非占位符圖片(可從 Unsplash、Pexels、Apple 官方 UI 資源中選擇)。
        - 添加頂部狀態欄(模擬 iOS 狀態欄),并包含 App 導航欄(類似 iOS 底部 Tab Bar)。
      請按照以上要求生成完整的 HTML 代碼,并確保其可用于實際開發。

      先來看下GLM-4.5-Air的效果,不能說很驚艷,但很符合我預計,屬于中規中矩的設計風格,從Claude 4.0以來,比較頂尖的Coding模型大致都會有類似表現。

      GLM-4.5-Air

      再來看下gpt-oss-120b的效果,emmm...我都不好意思貼圖,如果不是我自己測出來的,我甚至會覺得我這是特意給OpenAI寫的黑稿

      gpt-oss-120b

      后面嘗試過幫gpt-oss-120b挽尊,又嘗試了幾次抽卡,但還是不行,事實確實就這么糟...

      我仔細看了看gpt-oss-120b為我生成的html代碼,算是發現了一點問題所在:讓你給我寫代碼,你“...省略”是個怎么回事...

      我的這份無語也省略了。

      評測3:邏輯推理題

      再測代碼問題的話,就是對OpenAI的不禮貌了...所以,我們還是跑點別的任務吧,比如邏輯推理。

      背景:有五棟并排的房子,每棟房子的顏色都不同。每棟房子里都住著一個不同國籍的人。每個人都喝不同的飲料,抽不同品牌的雪茄,養不同的寵物。 已知條件: 
      1. 英國人住在紅色的房子里。 
      2. 瑞典人養狗。 
      3. 丹麥人喝茶。 
      4. 綠房子在白房子的正左邊。 
      5. 綠房子的主人喝咖啡。 
      6. 抽 Pall Mall 牌雪茄的人養鳥。 
      7. 黃房子的主人抽 Dunhill 牌雪茄。 
      8. 住在中間那棟房子里的人喝牛奶。 
      9. 挪威人住在第一棟房子里。 
      10. 抽 Blends 牌雪茄的人住在養貓的人旁邊。 
      11. 養馬的人住在抽 Dunhill 牌雪茄的人旁邊。 
      12. 抽 Bluemasters 牌雪茄的人喝啤酒。 
      13. 德國人抽 Prince 牌雪茄。 
      14. 挪威人住在藍色房子的旁邊。 
      15. 抽 Blends 牌雪茄的人,他的鄰居喝水。 
      問題:誰養魚?請展示你的推理過程。

      在這個問題上,GLM-4.5-Air和gpt-oss-120b都給了我正確答案:德國人養魚

      GLM-4.5-Air

      gpt-oss-120b

      不過整個過程中,gpt-oss-120b的思考速度讓我感覺是很快,我測了兩次,分別是思考了6秒鐘和36秒,而GLM-4.5-Air好像是想得有點過多和過于謹慎了,大概花了90秒才給出答案,所以這個問題就當是推理能力一致的情況下,gpt-oss-120b以速度優勢小勝吧。

      03

      通過上面的三組測試,我自己的感受是,gpt-oss-120b這個模型離開源模型的SOTA還有點距離,包括他們發出的benchmark分數也像吳恩達所說的,我們可能還需要再期待下第三方的公允測試才行。

      以及,我自己不是技術出身,但是我的感覺是MoE架構的大模型,如果激活參數太少的話,做起依賴邏輯的數學、推理題可能問題不大,但是在知識的準確性上會出些問題,就像我們都知道的“大模型是互聯網知識的模糊壓縮”,參數量越小,壓縮率越高,所看見的知識也就越模糊。

      所以,51億的激活參數給了gpt-oss-120b更快的推理速度,但犧牲的就是你所獲得結果的準確性,不管是代碼中一個開源圖片的索引鏈接,還是你想知道的關于這個世界的任何知識。

      我很高興OpenAI進入開源模型領域攪局,我們有機會看到更激烈的開源大模型的“巔峰對決”,但是就這一刻來說,我不會把編程的任務交給gpt-oss-120b,或者交給任何的OpenAI模型。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      腦梗跟戴帽子有關?醫生警告:60歲后,天冷要注意這3件事

      腦梗跟戴帽子有關?醫生警告:60歲后,天冷要注意這3件事

      看世界的人
      2025-11-26 10:05:37
      快扔掉!戴一天,輻射量相當于拍117次胸片

      快扔掉!戴一天,輻射量相當于拍117次胸片

      FM93浙江交通之聲
      2025-10-28 00:01:43
      每體:弗拉霍維奇曾被推薦給巴薩,但球員即將和米蘭達成協議

      每體:弗拉霍維奇曾被推薦給巴薩,但球員即將和米蘭達成協議

      懂球帝
      2025-12-15 01:14:12
      又要交易?二年級的克內克特,表現什么水平?

      又要交易?二年級的克內克特,表現什么水平?

      籃球實錄
      2025-12-14 23:39:55
      山東醫院十強曝光,濟南霸占四席!

      山東醫院十強曝光,濟南霸占四席!

      醫脈圈
      2025-12-14 20:05:07
      錢再多有啥用?鞏俐帶77歲老公回北京,雪中騎一輛車,笑容藏不住

      錢再多有啥用?鞏俐帶77歲老公回北京,雪中騎一輛車,笑容藏不住

      洲洲影視娛評
      2025-12-13 19:57:10
      情況突變,大批售臺軍火被扣押,美軍敗局已定,賴清德輸了個精光

      情況突變,大批售臺軍火被扣押,美軍敗局已定,賴清德輸了個精光

      影孖看世界
      2025-12-13 20:33:48
      新華社快訊:悉尼槍擊事件一名槍手身份已確認

      新華社快訊:悉尼槍擊事件一名槍手身份已確認

      新華社
      2025-12-14 18:45:18
      祝賀!42歲尼格買提高調迎喜訊,央媒親自發文,看來撒貝寧說對了

      祝賀!42歲尼格買提高調迎喜訊,央媒親自發文,看來撒貝寧說對了

      小椰的奶奶
      2025-12-12 06:47:16
      趙心童領銜雷佩凡衛冕,中國17人爭奪冠軍

      趙心童領銜雷佩凡衛冕,中國17人爭奪冠軍

      郭夷包工頭
      2025-12-15 05:42:22
      眉骨縫了三針!徐杰更新社媒報平安:“新賽季 為廣東而戰”

      眉骨縫了三針!徐杰更新社媒報平安:“新賽季 為廣東而戰”

      狼叔評論
      2025-12-15 01:10:11
      92歲老人收藏的1982年全新奔馳500SL

      92歲老人收藏的1982年全新奔馳500SL

      MOTO
      2025-11-11 17:11:34
      美國議員直言:讓烏克蘭割地,像1938年的慕尼黑協定

      美國議員直言:讓烏克蘭割地,像1938年的慕尼黑協定

      桂系007
      2025-12-14 23:24:31
      日企集體加速撤離?又一家電巨頭關停中國工廠,央媒早有警告

      日企集體加速撤離?又一家電巨頭關停中國工廠,央媒早有警告

      燕梳樓頻道
      2025-12-12 18:06:43
      換了3臺冰箱,我終于悟了:寧可不買大的,冰箱也絕不能放這3處

      換了3臺冰箱,我終于悟了:寧可不買大的,冰箱也絕不能放這3處

      室內設計師有料兒
      2025-12-14 11:07:25
      宋軼的臉到底怎么了?她一句話讓全網炸鍋!

      宋軼的臉到底怎么了?她一句話讓全網炸鍋!

      毒舌八卦
      2025-08-31 22:34:38
      佳能中山工廠搬離,保潔阿姨補償30萬,員工排隊致謝

      佳能中山工廠搬離,保潔阿姨補償30萬,員工排隊致謝

      西門老爹
      2025-12-14 13:58:00
      芋頭再次被關注!研究發現:常吃芋頭的人,不用多久,或有4改善

      芋頭再次被關注!研究發現:常吃芋頭的人,不用多久,或有4改善

      阿兵科普
      2025-12-11 21:10:08
      德羅西:國米配得上勝利;社媒評論就像是毒藥,別再跟我提它

      德羅西:國米配得上勝利;社媒評論就像是毒藥,別再跟我提它

      懂球帝
      2025-12-15 06:13:06
      A股熱股榜十大熱門股

      A股熱股榜十大熱門股

      和訊網
      2025-12-14 21:30:16
      2025-12-15 06:36:49
      AI進化論花生 incentive-icons
      AI進化論花生
      AI博主,AppStore付費榜第一的小貓補光燈app開發者
      95文章數 40關注度
      往期回顧 全部

      科技要聞

      當人形機器人有了App Store,宇樹在賭什么

      頭條要聞

      澳海灘槍擊驚魂50分鐘:槍手占據天橋向下掃射

      頭條要聞

      澳海灘槍擊驚魂50分鐘:槍手占據天橋向下掃射

      體育要聞

      馬刺終結雷霆:以勇猛,以文班亞馬

      娛樂要聞

      何晴生前最大謠言!沒有再婚嫁廖京生

      財經要聞

      重大違法強制退市!10人被判刑

      汽車要聞

      硬核敞篷巴士?擲彈兵Game Viewer 2026年初量產

      態度原創

      本地
      教育
      房產
      藝術
      軍事航空

      本地新聞

      云游安徽|阜陽三朝風骨,傳承千年墨香

      教育要聞

      四川考生600分能上什么大學?三大類院校精準拆解

      房產要聞

      車程5分鐘價差300萬 海棠灣的這個盤要火!

      藝術要聞

      才女一生未嫁,畫史鑄就傳奇

      軍事要聞

      3名美方人員遇襲死亡 特朗普誓言報復

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 久久精品成人无码观看免费| 偷拍精品一区二区三区| 91视频你懂的| 国产福利姬喷水福利在线观看| 国产玖玖视频| 亚洲の无码国产の无码步美| 亚洲一区| 荣成市| 人妻妺妺窝人体色www聚色窝| 九九色综合| 亚洲欧美成人一区二区在线电影 | 亚洲a∨无码无在线观看| 亚洲日韩中文字幕在线播放| 日韩精品人妻系列无码| 六十路老熟妇乱子伦视频| 日日夜夜天天综合| 欧美精品一区二区三区在线观看| 湘潭县| 99在线视频免费观看| 永定县| 亚洲红杏AV无码专区首页| 无码人妻一区二区三区免费n鬼沢| 久国产精品韩国三级视频| 亚洲成人无码中文字幕| 久久精品国产99久久6| 在线亚洲色| 国产高清在线精品一本大道| 精品人妻无码中文内容| 国产v综合v亚洲欧美大天堂| 一本久道久久综合无码中文| 欧洲性开放老太大| 午夜福利啪啪片| 377p欧洲日本亚洲大胆| 久久夜色撩人精品国产av| 国产精品高清一区二区三区不卡| 天天日夜夜| 亚洲2区3区4区产品乱码2021| 久久久久国产一区二区| 亚洲成人Av| 亚洲av无码专区在线亚| 无套中出极品少妇白浆 |