<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      21GB模型跑贏Claude:開源AI的意外勝利

      0
      分享至

      一個21GB的量化模型,在筆記本電腦上畫出的鵜鶘騎自行車,居然打敗了Anthropic最新旗艦。Simon Willison的"鵜鶘基準測試"今天出了怪結果——Qwen3.6-35B-A3B的SVG代碼不僅更干凈,連自行車車架都沒畫歪。

      這個玩笑測試,為什么突然值得認真看


      Willison從去年10月開始用"鵜鶘騎自行車"當模型測試。初衷是諷刺:當所有人都在比數學推理、代碼能力、多模態理解時,找個荒謬任務反而能暴露模型的真實性格。

      詭異的是,這個玩笑居然成立了。2024年10月的第一批鵜鶘"完全是垃圾"。之后每次主流模型更新,鵜鶘質量確實在提升——Gemini 3.1 Pro已經能畫出"真的能用"的插圖。

      直到今天,這條規律被打破了。

      Qwen3.6-35B-A3B是阿里巴巴開源的混合專家模型(Mixture-of-Experts,MoE),總參數量235B,但每次前向傳播只激活35B。Willison跑的是Unsloth團隊量化的4bit版本,文件體積壓到20.9GB,用LM Studio在MacBook Pro M5本地部署。

      Claude Opus 4.7則是Anthropic當天發布的閉源旗艦,API定價遠高于Qwen的開源權重。

      結果:Opus 4.7的自行車車架結構錯誤,第二輪用thinking_level: max參數重試,"也沒好多少"。Qwen的火烈鳥獨輪車測試還額外貢獻了「」的注釋彩蛋。

      正方:開源量化模型的工程勝利

      這件事首先說明量化技術(Quantization,將模型權重從高精度壓縮到低精度)已經成熟到不損核心能力的地步。

      Unsloth的GGUF格式把235B參數的MoE模型壓進21GB,消費級筆記本能流暢運行。一年前這是不可想象的——當時70B模型量化后還會嚴重失真。

      MoE架構的本地部署效率也被驗證。35B激活參數意味著推理成本可控,而總參數量保證了知識容量。Willison的測試場景恰好擊中MoE的甜點:創意生成任務對絕對精度要求不高,但需要足夠的知識廣度來組合"鵜鶘"+"自行車"這種罕見概念。

      更深層看,這是開源生態的系統性優勢。Qwen權重開放后,Unsloth可以立即優化量化方案,LM Studio可以快速集成,社區能自發形成"筆記本本地跑SOTA模型"的完整工具鏈。閉源模型的迭代再快,也繞不過API延遲和成本結構。

      反方:一個插圖測試說明不了什么

      Willison自己承認,"非常懷疑21GB量化版本比Anthropic最新閉源版本更強大或更有用"。

      鵜鶘測試的樣本量極小,且SVG生成是特定技能。Opus 4.7可能在長文本推理、復雜工具調用、多輪對話一致性等維度全面領先——這些才是企業付費的核心場景。

      Anthropic的thinking_level參數設計也耐人尋味。max模式意味著模型會投入更多計算資源做內部推理,但Willison的測試顯示"沒好多少"。這可能暴露Opus 4.7在視覺-空間理解上的真實短板,也可能只是該參數對插圖任務不適用。

      更關鍵的質疑:如果實驗室真的針對流行基準做訓練,為什么偏偏漏掉Willison的鵜鶘?他的"秘密備份測試"火烈鳥獨輪車,Qwen依然勝出——但這只有兩個數據點。

      我的判斷:能力評估的范式正在崩潰

      這件事的真正價值,不在于證明Qwen>Opus,而在于暴露了我們根本沒有可靠的模型評估體系。

      當21GB本地模型能在特定任務擊敗API旗艦,"參數規模=能力"的敘事就破產了。MoE架構讓總參數和激活參數脫鉤,量化技術讓部署規模和原始性能脫鉤,開源生態讓迭代速度和發布日期脫鉤。

      Willison的鵜鶘玩笑之所以有效,恰恰因為它測試的是"未經優化的原始能力"——沒有公開訓練數據、沒有針對性微調、沒有提示工程陷阱。這種"野生測試"反而可能比MMLU、HumanEval等標準基準更真實,因為后者已被過度擬合。

      對從業者的直接啟示:評估模型必須回歸具體場景。如果你需要批量生成SVG插圖,本地部署的量化Qwen可能是成本最優解;如果你需要處理200頁法律文檔的跨頁引用,Opus的上下文窗口和推理深度可能不可替代。

      沒有 universal 的更好,只有 contextual 的更適合。

      阿里巴巴Qwen團隊的開源策略正在收獲復利。從Qwen2到Qwen3.6,他們持續釋放可商用的權重,允許社區進行二次開發。這種"基礎設施化"的定位,與Anthropic的"高端服務"定位形成差異化競爭。

      最終,鵜鶘騎自行車的荒謬畫面,成了AI行業最誠實的鏡子:當技術迭代速度超過評估體系進化速度,所有排名都是臨時的,所有結論都是局部的,所有"勝利"都需要加一串限定詞才能成立。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      1985年,國安叛徒藏身南美,中國6名兵王萬里鋤奸,FBI顏面盡失

      1985年,國安叛徒藏身南美,中國6名兵王萬里鋤奸,FBI顏面盡失

      干史人
      2026-04-14 21:10:03
      眉毛冒出一根很長的毛?不要大意!俗話說“眉生長毛,必有一遭”

      眉毛冒出一根很長的毛?不要大意!俗話說“眉生長毛,必有一遭”

      一根香煙的少婦
      2026-03-17 17:54:13
      湖南一小車在高速公路跑100碼,突然接到陌生人電話直接嚇哭:你車輪沒了!

      湖南一小車在高速公路跑100碼,突然接到陌生人電話直接嚇哭:你車輪沒了!

      瀟湘晨報
      2026-04-18 17:05:22
      大專、野模、知三當三,孫怡浪姐"騷操作"不斷難怪王京花看不上她

      大專、野模、知三當三,孫怡浪姐"騷操作"不斷難怪王京花看不上她

      橙星文娛
      2026-04-18 16:01:07
      Lisa搭上新金主爸爸!?

      Lisa搭上新金主爸爸!?

      八卦瘋叔
      2026-04-19 11:09:39
      華誼虧損超82億,不放棄事業不整容的羅海瓊,才是最清醒的老板娘

      華誼虧損超82億,不放棄事業不整容的羅海瓊,才是最清醒的老板娘

      一盅情懷
      2026-04-18 08:08:54
      特朗普:如果到周三未達成結束戰爭的長期協議,可能會終止與伊朗的停火,但封鎖將繼續,伊朗不會擁有核武器

      特朗普:如果到周三未達成結束戰爭的長期協議,可能會終止與伊朗的停火,但封鎖將繼續,伊朗不會擁有核武器

      魯中晨報
      2026-04-18 12:05:07
      俄方給中國提了醒:如果想武統臺灣,必先毀掉美軍的西太平洋基地

      俄方給中國提了醒:如果想武統臺灣,必先毀掉美軍的西太平洋基地

      一家說
      2026-04-20 01:56:15
      白酒帝國的黃昏:珍酒李渡和華致酒行全面“塌房”

      白酒帝國的黃昏:珍酒李渡和華致酒行全面“塌房”

      深水財經社
      2026-04-19 22:00:06
      不敢相信她有五十多歲了

      不敢相信她有五十多歲了

      科學發掘
      2026-04-19 21:09:22
      鄭麗文之后,國民黨大佬抵京!她的2個“必然”、狠狠打臉賴清德

      鄭麗文之后,國民黨大佬抵京!她的2個“必然”、狠狠打臉賴清德

      呼呼歷史論
      2026-04-19 15:51:45
      Q女士爆料:張婉婷向她索要500萬,不是賠償,而是宋寧峰的轉讓費

      Q女士爆料:張婉婷向她索要500萬,不是賠償,而是宋寧峰的轉讓費

      娛文速遞
      2026-04-19 16:15:36
      火箭3主力身價暴跌!申京三無產品,謝潑德攻守全崩,阿門狂被帽

      火箭3主力身價暴跌!申京三無產品,謝潑德攻守全崩,阿門狂被帽

      籃球資訊達人
      2026-04-19 12:26:12
      安徽一正處級干部被查!另有2人被通報

      安徽一正處級干部被查!另有2人被通報

      鳳凰網安徽
      2026-04-19 16:08:49
      戴帽子會引發腦梗?醫生含淚勸告:70歲以后,這3件事一定要盯緊

      戴帽子會引發腦梗?醫生含淚勸告:70歲以后,這3件事一定要盯緊

      荷蘭豆愛健康
      2026-04-19 22:24:42
      就在今天!NBA傳來騎士最新消息!哈登被圍毆!哈登承認錯誤!

      就在今天!NBA傳來騎士最新消息!哈登被圍毆!哈登承認錯誤!

      林子說事
      2026-04-19 12:42:59
      重大資產重組!多家A股公司明日停牌

      重大資產重組!多家A股公司明日停牌

      21世紀經濟報道
      2026-04-19 21:38:53
      美媒:特朗普最新信號——結束戰爭,轉向經濟

      美媒:特朗普最新信號——結束戰爭,轉向經濟

      參考消息
      2026-04-18 16:23:05
      時隔20天后,自衛隊軍官再遭逮捕,罪名已變,中方反制開始生效

      時隔20天后,自衛隊軍官再遭逮捕,罪名已變,中方反制開始生效

      燦若銀爛
      2026-04-19 22:54:45
      女子4樓墜亡后續:萬達正常營業,現場細節曝光,原因被扒很可惜

      女子4樓墜亡后續:萬達正常營業,現場細節曝光,原因被扒很可惜

      阿鳧愛吐槽
      2026-04-19 22:15:52
      2026-04-20 03:36:49
      算力游俠
      算力游俠
      游走在API與報錯之間,用魔法(AI)打敗魔法的非硬核玩家。
      1582文章數 17關注度
      往期回顧 全部

      科技要聞

      50分26秒破人類紀錄!300臺機器人狂飆半馬

      頭條要聞

      半年下沉22厘米 女子家中坐擁價值上億別墅卻沒法住人

      頭條要聞

      半年下沉22厘米 女子家中坐擁價值上億別墅卻沒法住人

      體育要聞

      湖人1比0火箭:老詹比烏度卡像教練

      娛樂要聞

      何潤東漲粉百萬!內娛隔空掀桌第一人

      財經要聞

      華誼兄弟,8年虧光85億

      汽車要聞

      29分鐘大定破萬 極氪8X為什么這么多人買?

      態度原創

      家居
      旅游
      手機
      健康
      公開課

      家居要聞

      法式線條 時光靜淌

      旅游要聞

      北京投入2.2億元建成和田“三館一院”

      手機要聞

      8.8英寸小鋼炮!REDMI K Pad 2核心配置揭曉

      干細胞抗衰4大誤區,90%的人都中招

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關懷版