<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      尺寸差了一個量級,如何較量?DeepSeek R1與阿里QwQ-32B

      0
      分享至



      原創:親愛的數據

      2025年3月6日,

      阿里通義千問團隊推出推理模型

      QwQ-32B大語言模型。

      看似普通的一則新聞,

      發布了一個模型這么件事。

      阿里尚未發布詳細的技術報告來解釋QwQ是如何開發的,甚至新聞官網只有742個字。

      《QwQ-32B:擁抱強化學習的力量》





      該怎么理解呢?

      我的理解,

      QwQ-32B是一款稠密(又稱密集)推理模型。

      雖然只有一句話,但是信息量很大。

      想讀懂的話,要很多“知識儲備”,

      什么是MoE(混合專家模型)?

      什么是稠密模型?

      什么是推理模型?

      模型參數規模怎么對比?

      背后隱藏的不少問題都可展開聊,

      不如,聊聊有哪些結論?





      第一點,QWQ模型有一個系列,

      阿里在上一版的基礎上,

      用了R1也同樣用了的強化學習技術。

      好消息是出效果了,不出效果不會放出來。

      畢竟這個是開源模型,

      只有閉源模型才愿意買廣告胡吹,

      開源模型則不需要。

      反觀很多大模型友商,

      還停留在花錢買彩虹屁的石器時代。

      在開源打得如此激烈的當下,顯得尤為又自嗨。

      拋開“強不強”不聊,

      要知道大模型技術人員的知識體系涇渭分明,

      你是做視覺的,就是視覺;

      你是自然語言處理的就是自然語言處理,

      而強化學習是另外一套知識體系。

      強化學習這條道路,

      大模型團隊里沒有點技術儲備都發不了力。

      阿里畢竟是阿里,

      看到強化學習的天花板還能往上推,

      就毫不猶豫地往上推。

      恭喜阿里出效果,恭喜團隊奮戰有成績。

      無獨有偶,一天之前,

      2024年的圖靈獎頒給了一對著名的師徒:

      Richard Sutton有“強化學習之父”的美名。

      Andrew Barto是Sutton的博導。

      自1980年代起,

      兩位均對強化學習持續做出奠基性貢獻。

      一邊是企業界的前沿技術突破,

      另一邊則是對強化學習理論基礎的權威認可。

      這兩者實際上是相輔相成的,

      正是幾十年前奠定的堅實理論基礎,

      才使得今天我們能夠在工業界實現如此驚人的技術突破。向強化學習開創者的致敬,向DeepSeek R1團隊,向阿里千問團隊,用強化學習推動模型技術進步的工程師致敬。





      第二點,在推理模型大火之后,

      大家都只做推理模型這一種類型了嗎?

      當然不是。

      這里就不得不把Claude 3.7 Sonnet這個模型拉出來對比一下。

      這也是一個剛剛(2月25日)放出來的新模型,

      是Claude 3.5 Sonnet的升級版。

      不得不感慨一句,版本號增長得如此之快,

      可見軟件版本迭代得多快,

      可見其背后的技術進展有多快。

      AI的競爭有多激烈。





      我特別強調,Claude 3.7 Sonnet模型的技術路線,

      和QwQ-32B模型大不一樣,完全不同。

      QwQ-32B模型強調推理性能,

      是一個獨立的推理模型,

      而Claude 3.7 Sonnet模型有推理能力(慢思考),

      但是Claude團隊把快慢思考集成在一個模型里了,

      你想用哪個就選哪個。



      特別注意的是,

      選擇按鈕的背后是一個“二合一”的模型,

      而不是一個“選項”一個模型,

      技術博客上的表述是,人類使用同一個大腦,

      既能靜心思考,又有快速反應。

      阿里是否也在做和Claude團隊類似的事情,

      不得而知。

      但是你用推理模型去快問快答簡單問題,

      肯定不合適,

      比如,你問推理模型“你好”,

      模型推理一番回答你,

      或者是啰啰嗦嗦回答一堆。

      比如,下面這種肯定不行,

      日后定會想辦法解決。





      第三點,為什么QWQ-32B可達到DeepSeek R1的“智商”水平?

      尤其是在尺寸差了一個量級的情況下。

      在MoE模型出道之后,

      模型參數規模不再是名字上掛的那個數字,

      比如,DeepSeek R1擁有6710億的巨大的參數量,但由于創新性地使用了MoE架構,以及MLA(多頭潛在注意力機制)的方法,每次推理僅激活370億參數(占比總量6%)。這使得DeepSeek R1雖然整體參數量很大,但干活時只需要動用極小的一部分力量。

      MoE模型是稀疏模型,

      也就是說,并不是每個計算步驟都會用到全部的模型參數,而是通過選取一些專家來參與計算。就好比,有一個專家庫,但是每次干活不是專家庫里的專家全體出動。

      DeepSeek R1的驚人之處在于,

      1個共享專家和256個專家,

      實際上,歷史上,哪個MoE模型也從來沒有過達到如此龐大的專家數量。專家多了一時爽,那就問負載均衡怎么辦?



      當然DeepSeek處理得很好,

      但是這篇文章不聊這個,按下不表。

      DeepSeek每次通過路由專家,只選8個模型,

      也就是說只有8個專家干活了,其他閑著。

      那么問題來了,你統計工作量的時候,

      是不是只算這8個(僅激活370億參數)就夠了。

      于是,真正用來比較的,

      是千問QWQ-32B和DeepSeek R1模型的37B。

      “閑置專家”不在考慮范圍內。

      比模型整個的參數規模更難理解的是真正“參與工作”的參數,這個問題確實是伴隨著MoE模型而出現的,從激活量來看,32B(320億參數)比37B(370億參數)少不了多少,這是一種進步。

      激活量少了,隨之而來的是,成本降低,性價比提高。另有一個關鍵點,阿里通義千問團隊的這個模型是每個專家每次都在干活,而DeepSeek R1模型是每次干活是不同的專家。因為MoE的大參數量可不是吃白飯的,

      MoE的全量大參數對模型能力極有加成,對于每個token激活的是不同的37B(370億參數)這個時候,我想說,QWQ-32B的專家還挺能打的,畢竟DeepSeek R1模型的整體專家數量在這里擺著,長期干活的專家要會更多知識才能和擅長不同的更細分的領域的“當值專家”一較高下。

      看到這里,我挺激動的,再次為千問團隊高興。

      而我更高興的是,DeepSeek最大的價值不是被膜拜,而是被超越。

      (完)

      One More thing

      玩MoE模型,如何榨干芯片性能?

      這個問題的答案得問DeepSeek,

      他們將MoE技術拉到一個新高度,

      又在分布式計算,通信庫等底層基礎設施方面大大下了一番功夫,

      恭喜DeepSeek,喜提成本利潤率545%,

      每秒輸出吞吐量約1.5萬tokens。

      (官宣數據14.8k tokens/s)。

      我最近聊天的口頭禪就是:

      “人家DeepSeek每秒輸出吞吐一萬五,

      友商吞吐原地杵。”

      一萬五是一次綜合實力的大檢閱。

      數字這么好看,這真是一件好事,

      整個系統的吞吐量越大越好,

      問題在于怎么把吞吐做上去。

      人人都知道要榨干芯片性能,

      問題在于怎么榨干。

      一個模型在某種型號的芯片上跑起來,

      這個系統的總吞吐量的理論峰值,

      是由芯片性能決定的。

      芯片性能是上限,

      也是工程團隊竭盡全力接近的目標。

      做出極高的總吞吐量,夢寐以求。

      也就是說,有N個廠商,

      每個都跑同樣的DeepSeek R1模型,

      每個廠商都用同樣數量的芯片,

      誰做到的總吞吐量最高,誰就最賺錢。

      這門生意本質就是這點了。

      對比一些友商和DeepSeek的吞吐,

      DeepSeek高了10倍。

      至于為何是10倍,得拿另外一篇文章來講。

      有興趣的讀者,請在文末留言扣數字1。

      阿里千問團隊也有MoE模型的經驗。

      或者這么說,DeepSeek的基礎設施是為MOE設計的,效率非常之高,給誰一時都很難超越,不如在自己擅長的技術路線上發展。那天,我和武漢人工智能研究院王金橋院長一起吃拉面,他還給我科普:“MoE(稀疏)模型適合大型To C業務量,Dense(稠密)適合To B業務量。”

      阿里選擇稠密模型的理由非常充分,

      云計算廠商就是服務To B業務的。

      一周之后,DeepSeek就搞了開源周,

      不得不說,慷慨開源很多MoE底層技術,

      商業機密肯定還有很多。

      我所知道的是,

      稀疏和稠密是兩種完全不同的技術路線,

      榨干芯片性能的方法完全不一樣,

      把稠密技術路線調為MoE稀疏技術路線談何容易。

      當DeepSeek橫空出世,不只是模型,

      而是模型帶著它的榨干芯片性能的全套方案一起橫空出世,這可是MoE專屬方案。

      這時,有一個選擇題擺在大模型廠商面前,

      在致敬和學習之后,也要做MoE模型嗎?

      這個問題我特別想問千問團隊的人,

      無奈周靖人把團隊看得太嚴了。

      此時,我想,他們已經給我答案了。

      我們回憶一下,在DeepSeek爆火之前,

      通義千問72B橫掃企業級市場,

      無論中國,還是美國,頭部科技大廠內部都在悄悄用通義千問72B。阿里千問團隊和美國Meta公司(Llama)選擇同一種開源市場策略。

      面對令人尊敬的挑戰者,

      阿里交出了自己的答卷。

      競爭還在繼續。



      (完)

      聲明:個人原創,僅供參考

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      盧比奧下令驅逐蘇萊曼尼侄女全家,“應以歐洲為戒”

      盧比奧下令驅逐蘇萊曼尼侄女全家,“應以歐洲為戒”

      移光幻影
      2026-04-05 12:04:48
      厲害!美軍深入伊朗境內300多公里,強行著陸搶出第2名飛行員

      厲害!美軍深入伊朗境內300多公里,強行著陸搶出第2名飛行員

      Ck的蜜糖
      2026-04-06 02:38:49
      羅永浩為什么罵趙曉卉?從“正能量天使”與“流量之王”的并存

      羅永浩為什么罵趙曉卉?從“正能量天使”與“流量之王”的并存

      歪歌社團
      2026-04-05 18:22:36
      美伊沖突,已經出現了3個贏家,10個輸家,都是誰?

      美伊沖突,已經出現了3個贏家,10個輸家,都是誰?

      七號說三國
      2026-03-25 21:11:29
      張雪深夜回應“一個子兒都沒有”言論

      張雪深夜回應“一個子兒都沒有”言論

      第一財經資訊
      2026-04-05 13:47:04
      不止是輸球:山東泰山連敗根源,派系暗戰與體系崩塌的雙向絞殺

      不止是輸球:山東泰山連敗根源,派系暗戰與體系崩塌的雙向絞殺

      中場陰謀家
      2026-04-06 00:15:57
      超級巨大失誤!薛慶浩黃油手送禮,基萊斯門線補射,馬鎮機會來了

      超級巨大失誤!薛慶浩黃油手送禮,基萊斯門線補射,馬鎮機會來了

      奧拜爾
      2026-04-05 21:02:55
      地球將在2026年8月12日“失重7秒”死4000萬人?謠言!!!

      地球將在2026年8月12日“失重7秒”死4000萬人?謠言!!!

      大道微言
      2026-04-03 12:22:13
      FBI點名3類中國App:1條權限能扒光你通訊錄

      FBI點名3類中國App:1條權限能扒光你通訊錄

      我是一個粉刷匠2
      2026-04-03 22:29:41
      超大單!英偉達220萬張、華為81.2萬張、阿里26.5萬張

      超大單!英偉達220萬張、華為81.2萬張、阿里26.5萬張

      最通信
      2026-04-05 20:57:07
      國家觸發一級戰備時,普通人千萬要牢記這3條!保命切記別去搶購

      國家觸發一級戰備時,普通人千萬要牢記這3條!保命切記別去搶購

      健身狂人
      2026-04-05 12:39:10
      前英超球星納斯里逃稅翻車!一年212次巴黎外賣出賣了他

      前英超球星納斯里逃稅翻車!一年212次巴黎外賣出賣了他

      仰臥撐FTUer
      2026-04-05 13:00:06
      廣西高考扁擔女孩劉燕最后歸宿塵埃落定——廣西科技師范學院

      廣西高考扁擔女孩劉燕最后歸宿塵埃落定——廣西科技師范學院

      手工制作阿愛
      2026-04-05 12:52:12
      山西一小吃店3人死亡,店主夫婦和小姨子凌晨加工“碗禿”時遇難

      山西一小吃店3人死亡,店主夫婦和小姨子凌晨加工“碗禿”時遇難

      青梅侃史啊
      2026-04-05 16:44:33
      熱搜第2!郭艾倫出事了,被騙近千萬,2年白干,趙探長說得很透徹

      熱搜第2!郭艾倫出事了,被騙近千萬,2年白干,趙探長說得很透徹

      萌蘭聊個球
      2026-04-05 21:52:07
      遼寧106-64大勝四川 球員評價:8人優秀,3人及格,鄢手騏崩盤

      遼寧106-64大勝四川 球員評價:8人優秀,3人及格,鄢手騏崩盤

      籃球資訊達人
      2026-04-05 21:47:24
      浙江溫州一住戶窗玻璃被“白鳳凰”白鷴撞破,房主:它在室內留下糞便后飛走了

      浙江溫州一住戶窗玻璃被“白鳳凰”白鷴撞破,房主:它在室內留下糞便后飛走了

      臺州交通廣播
      2026-04-05 21:10:16
      美元兌人民幣將貶值到1美元換5.5元人民幣,或許只需要5到10年?

      美元兌人民幣將貶值到1美元換5.5元人民幣,或許只需要5到10年?

      丁丁鯉史紀
      2026-04-03 11:50:43
      好消息、壞消息與真相

      好消息、壞消息與真相

      老頭和你隨便聊聊
      2026-03-30 12:57:42
      復活節最暖場面!查爾斯、威廉凱特證明夏洛特公主的家庭地位

      復活節最暖場面!查爾斯、威廉凱特證明夏洛特公主的家庭地位

      夢在深巷qw
      2026-04-05 23:44:10
      2026-04-06 03:36:49
      親愛的數據 incentive-icons
      親愛的數據
      《我看見了風暴:人工智能基建革命》一書作者
      693文章數 219913關注度
      往期回顧 全部

      科技要聞

      花200薅5千算力,Claude冷血斷供“龍蝦”

      頭條要聞

      伊朗官員提開放霍爾木茲海峽條件

      頭條要聞

      伊朗官員提開放霍爾木茲海峽條件

      體育要聞

      CBA最老球員,身價7500萬美元

      娛樂要聞

      王燦兮否認婆媳不和 曬與杜淳媽合影

      財經要聞

      誰造出了優思益這頭“怪物”?

      汽車要聞

      家用SUV沒駕駛樂趣?極氪8X第一個不同意

      態度原創

      藝術
      房產
      數碼
      健康
      親子

      藝術要聞

      高210米,砸13億!廈門“礦泉水瓶大樓”即將建成!

      房產要聞

      小陽春全面啟動!現房,才是這波行情里最穩的上車票

      數碼要聞

      大膽復古美學,海盜船推出原子紫配色K65 PLUS WIRELESS機械鍵盤

      干細胞抗衰4大誤區,90%的人都中招

      親子要聞

      小英自曝給女兒剪短發原因!怕頭發搶營養長不高,想剃光頭太真實

      無障礙瀏覽 進入關懷版