<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      歡迎OpenAI重返開源大模型賽道!談一談我關注的一些要點

      0
      分享至

      美國西海岸時間2025年8月5日,OpenAI發布了兩款開源大模型——GPT-OSS 120B以及GPT-OSS-20B,目前這兩款模型均可以從Hugging Face平臺下載,用戶可以對其進行修改定制和商業應用。包括亞馬遜AWS、微軟Azure在內的主流云平臺也已經開始提供基于這兩款模型的服務。這是自從2019年11月以來,OpenAI第一次發布開源大模型。

      歷史真是諷刺。OpenAI的名稱來源,就是“開放”“開源”,這曾被Sam Altman自詡為AI時代的核心精神和生存之道。可是從2019年初開始,OpenAI就處心積慮地偏離了開源軌道:那年2月,它以“安全問題”為借口,拒絕公布GPT-2的全部參數權重,只公布了一個7.74億參數的“部分模型”;直到當年11月,在GPT-2乏人問津的情況下,它才羞羞答答地公布了全部15億參數。至于后來大放異彩的GPT-3、GPT-3.5以及GPT-4系列大模型,則既沒有公布過參數權重,也沒有公布過技術路線白皮書。

      截止昨天,OpenAI成為了當今全球AI大模型基礎研發第一集團當中,寥寥幾家“沒有任何新版開源大模型”的開發者之一。還有一家是Anthropic, 自從成立以來就從未發布過開源大模型。考慮到Anthropic本來就是對OpenAI不滿的離職員工成立的,還真驗證了一句話:“不是一家人,不進一家門。”

      在它們的競爭對手當中,谷歌從2024年開始就維持著開源的Gemma系列大模型,與閉源的Gemini系列大模型齊頭并進;Meta的LLaMA系列大模型是當今主流開源大模型的精神源頭,自不必說;來自法國的Mistral的第一版大模型就有開源版本;馬斯克的Grok也是在成立之初就公布了開源大模型;阿里巴巴的Qwen已經成為衍生版本系列最多的開源大模型之一;更不要說DeepSeek了,如果不是開源,它絕不可能獲得這么大的影響力和應用范圍。

      有人肯定會追問:為什么要開源?對于競爭對手來說,開源當然是好事,便于互相學習借鑒(以及抄襲)。對于全人類來說,開源當然是好事,因為歷史一再證明開放能促進技術進步。但是對于OpenAI這種領先的開發者來說,為什么要開源呢?開源固然會吸引技術社區的更多關注、有助于形成良好的生態系統,可是GPT已經是全世界關注度最高的大模型了,開源還有什么實際意義呢?(除了為自己正名,甩掉“CloseAI”的帽子之外?)

      答案很明確:開源大模型可以下載安裝到本地硬件設備里,完全從本地運行,這對于一部分客戶相當有吸引力。不妨總結一下:

      • 客戶可以把所有數據存儲在本地,而不是上傳到第三方平臺,從而最大限度地保護了數據安全。無論對于國家機密還是商業機密來說,這種安全性都很重要。

      • 客戶可以基于自身需求,對開源大模型進行微調(fine-tune),從而契合特定行業應用場景。醫療、金融等復雜或敏感行業對此需求尤其旺盛。

      • 對于預算有限的客戶來說,在本地硬件上運行大模型,或許比購買閉源大模型使用權更劃算。例如GPT-OSS-2B甚至可以運行在筆記本電腦上。

      當然,在本地部署開源大模型,就意味著客戶要為自己的信息安全和技術維護負責。在權衡利弊之后,許多大型行業客戶還是會更偏好開源大模型。這就是LLaMA系列大模型在歐美深受大企業歡迎的原因,也是DeepSeek在今年年初席卷國內政企客戶的原因。DeepSeek的技術水平或許能與GPT-4o1相比,但是如果不是開源,它的應用速度會非常慢,無論對B端還是C端都是如此!

      現在,在闊別近六年之后,OpenAI終于重返開源大模型戰場。在一定程度上,肯定是受到了LLaMA, DeepSeek, Qwen乃至Grok等開源大模型的刺激;但是從商業角度看,這個決策早晚要做出。因為不管怎么說,有些企業客戶永遠不可能把至關重要的數據上傳到第三方平臺;政府部門就更不可能了。與其把這片廣闊的市場留給競爭對手占領,還不如自己去占領。如果競爭對手技術進步的速度慢一點,OpenAI重返開源賽道的速度或許也會慢一點,但也只是慢一點而已。

      這也就意味著,2025年成為了一個“開源之年”:國內曾經領先的百度,以及國外至今還在領先的OpenAI,都發布了開源大模型。Meta發布了最新的開源版本,阿里則明顯加快了開源版本的發布速度。此時此刻,整個世界上的主流大模型開發商,只有兩家完全沒有開源版本。除了上文提到的Anthropic之外,還有國內的字節跳動——豆包大模型(及其前身云雀)目前尚未有任何形式的開源版本,字節跳動官方也完全沒有公布過開源計劃。不過單純從技術角度看,豆包尚不屬于全球第一集團,開源與否對大模型技術進步的影響不大。

      我們再探討下一個話題:本次OpenAI的開源,對全球大模型技術有什么影響?我不是技術開發者,只能從常識角度談一談。我的觀點是:影響是有的,但是有限。這一方面是因為OpenAI沒有開源其最新版本、最新技術(廢話,換了你也不會),另一方面是因為過去兩年外界對OpenAI技術路線的“猜測”還是比較成功的,八九不離十。


      OpenAI公布的GPT-OSS兩個版本,其訓練數據截止于2024年6月,訓練結束于2024年8月,其性能大致與GPT-4o3以及o3 mini可比——后兩個模型發布至今已經四個月了。很多評測指出,GPT-OSS-120B的表現優于DeepSeek和Qwen的最新版本,其實這沒有提供任何新的信息,因為GPT-4o3的表現本來就優于它們。這只能證明OpenAI相對于競爭對手至少還有幾個月的領先優勢,而這也是我們早就知道了的事情。

      在技術路線上,從OpenAI自家的白皮書里,我們大致能知道如下信息:

      • GPT-OSS采取混合專家架構,這一點早已被外界猜到。混合專家架構是目前的主流,幾乎所有大模型都在采用。GPT-OSS 120B每層有128個專家,20B每層有32個專家,每個路徑會激活4個最擅長的專家回答——這些細節還是有用的。

      • GPT-OSS是在標準文本基礎上訓練的,思維鏈(CoT, chain of thought)架構不是在預訓練階段、而是在后訓練階段實現的。CoT是所謂“深度推理”大模型的基礎,現在可以確定,OpenAI與其競爭對手一樣,是在后訓練階段賦予CoT的。

      • 在后訓練階段,與GPT-4o3一樣,GPT-OSS采取了CoT RL技術。后訓練過程中還使用了外部API,以及RAG Agents等等,在此就不贅述了。在一定程度上,這證實了外界的猜測。

      • OpenAI沒有選擇在后訓練階段壓制“大模型幻覺”,因為這樣做會降低CoT的透明度。所以,GPT-OSS深度推理模式的幻覺率很高,這或許是一切深度推理模型繞不過去的問題。

      總而言之,上述大部分技術路線,是外界早已猜測到或者在爭辯之中的。某些技術細節,例如后訓練的具體手段和工具,或許會給外界很多啟發,但帶來的改進是有限的。話說回來,如果OpenAI真的還有什么“獨門秘籍”,大概也不會在白皮書當中赤裸裸地公布。這份白皮書證明了一點:過去兩年多,全球大模型開發者對OpenAI技術路線的猜測和模仿,大部分是正確的(或者說,OpenAI只承認了其中正確的部分)。作為一個整體,人類模仿的力量是無窮的,因此在歷史上很少有技術領先者能夠單純依靠自己的力量,長期維持對領先技術的壟斷。

      需要強調的是,GPT-OSS只是“開放權重”(Open Weight)大模型,不是完整意義上的“開源”大模型。它公布的只是參數及其取值(權重),一份34頁的技術白皮書,以及其他少量選擇性的信息。如果我們真的要以相同手段“復刻”一個成品,至少缺失如下環節:

      • 訓練中使用的各種“腳手架模型”,包括語料質量、語料相似度檢測、語料清洗模型,以及用于“對齊”人類價值觀的Reward模型,等等。某些競爭對手會部分予以公布,但OpenAI還沒有。

      • 預訓練階段使用的語料庫,這是一項核心技術秘密,尤其是在大模型訓練語料使用量越來越大、優質語料越來越難找的情況下。Meta曾經部分公布過LLaMA使用的語料,而OpenAI沒有公布。

      • 訓練過程中使用的其他工具。如果是標準化工具還好,如果是獨家工具,那么就算披露了其名稱,外界也不可能模仿。

      完全滿足上述“開源”條件的大模型非常罕見,尤其是商業公司,幾乎不可能發布這種“全面開源”的大模型。原因很簡單:大家發布開源大模型是為了滿足部分客戶的需求、培育開發者生態,而不是方便別人抄襲。OpenAI這次提供的信息有價值,但不太足夠,這大概就是它想要達到的效果。這不禁讓我想起了某些科技巨頭的招股說明書——洋洋灑灑幾百頁,看起來提供了大量財務和業務信息,但是只要涉及到關鍵的用戶和技術問題,就以各種方式回避。在此就不點名了。

      附帶說一句,OpenAI公布了GPT-OSS的訓練細節:基于英偉達H100 GPU,其中1200億參數版本消耗了210萬H100小時,200億版本則是前者的六分之一。從這里我們可以推斷出GPT-OSS訓練使用的算力集群規模——假設訓練時間為30天,則使用了2917張H100;若為45天,則使用了1944張。考慮到訓練數據截止于2024年6月、完成于7月底或8月初,所以訓練時間不太可能明顯超過45天。

      因此,GPT-OSS還沒用上最新的Blackwell系列GPU,也沒有使用“萬卡集群”或更大規模的集群。這是否意味著頂尖大模型的訓練算力需求其實沒那么高呢?且慢下結論,因為GPT-OSS畢竟不是OpenAI的當家模型,只是OpenAI內部訓練的無數個模型之一。GPT-4的參數規模高達1.37萬億,是OSS的十倍以上,算力需求肯定會遠過之。寶貴的B100/200 GPU可能完全被用于GPT-4.5以及GPT-5的訓練,遺憾的是,OpenAI不太可能披露上面兩個模型的訓練細節。

      我猜,GPT-OSS可能是OpenAI最后幾個用Hopper架構GPU訓練的大模型之一;GPT-4.5以后的大模型可能完全是基于Blackwell訓練的。但這只是我的猜測。至于不再用于訓練的H100,則將轉而承擔推理任務,畢竟深度推理模型的普及就意味著推理需求的大爆發。無論Scaling Law還成不成立,全世界的算力恐怕還需要增長3-4倍以滿足蓬勃的訓練及推理需求。


      本文沒有獲得OpenAI或其任何競爭對手的資助或背書。

      本文作者并不持有OpenAI的任何股份,也不直接持有其競爭對手的任何股份。但是透過基金、信托計劃等持有其競爭對手的股份幾乎是不可避免的。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      伊朗劃出談判重點,派大將赴華當面送信,萬斯:我們被中國教訓了

      伊朗劃出談判重點,派大將赴華當面送信,萬斯:我們被中國教訓了

      兵說
      2026-02-09 18:36:46
      短道速滑冬奧冠軍含淚退役,北京冬奧金牌成員僅剩1人征戰賽場

      短道速滑冬奧冠軍含淚退役,北京冬奧金牌成員僅剩1人征戰賽場

      米修體育
      2026-02-10 21:17:50
      越南談中越戰爭:中國不是給越南一個教訓,而是摧毀,他們做到了

      越南談中越戰爭:中國不是給越南一個教訓,而是摧毀,他們做到了

      老蝣說體育
      2026-01-31 13:51:15
      《鄉村愛情18》徹底淪為鬧劇,趙本山捧人失敗,2個角色勸退觀眾

      《鄉村愛情18》徹底淪為鬧劇,趙本山捧人失敗,2個角色勸退觀眾

      星宿影視鴨
      2026-02-10 18:54:08
      3場直播帶貨近4億,李亞鵬突然宣布停播!見好就收,這才大俠!

      3場直播帶貨近4億,李亞鵬突然宣布停播!見好就收,這才大俠!

      唐大業
      2026-02-10 17:20:00
      趙一荻:死前摔跤,遺言僅一語,遺體告別時張學良突失控大喊一聲

      趙一荻:死前摔跤,遺言僅一語,遺體告別時張學良突失控大喊一聲

      云霄紀史觀
      2026-02-10 14:01:12
      2026年兩連敗開局!中超或全軍覆沒,媒體人:外戰毫無希望

      2026年兩連敗開局!中超或全軍覆沒,媒體人:外戰毫無希望

      奧拜爾
      2026-02-10 22:25:54
      “瑤一瑤小肉包”粉絲跌破2000萬

      “瑤一瑤小肉包”粉絲跌破2000萬

      黃河新聞網呂梁頻道
      2026-02-09 11:46:15
      事關國運!中央政治局2026年首次集體學習為何聚焦這一主題?

      事關國運!中央政治局2026年首次集體學習為何聚焦這一主題?

      上觀新聞
      2026-02-10 07:13:04
      單賽季拿3000分有多難?科比0次,詹姆斯0次,唯獨他3次

      單賽季拿3000分有多難?科比0次,詹姆斯0次,唯獨他3次

      無月可歸辛
      2026-01-27 18:21:38
      南博事件通報!一對年輕的情侶成為了主角,真跡江南春被賣2250元

      南博事件通報!一對年輕的情侶成為了主角,真跡江南春被賣2250元

      小李睡不醒了
      2026-02-10 05:51:08
      1977年我國推行的二簡字,為何半年不到就夭折,背后有何原因?

      1977年我國推行的二簡字,為何半年不到就夭折,背后有何原因?

      長風文史
      2026-02-09 21:21:53
      這一仗就是要打掉日本的優越感

      這一仗就是要打掉日本的優越感

      笑香風云淡
      2026-01-19 17:22:19
      2026公職人員娛樂紅線劃定!下班打牌也違紀,5條邊界別踩

      2026公職人員娛樂紅線劃定!下班打牌也違紀,5條邊界別踩

      慧眼看世界哈哈
      2026-02-09 21:02:06
      26歲天才股神坦言:尾盤30分鐘就能買到次日必漲的股票,從不例外

      26歲天才股神坦言:尾盤30分鐘就能買到次日必漲的股票,從不例外

      股經縱橫談
      2026-01-27 18:22:52
      不止會唱戲!《鏢人》兩個女人把武俠殺瘋了,吳京15億回本靠她們

      不止會唱戲!《鏢人》兩個女人把武俠殺瘋了,吳京15億回本靠她們

      娛樂圈十三太保
      2026-02-10 16:35:43
      著名兒童繪本畫家陳巽如辭世

      著名兒童繪本畫家陳巽如辭世

      澎湃新聞
      2026-02-10 07:18:32
      《太平年》越南網絡引熱議:吳越國如越南獨立,中國將失GDP大省

      《太平年》越南網絡引熱議:吳越國如越南獨立,中國將失GDP大省

      七彩論世
      2026-02-06 00:00:15
      成都航空增資至20億,增幅約194%

      成都航空增資至20億,增幅約194%

      界面新聞
      2026-02-10 11:52:35
      全球觀眾最喜愛演員:4位中國演員上榜,趙麗穎第6,于適太意外

      全球觀眾最喜愛演員:4位中國演員上榜,趙麗穎第6,于適太意外

      白面書誏
      2026-02-10 16:24:34
      2026-02-10 23:28:49
      互聯網怪盜團丶 incentive-icons
      互聯網怪盜團丶
      互聯網行業觀察者
      390文章數 374關注度
      往期回顧 全部

      科技要聞

      Seedance刷屏:網友們玩瘋 影視圈瑟瑟發抖

      頭條要聞

      特朗普被指表面支持高市早苗私下大發雷霆 內情披露

      頭條要聞

      特朗普被指表面支持高市早苗私下大發雷霆 內情披露

      體育要聞

      NBA上演全武行,超大沖突4人驅逐!

      娛樂要聞

      章子怡和馬麗爭影后 金像獎提名太精彩

      財經要聞

      雀巢中國近千經銷商的“追債記”

      汽車要聞

      應用于190KW四驅Ultra版 方程豹鈦7搭載天神之眼5.0

      態度原創

      房產
      本地
      數碼
      教育
      公開課

      房產要聞

      海南又一千億級賽道出現,京東、華潤、中石化等巨頭率先殺入!

      本地新聞

      圍觀了北京第一屆黑色羽絨服大賽,我笑瘋了

      數碼要聞

      飛牛fnOS ARM公測開啟,首批適配42款設備

      教育要聞

      火眼金睛細觀察,你能秒求陰影部分的面積嗎

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關懷版