<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      歡迎OpenAI重返開源大模型賽道!談一談我關注的一些要點

      0
      分享至

      美國西海岸時間2025年8月5日,OpenAI發布了兩款開源大模型——GPT-OSS 120B以及GPT-OSS-20B,目前這兩款模型均可以從Hugging Face平臺下載,用戶可以對其進行修改定制和商業應用。包括亞馬遜AWS、微軟Azure在內的主流云平臺也已經開始提供基于這兩款模型的服務。這是自從2019年11月以來,OpenAI第一次發布開源大模型。

      歷史真是諷刺。OpenAI的名稱來源,就是“開放”“開源”,這曾被Sam Altman自詡為AI時代的核心精神和生存之道。可是從2019年初開始,OpenAI就處心積慮地偏離了開源軌道:那年2月,它以“安全問題”為借口,拒絕公布GPT-2的全部參數權重,只公布了一個7.74億參數的“部分模型”;直到當年11月,在GPT-2乏人問津的情況下,它才羞羞答答地公布了全部15億參數。至于后來大放異彩的GPT-3、GPT-3.5以及GPT-4系列大模型,則既沒有公布過參數權重,也沒有公布過技術路線白皮書。

      截止昨天,OpenAI成為了當今全球AI大模型基礎研發第一集團當中,寥寥幾家“沒有任何新版開源大模型”的開發者之一。還有一家是Anthropic, 自從成立以來就從未發布過開源大模型。考慮到Anthropic本來就是對OpenAI不滿的離職員工成立的,還真驗證了一句話:“不是一家人,不進一家門。”

      在它們的競爭對手當中,谷歌從2024年開始就維持著開源的Gemma系列大模型,與閉源的Gemini系列大模型齊頭并進;Meta的LLaMA系列大模型是當今主流開源大模型的精神源頭,自不必說;來自法國的Mistral的第一版大模型就有開源版本;馬斯克的Grok也是在成立之初就公布了開源大模型;阿里巴巴的Qwen已經成為衍生版本系列最多的開源大模型之一;更不要說DeepSeek了,如果不是開源,它絕不可能獲得這么大的影響力和應用范圍。

      有人肯定會追問:為什么要開源?對于競爭對手來說,開源當然是好事,便于互相學習借鑒(以及抄襲)。對于全人類來說,開源當然是好事,因為歷史一再證明開放能促進技術進步。但是對于OpenAI這種領先的開發者來說,為什么要開源呢?開源固然會吸引技術社區的更多關注、有助于形成良好的生態系統,可是GPT已經是全世界關注度最高的大模型了,開源還有什么實際意義呢?(除了為自己正名,甩掉“CloseAI”的帽子之外?)

      答案很明確:開源大模型可以下載安裝到本地硬件設備里,完全從本地運行,這對于一部分客戶相當有吸引力。不妨總結一下:

      • 客戶可以把所有數據存儲在本地,而不是上傳到第三方平臺,從而最大限度地保護了數據安全。無論對于國家機密還是商業機密來說,這種安全性都很重要。

      • 客戶可以基于自身需求,對開源大模型進行微調(fine-tune),從而契合特定行業應用場景。醫療、金融等復雜或敏感行業對此需求尤其旺盛。

      • 對于預算有限的客戶來說,在本地硬件上運行大模型,或許比購買閉源大模型使用權更劃算。例如GPT-OSS-2B甚至可以運行在筆記本電腦上。

      當然,在本地部署開源大模型,就意味著客戶要為自己的信息安全和技術維護負責。在權衡利弊之后,許多大型行業客戶還是會更偏好開源大模型。這就是LLaMA系列大模型在歐美深受大企業歡迎的原因,也是DeepSeek在今年年初席卷國內政企客戶的原因。DeepSeek的技術水平或許能與GPT-4o1相比,但是如果不是開源,它的應用速度會非常慢,無論對B端還是C端都是如此!

      現在,在闊別近六年之后,OpenAI終于重返開源大模型戰場。在一定程度上,肯定是受到了LLaMA, DeepSeek, Qwen乃至Grok等開源大模型的刺激;但是從商業角度看,這個決策早晚要做出。因為不管怎么說,有些企業客戶永遠不可能把至關重要的數據上傳到第三方平臺;政府部門就更不可能了。與其把這片廣闊的市場留給競爭對手占領,還不如自己去占領。如果競爭對手技術進步的速度慢一點,OpenAI重返開源賽道的速度或許也會慢一點,但也只是慢一點而已。

      這也就意味著,2025年成為了一個“開源之年”:國內曾經領先的百度,以及國外至今還在領先的OpenAI,都發布了開源大模型。Meta發布了最新的開源版本,阿里則明顯加快了開源版本的發布速度。此時此刻,整個世界上的主流大模型開發商,只有兩家完全沒有開源版本。除了上文提到的Anthropic之外,還有國內的字節跳動——豆包大模型(及其前身云雀)目前尚未有任何形式的開源版本,字節跳動官方也完全沒有公布過開源計劃。不過單純從技術角度看,豆包尚不屬于全球第一集團,開源與否對大模型技術進步的影響不大。

      我們再探討下一個話題:本次OpenAI的開源,對全球大模型技術有什么影響?我不是技術開發者,只能從常識角度談一談。我的觀點是:影響是有的,但是有限。這一方面是因為OpenAI沒有開源其最新版本、最新技術(廢話,換了你也不會),另一方面是因為過去兩年外界對OpenAI技術路線的“猜測”還是比較成功的,八九不離十。


      OpenAI公布的GPT-OSS兩個版本,其訓練數據截止于2024年6月,訓練結束于2024年8月,其性能大致與GPT-4o3以及o3 mini可比——后兩個模型發布至今已經四個月了。很多評測指出,GPT-OSS-120B的表現優于DeepSeek和Qwen的最新版本,其實這沒有提供任何新的信息,因為GPT-4o3的表現本來就優于它們。這只能證明OpenAI相對于競爭對手至少還有幾個月的領先優勢,而這也是我們早就知道了的事情。

      在技術路線上,從OpenAI自家的白皮書里,我們大致能知道如下信息:

      • GPT-OSS采取混合專家架構,這一點早已被外界猜到。混合專家架構是目前的主流,幾乎所有大模型都在采用。GPT-OSS 120B每層有128個專家,20B每層有32個專家,每個路徑會激活4個最擅長的專家回答——這些細節還是有用的。

      • GPT-OSS是在標準文本基礎上訓練的,思維鏈(CoT, chain of thought)架構不是在預訓練階段、而是在后訓練階段實現的。CoT是所謂“深度推理”大模型的基礎,現在可以確定,OpenAI與其競爭對手一樣,是在后訓練階段賦予CoT的。

      • 在后訓練階段,與GPT-4o3一樣,GPT-OSS采取了CoT RL技術。后訓練過程中還使用了外部API,以及RAG Agents等等,在此就不贅述了。在一定程度上,這證實了外界的猜測。

      • OpenAI沒有選擇在后訓練階段壓制“大模型幻覺”,因為這樣做會降低CoT的透明度。所以,GPT-OSS深度推理模式的幻覺率很高,這或許是一切深度推理模型繞不過去的問題。

      總而言之,上述大部分技術路線,是外界早已猜測到或者在爭辯之中的。某些技術細節,例如后訓練的具體手段和工具,或許會給外界很多啟發,但帶來的改進是有限的。話說回來,如果OpenAI真的還有什么“獨門秘籍”,大概也不會在白皮書當中赤裸裸地公布。這份白皮書證明了一點:過去兩年多,全球大模型開發者對OpenAI技術路線的猜測和模仿,大部分是正確的(或者說,OpenAI只承認了其中正確的部分)。作為一個整體,人類模仿的力量是無窮的,因此在歷史上很少有技術領先者能夠單純依靠自己的力量,長期維持對領先技術的壟斷。

      需要強調的是,GPT-OSS只是“開放權重”(Open Weight)大模型,不是完整意義上的“開源”大模型。它公布的只是參數及其取值(權重),一份34頁的技術白皮書,以及其他少量選擇性的信息。如果我們真的要以相同手段“復刻”一個成品,至少缺失如下環節:

      • 訓練中使用的各種“腳手架模型”,包括語料質量、語料相似度檢測、語料清洗模型,以及用于“對齊”人類價值觀的Reward模型,等等。某些競爭對手會部分予以公布,但OpenAI還沒有。

      • 預訓練階段使用的語料庫,這是一項核心技術秘密,尤其是在大模型訓練語料使用量越來越大、優質語料越來越難找的情況下。Meta曾經部分公布過LLaMA使用的語料,而OpenAI沒有公布。

      • 訓練過程中使用的其他工具。如果是標準化工具還好,如果是獨家工具,那么就算披露了其名稱,外界也不可能模仿。

      完全滿足上述“開源”條件的大模型非常罕見,尤其是商業公司,幾乎不可能發布這種“全面開源”的大模型。原因很簡單:大家發布開源大模型是為了滿足部分客戶的需求、培育開發者生態,而不是方便別人抄襲。OpenAI這次提供的信息有價值,但不太足夠,這大概就是它想要達到的效果。這不禁讓我想起了某些科技巨頭的招股說明書——洋洋灑灑幾百頁,看起來提供了大量財務和業務信息,但是只要涉及到關鍵的用戶和技術問題,就以各種方式回避。在此就不點名了。

      附帶說一句,OpenAI公布了GPT-OSS的訓練細節:基于英偉達H100 GPU,其中1200億參數版本消耗了210萬H100小時,200億版本則是前者的六分之一。從這里我們可以推斷出GPT-OSS訓練使用的算力集群規模——假設訓練時間為30天,則使用了2917張H100;若為45天,則使用了1944張。考慮到訓練數據截止于2024年6月、完成于7月底或8月初,所以訓練時間不太可能明顯超過45天。

      因此,GPT-OSS還沒用上最新的Blackwell系列GPU,也沒有使用“萬卡集群”或更大規模的集群。這是否意味著頂尖大模型的訓練算力需求其實沒那么高呢?且慢下結論,因為GPT-OSS畢竟不是OpenAI的當家模型,只是OpenAI內部訓練的無數個模型之一。GPT-4的參數規模高達1.37萬億,是OSS的十倍以上,算力需求肯定會遠過之。寶貴的B100/200 GPU可能完全被用于GPT-4.5以及GPT-5的訓練,遺憾的是,OpenAI不太可能披露上面兩個模型的訓練細節。

      我猜,GPT-OSS可能是OpenAI最后幾個用Hopper架構GPU訓練的大模型之一;GPT-4.5以后的大模型可能完全是基于Blackwell訓練的。但這只是我的猜測。至于不再用于訓練的H100,則將轉而承擔推理任務,畢竟深度推理模型的普及就意味著推理需求的大爆發。無論Scaling Law還成不成立,全世界的算力恐怕還需要增長3-4倍以滿足蓬勃的訓練及推理需求。


      本文沒有獲得OpenAI或其任何競爭對手的資助或背書。

      本文作者并不持有OpenAI的任何股份,也不直接持有其競爭對手的任何股份。但是透過基金、信托計劃等持有其競爭對手的股份幾乎是不可避免的。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      萬科最貴女秘書新職務

      萬科最貴女秘書新職務

      地產微資訊
      2026-04-14 09:27:21
      印方篡改加勒萬河谷電影鬧劇十足

      印方篡改加勒萬河谷電影鬧劇十足

      烽火瞭望者
      2026-04-14 06:12:29
      毛主席外孫女婿陳東升:35歲經商,55歲娶孔東梅,65歲身價550億

      毛主席外孫女婿陳東升:35歲經商,55歲娶孔東梅,65歲身價550億

      大運河時空
      2026-04-13 10:50:03
      馬筱梅帶娃回京張嘴就埋怨,汪小菲態度大變,玥箖姐弟被扔不管了

      馬筱梅帶娃回京張嘴就埋怨,汪小菲態度大變,玥箖姐弟被扔不管了

      觀察鑒娛
      2026-04-14 10:32:17
      誰敢動中國我就滅誰!這兩國曾向全球發出警告,如今槍口對準中國

      誰敢動中國我就滅誰!這兩國曾向全球發出警告,如今槍口對準中國

      老沮系戲精北鼻
      2026-03-05 20:34:25
      央視曝光:AI色情視頻產業鏈,九塊九就能“定制”任何人

      央視曝光:AI色情視頻產業鏈,九塊九就能“定制”任何人

      三人成虎V5
      2026-04-13 23:06:35
      摸景甜胸側,摟李雪琴胳膊,沒分寸感的他來《你好星期六》干嘛?

      摸景甜胸側,摟李雪琴胳膊,沒分寸感的他來《你好星期六》干嘛?

      橙星文娛
      2026-04-12 18:14:00
      日本“男女混浴”要一絲不掛,如何保障女性隱私?看完漲知識

      日本“男女混浴”要一絲不掛,如何保障女性隱私?看完漲知識

      貴州霖霖
      2026-04-14 09:01:08
      拋開口水戰不談,日產NX8到底有沒有真本事?看看高管怎么說

      拋開口水戰不談,日產NX8到底有沒有真本事?看看高管怎么說

      汽車情報
      2026-04-14 10:32:53
      孕婦吃水果被罵后續:手術已做完,聽勸解救了自己,全網力挺點贊

      孕婦吃水果被罵后續:手術已做完,聽勸解救了自己,全網力挺點贊

      千言娛樂記
      2026-04-13 11:33:13
      女子發現老公手指甲發紫,勸他去醫院被懟“吃飽了沒事干”,幾天后老公突然胸痛被120拉走……醫生提醒

      女子發現老公手指甲發紫,勸他去醫院被懟“吃飽了沒事干”,幾天后老公突然胸痛被120拉走……醫生提醒

      環球網資訊
      2026-04-13 19:39:42
      文章餐廳再成焦點:兩個女兒齊聚,父女溫馨同框惹人羨

      文章餐廳再成焦點:兩個女兒齊聚,父女溫馨同框惹人羨

      渡自己
      2026-04-14 08:32:49
      生意好時背刺老家,生意差了又想愛國,張敬軒這出戲演給誰看?

      生意好時背刺老家,生意差了又想愛國,張敬軒這出戲演給誰看?

      黔鄉小姊妹
      2026-04-14 08:23:50
      “五美”保鏢嚴月霞

      “五美”保鏢嚴月霞

      動物奇奇怪怪
      2026-04-11 14:44:34
      去了一次印度,我的世界觀被徹底刷新了!真不是臟亂差這么簡單

      去了一次印度,我的世界觀被徹底刷新了!真不是臟亂差這么簡單

      番外行
      2026-04-12 00:05:03
      李小璐母親:我這輩子最后悔的決定,就是心軟讓女兒嫁給了賈乃亮

      李小璐母親:我這輩子最后悔的決定,就是心軟讓女兒嫁給了賈乃亮

      她時尚丫
      2026-03-22 21:32:14
      新加坡急了,外長幾乎是拍著桌子,讓中國“尊重”馬六甲的地位。

      新加坡急了,外長幾乎是拍著桌子,讓中國“尊重”馬六甲的地位。

      南權先生
      2026-01-26 15:41:26
      25歲男子為尋求刺激,十幾天內猥褻7人,專挑天黑獨自行走或跑步的女性

      25歲男子為尋求刺激,十幾天內猥褻7人,專挑天黑獨自行走或跑步的女性

      觀威海
      2026-04-13 18:24:10
      匈牙利剛變天,新總理就許下一承諾,24小時內,俄方火速宣布訪華

      匈牙利剛變天,新總理就許下一承諾,24小時內,俄方火速宣布訪華

      靚仔情感
      2026-04-14 07:56:47
      國運又來了,儲量相當于煤炭4億倍,中國地底深處藏著超級能源庫

      國運又來了,儲量相當于煤炭4億倍,中國地底深處藏著超級能源庫

      丁丁鯉史紀
      2026-04-13 15:21:06
      2026-04-14 11:35:00
      互聯網怪盜團丶 incentive-icons
      互聯網怪盜團丶
      互聯網行業觀察者
      404文章數 375關注度
      往期回顧 全部

      科技要聞

      離職同事"煉化"成AI?這屆公司不需要活人了

      頭條要聞

      女子做完醫美吃不下睡不著 女技師吐槽"本來就不好看"

      頭條要聞

      女子做完醫美吃不下睡不著 女技師吐槽"本來就不好看"

      體育要聞

      他做對了所有事,卻被整個職業網壇放逐了八年

      娛樂要聞

      宋祖兒劉宇寧戀情大反轉 正主火速辟謠

      財經要聞

      伊朗要求五個中東國家賠償戰爭損失

      汽車要聞

      長城歐拉5限定版純電版上市 限量99臺售價13.38萬元

      態度原創

      旅游
      藝術
      家居
      健康
      軍事航空

      旅游要聞

      春和景明賞花經濟持續火熱 “觀景+文化+體驗”多元場景激發文旅消費新活力

      藝術要聞

      這位美女畫家的夏天竟如此夢幻

      家居要聞

      復古風格 自然簡約

      干細胞抗衰4大誤區,90%的人都中招

      軍事要聞

      特朗普:今晚10點封鎖伊朗 對北約非常失望

      無障礙瀏覽 進入關懷版