![]()
大數(shù)據(jù)文摘出品
OpenAI在8月初發(fā)布了開放權(quán)重模型家族gpt-oss,這是公司自2019年GPT-2以來首次真正意義上的開源動(dòng)作。
僅僅兩周后,一位研究者就將這一模型“拆解重組”,推出了與官方版本迥異的變體。
康奈爾大學(xué)博士生、前Google Brain成員、現(xiàn)任Meta研究員的Jack Morris,公開了名為gpt-oss-20b-base的新版本。
![]()
他并沒有讓模型變得更聰明,而是剝離了OpenAI在訓(xùn)練中添加的推理與對(duì)齊能力。
結(jié)果是,一個(gè)更快、更自由、更無約束的“原始基座模型”重新出現(xiàn)。
一、從“推理模型”到“基座模型”的逆轉(zhuǎn)
![]()
地址:http://huggingface.co/jxm/gpt-oss-20b-base
要理解這一變化,必須先區(qū)分“推理優(yōu)化模型”和“基座模型”。
OpenAI發(fā)布的gpt-oss屬于前者,它經(jīng)過額外的指令微調(diào)和對(duì)齊,使得模型在回答問題時(shí)更安全、更符合預(yù)期。
這種做法源自2024年推出的o1模型,強(qiáng)調(diào)鏈?zhǔn)剿季S,讓AI在生成答案前進(jìn)行多步推理與自我檢查。它們?cè)诰幊獭?shù)學(xué)和解釋類任務(wù)上表現(xiàn)優(yōu)異,但往往會(huì)規(guī)避敏感話題。
相比之下,基座模型是未經(jīng)對(duì)齊的原始形態(tài),它只負(fù)責(zé)預(yù)測(cè)下一個(gè)詞,不具備禮貌、拒絕或安全過濾的機(jī)制。
![]()
Jack Morris的目標(biāo)就是把gpt-oss-20B“逆轉(zhuǎn)”回這種原始形態(tài)。
他在X平臺(tái)寫道:“我們基本上逆轉(zhuǎn)了LLM訓(xùn)練中的對(duì)齊部分,現(xiàn)在它重新生成自然文本,不再進(jìn)行鏈?zhǔn)酵评恚皇窍褡畛跻粯宇A(yù)測(cè)下一個(gè)token。”
這種方式讓模型重新具備更廣闊的表達(dá)自由,但同時(shí)也帶來更大的安全風(fēng)險(xiǎn)。
二、技術(shù)路徑:60M參數(shù)的微小調(diào)整
Morris并沒有采用常見的“越獄提示詞”,而是直接從模型結(jié)構(gòu)入手。
在與OpenAI前聯(lián)合創(chuàng)始人、現(xiàn)任Thinking Machines首席科學(xué)家John Schulman交流后,他確定了一個(gè)關(guān)鍵點(diǎn):
如果大部分預(yù)訓(xùn)練知識(shí)仍然存在,那么只需要一個(gè)低秩的小優(yōu)化,就能讓模型回到基座分布。
![]()
他采用了LoRA(低秩適配器)技術(shù),只在第7、15和23層的MLP模塊做了改動(dòng),秩設(shè)為16。
這一調(diào)整涉及大約6000萬參數(shù),只占模型總量的0.3%。訓(xùn)練數(shù)據(jù)來自FineWeb數(shù)據(jù)集的2萬篇文檔,訓(xùn)練時(shí)盡量保持接近原始預(yù)訓(xùn)練格式。
訓(xùn)練過程耗時(shí)四天,硬件配置為8張NVIDIA H200 GPU,學(xué)習(xí)率2e-6,批大小16,最大序列長(zhǎng)度8192。
完成后,他將LoRA權(quán)重合并回模型,形成一個(gè)可以獨(dú)立運(yùn)行的成品。Morris強(qiáng)調(diào),他并沒有恢復(fù)原始的權(quán)重參數(shù),而是恢復(fù)了輸出分布。
換言之,他讓模型的輸出概率模式更接近基座形態(tài),即使內(nèi)部的權(quán)重并不完全相同。
![]()
三、自由與風(fēng)險(xiǎn):研究者的兩難選擇
新模型gpt-oss-20b-base的行為與官方版本截然不同。它不再自動(dòng)進(jìn)行推理步驟,而是直接生成更自由的文本。
這意味著,它會(huì)輸出OpenAI原版模型拒絕生成的指令,例如涉及武器制作、非法行為或粗口內(nèi)容。
在測(cè)試中,它甚至能夠逐字復(fù)現(xiàn)部分書籍片段,顯示出記憶性內(nèi)容依然可被觸發(fā)。
不過,痕跡依然存在。如果在提示中使用“Human: … Assistant: …”的對(duì)話模板,它有時(shí)仍會(huì)表現(xiàn)出禮貌的助手風(fēng)格。
為了獲得最“原始”的輸出,Morris建議使用模型的特殊起始符號(hào)<|startoftext|>,并避免任何聊天模板。
這也讓研究界看到另一面:開放權(quán)重不僅能被復(fù)用,還能被快速改造。
更值得注意的是,Morris還計(jì)劃將類似的逆轉(zhuǎn)方法應(yīng)用到Qwen等其他開源指令模型上。
這意味著,“去對(duì)齊化”的趨勢(shì)可能繼續(xù)擴(kuò)散,成為研究者和開發(fā)者探索的又一條分支道路。
注:頭圖AI生成
作者長(zhǎng)期關(guān)注 AI 產(chǎn)業(yè)與學(xué)術(shù),歡迎對(duì)這些方向感興趣的朋友添加微信Q1yezi,共同交流行業(yè)動(dòng)態(tài)與技術(shù)趨勢(shì)!
GPU 訓(xùn)練特惠!
H100/H200 GPU算力按秒計(jì)費(fèi),平均節(jié)省開支30%以上!
掃碼了解詳情?
點(diǎn)「贊」的人都變好看了哦!
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.