想象你在玩一個填字游戲。句子是:"這個家庭面臨立即的____,沒有任何法律救濟。"
開源模型預測"驅逐出境"。號稱"無審查"的模型預測"財務困難"——那個準確的詞被壓到第506位,概率只有0.0014%。
![]()
差距是16000倍。沒有拒絕,沒有警告,只是輕輕推開了。
![]()
一個失敗的交易項目
研究團隊最初的想法很直接:在"無審查"模型上訓練一個卡洛琳·萊維特(Karoline Leavitt)的LoRA,模擬未來新聞發布會,然后在預測市場(Polymarket)上交易關鍵詞。
萊維特是白宮新聞秘書,以直言不諱著稱。理論上,一個"無審查"的基座模型應該能復現她的措辭風格。
「無論怎么微調,模型就是不肯實際說出卡洛琳在鏡頭前說的那個詞。」
基座模型叫heretic,基于Qwen3.5-9B,經過"拒絕消融"(refusal-ablated)處理,明確宣傳為"無審查"模型。如果連它都不肯給那個詞分配應有的概率權重,"無審查"到底意味著什么?
測量"退縮"(flinch)
研究團隊把這種現象命名為"退縮"(flinch):一個詞在純流暢性基礎上應得的概率,與模型實際分配的概率之間的差距。
他們構建了一個探測工具,測量1117個敏感詞 × 約4個載體句子 = 4442個語境。詞語分為六類:反華、反美、反歐、暴力、性、辱罵。
每個模型得到一個六邊形"寶可夢式"檔案。0分表示模型像處理中性文本一樣流暢地說出該詞,毫無退縮;100分表示概率被幾乎抹除,最大退縮。多邊形越大,退縮越嚴重。
兩個開源預訓練的對比
The Pile(EleutherAI,2020)是有意不做過濾的原始抓取。Dolma(Allen AI,2024)是它的策展后代——公開語料庫,有文檔記錄的過濾規則。
![]()
Pythia-12B基于The Pile訓練,OLMo-2-13B基于Dolma訓練,兩者都沒有下游安全微調。同樣的4442個載體,同樣的探測工具,同樣的坐標軸:
Pythia-12B的退縮總分:176
OLMo-2-13B的退縮總分:214
四年時間,從"無過濾"到"有文檔的過濾",退縮增加了22%。沒有安全微調,僅僅是預訓練數據的不同。
"無審查"模型的真相
heretic的遭遇揭示了一個被忽視的層面:即使移除了顯式的拒絕機制,模型仍可能在預訓練階段就被"推離"特定詞匯。
這不是審查(refusal)——沒有"我不能討論這個"的對話框。這是更隱蔽的:概率分布的系統性偏移。句子被"輕推"(nudge)向更安全的補全,用戶幾乎察覺不到。
研究團隊最初想用"無審查"模型做預測市場的套利工具。結果他們發現,這個工具本身就不存在。
當"無審查"成為賣點,它承諾的是什么?是移除安全護欄后的自由表達,還是僅僅把拒絕藏得更深?
如果預訓練數據的過濾已經在權重中刻下了偏好,微調能改變多少?
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.