![]()
凌晨?jī)牲c(diǎn),一個(gè)17歲用戶向AI傾訴抑郁情緒。系統(tǒng)該安慰他,還是觸發(fā)警報(bào)通知家長(zhǎng)?這個(gè)場(chǎng)景沒有標(biāo)準(zhǔn)答案,但OpenAI正在試圖給開發(fā)者一套"參考答案"。
周二,OpenAI發(fā)布5組開源安全提示詞,專門針對(duì)青少年用戶群體。這些提示詞覆蓋暴力色情內(nèi)容、有害身體觀念、危險(xiǎn)挑戰(zhàn)活動(dòng)、浪漫或暴力角色扮演、年齡限制商品等場(chǎng)景,可直接嵌入開發(fā)者自己的AI產(chǎn)品中。
配套工具是OpenAI今年2月開源的安全模型gpt-oss-safeguard(權(quán)重開放,可本地部署)。提示詞設(shè)計(jì)為通用格式,理論上也能套在其他模型上,但OpenAI自家生態(tài)兼容性最佳。
開發(fā)者困境:從"想做安全"到"知道怎么做"
OpenAI在博客中坦承一個(gè)行業(yè)通病:即便是有經(jīng)驗(yàn)的技術(shù)團(tuán)隊(duì),也常常把"保護(hù)青少年"這個(gè)目標(biāo),翻譯成要么過度過濾、要么漏洞百出的執(zhí)行規(guī)則。
「這會(huì)導(dǎo)致防護(hù)缺口、執(zhí)行不一致,或者過濾范圍過寬。」OpenAI寫道。
打個(gè)比方:就像餐廳都知道食品安全重要,但具體多少度殺菌、什么pH值算合格,沒有操作手冊(cè)就只能各自摸索。OpenAI這次給出的,就是那份"操作手冊(cè)"的初稿。
合作方Common Sense Media的AI與數(shù)字評(píng)估負(fù)責(zé)人Robbie Torney評(píng)價(jià):「這些基于提示詞的策略為整個(gè)生態(tài)設(shè)定了有意義的安全底線,而且因?yàn)殚_源發(fā)布,可以被持續(xù)適配和改進(jìn)。」
開源背后的博弈:便利性與控制權(quán)的交換
支持方的邏輯很直接:降低安全門檻,讓更多中小開發(fā)者有能力合規(guī),而不是只有巨頭才養(yǎng)得起安全團(tuán)隊(duì)。
但質(zhì)疑聲同樣存在。提示詞開源意味著透明,但也意味著攻擊者可以研究繞過策略。更微妙的爭(zhēng)議在于:誰定義"安全"?
OpenAI列出的5類風(fēng)險(xiǎn)中,"有害身體觀念"和"浪漫角色扮演"的邊界尤其模糊。一個(gè)討論減肥計(jì)劃的健身App,和一個(gè)助長(zhǎng)厭食癥的社區(qū),提示詞能否精準(zhǔn)區(qū)分?不同文化背景下的"適齡內(nèi)容"標(biāo)準(zhǔn),又由誰來校準(zhǔn)?
OpenAI自己也承認(rèn),這些策略「不是AI安全復(fù)雜挑戰(zhàn)的終極解決方案」。它們只是基礎(chǔ)設(shè)施——就像給建筑工地發(fā)了安全帽,但房子怎么蓋、蓋成什么樣,仍是開發(fā)者的事。
歷史包袱:OpenAI的青少年安全成績(jī)單
這次開源并非孤立動(dòng)作。去年,OpenAI更新了其大語言模型行為指南Model Spec,專門增設(shè)對(duì)18歲以下用戶的交互規(guī)則。產(chǎn)品層面也有家長(zhǎng)控制功能和年齡預(yù)測(cè)機(jī)制。
但公司自身的合規(guī)記錄并不干凈。OpenAI正面臨多起訴訟,包括被指控未經(jīng)授權(quán)收集青少年數(shù)據(jù)用于訓(xùn)練。開源安全工具,某種程度上也是在外部壓力下的姿態(tài)調(diào)整——把部分責(zé)任分散給開發(fā)者生態(tài),同時(shí)占據(jù)"行業(yè)標(biāo)準(zhǔn)制定者"的位置。
一個(gè)值得玩味的細(xì)節(jié):OpenAI選擇與Common Sense Media合作——這家機(jī)構(gòu)以給影視游戲打分聞名,其評(píng)價(jià)體系本身就有爭(zhēng)議性。這種合作是借勢(shì)背書,還是真正引入第三方制衡,目前難下定論。
對(duì)開發(fā)者而言,這套工具的現(xiàn)實(shí)價(jià)值在于節(jié)省啟動(dòng)成本。一位獨(dú)立開發(fā)者估算,從零搭建青少年安全策略通常需要2-3周研究和測(cè)試,現(xiàn)在可能縮短到幾天。但長(zhǎng)期維護(hù)成本并未消失:提示詞需要隨模型迭代更新,邊界案例需要持續(xù)標(biāo)注,誤判投訴需要人工復(fù)核。
數(shù)據(jù)層面,OpenAI未披露gpt-oss-safeguard的具體訓(xùn)練數(shù)據(jù)規(guī)模,僅表示其基于"多樣化安全場(chǎng)景"構(gòu)建。5組提示詞的覆蓋范圍,約占其Model Spec中青少年相關(guān)條款的60%——剩余40%涉及更復(fù)雜的語境判斷,仍留待開發(fā)者自行填補(bǔ)。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.