OpenAI 過去一年中最具爭議的問題之一,是當聊天機器人用戶在對話中表現出心理健康困擾跡象時,模型究竟應該如何應對,如今負責這一領域安全研究的負責人安德莉亞·瓦隆內(Andrea Vallone)已經離職并加入 Anthropic。
![]()
瓦隆內此前在領英發文表示,過去一年她在 OpenAI 負責的研究幾乎“沒有現成先例”可循,其核心問題是:當模型面對用戶出現情感過度依賴,或早期的心理健康危機信號時,應該如何回應。她在 OpenAI 任職三年,其間組建并帶領“模型政策”(model policy)研究團隊,圍繞 GPT?4、下一代推理模型 GPT?5 的部署開展工作,并參與設計包括“基于規則的獎勵”等在內的多種業界主流安全訓練方法。
如今,瓦隆內已加入 Anthropic 的對齊(alignment)團隊,這一團隊的任務是識別和理解大模型可能帶來的重大風險,并探索應對路徑。她將向 Jan Leike 匯報工作——這位 OpenAI 前安全研究負責人在 2024 年 5 月因擔憂 OpenAI 的“安全文化和流程已讓位于光鮮產品”而離職,之后轉投 Anthropic。
過去一年,圍繞 AI 聊天機器人與用戶心理健康相關的風險,頭部 AI 創業公司不斷引發輿論爭議。一些用戶在與聊天機器人長時間傾訴后,心理困境進一步加深,安全防線在長對話中逐漸瓦解,甚至出現青少年自殺、成年人在與工具“傾訴”后實施殺人等極端事件。多起案件引發家屬對相關公司提起過失致死訴訟,美國參議院的一個小組委員會也就此舉行聽證,要求探討聊天機器人在這類事件中的角色和責任,安全研究人員則被要求給出更有力的解決方案。
Anthropic 的對齊團隊負責人之一 Sam Bowman 在領英上表示,自己“為 Anthropic 對這一問題的重視程度感到自豪”,認為公司正認真思考“AI 系統應該如何行為”。瓦隆內則在本周四的領英新帖中寫道,她“期待在 Anthropic 繼續開展研究,專注于通過對齊和微調,在全新情境下塑造 Claude 的行為”。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.