
作者 | Sergio De Simone
譯者 | 平川
Gemma Scope 2 是一套旨在解釋 Gemini 3 模型行為的工具,使研究人員能夠分析模型的突發行為,審核和調試 AI 代理,并針對越獄、幻覺和阿諛奉承等安全問題制定緩解策略。
可解釋性研究旨在理解 AI 模型的內部工作機制和學習算法。隨著 AI 變得越來越強大和復雜,可解釋性對于構建安全可靠的 AI 至關重要。
谷歌將 Gemma Scope 描述為大型語言模型(LLM)顯微鏡。它結合了稀疏自編碼器(SAEs)和轉碼器,讓研究人員能夠檢查模型的內部表示,查看它“思考”的內容,并理解這些內部狀態如何塑造了其行為。一個關鍵的應用場景是檢查模型輸出與其內部狀態之間的差異,按照谷歌的說法,這可能有助于發現安全風險。
Gemma Scope 2 針對 Gemma 2 模型家族從多個方面擴展了原先的 Gemma Scope。最值得注意的是,它在 Gemini 3 模型的每一層中重新訓練了其 SAEs 和轉碼器,包括 kip-transcoders 和 cross-layer transcoders 。這些轉碼器旨在使多步計算和分布式算法更容易解釋。
谷歌解釋說,增加層數直接增加了計算和內存需求。為了保持復雜性隨層數線性增長,這需要設計專門的稀疏內核。
此外,谷歌采用了 一種更先進的訓練技術,使 Gemma Scope 2 有更強的能力來識別更有用的概念,同時也解決了初版實現中已知的幾個缺陷。最后,Gemma Scope 2 引入了專門針對聊天機器人進行分析的工具,使研究人員能夠研究復雜的多步行為,如越獄、拒絕機制和思維鏈忠實度。
稀疏自編碼器使用一對編碼器和解碼器函數來分解和重建所有 LLM 輸入。另一方面,經過訓練后,轉碼器能夠稀疏重建多層感知器(MLP)子層的計算過程,即學習如何對給定輸入進行輸出近似。這使其能夠識別各層及子層中哪些部分(更精確地說是哪些激活模式)是由單輸入令牌或令牌序列觸發的。
除了應用于安全領域外,Reddit 用戶 Mescalian 預測,這項研究還可以:
指導其他領域的最佳實踐,未來可能會被用來監控智能程度更高的 AI 的內部推理。不過目前,它最適用于通過對權重進行微調及其他修改來調整模型能力。
與谷歌類似,Anthropic 和 OpenAI 也針對他們的模型發布了自己的“ AI 顯微鏡”。
谷歌已在 Hugging Face 上發布了 Gemma Scope 2 的權重。
https://www.infoq.com/news/2026/01/google-gemma-scope-2/
聲明:本文為 InfoQ 翻譯,未經許可禁止轉載。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.