Claude Code今天上線了一個(gè)新功能,叫auto mode(自動(dòng)模式)。它的邏輯挺有意思:讓AI替你決定是否授權(quán)執(zhí)行操作,而不是像以前那樣每次都要你手動(dòng)點(diǎn)確認(rèn)。
聽起來省事,但有個(gè)細(xì)節(jié)讓人心里打鼓——這個(gè)"把關(guān)"的AI,和正在幫你寫代碼的AI,是同一個(gè)公司造的。
自動(dòng)模式怎么工作:一個(gè)AI干活,另一個(gè)AI盯梢
根據(jù)官方文檔,auto mode的核心是一套雙層架構(gòu)。你的主會(huì)話可以用Claude 3.7 Sonnet、Opus 4這些模型,但審查你操作的"分類器"固定用Claude Sonnet 4.6。
這個(gè)分類器會(huì)在每個(gè)動(dòng)作執(zhí)行前介入,檢查三件事:動(dòng)作是否超出你交代的任務(wù)范圍、目標(biāo)基礎(chǔ)設(shè)施是否被標(biāo)記為可信、以及是否被文件或網(wǎng)頁里的惡意內(nèi)容誘導(dǎo)。如果判定有風(fēng)險(xiǎn),操作會(huì)被攔下。
用戶可以在終端運(yùn)行claude auto-mode defaults查看完整的規(guī)則集。JSON輸出很長,我挑幾條有代表性的:
允許列表里包括pip install -r requirements.txt這種常見操作,也允許讀取~/.bashrc、~/.zshrc這些shell配置文件。危險(xiǎn)操作如curl | bash管道安裝、直接修改/etc/hosts、向node_modules寫入文件,默認(rèn)會(huì)被攔截。
規(guī)則總數(shù)47條,覆蓋文件系統(tǒng)、網(wǎng)絡(luò)請(qǐng)求、命令執(zhí)行、Git操作四大類。用戶可以在此基礎(chǔ)上疊加自己的自定義規(guī)則。
prompt injection的老問題:非確定性防御的軟肋
Simon Willison在博客里寫得很直白:「我對(duì)依賴AI做prompt injection防護(hù)這件事始終存疑,因?yàn)樗鼈儽举|(zhì)上是非確定性的。」
這話指向一個(gè)尷尬的現(xiàn)實(shí)。分類器也是LLM,它判斷"這個(gè)操作是否符合用戶意圖"時(shí),用的是和你主模型類似的概率推理。文檔自己也承認(rèn):「如果用戶意圖模糊,或者Claude對(duì)你的環(huán)境上下文不足,分類器仍可能放行有風(fēng)險(xiǎn)的操作。」
更具體的風(fēng)險(xiǎn)已經(jīng)出現(xiàn)過。就在今天早上,LiteLLM遭遇了供應(yīng)鏈攻擊——攻擊者通過未固定版本的依賴注入惡意代碼。而auto mode的默認(rèn)規(guī)則允許pip install -r requirements.txt,這意味著如果requirements.txt本身被篡改,分類器不會(huì)把它識(shí)別為越界操作。
畢竟,從分類器的視角看,"安裝項(xiàng)目依賴"完全在任務(wù)范圍內(nèi)。
替代方案:確定性沙箱 vs AI守門員
Willison的偏好很明確:「我還是希望編碼代理默認(rèn)跑在健壯的沙箱里,用確定性方式限制文件訪問和網(wǎng)絡(luò)連接。比起這種基于prompt的防護(hù),我信任前者多得多。」
這個(gè)對(duì)比很尖銳。沙箱的權(quán)限控制是硬編碼的——能讀哪些目錄、能連哪些域名,規(guī)則寫死,繞過成本極高。而AI分類器的決策是上下文相關(guān)的,同一個(gè)操作在不同對(duì)話里可能得到不同判定。
但Anthropic顯然在押注另一條路。把權(quán)限決策也納入AI的能力邊界,讓系統(tǒng)更"懂"你在做什么,而不是機(jī)械地按白名單執(zhí)行。代價(jià)是引入了新的不確定性層。
一個(gè)值得玩味的細(xì)節(jié):分類器固定用Sonnet 4.6,哪怕你主會(huì)話用更貴的Opus 4。這可能是成本考量,也可能是4.6在這個(gè)特定任務(wù)上經(jīng)過了更多對(duì)齊訓(xùn)練。Anthropic沒解釋原因。
auto mode現(xiàn)在作為--dangerously-skip-permissions的替代方案推出。后者是舊版的"全自動(dòng)駕駛",幾乎不設(shè)防。新方案至少多了道審查,但這道審查本身可靠嗎?
如果你今天就在用Claude Code,會(huì)打開auto mode,還是繼續(xù)手動(dòng)點(diǎn)每一個(gè)確認(rèn)按鈕?
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.