網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

Claude Code把權(quán)限決策塞給AI

2026-03-25 14:53:24　來源: 爬蟲飼養(yǎng)員

北京舉報(bào)

分享至

Claude Code今天上線了一個(gè)新功能，叫auto mode（自動(dòng)模式）。它的邏輯挺有意思：讓AI替你決定是否授權(quán)執(zhí)行操作，而不是像以前那樣每次都要你手動(dòng)點(diǎn)確認(rèn)。

聽起來省事，但有個(gè)細(xì)節(jié)讓人心里打鼓——這個(gè)"把關(guān)"的AI，和正在幫你寫代碼的AI，是同一個(gè)公司造的。

自動(dòng)模式怎么工作：一個(gè)AI干活，另一個(gè)AI盯梢

根據(jù)官方文檔，auto mode的核心是一套雙層架構(gòu)。你的主會(huì)話可以用Claude 3.7 Sonnet、Opus 4這些模型，但審查你操作的"分類器"固定用Claude Sonnet 4.6。

這個(gè)分類器會(huì)在每個(gè)動(dòng)作執(zhí)行前介入，檢查三件事：動(dòng)作是否超出你交代的任務(wù)范圍、目標(biāo)基礎(chǔ)設(shè)施是否被標(biāo)記為可信、以及是否被文件或網(wǎng)頁里的惡意內(nèi)容誘導(dǎo)。如果判定有風(fēng)險(xiǎn)，操作會(huì)被攔下。

用戶可以在終端運(yùn)行claude auto-mode defaults查看完整的規(guī)則集。JSON輸出很長，我挑幾條有代表性的：

允許列表里包括pip install -r requirements.txt這種常見操作，也允許讀取~/.bashrc、~/.zshrc這些shell配置文件。危險(xiǎn)操作如curl | bash管道安裝、直接修改/etc/hosts、向node_modules寫入文件，默認(rèn)會(huì)被攔截。

規(guī)則總數(shù)47條，覆蓋文件系統(tǒng)、網(wǎng)絡(luò)請(qǐng)求、命令執(zhí)行、Git操作四大類。用戶可以在此基礎(chǔ)上疊加自己的自定義規(guī)則。

prompt injection的老問題：非確定性防御的軟肋

Simon Willison在博客里寫得很直白：「我對(duì)依賴AI做prompt injection防護(hù)這件事始終存疑，因?yàn)樗鼈儽举|(zhì)上是非確定性的。」

這話指向一個(gè)尷尬的現(xiàn)實(shí)。分類器也是LLM，它判斷"這個(gè)操作是否符合用戶意圖"時(shí)，用的是和你主模型類似的概率推理。文檔自己也承認(rèn)：「如果用戶意圖模糊，或者Claude對(duì)你的環(huán)境上下文不足，分類器仍可能放行有風(fēng)險(xiǎn)的操作。」

更具體的風(fēng)險(xiǎn)已經(jīng)出現(xiàn)過。就在今天早上，LiteLLM遭遇了供應(yīng)鏈攻擊——攻擊者通過未固定版本的依賴注入惡意代碼。而auto mode的默認(rèn)規(guī)則允許pip install -r requirements.txt，這意味著如果requirements.txt本身被篡改，分類器不會(huì)把它識(shí)別為越界操作。

畢竟，從分類器的視角看，"安裝項(xiàng)目依賴"完全在任務(wù)范圍內(nèi)。

替代方案：確定性沙箱 vs AI守門員

Willison的偏好很明確：「我還是希望編碼代理默認(rèn)跑在健壯的沙箱里，用確定性方式限制文件訪問和網(wǎng)絡(luò)連接。比起這種基于prompt的防護(hù)，我信任前者多得多。」

這個(gè)對(duì)比很尖銳。沙箱的權(quán)限控制是硬編碼的——能讀哪些目錄、能連哪些域名，規(guī)則寫死，繞過成本極高。而AI分類器的決策是上下文相關(guān)的，同一個(gè)操作在不同對(duì)話里可能得到不同判定。

但Anthropic顯然在押注另一條路。把權(quán)限決策也納入AI的能力邊界，讓系統(tǒng)更"懂"你在做什么，而不是機(jī)械地按白名單執(zhí)行。代價(jià)是引入了新的不確定性層。

一個(gè)值得玩味的細(xì)節(jié)：分類器固定用Sonnet 4.6，哪怕你主會(huì)話用更貴的Opus 4。這可能是成本考量，也可能是4.6在這個(gè)特定任務(wù)上經(jīng)過了更多對(duì)齊訓(xùn)練。Anthropic沒解釋原因。

auto mode現(xiàn)在作為--dangerously-skip-permissions的替代方案推出。后者是舊版的"全自動(dòng)駕駛"，幾乎不設(shè)防。新方案至少多了道審查，但這道審查本身可靠嗎？

如果你今天就在用Claude Code，會(huì)打開auto mode，還是繼續(xù)手動(dòng)點(diǎn)每一個(gè)確認(rèn)按鈕？

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.