Anthropic：智能體開發(fā)，Bash和文件系統(tǒng)勝過API

2026-01-10 21:50:29　來源: 天生是美女

四川舉報(bào)

分享至

Agent開發(fā)的迷思：工具箱的困境

在AI智能體（Agent）開發(fā)領(lǐng)域，過去一年大家都在走一條“堆砌工具”的路，給大語言模型裝一個裝滿各類接口（API）的工具箱，讓模型像個調(diào)度員，按指令選接口干活。

他的這個觀點(diǎn)之所以振聾發(fā)聵，是因?yàn)樗魬?zhàn)了當(dāng)前主流的“接口至上”開發(fā)理念。大家習(xí)慣了為每個特定功能量身定制API，認(rèn)為這能讓Agent更專業(yè)、更高效。事實(shí)證明，這種思路可能正在限制Agent的真正能力。那么，為什么Anthropic會選擇這條看似“倒退”的道路呢？這得從我們對“理想智能體”的定義說起。

理想的AI智能體：從“工具人”到“工程師”

一個真正出色的智能體，它不應(yīng)該只是一個“工具人”，一個只能按部就班執(zhí)行指令的機(jī)器。它應(yīng)該更像一個“自主工作的工程師”，能自己判斷問題，自己規(guī)劃路徑，甚至在遇到意外情況時(shí)，還能主動調(diào)整策略，尋找解決方案。這聽起來是不是很像我們?nèi)祟惖墓ぷ鞣绞剑?/p>

縱觀AI能力的發(fā)展，其實(shí)可以粗略地分成三個階段：

固定流程款：比如現(xiàn)在很流行的“檢索增強(qiáng)生成（RAG）”。它能將多個環(huán)節(jié)串聯(lián)起來，比如“檢索信息-整合內(nèi)容-生成回答”。看似流程復(fù)雜了，但骨子里還是被動的、死板的。一旦某個環(huán)節(jié)出了問題，比如檢索不到結(jié)果，它就徹底卡殼了，仿佛一個被固定程序綁架的機(jī)器人。

自主決策款：這才是我們追求的終極目標(biāo)。智能體能夠像人一樣，先“摸清情況”，然后“規(guī)劃路徑”，接著“執(zhí)行任務(wù)”，如果“遇到問題”，還能“想辦法調(diào)整”。這，才是真正具有“智能”的表現(xiàn)。

很顯然，傳統(tǒng)的API工具箱模式，恰恰把智能體牢牢地卡在了“自主性”的門檻之外。

為什么傳統(tǒng)接口“卡脖子”？

更糟糕的是，如果遇到工具箱里完全沒有預(yù)設(shè)功能的活兒，或者需要好幾個工具搭配才能完成的全新復(fù)雜任務(wù)，智能體就徹底束手無策了。它只能呆呆地看著，因?yàn)樗鼪]有能力“創(chuàng)造”新工具，也沒有能力靈活地“組合”現(xiàn)有工具來解決問題。它的自主性，被接口的固定功能給限制死了。

Bash：智能體的“萬能工作臺”

Anthropic給出的解決方案，簡單卻深刻：與其給智能體一堆現(xiàn)成的“專用工具”，不如直接給它一個能夠自己“造工具”的“工作臺”，這就是Bash命令行。

這背后，蘊(yùn)藏著軟件工程領(lǐng)域幾十年來的老智慧：Unix哲學(xué)。它的核心思想是“KISS”（Keep It Simple, Stupid），每個程序只做好一件事，并且做好。然后，你可以通過管道符（`|`）、重定向（`>`）等機(jī)制，將這些簡單而高效的工具像樂高積木一樣組合起來，完成任何復(fù)雜的任務(wù)。

咱們普通人也能理解這道理。比如，你想把一個視頻轉(zhuǎn)換成動圖，你不會去苦苦尋找一個“視頻轉(zhuǎn)動圖”的專屬API，一個懂電腦的人，可能會直接在命令行里敲一句`ffmpeg -i input.mp4 output.gif`就搞定了。

Bash背后的命令行工具生態(tài)，就是這樣一個靈活而強(qiáng)大的存在。它比接口模式至少有兩大不可替代的優(yōu)勢：

2.自己“查說明書”，自主學(xué)習(xí)：傳統(tǒng)接口對智能體來說是黑箱，如果開發(fā)者沒有在提示里寫清楚用法和參數(shù)，智能體就根本不會用。而且，工具一多，提示信息就會變得臃腫不堪，還容易出錯。但命令行工具不一樣啊！

這才是真正實(shí)現(xiàn)智能體自主能力的關(guān)鍵！Anthropic的思路是，別把智能體像溫室里的花朵一樣圈在人為設(shè)定的“安全區(qū)”里，而是給它一個受控的真實(shí)環(huán)境，讓它像人類一樣，通過通用工具去解決問題。

2.決策行動：根據(jù)觀察到的情況和既定目標(biāo)，智能體自主決定下一步的動作。這可能意味著調(diào)用某個命令行工具，或者編寫一段新的腳本代碼來處理。

3.執(zhí)行任務(wù)：通過Bash執(zhí)行選定的命令或代碼。

這個循環(huán)的核心價(jià)值在于“驗(yàn)證”。它賦予了智能體自我修正的能力，如果代碼運(yùn)行報(bào)錯了，它能看到具體的錯誤信息，然后重新檢查代碼，找出問題，修改后再次嘗試。這種“發(fā)現(xiàn)問題-分析問題-解決問題-驗(yàn)證結(jié)果”的閉環(huán)，是傳統(tǒng)固定流程的Agent永遠(yuǎn)無法做到的。

構(gòu)建信任：可靠性與安全性并重

這類規(guī)則防護(hù)，無需重新訓(xùn)練大模型，就能大幅提升智能體的運(yùn)行可靠性，避免許多低級錯誤。

而在安全性方面，Anthropic也采取了多層防護(hù)策略：模型本身在訓(xùn)練時(shí)就融入了安全意識，對于命令行操作，會有專門的語法解析器來攔截潛在的危險(xiǎn)指令，此外，智能體還被放置在沙箱（隔離環(huán)境）中運(yùn)行，對其訪問權(quán)限進(jìn)行嚴(yán)格限制。多管齊下，最大限度地降低了潛在風(fēng)險(xiǎn)。

Thariq在實(shí)踐中也總結(jié)了不少寶貴的經(jīng)驗(yàn)，對于正在嘗試Agent開發(fā)的同仁們非常有啟發(fā)：

回歸本質(zhì)：通向通用智能的燈塔

Anthropic的這套思路，在我看來，就像前端開發(fā)領(lǐng)域從最初簡單工具的堆砌，逐漸升級到組件化、框架化的演進(jìn)，表面上看，門檻似乎提高了，因?yàn)椴辉偈呛唵蔚腁PI調(diào)用，而是要深入理解操作系統(tǒng)級的交互。但實(shí)際上，正是這種回歸到計(jì)算世界本質(zhì)的做法，才能構(gòu)建出更加強(qiáng)大、穩(wěn)定和真正智能的應(yīng)用。

這正是通向真正智能體的必經(jīng)之路。我們的真實(shí)世界，充滿了各種不可預(yù)測的意外。一個只懂得以固定接口應(yīng)對固定場景的智能體，永遠(yuǎn)無法處理復(fù)雜多變的環(huán)境。

聲明：個人原創(chuàng)，僅供參考

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.