網(wǎng)易首頁 > 網(wǎng)易號 > 正文申請入駐

企業(yè) Agent 為何多半是玩具？差的不是模型，是品味

2026-01-13 07:59:38　來源: AI深度研究員

上海舉報(bào)

分享至

全文 3,000字 | 閱讀約 8 分鐘

(Replit CEO Amjad Masad 訪談要點(diǎn))

過去一年，AI Agent 在演示環(huán)節(jié)的表現(xiàn)越來越驚艷。

給它一個指令，代碼自動生成，環(huán)境自動配置，產(chǎn)品幾分鐘就能上線。整個過程流暢到讓人覺得，這技術(shù)已經(jīng)可以替代一整個團(tuán)隊(duì)了。

但真正落地時，評價往往只有一句：看著挺好，用不起來。

Replit CEO Amjad Masad 最近在一場對談中，用了一個詞來評價今天的 Agent ：玩具（toys）。看起來能干活，實(shí)際不穩(wěn)定、做事靠運(yùn)氣、生成的東西都差不多。這類能生成但不可靠的內(nèi)容，在業(yè)內(nèi)有個統(tǒng)一稱呼：slop（粗制濫造）。

問題不只出在模型本身。更大的問題是：沒人教 Agent 什么叫“好”。

什么內(nèi)容該保留
什么要刪改
做到什么程度才算合格。

這些判斷標(biāo)準(zhǔn)，模型學(xué)不到。所以 Masad 的答案不是換更大的模型，就兩個字：品味（taste）。

要讓平臺更有主張，讓 Agent 理解好的標(biāo)準(zhǔn)。

第一節(jié)｜多數(shù) Agent 都翻車，不是不聰明，是太通用

Amjad Masad 說：

當(dāng)前，除了代碼和客服，其他 Agent 基本都不靠譜。

不是因?yàn)槟Ｐ湍芰Σ粔颍沁@些 Agent 本質(zhì)上就是通用輸出機(jī)器。你給一句模糊提示，它就隨便輸出一個看起來還行的通用答案。看起來像在完成任務(wù)，實(shí)際上只是勉強(qiáng)交差。

所有生成的內(nèi)容看起來都差不多。UI 排布雷同，語言模板僵硬，代碼風(fēng)格也像流水線產(chǎn)品。

具體來說：

你讓它做個營銷活動規(guī)劃，它會輸出一個看起來還行的 Excel，但不懂品牌語調(diào)，也不清楚預(yù)算限制；
你讓它寫代碼，它給你一段跑得通的函數(shù)，但沒考慮企業(yè)自己的數(shù)據(jù)庫結(jié)構(gòu)；

它能查資料、能回復(fù)、能填表，但始終不清楚什么才算完成得好。

它缺的不是智能，是判斷標(biāo)準(zhǔn)。

在企業(yè)內(nèi)部，事情往往沒那么標(biāo)準(zhǔn)化。數(shù)據(jù)是混亂的，流程是斷的，權(quán)限是分散的。Agent 真正難的，不是生成內(nèi)容，而是在一團(tuán)亂麻里還能做出靠譜判斷。

所以 Amjad 強(qiáng)調(diào)，

信息檢索是聊天機(jī)器人，行動才是 Agent 。

也就是說，光會找信息不算 Agent，得能做決定、能判斷結(jié)果。

大多數(shù) Agent 一上生產(chǎn)就崩潰，不是因?yàn)樗浚撬ㄓ谩]有判斷力，也沒有判斷邊界。你讓它做決定，它只會給你一種模糊的中等答案。

你以為你找了個助理，結(jié)果來的是個不會說不的臨時工。

第二節(jié)｜品味不是審美，是標(biāo)準(zhǔn)

Amjad 說：你不能指望基礎(chǔ)模型自帶品味。

這里的“品味”，不是設(shè)計(jì)風(fēng)格，也不是代碼偏好，而是一套讓模型交出可用結(jié)果的機(jī)制。

如果只用模型的默認(rèn)輸出，結(jié)果只會是一堆雷同的內(nèi)容，和市面上其他產(chǎn)品沒什么區(qū)別。

那 Replit 怎么做的？

第一步，給模型定規(guī)矩。

Replit 為不同類型的 App 準(zhǔn)備了提示模板。做電商的用電商的結(jié)構(gòu)，做內(nèi)容的用內(nèi)容的邏輯。不是讓模型自由發(fā)揮，而是事先定好框架，讓生成內(nèi)容符合業(yè)務(wù)需求。

第二步，限定答案范圍。

它不在整個互聯(lián)網(wǎng)上隨便找資料，而是從自己整理好的內(nèi)容庫里查。用的都是提前分類標(biāo)記過的數(shù)據(jù)。這樣至少能保證，每次調(diào)用的信息是可信的。

第三步，舍得花資源。

Replit 選擇了不走快路。每次生成內(nèi)容的長度更長，查詢更深，結(jié)構(gòu)更細(xì)。哪怕過程更慢，成本更高。Amjad 的態(tài)度很明確：App 貴一點(diǎn)、慢一點(diǎn)，但能用。

這套做法背后的邏輯很簡單：

生成內(nèi)容，不等于完成任務(wù)。

他要的是結(jié)果能被真實(shí)用戶用起來，而不是模型做了什么。

所以，他對“品味”的定義，不是一種感覺，而是三個實(shí)際動作：

先定好什么算完成
只讓模型在靠譜的范圍里找答案
愿意為質(zhì)量多花成本

如果說大模型是原材料，Replit 給它加了三層把關(guān)：標(biāo)準(zhǔn)、范圍、成本。把那些差不多就行的模糊輸出，一層層卡住。

這就是 Amjad 說的品味：不是審美，而是讓結(jié)果有標(biāo)準(zhǔn)、可追溯、有保障。

第三節(jié)｜Replit 的 Agent 為什么能交付？

有了標(biāo)準(zhǔn)，還得有人盯著。

一個 Agent 能不能用，核心不是它能不能生成內(nèi)容，而是它能不能檢查自己做得對不對。但大多數(shù) Agent 做不到這一點(diǎn)。

大多數(shù) Agent 只負(fù)責(zé)寫，不負(fù)責(zé)看結(jié)果。它生成完代碼、文檔或操作指令，就直接停了。至于能不能執(zhí)行、有沒有問題，它自己并不知道。

Replit 最大的不同，是它讓 Agent 具備了自測能力。

怎么做的？Amjad 講了個簡單但有效的辦法：給每個編碼 Agent 配一個測試 Agent。前者寫，后者查。測試 Agent 會像用戶一樣打開網(wǎng)頁、點(diǎn)按鈕、讀輸出。不是看代碼，而是實(shí)際操作一遍，看頁面能不能正常跑、會不會崩潰、有沒有做完。

如果發(fā)現(xiàn)問題，它會把反饋丟給主 Agent。主 Agent 改完再測，直到通過。

這套機(jī)制不靠聰明，靠的是流程。

而且 Replit 用的是兩個不同模型。一個寫，一個測。為什么？因?yàn)橐粋€模型容易自圓其說，兩個模型互相挑戰(zhàn)，才更可能發(fā)現(xiàn)問題。

這就是 Replit 真正能用的原因：它不是生成一次，而是完成一輪。從寫得出到用得上，中間差了至少一層驗(yàn)證。

Amjad 強(qiáng)調(diào)：

“我們是唯一一個讓 Agent 測試自己工作成果的氛圍編碼平臺。”

更關(guān)鍵的是：Replit 給了用戶一個回滾機(jī)制。如果整個流程出錯，點(diǎn)一下就能回到任務(wù)開始前的狀態(tài)。代碼、數(shù)據(jù)庫、界面，全都恢復(fù)。

為什么這么重要？

因?yàn)?Agent 的風(fēng)險(xiǎn)不在于它不會寫，而在于它出錯時沒人知道。如果沒有驗(yàn)證機(jī)制，也沒有回退手段，它可能一邊出錯，一邊還在自信地推進(jìn)任務(wù)。

所以 Amjad 把驗(yàn)收機(jī)制做成了 Agent 交付鏈的一部分。你不是在試一個 Agent，而是在用一整條“寫—測—改—通過—上線”的閉環(huán)。

關(guān)鍵不是能做，而是能做對。

第四節(jié)｜模型人人都能買，基礎(chǔ)設(shè)施買不到

很多人以為，Agent 的效果好不好，關(guān)鍵在用什么模型。

Replit 也接了最強(qiáng)的模型：Claude 做主任務(wù)，Gemini 3 搜代碼，GPT-5輔助對話。但 Amjad 認(rèn)為：模型大家都能買，差別從來不在這。

真正的差距，在于有沒有能力把模型用得對。

這就要講到一個容易被忽視的事實(shí)：Replit 本質(zhì)上不是一家 AI 公司，而是一家基礎(chǔ)設(shè)施（ AI Infra）公司。

舉個例子，你在 Replit 的 Agent 里讓它寫一個 App，它會在幾秒鐘里開啟一整套工作環(huán)境：

啟動一個新的沙盒，讓模型在里頭自由寫代碼、搭接口、連數(shù)據(jù)庫
寫完后，測試 Agent 會復(fù)制一份環(huán)境來點(diǎn)按鈕、驗(yàn)證結(jié)果
如果失敗，這個環(huán)境可以一鍵回到最初，不留殘痕

這套流程背后，其實(shí)非常復(fù)雜：

秒級生成虛擬環(huán)境
數(shù)據(jù)庫讀寫隔離，避免測試階段誤刪真實(shí)數(shù)據(jù)
操作系統(tǒng)級的文件追蹤和還原機(jī)制

而這些，大多數(shù) Agent 工具都不具備。

Amjad 特別提到：他們用了四年打磨底層文件系統(tǒng)，才讓環(huán)境支持這么快的創(chuàng)建、回滾、合并。這背后是 Copy-on-write（寫時復(fù)制）架構(gòu)。每次操作都是帶記憶的副本，隨時可以清理或還原。

這套能力不是模型能學(xué)出來的，也不是提示詞能寫出來的，必須靠工程團(tuán)隊(duì)一點(diǎn)點(diǎn)構(gòu)建。

這就是基礎(chǔ)設(shè)施的價值。

一套真正能用的 Agent，必須靠這些東西托著：模型有分工、驗(yàn)證有環(huán)境、產(chǎn)品從一開始就為交付而設(shè)計(jì)。

Replit 不靠模型差異取勝，靠的是先把基礎(chǔ)設(shè)施搭好了。別人還在討論怎么讓 Agent 輸出內(nèi)容，Replit 的 Agent 已經(jīng)完成了寫、測、改、復(fù)原、上線這整套流程。

差的不是模型，是工程。

結(jié)語｜分水嶺不是 AGI，是工程能力

模型越來越強(qiáng)，Agent 卻不好用。

不是技術(shù)不行，而是沒人負(fù)責(zé)交付。

Replit 沒靠新模型出圈，而是靠寫完要測、測完能回退、生成有標(biāo)準(zhǔn)。

Amjad 說不能等路線圖，因?yàn)槟愕锰崆鞍鸦A(chǔ)打好，才能抓住模型突破的那一刻。

這套能力，說到底就兩個字：品味。

它不是風(fēng)格，而是底線。不是靈感，而是規(guī)矩。

識自AI

本文由AI深度研究院出品，內(nèi)容整理自 Replit CEO Amjad Masad 在 VentureBeat 訪談等網(wǎng)上公開素材，包含翻譯、提煉與分析。內(nèi)容為合理引述與觀點(diǎn)延伸，非原文逐字翻譯。未經(jīng)授權(quán)，不得轉(zhuǎn)載。

星標(biāo)公眾號，點(diǎn)這里 1. 點(diǎn)擊右上角 2. 點(diǎn)擊"設(shè)為星標(biāo)" ← AI深度研究員 ? ← 設(shè)為星標(biāo)

https://www.youtube.com/watch?v=7i7A-Y4EMgQ

https://venturebeat.com/infrastructure/why-ai-feels-generic-replit-ceo-on-slop-toys-and-the-missing-ingredient-of

https://venturebeat.com/infrastructure/new-test-time-training-method-lets-ai-keep-learning-without-exploding?utm_source=chatgpt.com

https://www.youtube.com/shorts/21f7Ml1XFuU?utm_source=chatgpt.com

來源：官方媒體/網(wǎng)絡(luò)新聞，

排版：Atlas

編輯：深思

主編：圖靈

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.