網易首頁 > 網易號 > 正文申請入駐

龍蝦為啥越養越貴，越用越蠢？

2026-03-28 19:53:33　來源: 鈦媒體APP

北京舉報

分享至

前陣子被捧上神壇的OpenClaw，現在已經成了人人喊打的吞金獸。

很多人把問題歸咎于大模型不夠聰明，或者開源項目 Bug 太多。但我們體驗一周后，可以明確告訴大家：都不是。核心原因就倆字：錯配。

龍蝦有很多創新，從心跳保活機制到全屏信息識別接管無 API 軟件，再到單模型全場景默認配置的算力濫用，OpenClaw 從誕生起就是為開發者調試而設計的，壓根沒料到會破圈到我們普通人手上。

OpenClaw三大Token黑洞

這種設計場景和使用場景的嚴重錯配，才是它越養越貴、越用越蠢的根本原因。

今天我們就來拆解龍蝦這三大致命 Token 黑洞，講講 OpenClaw 的進化方向，幫你判斷到底要不要養龍蝦、又該怎么養。歡迎來到《這事鈦大了》。

首先是第一大Token黑洞：心跳保活機制。它是開發者的神器，也是很多人一覺醒來欠費幾百塊的罪魁禍首。它的設計初衷是通過定時同步數據，讓AI了解電腦的實時狀態。這也是 OpenClaw 能像人類一樣接管電腦的關鍵。對開發者來說，它主要解決了兩大難題：

一是環境對齊，通過定期同步屏幕和剪貼板，大模型始終能知道電腦當下發生了啥，收到命令就能無縫執行，不至于出現狀態斷層；二是保障長任務穩定，在數據爬取、跨表格生成這種動不動幾個小時的長周期任務里，心跳機制能避免因為網絡波動或者模型超時導致任務崩盤，原理類似微信文件的斷點續傳。

龍蝦完整技術架構圖引自ByteMonk

這個面向開發者的創新，之所以會成為普通用戶的Token黑洞，關鍵在于大模型的底層技術邏輯。Transformer 架構本身是無狀態的，每次見面都會忘記你是誰，所以大模型每次 API 調用，必須帶上完整上下文才能正常運行。

每次心跳校驗，都要上傳屏幕 OCR 結果、會話摘要等全量數據，閑置開銷甚至超過實際干活的花費。

之所以這么設計，是因為開發場景對穩定性要求極高，一次重度任務中斷可能意味著幾天白忙。但咱普通人不靠這玩意賺錢，所以根本燒不起。

更離譜的是，為了避免AI人設崩塌，龍蝦每次打包的上下文里，除了實時屏幕畫面和對話信息，還必須捆綁 AGENT.md 和 SOUL.md 里幾千字的固定配置文件。就像老板每次給員工派活，都要先逼他背一遍公司章程一樣。 這筆高頻繳納的系統提示詞稅，也導致Token消耗直接起飛。

龍蝦記憶層架構引自ByteMonk

新手優化方法有兩個。

一是調低心跳頻率，把默認間隔拉長到幾小時，沒有任務時直接關閉心跳。

二是分層運行，用本地小模型處理心跳任務，只有在遇到需要強推理的復雜任務時，再呼叫云端GPT、Claude這類大模型。

此外，業界也在探索更高效的解決方案。

第一種是上下文緩存技術，能直接砍掉八九成消耗，原理是在云端 API 把系統提示詞、歷史對話標記為固定前綴生成緩存，后續心跳只需要傳輸增量信息，模型復用緩存就能跳過重復計算。目前主流API已經跟進類似設計，可這些緩存的存活時長往往只有5到10分鐘，你想用低成本緩存，反而要調高心跳頻率，不然緩存過期就白費了。總之變著法讓你多掏錢。

第二種方案更徹底，那就是把龍蝦的按時輪詢改成事件驅動模式。主流思路有兩種，一是把屏幕監控這類任務直接交給Windows等操作系統，只有微信彈窗之類特定事件觸發時才喚醒模型，但這條路需要完善生態，還要做好用戶隱私保障。

二是視覺差分攔截，用SSIM結構相似度等低算力算法提前比對屏幕，畫面沒變化直接取消請求，實現Token零消耗，操作門檻更低。

而OpenClaw的第二大 Token 黑洞，也是它最致命的資源錯配，就是單模型。龍蝦默認用同一個大模型處理全場景所有請求。

如果你為了省錢，選擇包月套餐，會發現很多AI廠家為了控制成本，給你的都是10B以下的小模型，任務執行智商直線下降，需要你時刻跟在模型屁股后面糾錯。本來想靠 AI 偷懶，反而讓自己成了AI的保姆。

可如果你選擇高價接入深度思考模型，又會發現它們的強項是復雜邏輯推理、長流程規劃和異常處理等高難度工作。但在實際運行中，這些模型卻要承擔大量常規調度、固定流程觸發之類機械性操作。關鍵是OpenClaw已經內置了像素級鍵鼠控制和窗口管理能力，模型只需要輸出標準化指令。用頂級大模型干這種粗活，不只是大材小用，還會帶來兩個致命副作用：

第一，執行準確率不升反降。高端深度模型思維鏈更長、發散性更強，面對簡單的機械操作很容易陷入過度推理，加上普通用戶大多不會設置場景化硬約束，點一下就能搞定的事，往往會反復出錯。

第二，Token消耗猛漲。深度模型處理簡單操作時，也會生成大量無用的推理和說明內容，不僅白白消耗 Token、增加成本，還會占滿上下文窗口，拖慢任務執行速度。

龍蝦Gateway 網關層架構引自ByteMonk

所以，并不是大模型不夠聰明，而是沒做好算力分層，把聰明用錯了地方。

優化思路就是讓對的模型干對的事，把機械執行類的工作，交給10B參數以內的輕量化專用模型處理，像Qwen2-VL-7B之類多模態模型，顯存只需要5-6GB，推理速度快，服從性也高。只有到需要動腦子的復雜場景，才去調用昂貴的頂級深度思考模型，把好鋼用在刀刃上。

這套大小模型分層協同的優化思路，像微軟 AutoGen、阿里通義 AgentScope、百度智能云 AgentBuilder 等全球頭部 AI 智能體框架都有嘗試，是業內公認的降本提效方向之一。

OpenClaw 最后一個 Token 黑洞，是無差別的全屏掃描。

龍蝦能從眾多AI 智能體中殺出重圍，靠的就是強悍的端側計算機視覺能力：依托全屏掃描與 OCR 識別，它能像人一樣盯屏操作，精準定位操作按鈕、自動操控鍵鼠，還能強制接管沒開放 API 的本地軟件，這是它的核心優勢，也是吞噬 Token 的黑洞

由于默認全量掃描屏幕，龍蝦并不能區分有效信息與冗余內容，哪怕只是簡單的“打開瀏覽器” ，屏幕邊角的廣告甚至桌面壁紙，都會被全部識別打包傳給模型。

更要命的是，大模型的圖像計費邏輯與文本完全不同，它的Token消耗是和屏幕分辨率掛鉤的。在 ViT 架構的底層邏輯中，模型無法像人眼那樣一眼掃全圖，必須把高清截圖拆分為512×512 像素的區塊逐一運算。像4K或者帶魚屏，哪怕截圖里就一個確認按鈕，也會被拆成數十個區塊，大量算力浪費在無效像素上，單次Token消耗直接飆升到幾千。

目前這個問題還沒有特別完善的解決方案，有開發者選擇激活窗口聚焦，只掃描當前操作窗口；也有人在研發非交互元素過濾，只識別可操作控件。像Anthropic 采用的 Computer Use 計算機控制，則通過“像素計數”設計，把電腦屏幕畫面映射成了一個二維坐標網格。識別后能直接返回X軸和Y軸的精準操作坐標，不需要額外的視覺定位步驟，交互邏輯更接近人類操作。

龍蝦執行層架構引自ByteMonk

講到這里，大家應該明白了。普通用戶頭疼的這三大Token黑洞，其實就是openclaw給開發者群體準備的三大創新。

技術沒有原罪，錯配才是原罪。龍蝦很好，問題是它并不是給我們普通人準備的。要想真正解決上述問題，你必須把自己變成開發者，去不斷折騰和優化。

如果覺得上述操作太麻煩，想直接上手大廠現成產品，我們后續也會推出全維度橫向測評，幫你選出最靠譜的成品方案。后續鈦媒體AGI還將持續圍繞 OpenClaw 的全場景使用，推出更多深度評測內容。感謝你的關注，我們下期見。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.