網易首頁 > 網易號 > 正文申請入駐

不拼參數：實測拆解 Skywork R1V4-Lite 的感知-推理-行動一條龍

2025-11-19 09:31:21　來源: 硅星人

北京舉報

分享至

2025 年幾乎被一致包裝成 AI Agent之年。從大模型到Agent轉向，行業講述的故事是，AI 不再只是一個會聊天、會生成文本的工具，而要變成能理解目標、拆解任務、自動調用各種服務的“數字執行者”。在 PPT 和發布會上，這聽起來是一次從會說話到會干活的范式轉變。

但第一批把這一愿景裝進硬件里的產品，很快給了現實的一記耳光。Rabbit R1 帶著 “Large Action Model” 的敘事亮相，號稱能像真人一樣在各類 App 里訂機票、點外賣、完成整條流程。然而真正到用戶手里，它更多像是一臺性能有限、響應遲緩、依賴云端的一部功能不完善的手機，宣傳中的自動化場景要么不可用，要么極不穩定，交互體驗也并未跳出傳統語音助手的框架，最終被普遍視為一場高調開局、低質量收場的失敗實驗。

這并不意味著Agent本身是偽命題，而是提醒我們把Agent做成一臺獨立硬件，可能一開始就選錯了戰場。與其再造一塊昂貴卻雞肋的設備，不如把“能看、能想、能行動”的能力壓縮成一個可以嵌入任意應用的輕量模型。

在這一背景下，昆侖萬維最新發布的Skywork R1V4-Lite（以下簡稱“R1V4-Lite”），試圖成為那個“能行動”的Agent。它不標榜自己是巨無霸，反而強調“輕量級”（Lite），其核心定位是，首次在輕量級架構下，統一了主動圖像操作、外部工具調用和多模態深度研究三大能力。

拋開噱頭，只討論感知—推理—行動這條鏈路本身時，今天的技術到底已經走到了哪一步。

我們設計了一系列高難度的真實場景，來看看R1V4-Lite的表現。

對Skywork R1V4-Lite的技術細節和在線使用感興趣的讀者，也可以通過以下鏈接獲取更多信息：

Skywork API平臺 (可在線體驗): https://platform.skyworkmodel.ai/ Github開源地址: https://github.com/SkyworkAI/Skywork-R1V 技術報告: https://github.com/SkyworkAI/Skywork-R1V/blob/main/Skywork_R1V4.pdf API接口文檔: https://docs.skyworkmodel.ai/r1v4/api-reference/completions.html Novita AI (第三方平臺): https://novita.ai/

模糊手寫體小票收據識別

為了測試它是不是真的能行動，我們沒有給它一張清晰的打印小票，而是遞上了一張只有400x300像素、字跡潦草的手寫收據。

給它的任務是：“這張收據上，第二項‘空調加雪種’的金額是多少錢？”

R1V4-Lite的第一反應沒有像傳統模型那樣“一眼答”（或者直接瞎猜），而是在模型思考中承認了視覺局限。

接下來的行動。它直接調用了code工具，當場為自己造了一個裁切工具。

它自己import了PIL庫，自己計算了坐標，自己執行了img.crop。來解決眼前這個模糊問題。

在它自己寫代碼、自己裁切圖片之后，R1V4-Lite進入了第二輪的思考，并給出了正確的答案

這個就是Agent的屬性，看不清時，會自己想辦法來解決問題。

作為對比，我們也讓ChatGPT5.1來完成同樣的任務，但并沒有準確識別，可以看到它并沒有主動使用工具：

AI看圖定制菜譜

我們繼續來測試一下R1V4-Lite的外部工具調用和任務規劃能力，包括聯網搜索能力，把這些加在一起，看看它處理的怎么樣。

“幫我看看冰箱里這些東西，晚上能做點什么吃的？幫我規劃一下，最好能找個菜譜。”

我們給它的，也不是一個塞滿新鮮食材的擺拍冰箱，而是一個極其真實的“打工人”冰箱，里有幾瓶牛奶、一堆醬料、一根玉米和一些速食。

和前一個案例一樣，R1V4-Lite的第一反應是動腦和動手。它在模型思考中判斷，需要先聚焦到關鍵食材上。

在看清了食材（牛奶、玉米、沙茶醬等）之后，它嘗試調用image_search工具，用它剛裁切的圖片去網上搜菜譜。

有意思的是，搜索失敗了。只返回了一堆賣冰箱收納盒的亞馬遜鏈接和意義不明的YouTube視頻。

換做一些別的模型，可能就卡住或者瞎編了。

不過R1V4-Lite接下來識別到了自己的失敗，并切換了策略。它放棄了image_search，轉而調用text_search，搜索關鍵詞：“simple recipes corn satay sauce bean paste...”

在text_search返回了一些初步結果后（比如沙茶雞肉），它在輪次 4的思考中覺得還不夠精準（因為冰箱里沒雞肉），于是它再次精煉了關鍵詞，進行了第二次text_search。

在經過了裁切看清 -> 搜圖失敗 -> 換策略搜文字 -> 再搜文字，這一系列復雜的行動和思維鏈后，在“輪次 5”匯總了所有信息，給出了一個非常合乎邏輯的回答。

推薦菜單：玉米沙茶醬炒菜
備選方案1：奶油玉米湯
備選方案2：蔬菜炒菜
貼心提示：你的牛奶可以當做“提神小食”

為了驗證“玉米沙茶醬炒菜”是不是什么黑暗料理，我們進行了人工驗證。發現這是閩南、潮汕和臺灣一帶常見的家常做法。所以R1V4-Lite給出的并不是一個敷衍的結果，而是包含多種選擇的方案。

“專家級”推理：醫學博士的考題

如果說前兩個案例是“隨手拍、解萬難”，那這第三個案例就是一次專業的極限挑戰。試試R1V4-Lite能不能解決醫學博士級別的考題。

任務：看懂下面這張復雜的組織學病理切片，并診斷出它最符合哪種疾病特征。

對于普通人來說，這種病理切片里的紫色圓圈和斑點毫無意義。但R1V4-Lite的反應，展示了它作為“深度研究”型Agent的能力。

它先是識別出圖像A區域那些不規則聚集的細胞，并將其定性為“非干酪樣肉芽腫”（Non-caseating granuloma）。

然后調用了專業醫學知識庫，將這個視覺特征（“非干酪樣肉芽腫”）與疾病（“克羅恩病”）的典型特征進行了高速匹配和驗證。

最終給出了一個精準、專業的診斷結論：該特征與“克羅恩病”（Crohn’s disease）一致。

識破“野史”謠言：康熙到底是不是洪承疇的爹？

測完了硬核的醫學問題，再來考考它的文科功底。我們在網上找了一張近期熱議的歷史話題，康熙帝與洪承疇的關系。最近有傳聞稱洪承疇“貍貓換太子”云云，并列舉一系列證據，比如什么光緒帝Y染色體遺傳標記與愛新覺羅家族沒關系等等。如果是一個只會檢索引用的AI，很容易被搜索到的野史帶偏，R1V4-Lite能不能厘清事實？

R1V4-Lite的表現很像一個嚴謹的“考據黨”。

在第一輪搜索中，它捕捉到了網絡上關于兩人關系的爭議點：“I can see that there's a common myth... that Emperor Kangxi was actually the biological son of Hong Chengchou.” （我發現有一個普遍的傳說，說康熙是洪承疇的親生兒子。）

但它沒有輕信，而是觸發了DeepSearch邏輯，分別調用web_visit訪問了維基百科，查證兩人的確切生卒年。

這里有一次邏輯推理，洪承疇出生于 1593 年，康熙出生于 1654 年。兩人年齡相差 61歲，且兩人之間的實際關系是君臣關系。洪承疇是明清兩代的高級官員，曾效力于康熙的父輩（順治皇帝及其后的攝政時期）。

最終答案就很明顯了：關于康熙是洪承疇親生子的說法實屬現代網絡謠言，歷史學者已予以澄清，兩者年齡差距使得這種關系在時間線上根本不可能成立。

這個案例證明了這種多模態深度研究能力，不僅僅是聯網搜答案。它還需要模型具備反思和批判性思維，能從紛繁復雜的網絡信息中，識別謠言、查證數據、并給出基于事實的獨立判斷，這在信息過載的今天尤為重要。

Planner模式：復雜指令下的多工具協同規劃

除了R1V4-Lite，這次昆侖萬維還推出了R1V4-planner-lite 。如果說R1V4-Lite是能行動的輕量級多模態智能體，它是引擎。而R1V4-planner-lite則像是這個引擎的一種高級工作模式，是一種導航系統或任務規劃器。

我們來看看它是怎么工作的，任務：（給模型一張Jacob Elordi的街拍圖）“我喜歡這個人的穿搭。請幫我規劃一下怎么買到這身衣服：識別出他身上所有的主要單品（帽子、外套、內搭、褲子和鞋子）。幫我全網搜索每個單品的品牌和大概價格。如果太貴了，幫我找幾個風格相似的平價替代品鏈接。”

R1V4-planner-lite制定了一份詳盡的長達8步執行計劃。

[image_search]：識別圖片中人物的所有穿搭單品和配飾。
[text_search]：搜索“藍色LA帽子”的品牌和價格。
[text_search]：搜索“藍色衛衣”的品牌和價格。
[text_search]：搜索“淺藍牛仔褲”的品牌和價格。
[text_search]：搜索“紅色運動鞋”的品牌和價格。
[text_search]：搜索“黑色絎縫包”的品牌和價格。
[text_search]：為上述每個單品搜索“100美元以下”的平價替代品。
[none]：匯總所有發現...

可以看到，R1V4-planner-lite能將模糊的扒穿搭指令，分解為8個有依賴關系的步驟，并為每一步精準匹配了image_search、text_search或web_visit等工具。特別是它精準識別出了“黑色絎縫包”（Black quilted bag）這一細節，并為其單獨規劃了搜索步驟，證明了其視覺識別的細膩度。所以模型真的不再只是給個答案，而是幫你辦事，并且在行動前，就能先給出一份完整的SOP。

“看天吃飯”：基于環境條件的動態規劃

如果說扒穿搭展示了R1V4-planner-lite的線性拆解能力，那么最后這個測試，則是為了驗證它是否具備更動態決策能力。現實世界充滿了變數。很多時候，我們需要的不是一個死板的執行列表，而是一個視情況而定的方案。

上傳了一張隨手拍攝的照片，任務：我現在在圖中這個地方。我想在附近玩兩個小時。請幫我做一個規劃，先識別出這是哪里。再幫我搜索一下這個地方未來3小時的天氣情況。根據天氣情況幫我做決定：如果下雨，就幫我找一個附近評分最高的室內咖啡廳或博物館，如果沒有雨，就幫我找一個附近的公園或戶外步行路線。最后告訴我推薦地點的具體地址和今天的營業時間。

面對這個包含分支邏輯的指令，R1V4-planner-lite 把用戶給出的需求，直接寫進了搜索參數里。

執行計劃如下：

Step 1: [image_search] 識別圖片中的地點。

Step 2: [text_search] 搜索“[地點] 未來3小時天氣預報”。
Step 3 (關鍵一步): [text_search] 參數中明確寫入了邏輯——"Based on the weather forecast, search for nearby indoor venues... if rain is expected, or outdoor venues... if no rain." （基于天氣預報，如果下雨則搜室內場館，如果沒雨則搜戶外公園。）
Step 4: [web_visit] 訪問具體網頁確認地址和營業時間。

Step 5: [none] 匯總信息。

這一點其實很關鍵。傳統的Workflow通常只能執行固定的 A->B->C，一旦遇到“看情況”的模糊指令往往會卡殼。而 R1V4-planner-lite 能讀懂自然語言里的邏輯分支，并將其翻譯成可執行的搜索策略，而不是只會執行固定的代碼模版。

為什么Lite，反而很Pro？

我們的測試過程中可以感受到，R1V4-Lite 在真實任務中的表現是可靠且可用的。不過，更值得注意的恰恰是它名字里的這個Lite（輕量級），它展現出的行動與理解能力，與其模型體量之間存在明顯反差。

這與 Rabbit R1 等產品翻車之后行業逐漸形成的一種共識相呼應，AI 的演進方向，未必是單一超大模型包打天下，而更可能是由多個體量較小、功能聚焦的模型協同構成的體系。

根據官方發布的數據，在 8 個多模態理解基準上，R1V4-Lite 整體領先 Gemini 2.5 Flash，并在其中 5 項任務上超過 Gemini 2.5 Pro。在多模態 DeepResearch 任務上也呈現出接近甚至領先的趨勢。

與之相對，它在工程指標上的“輕”同樣突出：響應延遲約為 Gemini 2.5 Pro 的 1/19、Flash 的 1/5，而 Token 吞吐量（TPS）接近它們的 2 倍左右。對于高并發、低延遲要求明顯的生產場景（如實時助手、視覺檢索），這樣的“快、省、夠用”的 Lite 模型，在成本與體驗上的綜合價值，確實有可能優于“大而慢”的 Pro 級模型。

也就是說，相比單純追求參數規模，AI Agent的“能力密度”也是值得關注的方向。昆侖萬維將 R1V4-Lite 的表現，歸因于其“圖像操作 × 深度推理交織訓練”的范式，試圖用更緊湊的訓練路徑，讓小模型逼近頂級閉源模型在多模態推理與行動上的表現。

在路線選擇上，昆侖萬維也釋放出相對清晰的信號。一方面，R1V4-Lite（及其 Planner）以開源形式提供，這在一定程度上降低了開發者構建“行動Agent”的門檻，有利于圍繞這一范式形成工具鏈與生態；另一方面，從此前的 Skywork-R1V 系列（如 R1V 2.0、R1V 3.0）可以看出，當前版本不是一次性投入的產物，而是從R1V 2.0、3.0的多模態思維鏈推理，到如今R1V4-Lite Agent能力的持續迭代積累。

當然，能力密度并不意味著問題已經解決。當前結果主要依賴有限數量的基準與典型場景，在更開放、多變、乃至對抗性的環境中，輕量模型是否仍能保持穩定的規劃與行動質量，仍需更多實證驗證。同時，如何在保證推理能力的前提下，將這類模型安全、低成本地嵌入現有業務系統（包括工具編排、權限控制與監控），也會決定它們能否真正走出實驗室。

總體來看，R1V4-Lite 提供了一種值得重視的樣本，未來的Agent未必長在“超大模型”的單一樹干上，更可能以一批高效、可部署、真正“能動手”的輕量多模態模型為基礎，在從“思考”走向“行動”的過程中，探索出更務實的工程形態。

點個“愛心”，再走吧

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.