![]()
2025 年幾乎被一致包裝成 AI Agent之年。從大模型到Agent轉向,行業講述的故事是,AI 不再只是一個會聊天、會生成文本的工具,而要變成能理解目標、拆解任務、自動調用各種服務的“數字執行者”。在 PPT 和發布會上,這聽起來是一次從會說話到會干活的范式轉變。
但第一批把這一愿景裝進硬件里的產品,很快給了現實的一記耳光。Rabbit R1 帶著 “Large Action Model” 的敘事亮相,號稱能像真人一樣在各類 App 里訂機票、點外賣、完成整條流程。然而真正到用戶手里,它更多像是一臺性能有限、響應遲緩、依賴云端的一部功能不完善的手機,宣傳中的自動化場景要么不可用,要么極不穩定,交互體驗也并未跳出傳統語音助手的框架,最終被普遍視為一場高調開局、低質量收場的失敗實驗。
這并不意味著Agent本身是偽命題,而是提醒我們把Agent做成一臺獨立硬件,可能一開始就選錯了戰場。與其再造一塊昂貴卻雞肋的設備,不如把“能看、能想、能行動”的能力壓縮成一個可以嵌入任意應用的輕量模型。
在這一背景下,昆侖萬維最新發布的Skywork R1V4-Lite(以下簡稱“R1V4-Lite”),試圖成為那個“能行動”的Agent。它不標榜自己是巨無霸,反而強調“輕量級”(Lite),其核心定位是,首次在輕量級架構下,統一了主動圖像操作、外部工具調用和多模態深度研究三大能力。
拋開噱頭,只討論感知—推理—行動這條鏈路本身時,今天的技術到底已經走到了哪一步。
我們設計了一系列高難度的真實場景,來看看R1V4-Lite的表現。
對Skywork R1V4-Lite的技術細節和在線使用感興趣的讀者,也可以通過以下鏈接獲取更多信息:
Skywork API平臺 (可在線體驗): https://platform.skyworkmodel.ai/ Github開源地址: https://github.com/SkyworkAI/Skywork-R1V 技術報告: https://github.com/SkyworkAI/Skywork-R1V/blob/main/Skywork_R1V4.pdf API接口文檔: https://docs.skyworkmodel.ai/r1v4/api-reference/completions.html Novita AI (第三方平臺): https://novita.ai/
1
模糊手寫體小票收據識別
為了測試它是不是真的能行動,我們沒有給它一張清晰的打印小票,而是遞上了一張只有400x300像素、字跡潦草的手寫收據。
![]()
給它的任務是:“這張收據上,第二項‘空調加雪種’的金額是多少錢?”
R1V4-Lite的第一反應沒有像傳統模型那樣“一眼答”(或者直接瞎猜),而是在模型思考中承認了視覺局限。
![]()
接下來的行動。它直接調用了code工具,當場為自己造了一個裁切工具。
![]()
它自己import了PIL庫,自己計算了坐標,自己執行了img.crop。來解決眼前這個模糊問題。
在它自己寫代碼、自己裁切圖片之后,R1V4-Lite進入了第二輪的思考,并給出了正確的答案
![]()
這個就是Agent的屬性,看不清時,會自己想辦法來解決問題。
作為對比,我們也讓ChatGPT5.1來完成同樣的任務,但并沒有準確識別,可以看到它并沒有主動使用工具:
![]()
1
AI看圖定制菜譜
我們繼續來測試一下R1V4-Lite的外部工具調用和任務規劃能力,包括聯網搜索能力,把這些加在一起,看看它處理的怎么樣。
“幫我看看冰箱里這些東西,晚上能做點什么吃的?幫我規劃一下,最好能找個菜譜。”
![]()
我們給它的,也不是一個塞滿新鮮食材的擺拍冰箱,而是一個極其真實的“打工人”冰箱,里有幾瓶牛奶、一堆醬料、一根玉米和一些速食。
![]()
和前一個案例一樣,R1V4-Lite的第一反應是動腦和動手。它在模型思考中判斷,需要先聚焦到關鍵食材上。
![]()
在看清了食材(牛奶、玉米、沙茶醬等)之后,它嘗試調用image_search工具,用它剛裁切的圖片去網上搜菜譜。
有意思的是,搜索失敗了。只返回了一堆賣冰箱收納盒的亞馬遜鏈接和意義不明的YouTube視頻。
![]()
換做一些別的模型,可能就卡住或者瞎編了。
不過R1V4-Lite接下來識別到了自己的失敗,并切換了策略。它放棄了image_search,轉而調用text_search,搜索關鍵詞:“simple recipes corn satay sauce bean paste...”
![]()
在text_search返回了一些初步結果后(比如沙茶雞肉),它在輪次 4的思考中覺得還不夠精準(因為冰箱里沒雞肉),于是它再次精煉了關鍵詞,進行了第二次text_search。
![]()
在經過了裁切看清 -> 搜圖失敗 -> 換策略搜文字 -> 再搜文字,這一系列復雜的行動和思維鏈后,在“輪次 5”匯總了所有信息,給出了一個非常合乎邏輯的回答。
推薦菜單:玉米沙茶醬炒菜
備選方案1:奶油玉米湯
備選方案2:蔬菜炒菜
貼心提示: 你的牛奶可以當做“提神小食”
為了驗證“玉米沙茶醬炒菜”是不是什么黑暗料理,我們進行了人工驗證。發現這是閩南、潮汕和臺灣一帶常見的家常做法。所以R1V4-Lite給出的并不是一個敷衍的結果,而是包含多種選擇的方案。
1
“專家級”推理:醫學博士的考題
如果說前兩個案例是“隨手拍、解萬難”,那這第三個案例就是一次專業的極限挑戰。試試R1V4-Lite能不能解決醫學博士級別的考題。
任務: 看懂下面這張復雜的組織學病理切片,并診斷出它最符合哪種疾病特征 。
對于普通人來說,這種病理切片里的紫色圓圈和斑點毫無意義。但R1V4-Lite的反應,展示了它作為“深度研究”型Agent的能力。
它先是識別出圖像A區域 那些不規則聚集的細胞,并將其定性為“非干酪樣肉芽腫”(Non-caseating granuloma)。
然后調用了專業醫學知識庫,將這個視覺特征(“非干酪樣肉芽腫”)與疾病(“克羅恩病”) 的典型特征進行了高速匹配和驗證。
![]()
最終給出了一個精準、專業的診斷結論:該特征與“克羅恩病”(Crohn’s disease)一致 。
1
識破“野史”謠言:康熙到底是不是洪承疇的爹?
測完了硬核的醫學問題,再來考考它的文科功底。我們在網上找了一張近期熱議的歷史話題,康熙帝與洪承疇的關系。最近有傳聞稱洪承疇“貍貓換太子”云云,并列舉一系列證據,比如什么光緒帝Y染色體遺傳標記與愛新覺羅家族沒關系等等。如果是一個只會檢索引用的AI,很容易被搜索到的野史帶偏,R1V4-Lite能不能厘清事實?
![]()
R1V4-Lite的表現很像一個嚴謹的“考據黨”。
在第一輪搜索中,它捕捉到了網絡上關于兩人關系的爭議點:“I can see that there's a common myth... that Emperor Kangxi was actually the biological son of Hong Chengchou.” (我發現有一個普遍的傳說,說康熙是洪承疇的親生兒子。)
![]()
但它沒有輕信,而是觸發了DeepSearch邏輯,分別調用web_visit訪問了維基百科,查證兩人的確切生卒年。
![]()
這里有一次邏輯推理,洪承疇出生于 1593 年,康熙出生于 1654 年。兩人年齡相差 61歲,且兩人之間的實際關系是君臣關系。洪承疇是明清兩代的高級官員,曾效力于康熙的父輩(順治皇帝及其后的攝政時期)。
![]()
最終答案就很明顯了:關于康熙是洪承疇親生子的說法實屬現代網絡謠言,歷史學者已予以澄清,兩者年齡差距使得這種關系在時間線上根本不可能成立。
這個案例證明了這種多模態深度研究能力,不僅僅是聯網搜答案。它還需要模型具備反思和批判性思維,能從紛繁復雜的網絡信息中,識別謠言、查證數據、并給出基于事實的獨立判斷,這在信息過載的今天尤為重要。
1
Planner模式:復雜指令下的多工具協同規劃
除了R1V4-Lite,這次昆侖萬維還推出了R1V4-planner-lite 。如果說R1V4-Lite是能行動的輕量級多模態智能體 ,它是引擎。而R1V4-planner-lite則像是這個引擎的一種高級工作模式,是一種導航系統或任務規劃器。
我們來看看它是怎么工作的,任務: (給模型一張Jacob Elordi的街拍圖)“我喜歡這個人的穿搭。請幫我規劃一下怎么買到這身衣服:識別出他身上所有的主要單品(帽子、外套、內搭、褲子和鞋子)。幫我全網搜索每個單品的品牌和大概價格。如果太貴了,幫我找幾個風格相似的平價替代品鏈接。”
![]()
R1V4-planner-lite制定了一份詳盡的長達8步執行計劃。
[image_search]:識別圖片中人物的所有穿搭單品和配飾。
[text_search]:搜索“藍色LA帽子”的品牌和價格。
[text_search]:搜索“藍色衛衣”的品牌和價格。
[text_search]:搜索“淺藍牛仔褲”的品牌和價格。
[text_search]:搜索“紅色運動鞋”的品牌和價格。
[text_search]:搜索“黑色絎縫包”的品牌和價格。
[text_search]:為上述每個單品搜索“100美元以下”的平價替代品。
[none]:匯總所有發現...
可以看到,R1V4-planner-lite能將模糊的扒穿搭指令,分解為8個有依賴關系的步驟,并為每一步精準匹配了image_search、text_search或web_visit等工具。特別是它精準識別出了“黑色絎縫包”(Black quilted bag)這一細節,并為其單獨規劃了搜索步驟,證明了其視覺識別的細膩度。所以模型真的不再只是給個答案,而是幫你辦事,并且在行動前,就能先給出一份完整的SOP。
1
“看天吃飯”:基于環境條件的動態規劃
如果說扒穿搭展示了R1V4-planner-lite的線性拆解能力,那么最后這個測試,則是為了驗證它是否具備更動態決策能力。現實世界充滿了變數。很多時候,我們需要的不是一個死板的執行列表,而是一個視情況而定的方案。
上傳了一張隨手拍攝的照片,任務:我現在在圖中這個地方。我想在附近玩兩個小時。請幫我做一個規劃,先識別出這是哪里。再幫我搜索一下這個地方未來3小時的天氣情況。根據天氣情況幫我做決定:如果下雨,就幫我找一個附近評分最高的室內咖啡廳或博物館,如果沒有雨,就幫我找一個附近的公園或戶外步行路線。最后告訴我推薦地點的具體地址和今天的營業時間。
![]()
面對這個包含分支邏輯的指令,R1V4-planner-lite 把用戶給出的需求,直接寫進了搜索參數里。
![]()
執行計劃如下:
Step 1: [image_search] 識別圖片中的地點。
Step 2: [text_search] 搜索“[地點] 未來3小時天氣預報”。
Step 3 (關鍵一步): [text_search] 參數中明確寫入了邏輯——"Based on the weather forecast, search for nearby indoor venues... if rain is expected, or outdoor venues... if no rain." (基于天氣預報,如果下雨則搜室內場館,如果沒雨則搜戶外公園。)
Step 4: [web_visit] 訪問具體網頁確認地址和營業時間。
Step 5: [none] 匯總信息。
這一點其實很關鍵。傳統的Workflow通常只能執行固定的 A->B->C,一旦遇到“看情況”的模糊指令往往會卡殼。而 R1V4-planner-lite 能讀懂自然語言里的邏輯分支,并將其翻譯成可執行的搜索策略,而不是只會執行固定的代碼模版。
1
為什么Lite,反而很Pro?
我們的測試過程中可以感受到,R1V4-Lite 在真實任務中的表現是可靠且可用的。不過,更值得注意的恰恰是它名字里的這個Lite(輕量級),它展現出的行動與理解能力,與其模型體量之間存在明顯反差。
這與 Rabbit R1 等產品翻車之后行業逐漸形成的一種共識相呼應,AI 的演進方向,未必是單一超大模型包打天下,而更可能是由多個體量較小、功能聚焦的模型協同構成的體系。
根據官方發布的數據,在 8 個多模態理解基準上,R1V4-Lite 整體領先 Gemini 2.5 Flash,并在其中 5 項任務上超過 Gemini 2.5 Pro。在多模態 DeepResearch 任務上也呈現出接近甚至領先的趨勢。
![]()
與之相對,它在工程指標上的“輕”同樣突出:響應延遲約為 Gemini 2.5 Pro 的 1/19、Flash 的 1/5,而 Token 吞吐量(TPS)接近它們的 2 倍左右。對于高并發、低延遲要求明顯的生產場景(如實時助手、視覺檢索),這樣的“快、省、夠用”的 Lite 模型,在成本與體驗上的綜合價值,確實有可能優于“大而慢”的 Pro 級模型。
也就是說,相比單純追求參數規模,AI Agent的“能力密度”也是值得關注的方向。昆侖萬維將 R1V4-Lite 的表現,歸因于其“圖像操作 × 深度推理交織訓練”的范式,試圖用更緊湊的訓練路徑,讓小模型逼近頂級閉源模型在多模態推理與行動上的表現。
![]()
在路線選擇上,昆侖萬維也釋放出相對清晰的信號。一方面,R1V4-Lite(及其 Planner)以開源形式提供,這在一定程度上降低了開發者構建“行動Agent”的門檻,有利于圍繞這一范式形成工具鏈與生態;另一方面,從此前的 Skywork-R1V 系列(如 R1V 2.0、R1V 3.0)可以看出,當前版本不是一次性投入的產物,而是從R1V 2.0、3.0的多模態思維鏈推理,到如今R1V4-Lite Agent能力的持續迭代積累。
當然,能力密度并不意味著問題已經解決。當前結果主要依賴有限數量的基準與典型場景,在更開放、多變、乃至對抗性的環境中,輕量模型是否仍能保持穩定的規劃與行動質量,仍需更多實證驗證。同時,如何在保證推理能力的前提下,將這類模型安全、低成本地嵌入現有業務系統(包括工具編排、權限控制與監控),也會決定它們能否真正走出實驗室。
總體來看,R1V4-Lite 提供了一種值得重視的樣本,未來的Agent未必長在“超大模型”的單一樹干上,更可能以一批高效、可部署、真正“能動手”的輕量多模態模型為基礎,在從“思考”走向“行動”的過程中,探索出更務實的工程形態。
![]()
點個“愛心”,再走 吧
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.