<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      不拼參數:實測拆解 Skywork R1V4-Lite 的感知-推理-行動一條龍

      0
      分享至



      2025 年幾乎被一致包裝成 AI Agent之年。從大模型到Agent轉向,行業講述的故事是,AI 不再只是一個會聊天、會生成文本的工具,而要變成能理解目標、拆解任務、自動調用各種服務的“數字執行者”。在 PPT 和發布會上,這聽起來是一次從會說話到會干活的范式轉變。

      但第一批把這一愿景裝進硬件里的產品,很快給了現實的一記耳光。Rabbit R1 帶著 “Large Action Model” 的敘事亮相,號稱能像真人一樣在各類 App 里訂機票、點外賣、完成整條流程。然而真正到用戶手里,它更多像是一臺性能有限、響應遲緩、依賴云端的一部功能不完善的手機,宣傳中的自動化場景要么不可用,要么極不穩定,交互體驗也并未跳出傳統語音助手的框架,最終被普遍視為一場高調開局、低質量收場的失敗實驗。

      這并不意味著Agent本身是偽命題,而是提醒我們把Agent做成一臺獨立硬件,可能一開始就選錯了戰場。與其再造一塊昂貴卻雞肋的設備,不如把“能看、能想、能行動”的能力壓縮成一個可以嵌入任意應用的輕量模型。

      在這一背景下,昆侖萬維最新發布的Skywork R1V4-Lite(以下簡稱“R1V4-Lite”),試圖成為那個“能行動”的Agent。它不標榜自己是巨無霸,反而強調“輕量級”(Lite),其核心定位是,首次在輕量級架構下,統一了主動圖像操作、外部工具調用和多模態深度研究三大能力。

      拋開噱頭,只討論感知—推理—行動這條鏈路本身時,今天的技術到底已經走到了哪一步。

      我們設計了一系列高難度的真實場景,來看看R1V4-Lite的表現。

      對Skywork R1V4-Lite的技術細節和在線使用感興趣的讀者,也可以通過以下鏈接獲取更多信息:

      Skywork API平臺 (可在線體驗): https://platform.skyworkmodel.ai/ Github開源地址: https://github.com/SkyworkAI/Skywork-R1V 技術報告: https://github.com/SkyworkAI/Skywork-R1V/blob/main/Skywork_R1V4.pdf API接口文檔: https://docs.skyworkmodel.ai/r1v4/api-reference/completions.html Novita AI (第三方平臺): https://novita.ai/

      1

      模糊手寫體小票收據識別

      為了測試它是不是真的能行動,我們沒有給它一張清晰的打印小票,而是遞上了一張只有400x300像素、字跡潦草的手寫收據。



      給它的任務是:“這張收據上,第二項‘空調加雪種’的金額是多少錢?”

      R1V4-Lite的第一反應沒有像傳統模型那樣“一眼答”(或者直接瞎猜),而是在模型思考中承認了視覺局限。



      接下來的行動。它直接調用了code工具,當場為自己造了一個裁切工具。



      它自己import了PIL庫,自己計算了坐標,自己執行了img.crop。來解決眼前這個模糊問題。

      在它自己寫代碼、自己裁切圖片之后,R1V4-Lite進入了第二輪的思考,并給出了正確的答案



      這個就是Agent的屬性,看不清時,會自己想辦法來解決問題。

      作為對比,我們也讓ChatGPT5.1來完成同樣的任務,但并沒有準確識別,可以看到它并沒有主動使用工具:



      1

      AI看圖定制菜譜

      我們繼續來測試一下R1V4-Lite的外部工具調用和任務規劃能力,包括聯網搜索能力,把這些加在一起,看看它處理的怎么樣。

      “幫我看看冰箱里這些東西,晚上能做點什么吃的?幫我規劃一下,最好能找個菜譜。”



      我們給它的,也不是一個塞滿新鮮食材的擺拍冰箱,而是一個極其真實的“打工人”冰箱,里有幾瓶牛奶、一堆醬料、一根玉米和一些速食。



      和前一個案例一樣,R1V4-Lite的第一反應是動腦和動手。它在模型思考中判斷,需要先聚焦到關鍵食材上。



      在看清了食材(牛奶、玉米、沙茶醬等)之后,它嘗試調用image_search工具,用它剛裁切的圖片去網上搜菜譜。

      有意思的是,搜索失敗了。只返回了一堆賣冰箱收納盒的亞馬遜鏈接和意義不明的YouTube視頻。



      換做一些別的模型,可能就卡住或者瞎編了。

      不過R1V4-Lite接下來識別到了自己的失敗,并切換了策略。它放棄了image_search,轉而調用text_search,搜索關鍵詞:“simple recipes corn satay sauce bean paste...”



      在text_search返回了一些初步結果后(比如沙茶雞肉),它在輪次 4的思考中覺得還不夠精準(因為冰箱里沒雞肉),于是它再次精煉了關鍵詞,進行了第二次text_search。



      在經過了裁切看清 -> 搜圖失敗 -> 換策略搜文字 -> 再搜文字,這一系列復雜的行動和思維鏈后,在“輪次 5”匯總了所有信息,給出了一個非常合乎邏輯的回答。

      推薦菜單:玉米沙茶醬炒菜
      備選方案1:奶油玉米湯
      備選方案2:蔬菜炒菜
      貼心提示: 你的牛奶可以當做“提神小食”

      為了驗證“玉米沙茶醬炒菜”是不是什么黑暗料理,我們進行了人工驗證。發現這是閩南、潮汕和臺灣一帶常見的家常做法。所以R1V4-Lite給出的并不是一個敷衍的結果,而是包含多種選擇的方案。

      1

      “專家級”推理:醫學博士的考題

      如果說前兩個案例是“隨手拍、解萬難”,那這第三個案例就是一次專業的極限挑戰。試試R1V4-Lite能不能解決醫學博士級別的考題。

      任務: 看懂下面這張復雜的組織學病理切片,并診斷出它最符合哪種疾病特征 。

      對于普通人來說,這種病理切片里的紫色圓圈和斑點毫無意義。但R1V4-Lite的反應,展示了它作為“深度研究”型Agent的能力。

      它先是識別出圖像A區域 那些不規則聚集的細胞,并將其定性為“非干酪樣肉芽腫”(Non-caseating granuloma)。

      然后調用了專業醫學知識庫,將這個視覺特征(“非干酪樣肉芽腫”)與疾病(“克羅恩病”) 的典型特征進行了高速匹配和驗證。



      最終給出了一個精準、專業的診斷結論:該特征與“克羅恩病”(Crohn’s disease)一致 。

      1

      識破“野史”謠言:康熙到底是不是洪承疇的爹?

      測完了硬核的醫學問題,再來考考它的文科功底。我們在網上找了一張近期熱議的歷史話題,康熙帝與洪承疇的關系。最近有傳聞稱洪承疇“貍貓換太子”云云,并列舉一系列證據,比如什么光緒帝Y染色體遺傳標記與愛新覺羅家族沒關系等等。如果是一個只會檢索引用的AI,很容易被搜索到的野史帶偏,R1V4-Lite能不能厘清事實?



      R1V4-Lite的表現很像一個嚴謹的“考據黨”。

      在第一輪搜索中,它捕捉到了網絡上關于兩人關系的爭議點:“I can see that there's a common myth... that Emperor Kangxi was actually the biological son of Hong Chengchou.” (我發現有一個普遍的傳說,說康熙是洪承疇的親生兒子。)



      但它沒有輕信,而是觸發了DeepSearch邏輯,分別調用web_visit訪問了維基百科,查證兩人的確切生卒年。



      這里有一次邏輯推理,洪承疇出生于 1593 年,康熙出生于 1654 年。兩人年齡相差 61歲,且兩人之間的實際關系是君臣關系。洪承疇是明清兩代的高級官員,曾效力于康熙的父輩(順治皇帝及其后的攝政時期)。



      最終答案就很明顯了:關于康熙是洪承疇親生子的說法實屬現代網絡謠言,歷史學者已予以澄清,兩者年齡差距使得這種關系在時間線上根本不可能成立。

      這個案例證明了這種多模態深度研究能力,不僅僅是聯網搜答案。它還需要模型具備反思和批判性思維,能從紛繁復雜的網絡信息中,識別謠言、查證數據、并給出基于事實的獨立判斷,這在信息過載的今天尤為重要。

      1

      Planner模式:復雜指令下的多工具協同規劃

      除了R1V4-Lite,這次昆侖萬維還推出了R1V4-planner-lite 。如果說R1V4-Lite是能行動的輕量級多模態智能體 ,它是引擎。而R1V4-planner-lite則像是這個引擎的一種高級工作模式,是一種導航系統或任務規劃器。

      我們來看看它是怎么工作的,任務: (給模型一張Jacob Elordi的街拍圖)“我喜歡這個人的穿搭。請幫我規劃一下怎么買到這身衣服:識別出他身上所有的主要單品(帽子、外套、內搭、褲子和鞋子)。幫我全網搜索每個單品的品牌和大概價格。如果太貴了,幫我找幾個風格相似的平價替代品鏈接。”



      R1V4-planner-lite制定了一份詳盡的長達8步執行計劃。

      [image_search]:識別圖片中人物的所有穿搭單品和配飾。
      [text_search]:搜索“藍色LA帽子”的品牌和價格。
      [text_search]:搜索“藍色衛衣”的品牌和價格。
      [text_search]:搜索“淺藍牛仔褲”的品牌和價格。
      [text_search]:搜索“紅色運動鞋”的品牌和價格。
      [text_search]:搜索“黑色絎縫包”的品牌和價格。
      [text_search]:為上述每個單品搜索“100美元以下”的平價替代品。
      [none]:匯總所有發現...

      可以看到,R1V4-planner-lite能將模糊的扒穿搭指令,分解為8個有依賴關系的步驟,并為每一步精準匹配了image_search、text_search或web_visit等工具。特別是它精準識別出了“黑色絎縫包”(Black quilted bag)這一細節,并為其單獨規劃了搜索步驟,證明了其視覺識別的細膩度。所以模型真的不再只是給個答案,而是幫你辦事,并且在行動前,就能先給出一份完整的SOP。

      1

      “看天吃飯”:基于環境條件的動態規劃

      如果說扒穿搭展示了R1V4-planner-lite的線性拆解能力,那么最后這個測試,則是為了驗證它是否具備更動態決策能力。現實世界充滿了變數。很多時候,我們需要的不是一個死板的執行列表,而是一個視情況而定的方案。

      上傳了一張隨手拍攝的照片,任務:我現在在圖中這個地方。我想在附近玩兩個小時。請幫我做一個規劃,先識別出這是哪里。再幫我搜索一下這個地方未來3小時的天氣情況。根據天氣情況幫我做決定:如果下雨,就幫我找一個附近評分最高的室內咖啡廳或博物館,如果沒有雨,就幫我找一個附近的公園或戶外步行路線。最后告訴我推薦地點的具體地址和今天的營業時間。



      面對這個包含分支邏輯的指令,R1V4-planner-lite 把用戶給出的需求,直接寫進了搜索參數里。



      執行計劃如下:

      Step 1: [image_search] 識別圖片中的地點。

      Step 2: [text_search] 搜索“[地點] 未來3小時天氣預報”。
      Step 3 (關鍵一步): [text_search] 參數中明確寫入了邏輯——"Based on the weather forecast, search for nearby indoor venues... if rain is expected, or outdoor venues... if no rain." (基于天氣預報,如果下雨則搜室內場館,如果沒雨則搜戶外公園。)
      Step 4: [web_visit] 訪問具體網頁確認地址和營業時間。

      Step 5: [none] 匯總信息。

      這一點其實很關鍵。傳統的Workflow通常只能執行固定的 A->B->C,一旦遇到“看情況”的模糊指令往往會卡殼。而 R1V4-planner-lite 能讀懂自然語言里的邏輯分支,并將其翻譯成可執行的搜索策略,而不是只會執行固定的代碼模版。

      1

      為什么Lite,反而很Pro?

      我們的測試過程中可以感受到,R1V4-Lite 在真實任務中的表現是可靠且可用的。不過,更值得注意的恰恰是它名字里的這個Lite(輕量級),它展現出的行動與理解能力,與其模型體量之間存在明顯反差。

      這與 Rabbit R1 等產品翻車之后行業逐漸形成的一種共識相呼應,AI 的演進方向,未必是單一超大模型包打天下,而更可能是由多個體量較小、功能聚焦的模型協同構成的體系。

      根據官方發布的數據,在 8 個多模態理解基準上,R1V4-Lite 整體領先 Gemini 2.5 Flash,并在其中 5 項任務上超過 Gemini 2.5 Pro。在多模態 DeepResearch 任務上也呈現出接近甚至領先的趨勢。



      與之相對,它在工程指標上的“輕”同樣突出:響應延遲約為 Gemini 2.5 Pro 的 1/19、Flash 的 1/5,而 Token 吞吐量(TPS)接近它們的 2 倍左右。對于高并發、低延遲要求明顯的生產場景(如實時助手、視覺檢索),這樣的“快、省、夠用”的 Lite 模型,在成本與體驗上的綜合價值,確實有可能優于“大而慢”的 Pro 級模型。

      也就是說,相比單純追求參數規模,AI Agent的“能力密度”也是值得關注的方向。昆侖萬維將 R1V4-Lite 的表現,歸因于其“圖像操作 × 深度推理交織訓練”的范式,試圖用更緊湊的訓練路徑,讓小模型逼近頂級閉源模型在多模態推理與行動上的表現。



      在路線選擇上,昆侖萬維也釋放出相對清晰的信號。一方面,R1V4-Lite(及其 Planner)以開源形式提供,這在一定程度上降低了開發者構建“行動Agent”的門檻,有利于圍繞這一范式形成工具鏈與生態;另一方面,從此前的 Skywork-R1V 系列(如 R1V 2.0、R1V 3.0)可以看出,當前版本不是一次性投入的產物,而是從R1V 2.0、3.0的多模態思維鏈推理,到如今R1V4-Lite Agent能力的持續迭代積累。

      當然,能力密度并不意味著問題已經解決。當前結果主要依賴有限數量的基準與典型場景,在更開放、多變、乃至對抗性的環境中,輕量模型是否仍能保持穩定的規劃與行動質量,仍需更多實證驗證。同時,如何在保證推理能力的前提下,將這類模型安全、低成本地嵌入現有業務系統(包括工具編排、權限控制與監控),也會決定它們能否真正走出實驗室。

      總體來看,R1V4-Lite 提供了一種值得重視的樣本,未來的Agent未必長在“超大模型”的單一樹干上,更可能以一批高效、可部署、真正“能動手”的輕量多模態模型為基礎,在從“思考”走向“行動”的過程中,探索出更務實的工程形態。



      點個“愛心”,再走 吧

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      男子7年給媽存54萬養老,得癌癥后打算取錢救命,看到余額崩潰了

      男子7年給媽存54萬養老,得癌癥后打算取錢救命,看到余額崩潰了

      飯小妹說歷史
      2025-12-08 10:14:06
      29歲雙向變勇士老大?小說都不敢編的劇情!最不可思議的NBA童話

      29歲雙向變勇士老大?小說都不敢編的劇情!最不可思議的NBA童話

      阿浪的籃球故事
      2025-12-08 16:54:02
      超1700億成交!今天,漲停潮

      超1700億成交!今天,漲停潮

      新浪財經
      2025-12-08 16:45:05
      夢回巔峰!湖人112-108力克76人,看數據:他是頭號功臣!

      夢回巔峰!湖人112-108力克76人,看數據:他是頭號功臣!

      籃壇籃談
      2025-12-08 09:48:41
      奎因大贊廣東隊1人:不管是傳球,還是進攻都非常出色

      奎因大贊廣東隊1人:不管是傳球,還是進攻都非常出色

      體育哲人
      2025-12-08 11:12:45
      小米推出米家智能燃氣熱水器2瀑布洗零冷水18L

      小米推出米家智能燃氣熱水器2瀑布洗零冷水18L

      IT之家
      2025-12-08 18:14:09
      西伯利亞有多可怕?零下73度,千斤存糧百罐腌菜,砍柴一個月才行

      西伯利亞有多可怕?零下73度,千斤存糧百罐腌菜,砍柴一個月才行

      霽寒飄雪
      2025-11-04 09:19:58
      賽力斯,90億銷售費用之謎!

      賽力斯,90億銷售費用之謎!

      新浪財經
      2025-12-06 18:52:11
      尖叫之夜紅毯:王楚然資源降級,白鹿比肩楊冪,柯淳壓軸出場

      尖叫之夜紅毯:王楚然資源降級,白鹿比肩楊冪,柯淳壓軸出場

      君笙的拂兮
      2025-12-07 16:07:47
      用圍巾擦地的女乘客找到了!蘇州地鐵:已和她取得聯系,正約時間送出禮物

      用圍巾擦地的女乘客找到了!蘇州地鐵:已和她取得聯系,正約時間送出禮物

      極目新聞
      2025-12-07 16:35:20
      醪糟被關注!醫生:常吃醪糟的人,不用多久,腸道或迎來3個變化

      醪糟被關注!醫生:常吃醪糟的人,不用多久,腸道或迎來3個變化

      阿兵科普
      2025-11-30 20:53:55
      杯賽八強出爐!廣廈山西大概率四強會面,上海廣東首輪對決成焦點

      杯賽八強出爐!廣廈山西大概率四強會面,上海廣東首輪對決成焦點

      籃球資訊達人
      2025-12-08 17:15:53
      謝霆鋒沒想到,離婚12年李亞鵬公開曬王菲照片,有一件事他真做對

      謝霆鋒沒想到,離婚12年李亞鵬公開曬王菲照片,有一件事他真做對

      做一個合格的吃瓜群眾
      2025-12-08 18:10:21
      2015年,谷俊山被判死緩,朱德外孫對他的評價一針見血

      2015年,谷俊山被判死緩,朱德外孫對他的評價一針見血

      歷史龍元閣
      2025-12-03 13:50:04
      1945年,換了美式裝備的國民黨軍,便能在湘西一舉擊潰10余萬日軍

      1945年,換了美式裝備的國民黨軍,便能在湘西一舉擊潰10余萬日軍

      老范談史
      2025-11-26 16:39:35
      杭州承辦世預賽票房破5000萬,據估創10億級別的綜合經濟效益

      杭州承辦世預賽票房破5000萬,據估創10億級別的綜合經濟效益

      懂球帝
      2025-12-08 12:10:08
      偷雞不成蝕把米,本想“毀掉”張柏芝,不料自己先被扒了個底朝天

      偷雞不成蝕把米,本想“毀掉”張柏芝,不料自己先被扒了個底朝天

      老謝談史
      2025-12-08 16:44:04
      跌破1499元,茅臺都賣不動了

      跌破1499元,茅臺都賣不動了

      豹變
      2025-12-08 08:03:25
      臺海戰爭爆發,西方可凍結 3.2 萬億中國資產,但中國手里也有王炸

      臺海戰爭爆發,西方可凍結 3.2 萬億中國資產,但中國手里也有王炸

      藍色海邊
      2025-12-03 14:27:26
      天空:薩拉赫在上午9:30抵達訓練基地,斯洛特更早抵達

      天空:薩拉赫在上午9:30抵達訓練基地,斯洛特更早抵達

      懂球帝
      2025-12-08 18:34:08
      2025-12-08 19:03:00
      硅星人 incentive-icons
      硅星人
      硅(Si)是創造未來的基礎,歡迎來到這個星球。
      2693文章數 10414關注度
      往期回顧 全部

      科技要聞

      外面有人挖,家里有人跑:蘋果亂成了一鍋粥

      頭條要聞

      臺學者:殲-15開射控雷達照射F-15 反而是日本撿到寶

      頭條要聞

      臺學者:殲-15開射控雷達照射F-15 反而是日本撿到寶

      體育要聞

      一位大學美術生,如何用4年成為頂級跑者?

      娛樂要聞

      章子怡被說拜高踩低 主動和卡梅隆熱聊

      財經要聞

      重磅!政治局會議定調明年經濟工作

      汽車要聞

      純電全尺寸大六座 凱迪拉克"小凱雷德"申報圖曝光

      態度原創

      家居
      教育
      時尚
      游戲
      健康

      家居要聞

      有限無界 打破慣有思維

      教育要聞

      2025中國百強中學出爐!山東4所學校上榜!

      除了大衣,今年最火的外套一定就是它了!

      《冒險島》游輪發布會放大招!這些新內容都堪稱王炸!

      甲狀腺結節到這個程度,該穿刺了!

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 人人玩人人添人人澡超碰| 亚洲人成在线播放网站| 欧洲精品免费一区二区三区| 丰满人妻翻云覆雨呻吟| 国产亚州精品女人久久久久久| 欧美日韩久久| 东京热无码国产精品| 亚洲丝袜无码| 极品虎白女一线天在线看| 一个人看的www日本高清视频 | 国产九九在线| 亚洲丶国产丶欧美一区二区三区| 无码人妻精品一区二区在线视频 | 久久被窝亚洲精品爽爽爽| 男女啪啪免费观看网站| 久久er热在这里只有精品66| 91成人在线免费观看| 成熟丰满熟妇高潮xxxxx视频| 亚洲成人黄色| 天堂√最新版中文在线地址| 亚洲精品成人7777在线观看 | 波多野结衣绝顶大高潮| 忘忧草社区在线www| 香港特级三A毛片免费观看| 成人国产片女人爽到高潮 | 天堂人妻熟妇一区二区不卡| 亚洲国产成人精品无码区蜜柚 | 日韩av黄片| 人人插人人| 亚洲成a人v欧美综合天堂下载| 周宁县| 夜夜爽影院| 中文人妻AV高清一区二区| 中国china露脸自拍性hd| 91亚洲精品国偷拍自产在线观看| 免费看男女做好爽好硬视频| 国产精品无码久久综合网| 精品一区二区三人妻视频| 538av| 亚洲熟女无码在线| 亚洲高清中文字幕在线看不卡|