<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      Skywork-R1V4讓機器像偵探一樣"看圖說話"還能上網搜證據

      0
      分享至


      這項由昆侖萬維Skywork AI團隊開發的研究成果于2024年12月發表,論文編號為arXiv:2512.02395v1。有興趣深入了解的讀者可以通過該編號查詢完整論文。

      想象你有一個超級聰明的助手,不僅能看懂圖片中的每一個細節,還能像資深偵探一樣主動分析線索,甚至能上網查找相關信息來驗證自己的判斷。這聽起來像科幻電影里的情節,但Skywork AI團隊剛剛讓這個夢想成為了現實。他們開發出了一個名為Skywork-R1V4的AI助手,這個"數字偵探"不僅擁有敏銳的"眼力",還具備了前所未有的推理和搜索能力。

      在AI發展的歷程中,大多數系統都像是單一技能的專家——要么擅長看圖,要么擅長搜索,但很少能將這些能力有機結合。就好比一個偵探團隊,每個成員都有自己的專長,但缺乏協調配合。傳統的AI助手往往面臨三個關鍵問題:第一,它們通常將圖像分析和網絡搜索視為兩個完全獨立的任務,就像讓一個近視的偵探單獨工作一樣效率低下;第二,大部分先進系統嚴重依賴復雜且成本高昂的強化學習訓練,這種方法不僅費時費力,還經常產生不穩定的結果;第三,現有的規劃模塊往往基于理論假設而非真實的工具使用經驗,就像紙上談兵的作戰計劃一樣缺乏實用性。

      Skywork-R1V4的獨特之處在于它完全改變了這種現狀。這個AI助手擁有四項核心技能,就像一個訓練有素的超級偵探。首先,它具備多模態智能規劃能力,能夠根據視覺輸入制定結構化的執行計劃,將復雜問題分解為一系列連貫的工具調用步驟。其次,它掌握了"圖像思維"技術,能夠通過編程方式主動操作圖像——包括裁剪、縮放、對比度調整、旋轉和像素級分析——來迭代優化視覺理解并解決模糊問題。第三,當內部知識不足時,它會執行深度搜索,使用三種工具進行多步驟、交叉驗證的網絡搜索:圖像搜索、文本搜索和完整網頁檢索,有效減少知識密集型任務中的幻覺問題。最重要的是,它能夠在單個任務中動態交替進行圖像操作和搜索,實現真正的交互式、基于感知的推理。

      這個系統最令人驚嘆的地方在于,它完全通過監督學習訓練而成,無需依賴任何強化學習。研究團隊精心構建了一個包含不到3萬個高質量樣本的訓練數據集,每個樣本都經過嚴格的一致性驗證。這就像是為偵探提供了3萬個真實案例的詳細檔案,每個案例都記錄了從發現線索到破案的完整過程。

      一、像偵探一樣主動分析圖像

      傳統的AI看圖就像一個被動的觀察者,只能告訴你圖片中有什么。而Skywork-R1V4更像一個主動的偵探,它不滿足于表面信息,會主動深入挖掘細節。

      當面對一張復雜圖像時,這個AI助手會像經驗豐富的偵探一樣制定調查計劃。比如說,當你給它看一張巴黎街景圖并詢問其中是否有狗時,它不會簡單地掃一眼就給出答案。相反,它會先分析整體場景,識別出公園、人群聚集區等狗狗可能出現的位置,然后有策略地裁剪這些區域進行詳細檢查。就像偵探會重點搜查嫌疑人可能藏身的地方一樣,AI會重點關注最有可能找到目標物體的圖像區域。

      這種"圖像思維"技術的核心在于讓AI具備了操作圖像的能力。它可以像使用工具一樣編寫Python代碼來處理圖像,進行各種精確的操作。當發現某個區域可能包含重要信息但不夠清晰時,它會自動調整對比度或增強細節。當需要仔細觀察某個小物體時,它會精確裁剪并放大相關區域。這個過程是迭代進行的,每一步操作都會根據前一步的結果來調整,就像偵探根據新發現的線索調整調查方向一樣。

      研究團隊為了確保這種能力的可靠性,從多個高質量數據源收集了分辨率不低于1024×1024的圖像,并使用多個先進模型生成了涵蓋各種操作類型的訓練樣本。他們特別注重數據質量控制,建立了嚴格的過濾機制。每個訓練樣本都要經過多輪驗證:首先檢查模型的最終答案是否與推理過程一致,然后驗證每一步圖像操作的結果是否與后續分析邏輯相符。這種嚴格的質量控制確保了AI學到的都是正確有效的推理模式,而不是錯誤的操作習慣。

      特別值得注意的是,這個系統展現出了令人印象深刻的自我糾錯能力。即使在訓練過程中移除了包含錯誤操作的樣本,系統在實際應用中仍然能夠自主糾正操作錯誤。這就像一個偵探即使沒有專門學習過如何處理特定類型的錯誤,也能憑借經驗和直覺在犯錯時及時調整策略。

      二、智能網絡搜索驗證推理

      當AI助手遇到超出其知識范圍的問題時,它不會胡亂猜測,而是會像專業研究員一樣主動查找資料。這種深度搜索能力分為兩個層次,就像偵探處理不同復雜程度的案件一樣。

      對于相對簡單的問題,AI會執行基礎搜索。比如看到一張建筑物的照片時,它會先通過圖像搜索識別建筑物的身份,然后進行幾輪文本搜索獲取相關信息。這個過程就像查閱百科全書一樣直接有效。研究團隊主要使用開源數據集中的問題來構建這類任務,并建立了嚴格的兩階段過濾機制。第一階段是格式過濾,確保生成的搜索軌跡遵循正確的思考-行動模式。第二階段是答案過濾,通過外部評判模型自動檢驗最終答案是否與標準答案一致。

      更令人驚嘆的是系統的增強搜索能力,這就像偵探處理復雜案件時需要進行深入調查一樣。對于復雜問題,AI會進行五輪或更多的搜索,通過多個角度交叉驗證信息,確保結果的準確性。為了構建這種高級搜索能力,研究團隊開發了一個創新的數據生成方法。

      他們將知識庫視為一個龐大的關系網絡,就像城市中錯綜復雜的街道系統。AI像一個好奇的探索者,從一個知識點出發,沿著相關性鏈接前往其他知識點。這個過程被稱為"約束隨機游走"。從一個種子實體開始,AI會分析該實體的核心信息,生成一個初始問題和一個可驗證的簡短答案。然后,它會從當前頁面收集內部鏈接,這些鏈接就像通往其他知識領域的道路。

      為了避免陷入常見或過于寬泛的話題,系統會智能地選擇那些既相關又具有特異性的鏈接。每選擇一個新的目標實體,系統都會提取當前實體與目標實體之間的關系,并總結相關屬性。然后,它會重寫問題,通過提及相關目標實體和它們之間的關系來間接描述同一個實體,有時還會添加簡短的描述性線索以保持問題的具體性和明確性。

      這種方法最終產生了自然、可執行的查詢,這些查詢支持多步推理。為了確保質量,每個問題-答案對在被接受之前都要經過嚴格的一致性檢查,包括排除禁用實體或別名、確保答案簡潔可驗證,以及消除不符合獨特性或可解釋性要求的實例。

      三、文本問題轉換為多模態挑戰

      研究團隊還開發了一種巧妙的方法,將純文本問題轉換為需要視覺理解的多模態問題。這就像是將書面推理題改編為需要觀察實物的實驗題。

      這個轉換過程充滿了創意。對于每個文本問題,系統會識別出問題中的關鍵實體,然后為這個實體尋找合適的視覺表現形式。這個過程需要確保圖像不是隨意選擇的裝飾,而是推理過程中的必要組成部分。研究團隊會根據實體的名稱和特征描述構建結構化的搜索條件,通過搜索引擎檢索候選圖像,優先選擇那些在視覺上信息豐富且具有代表性的圖片。

      選定圖像后,系統會調用大語言模型重寫原始問題,將明確的實體名稱替換為基于視覺的指代表達。比如,原本詢問"盧浮宮的建筑風格是什么"的問題可能會變成"這張圖片中的建筑采用了什么建筑風格"。這種轉換確保了視覺模態成為推理過程的重要組成部分,而不是可有可無的附加信息。

      四、圖像分析與搜索的無縫融合

      Skywork-R1V4最革命性的特點在于它能夠在單個任務中靈活地交替使用圖像分析和網絡搜索功能。這就像一個多才多藝的偵探,既能現場勘察又能查閱檔案,還能將兩種技能有機結合。

      在處理復雜的視覺問題時,AI可能會先裁剪圖像的某個區域進行詳細分析,然后將分析結果用作搜索關鍵詞在網上查找相關信息,再根據搜索結果指導下一步的圖像操作。比如,當分析一張包含智能手表的圖片時,AI可能會先裁剪手表區域,通過圖像搜索識別手表型號,然后搜索該型號的技術規格,最后根據搜索到的信息準確回答關于手表特定功能的問題。

      這種交替處理的能力需要高質量的訓練數據支持。研究團隊從LiveVQA數據集中隨機抽取了3000個樣本,使用先進的AI模型生成交替軌跡。但他們很快發現,模型在視覺感知方面的局限性經常導致錯誤的代碼執行或不正確的圖像操作。為了解決這個問題,他們使用視覺語言模型自動識別低質量樣本并進行過濾,確保保留的樣本都能展示正確的交替推理模式。

      五、智能任務規劃系統

      除了具體的執行能力,Skywork-R1V4還具備了出色的任務規劃能力。這就像一個經驗豐富的項目經理,能夠將復雜任務分解為清晰的執行步驟,并確保各步驟之間的邏輯關系。

      這種規劃能力的訓練數據來源于前面提到的所有任務軌跡。研究團隊將這些實際執行的軌跡轉換為結構化的規劃格式,每個步驟都包含自然語言描述、相應的工具名稱和必要的參數信息。更重要的是,系統學會了使用符號占位符來表示步驟間的依賴關系,比如"[步驟1中識別的人物]"或"[從步驟4檢索的結果]",確保推理的邏輯連續性得以保持。

      這種規劃能力讓AI能夠在開始執行任務之前就制定出完整的策略,就像軍事行動前的詳細作戰計劃。每個計劃步驟都明確指出了需要使用的工具、預期的輸入和輸出,以及與其他步驟的依賴關系。這種結構化的規劃不僅提高了執行效率,還增強了整個推理過程的可解釋性。

      六、訓練策略的精妙設計

      整個系統的訓練過程體現了研究團隊的巧妙設計思路。他們采用了混合模式訓練,將不同類型的數據混合在一起進行監督微調。這就像是為一個多才多藝的學徒安排全面的學習課程,既有專業技能訓練,也有綜合能力培養。

      訓練數據不僅包括前面提到的專門任務數據,還融入了大量通用的視覺問答數據,主要涵蓋屬性識別、空間關系理解等基礎能力。研究團隊使用不同的系統提示詞來區分各種任務類型,讓模型學會在不同情境下采用相應的推理模式。

      在訓練過程中,研究團隊觀察到了有趣的相互促進效應。訓練規劃模型提高了系統在搜索任務上的表現,而通用的視覺問答數據則增強了模型在圖像思維過程中判斷基本屬性和關系的準確性,從而帶來了感知基準測試的持續改進。這種協同效應證明了不同能力之間的有機結合確實能夠產生1+1>2的效果。

      為了確保訓練質量,研究團隊還實施了嚴格的數據清理策略。他們移除了那些涉及沙盒執行錯誤和需要重新裁剪的圖像思維數據點,因為這些低效數據會讓模型學習錯誤修復模式,導致顯著的性能下降。這種選擇性移除策略確保了模型學到的都是高效、正確的推理模式。

      七、令人矚目的實驗成果

      Skywork-R1V4在各種測試中展現出了令人印象深刻的性能表現。在感知任務方面,它在多個基準測試中創下了新紀錄,特別是在需要精細視覺理解的任務上表現突出。在HRBench-4K精細感知任務中獲得91.8分,在V*屬性識別任務中達到90.4分,在MME-Real-CN感知任務中取得76.3分的成績。

      更令人驚嘆的是它在深度多模態搜索任務上的表現。在MMSearch基準測試中獲得66.1分,比基線模型提高了47.4分;在FVQA任務中達到67.2分,提升了13.9分;在BrowseComp-VL任務中取得38.4分,提升了8.4分。這些顯著的提升證明了系統不僅增強了底層感知能力,還實現了穩健、可解釋且工具增強的復雜開放世界場景推理。

      令人驚訝的是,盡管Skywork-R1V4使用的是與基線相同的30B規模架構,但它在所有11個報告指標上都超越了Google的Gemini 2.5 Flash,并在其中5個指標上超越了Gemini 2.5 Pro。這一成果充分證明了基于智能體、圖像基礎推理框架的有效性。

      實際應用展示更是生動地證明了系統的多樣化能力。在規劃模式下,AI能夠為復雜的開放式問題生成結構化、基于工具的執行計劃。在深度研究模式下,它展示了通過迭代圖像操作進行精細視覺推理、通過多模態搜索進行準確地理定位,以及最值得注意的交替思維能力——在圖像操作和搜索工具之間無縫切換以解決復雜的視覺查詢。這些例子collectively展示了Skywork-R1V4在自適應、基礎性和工具增強的多模態推理方面的能力。

      八、效率優勢顯著

      基于3B激活參數的架構設計,Skywork-R1V4在推理速度方面具有顯著優勢。在單輪評估的MMSearch和FVQA測試基準中,該模型比Gemini-2.5-Flash快約4倍,比Gemini-2.5-Pro快15倍。在更復雜的BrowseComp-VL基準測試中,速度提升約為5倍。

      在啟用代碼和搜索工具的多輪端到端設置中,系統的平均推理時間和每秒令牌數仍然比其他模型高出約2倍。值得注意的是,這個計算包含了工具執行時間,如果排除工具執行時間,實際的模型側每秒令牌數會更高。這種效率優勢不僅來自于模型參數規模的優勢,還體現了整體架構設計的優越性。

      說到底,Skywork-R1V4的成功證明了一個重要觀點:在AI發展的道路上,巧妙的設計思路和高質量的訓練數據往往比單純的規模擴張更加重要。這個系統就像一個經過精心訓練的多面手,雖然規模不是最大的,但技能最全面、配合最默契。

      研究團隊的工作為未來的AI發展指明了幾個有前景的方向。首先,系統框架可以融入更豐富的視覺和網絡交互工具,如分割、深度估計或結構化DOM導航,以支持更復雜的任務。其次,規劃能力可以通過記憶機制或預測模塊來增強,改善長期任務的連貫性。雖然這項工作完全依賴監督微調,但未來的研究可以探索混合范式,將監督模仿學習的穩定性與多模態智能體強化學習的適應性相結合,這可能會進一步提高AI在開放世界環境中的穩健性和自主性。

      最重要的是,Skywork-R1V4建立了一個強大的基礎,證明了高保真監督,即使在適度規模下,也能解鎖引人注目的智能體行為。這為那些希望開發實用AI助手的研究者和開發者們提供了一條更加可行和高效的路徑。未來,我們可能會看到更多基于類似原理的AI系統出現在我們的日常生活中,成為真正有用的數字助手,幫助我們更好地理解和探索這個復雜的世界。

      Q&A

      Q1:Skywork-R1V4相比其他AI助手有什么獨特優勢?

      A:Skywork-R1V4最大的優勢是能夠在一個任務中同時使用圖像分析和網絡搜索能力,就像一個既會現場勘察又會查閱資料的偵探。它可以主動操作圖像進行精細分析,還能上網搜索驗證信息,最重要的是能靈活地在這兩種能力間切換。而且它完全通過監督學習訓練,不需要復雜的強化學習,效率更高成本更低。

      Q2:Skywork-R1V4是如何進行圖像思維的?

      A:圖像思維就是讓AI能夠主動操作圖像,而不是被動觀看。當AI看到一張復雜圖片時,它會像偵探一樣制定分析計劃,通過編寫Python代碼來裁剪、縮放、調整對比度等操作,逐步挖掘圖像細節。比如尋找圖中的小狗時,它會先鎖定公園等可能出現狗的區域,然后精確裁剪這些區域進行詳細檢查,直到找到目標。

      Q3:普通用戶什么時候能使用Skywork-R1V4?

      A:目前Skywork-R1V4還處于研究階段,普通用戶暫時無法直接使用。不過昆侖萬維作為這項技術的開發者,很可能會在未來將這些能力集成到他們的產品中。考慮到這個系統的效率優勢和實用性,相信不久的將來我們就能在各種智能助手產品中體驗到類似的多模態推理能力。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      “新疆棉”事件5年后,那個丑態百出的“反華妖女”,如今怎樣了

      “新疆棉”事件5年后,那個丑態百出的“反華妖女”,如今怎樣了

      博覽歷史
      2025-09-10 20:25:07
      不同品牌奧司他韋售價差70倍

      不同品牌奧司他韋售價差70倍

      大象新聞
      2025-12-12 21:57:01
      香港神秘男子花600萬港幣求購5套大埔火災房,稱不在乎破壞程度及死亡事件!港府:災前入住才能獲補助和安置

      香港神秘男子花600萬港幣求購5套大埔火災房,稱不在乎破壞程度及死亡事件!港府:災前入住才能獲補助和安置

      澳門月刊
      2025-12-12 09:28:45
      五月天經紀人8字回懟朱孝天,狠狠替F4出了口惡氣,大S沒說謊

      五月天經紀人8字回懟朱孝天,狠狠替F4出了口惡氣,大S沒說謊

      老范談史
      2025-12-10 19:22:28
      2026養老金調整信號落地,不按工齡漲么,答案在這幾個關鍵信號里

      2026養老金調整信號落地,不按工齡漲么,答案在這幾個關鍵信號里

      陳博世財經
      2025-12-12 14:21:46
      增設兩個車站,佛穗莞城際鐵路新進展

      增設兩個車站,佛穗莞城際鐵路新進展

      南方都市報
      2025-12-09 11:22:08
      中國首例五胞胎終于長大了,父親因勞累去世,母親直言后悔生下他們

      中國首例五胞胎終于長大了,父親因勞累去世,母親直言后悔生下他們

      等風來育兒聯盟
      2025-08-01 12:21:35
      全紅嬋擔心的事還是發生,老家別墅剛封頂,爸媽就走上大衣哥老路

      全紅嬋擔心的事還是發生,老家別墅剛封頂,爸媽就走上大衣哥老路

      以茶帶書
      2025-11-21 12:08:09
      WTT總決賽12月13日賽程緊湊!混雙半決賽+決賽!女單半決賽開打

      WTT總決賽12月13日賽程緊湊!混雙半決賽+決賽!女單半決賽開打

      郝小小看體育
      2025-12-13 05:21:07
      放棄中國國籍投靠日本,結果日本不收中國不要,成為夾縫中的黑戶

      放棄中國國籍投靠日本,結果日本不收中國不要,成為夾縫中的黑戶

      牛牛叨史
      2025-12-13 02:23:07
      樊振東與小朱大夢的友情,真摯而暖心

      樊振東與小朱大夢的友情,真摯而暖心

      眼界看視野
      2025-12-12 20:58:53
      西甲變天:姆巴佩重返世界第1 皇馬妖星暴漲3000萬 貝林跌至1.6億

      西甲變天:姆巴佩重返世界第1 皇馬妖星暴漲3000萬 貝林跌至1.6億

      風過鄉
      2025-12-12 20:54:43
      曼聯冬窗簽中場計劃曝光,或嘗試壓哨租加拉格爾!三大首選皆沒戲

      曼聯冬窗簽中場計劃曝光,或嘗試壓哨租加拉格爾!三大首選皆沒戲

      羅米的曼聯博客
      2025-12-13 11:02:12
      “我剛收到莫斯科的消息……”武契奇與馮德萊恩低語被意外錄下,后者打斷談話

      “我剛收到莫斯科的消息……”武契奇與馮德萊恩低語被意外錄下,后者打斷談話

      環球網資訊
      2025-12-12 10:54:53
      女孩曬出已故父親合影,沒想到卻是網友先繃不住了:這不是……

      女孩曬出已故父親合影,沒想到卻是網友先繃不住了:這不是……

      譚老師地理大課堂
      2025-12-11 22:20:25
      一年兩次分紅股息率5%,股價從94元跌到35元,市盈率僅7倍

      一年兩次分紅股息率5%,股價從94元跌到35元,市盈率僅7倍

      投資觀
      2025-12-13 07:10:03
      外賣時代將被終結?一個全新行業正悄悄取代外賣,你準備好了嗎?

      外賣時代將被終結?一個全新行業正悄悄取代外賣,你準備好了嗎?

      貓叔東山再起
      2025-12-10 10:05:04
      在國安局維修電臺18年,退役前夜發現一臺廢機有神秘信號!

      在國安局維修電臺18年,退役前夜發現一臺廢機有神秘信號!

      千秋文化
      2025-12-08 10:53:53
      說說大V九邊為何如此感嘆“《芳華》又火了”

      說說大V九邊為何如此感嘆“《芳華》又火了”

      人格志
      2025-12-06 00:06:19
      每天這樣跪趴10分鐘,內分泌正常了,肩頸腰背都不痛了!

      每天這樣跪趴10分鐘,內分泌正常了,肩頸腰背都不痛了!

      瑜伽解剖學
      2025-11-26 16:19:27
      2025-12-13 12:04:49
      科技行者 incentive-icons
      科技行者
      科技正在如何變革商業世界
      6531文章數 542關注度
      往期回顧 全部

      科技要聞

      比亞迪、小鵬、北汽,集體表態

      頭條要聞

      央媒談美新國安報告:時隔8年 美國提到中國的語氣變了

      頭條要聞

      央媒談美新國安報告:時隔8年 美國提到中國的語氣變了

      體育要聞

      有了風騷白人禿頭,忘掉談了10年的前任

      娛樂要聞

      保劍鋒方回應爭議,否認出軌贈送香水

      財經要聞

      鎂信健康闖關港交所:被指竊取商業秘密

      汽車要聞

      表面風平浪靜 內里翻天覆地!試駕銀河星艦7 EM-i

      態度原創

      游戲
      房產
      家居
      藝術
      軍事航空

      《生化危機9》里昂保時捷座駕車牌號竟藏匿彩蛋

      房產要聞

      每日狂增1300+企業!封關在即,海南徹底爆發!

      家居要聞

      溫潤質感 打造干凈空間

      藝術要聞

      砸50億!從網紅小城到摩天地標!230米淄博第一高樓

      軍事要聞

      俄烏“和平計劃”磋商頓巴斯成焦點

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 国产精品久久久久久久久电影网| 98精品全国免费观看视频| 丁香久久婷婷| 亚洲无码AAA| 毛葺葺老太做受视频| 亚洲浮力影院久久久久久| 精品素人AV无码不卡在线观看| 欧美色女人| 差差差很依人| 无码内射成人免费喷射| 肉色欧美久久久久久久免费看| 亚洲日产韩国一二三四区| 茄子av| 亚洲色天堂网| 日韩中文字幕区一区有砖一区| 毛片久久网站小视频| 亚洲岛国片| av无码天堂| 成人麻豆日韩在无码视频| 性无码专区无码| 成人av天堂| 广灵县| 思热99re视热频这里只精品| 亚洲视屏| 婷婷五月深爱激情| 中文字幕乱码人妻无码偷偷| 亚洲乱码日产精品bd在线看| 国产视色精品亚洲一区二区| 大又大粗又爽又黄少妇毛片| 日本中文字幕a√在线| 美女黄频视频大全免费的国内| 性欧美暴力猛交69hd| http://m.hzhuiwan.cn/| 91丨九色丨人妻丨白浆| 欧美日韩欧美| 国产欧美日韩精品丝袜高跟鞋| 潮州市| 国产成a人片在线观看视频下载| 忍着娇喘人妻被中出中文字幕| 男人亚洲天堂| 一根材综合成网|