<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      大模型首次擁有“脖子”!紐大團隊實現360度類人視覺搜索

      0
      分享至

      henry 發自 凹非寺
      量子位 | 公眾號

      終于有人要給大模型安“脖子”了!

      在最新的論文Thinking in 360°: Humanoid Visual Search in the Wild中,來自紐約大學的研究團隊讓大模型能夠環顧四周,進行360度的全方位思考。



      他們通過定義一套全新的數據集和基礎測試H*,讓模型可以在火車站、購物中心等真實環境中,進行像人類一樣的視覺搜索。

      謝賽寧(也參與了這篇論文)在轉發中,直接表示:這不就是給模型安了個脖子嗎?



      這是怎么回事?

      類人視覺搜索

      整體而言,研究團隊首先提出了一項在360度空間中實現人類主動空間推理的新任務——

      類人視覺搜索(Humanoid Visual Search),這項任務能讓類人智能體在全景圖像構建的沉浸式環境中,通過自主旋轉頭部搜索目標物體或路徑。

      為進一步評估智能體在視覺擁擠的真實場景中的搜索能力,研究團隊還構建了全新的針對性基準測試 ——H*Bench

      這一基準突破了傳統測試多聚焦簡單家庭場景的局限,涵蓋交通樞紐、大型零售場所、城市街道、公共機構等真實世界復雜環境,對智能體的高級視覺 -空間推理能力提出了更嚴苛的考驗。

      該研究的推進,為視覺空間推理從 “脫離身體的被動范式” 向 “具身的主動范式” 轉型奠定了重要基礎。

      接下來,我們具體來看。

      在論文的開頭,研究提出了一個非常直覺的問題——如何開發出既能像人類一樣高效,又能繞過硬件限制在復雜現實場景中進行主動視覺搜索的具身智能體?

      眾所周知,相比于腦袋、手腕、身體各處“長眼”的機器人,人類僅憑轉動脖子和眼睛,就能高效地搜索360°范圍內的視覺信息,從而完成視覺搜索任務(比如在地鐵站中尋找下一個出口)。



      而現在的大模型,不但只能處理單張、靜態、低分辨率的圖像,而且在后續的操作中,也局限于將圖像放大、裁剪的計算操作。

      這就意味著與生物視覺相比,大模型既無法改變初始視角以獲取視野以外的信息,同時也由于缺乏物理實體,不能移步換景,將視覺推理和物理行動結合起來。

      基于此,研究提出了類人視覺搜索(Humanoid Visual Search,HVS)將主動的頭部轉動融入智能體在復雜環境中的視覺推理,其具備以下特性:

      • 交互性:智能體從窄視角開始,在360度的全景圖中行動,每次頭部旋轉都會改變其視覺輸入。
      • 具身性:將視覺推理與物理動作結合在一起,要求智能體有意識地協調頭部運動,將其作為思維過程的一部分。

      具體地,類人視覺搜索進一步將研究聚焦于以下兩類搜索問題:

      類人物體搜索(Humanoid Object Search,HOS):定位并將視線聚焦于目標物體,作為操作的先決條件。在基準中,難度根據初始可見度比率分為簡單、中等和困難三個等級。



      類人路徑搜索(Humanoid Path Search,HPS):識別通往目的地的可通行路徑并調整身體朝向,作為移動的先決條件。在基準中,難度分為四個級別,由場景中文本線索的存在以及視覺/文本線索與實際路徑方向的一致性決定。



      為了將搜索問題形式化,研究將其構建為一個多模態的推理任務

      簡單來說,多模態大模型通過一個策略網絡來實現工具使用與頭部旋轉,其將時間步、當前觀測、語言指令和歷史狀態作為輸入,輸出文本思維鏈和動作。

      值得一提的是,由于人類的推理是間歇性的,僅在關鍵決策點才會被調用,所以研究僅利用在決策點采集的單個360°全景圖構建閉環搜索環境,而無需使用3D模擬器或硬件。



      知道了找什么,去哪,和怎么走之后,為了找到最佳的測試環境,研究又構建了一個數據集、基準測試和基線——H*,旨在實現真實360度環境中類人的視覺搜索。



      具體來說,H包含約3000個帶標注的任務實例,這些實例來源于多樣化的高分辨率全景視頻。

      研究通過為每個任務實例設置四個不同的起始方向來初始化智能體,總共獲得了個搜索回合。

      H*Bench 的數據來源于全球大都市地區(紐約、巴黎、阿姆斯特丹、法蘭克福)自行采集的素材以及開放平臺(YouTube和360+x數據集),從而提供了廣泛的地理覆蓋范圍。



      具體的場景主要包含6個主要類別——零售環境、交通樞紐、城市街道、公共機構、辦公室和娛樂場所。



      此外,由于多模態大模型是在靜態、非具身的互聯網數據上訓練的,它們本質上缺乏擬人化視覺搜索所需的空間常識和主動 3D 規劃能力。



      因此,研究又通過上面pipeline將多模態大模型轉化為有效的視覺搜索智能體:

      • 監督微調:首先在一個精選的多輪數據集上執行SFT,以灌輸基本的任務導向推理和工具使用能力。這教會模型從多模態輸入中生成結構化的動作計劃,建立了強大的行為先驗。
      • 多輪強化學習:使用GRPO算法來精煉策略。根據以往的發現,這一 RL 階段鼓勵長程推理,對于開發超越模仿學習基線的魯棒、可泛化的搜索策略至關重要。

      實驗驗證

      在部署環節,研究基于Qwen2.5-VL-3B-Instruct模型展開上述pipeline,

      • 微調:利用GPT-4o生成結構化的思維鏈解釋,并通過人工審核修正,構建高質量的多輪對話軌跡 。
      • 多輪強化學習:使用GRPO,對于HPS任務,額外增加了“距離目標的角度距離”作為獎勵項。

      測試表明,經訓練后,Qwen2.5-VL-3B-Instruc在目標搜索(14.83%→47.38%)和路徑搜索(6.44%→24.94%)上的搜索準確率均有所提高。



      其中,路徑搜索的上限較低,表明其難度在于需要復雜的空間常識。

      而在其他多模態大模型的測試中, 谷歌的Gemini 2.5 Pro是整體表現最強的模型,在HOS任務中達到31.96%,在HPS任務中達到33%。



      此外,研究發現,更大的模型尺寸并不一定能保證更好的性能。

      無論是Gemma-3還是Qwen2.5-VL系列,較小的4B/3B模型在HOS任務中均超越了其較大的12B/7B對應模型,并在 HPS 任務中表現持平。

      通過分析錯誤類型,研究發現

      • HOS錯誤主要源于感知能力不足(無法在雜亂環境中識別目標)和感知-動作差距(檢測到目標但無法精細對齊)。
      • HPS錯誤則更為復雜,包括缺乏物理常識(如試圖穿墻)、缺乏社會空間常識(如不懂排隊區或員工通道規則)以及視覺-動作不匹配 。
      • 主動 vs. 被動:主動視覺搜索(在全景圖中旋轉)優于被動分析(直接輸入全景圖),因為前者更符合人類直覺且避免了全景圖的畸變

      總的來說,研究通過引入H*Bench基準和利用后訓練技術,探討了由 MLLM 驅動的in wild類人視覺搜索。

      研究表明盡管后訓練能夠有效地提高低級感知-運動能力(例如視覺定位和探索),但它也暴露了高級推理方面的根本瓶頸,這些推理需要物理、空間和社會常識。

      One more thing

      這篇研究出自紐約大學的李一鳴團隊,在推文中,他感謝了謝賽寧chen feng的指導。



      李一鳴目前在英偉達就職,擔任研究科學家,與Marco Pavone教授合作,研究物理人工智能和自動駕駛。



      他于2025年在紐約大學取得博士學位,師從chen feng教授,研究機器人感知。

      值得一提的是,在他的簡介中,他還表明自己將于2026年入職清華大學人工智能學院,擔任助理教授。




      [1]https://yimingli-page.github.io/
      [2]https://x.com/YimingLi9702/status/1993676992303268142
      [3]https://x.com/sainingxie/status/1993776740154610084?s=20
      [4]https://arxiv.org/pdf/2511.20351

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      最新 朱孝天回應:拒絕他們三個要求被退出!喊話經紀人高抬貴手

      最新 朱孝天回應:拒絕他們三個要求被退出!喊話經紀人高抬貴手

      丁丁鯉史紀
      2025-12-08 18:27:16
      機關事業單位退休人員,養老金補發14個月,能補發4000元以上嗎?

      機關事業單位退休人員,養老金補發14個月,能補發4000元以上嗎?

      云鵬敘事
      2025-12-08 09:21:40
      太美了!為馬克龍獻花的川大女孩身份曝光!顏值極高,還是學霸!

      太美了!為馬克龍獻花的川大女孩身份曝光!顏值極高,還是學霸!

      鋭娛之樂
      2025-12-07 20:53:34
      浙大1999年出生的研究員任博導,本科畢業才4年,學院回應

      浙大1999年出生的研究員任博導,本科畢業才4年,學院回應

      極目新聞
      2025-12-08 11:50:36
      經濟賠償231.86萬!網傳廣東一61人公司倒閉,員工稱老板血本無歸

      經濟賠償231.86萬!網傳廣東一61人公司倒閉,員工稱老板血本無歸

      火山詩話
      2025-12-08 16:09:18
      張本智和輸球后炮轟:在中國發生了很多事 我不想說 但我早料到了

      張本智和輸球后炮轟:在中國發生了很多事 我不想說 但我早料到了

      風過鄉
      2025-12-08 07:49:46
      郭德綱“造謠抹黑國營院團”遭“約談”?北京市西城區文旅局回應記者:具體回復要等領導調度

      郭德綱“造謠抹黑國營院團”遭“約談”?北京市西城區文旅局回應記者:具體回復要等領導調度

      極目新聞
      2025-12-08 12:55:52
      存在不當影射行為,郭德綱被約談!

      存在不當影射行為,郭德綱被約談!

      微微熱評
      2025-12-08 00:51:45
      山東跑友張素梅車禍去世,月跑量300多公里,開奔馳,顏值身材好

      山東跑友張素梅車禍去世,月跑量300多公里,開奔馳,顏值身材好

      180視角
      2025-12-08 12:09:15
      南昌大學一附院有醫生和實習生受傷?警方稱第一時間介入,當地衛健:傷者在進一步救治

      南昌大學一附院有醫生和實習生受傷?警方稱第一時間介入,當地衛健:傷者在進一步救治

      瀟湘晨報
      2025-12-08 16:29:25
      韓媒:一旦開戰,將對北京發起“致命打擊”,大連、青島都在列

      韓媒:一旦開戰,將對北京發起“致命打擊”,大連、青島都在列

      老赳說歷史
      2025-12-08 14:44:54
      “盧克文工作室”栽了

      “盧克文工作室”栽了

      深度財線
      2025-12-08 15:11:56
      國家稅務總局山東省稅務局原副局長薛建英被查

      國家稅務總局山東省稅務局原副局長薛建英被查

      新京報
      2025-12-08 10:02:21
      矛盾激化!阿隆索被孤立:皇馬更衣室已失控 球員擊敗主帥

      矛盾激化!阿隆索被孤立:皇馬更衣室已失控 球員擊敗主帥

      葉青足球世界
      2025-12-08 19:24:15
      官方再回應“采購項目名單照搬人名大全”:核查中,正反思

      官方再回應“采購項目名單照搬人名大全”:核查中,正反思

      南方都市報
      2025-12-08 16:42:21
      特斯拉Model 3在國內市場的訂單 也已排到2026年

      特斯拉Model 3在國內市場的訂單 也已排到2026年

      TechWeb
      2025-12-08 12:54:03
      BBA車主最后的體面,被一份盒飯擊潰

      BBA車主最后的體面,被一份盒飯擊潰

      金錯刀
      2025-12-08 10:44:23
      杭州師大刪除的資金明顯被曝光,花4萬差旅費只為送幾千塊文具

      杭州師大刪除的資金明顯被曝光,花4萬差旅費只為送幾千塊文具

      映射生活的身影
      2025-12-08 10:28:03
      網友俄中餐館用餐遭到歧視,對方還表示中國游客來得越少越好

      網友俄中餐館用餐遭到歧視,對方還表示中國游客來得越少越好

      映射生活的身影
      2025-12-08 13:28:54
      12月8日俄烏最新:俄羅斯人終于不忍了

      12月8日俄烏最新:俄羅斯人終于不忍了

      西樓飲月
      2025-12-08 18:05:08
      2025-12-08 20:48:49
      量子位 incentive-icons
      量子位
      追蹤人工智能動態
      11824文章數 176340關注度
      往期回顧 全部

      科技要聞

      外面有人挖,家里有人跑:蘋果亂成了一鍋粥

      頭條要聞

      中方戰機持續雷達照射日本戰機目的是什么 外交部回應

      頭條要聞

      中方戰機持續雷達照射日本戰機目的是什么 外交部回應

      體育要聞

      一位大學美術生,如何用4年成為頂級跑者?

      娛樂要聞

      章子怡被說拜高踩低 主動和卡梅隆熱聊

      財經要聞

      重磅!政治局會議定調明年經濟工作

      汽車要聞

      純電全尺寸大六座 凱迪拉克"小凱雷德"申報圖曝光

      態度原創

      藝術
      游戲
      親子
      本地
      公開課

      藝術要聞

      一棵樹的力量

      《刺客信條:影》副總監:將重拾跑酷元素 會深挖雙主角設計

      親子要聞

      小滿第一次看到大雪 今年韓國的第一場雪

      本地新聞

      云游安徽|七千年敘事,第一章寫在蚌埠

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 午夜成人理论无码电影在线播放| 亚洲天堂中文字幕| 97福利视频| 人人澡人人妻人人爽人人蜜桃| 国产人妻精品无码av在线| 人人妻人人澡人人爽人人精品97| 97精品尹人久久大香线蕉| 制服丝袜国产日韩酒店大堂经理| 人妻成人在线| 欧美综合自拍亚洲综合图| 欧美白丰满老太aaa片| 中国免费A片XXXXXX| AV亚洲?电影AV?AV天堂| 国产免费丝袜调教视频| 成人性做爰片免费视频| 亚洲AV无码破坏版在线观看| 97国产在线| 国产麻豆剧传媒精品国产av| 亚洲一区二区三区av在线观看| 日韩人妻少妇一区二区三区| 人妻蜜桃臀中文字幕破解版一区| 精品人妻少妇| 亚洲国产区男人本色| 好吊妞| 免费3?P视频久久| 超碰777| 午夜阳光精品一区二区三区| 嫩草研究院久久久精品| 日韩3p在线| 99国产成人| 一边吃奶一边做动态图| 欧美亚洲综合成人a∨在线| 中文字幕四区| 专栏| 野花社区www高清视频| 精品国产中文字幕av| www黄色com| 久久久久久av| 亚洲码欧美码一区二区三区| 久热这里只有精品视频3| 小泽玛利亚av无码专区|