<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

      北大ProAct:首個(gè)雙系統(tǒng)「主動(dòng)社交」智能體,不做提線木偶

      0
      分享至


      新智元報(bào)道

      編輯:LRST

      【新智元導(dǎo)讀】現(xiàn)有的具身智能大多是「你說我做」的被動(dòng)響應(yīng)者。如何讓機(jī)器人像人類一樣擁有「主動(dòng)性」?北京大學(xué)VCL實(shí)驗(yàn)室針對當(dāng)前具身智能體「被動(dòng)響應(yīng)」的局限,提出了一個(gè)基于「雙系統(tǒng)」架構(gòu)的主動(dòng)社交智能體框架ProAct,模仿人類「快思考」與「慢思考」的認(rèn)知機(jī)制,使機(jī)器人不僅能夠進(jìn)行流暢自然的對話,還能基于情境理解主動(dòng)發(fā)起互動(dòng),從而具備真正的「社交心智」。

      在與機(jī)器人交互時(shí),你是否常有這種感覺:如果你不說話,它就永遠(yuǎn)沉默;如果你不發(fā)指令,它就「呆若木雞」。

      這是因?yàn)槟壳暗慕换ナ较到y(tǒng)絕大多數(shù)都是反應(yīng)式的,它們被困在一個(gè)短暫的時(shí)間窗口里,只能根據(jù)當(dāng)前的語音或視覺輸入做出反饋,這種機(jī)制使得智能體難以基于積累的長期語境來推斷意圖,更無法發(fā)起主動(dòng)行為。

      然而,生活中的人類社交本質(zhì)上是雙向且主動(dòng)的。

      在日常互動(dòng)中,人們不僅是對他人的話語做出反應(yīng),更會(huì)運(yùn)用意向性去預(yù)測需求、掌握主動(dòng)權(quán)并在未被請求時(shí)采取行動(dòng)。

      例如,當(dāng)朋友顯得猶豫不決時(shí)給予鼓勵(lì),或在看到空杯子時(shí)主動(dòng)倒水。這種由內(nèi)部目標(biāo)驅(qū)動(dòng)而非被動(dòng)響應(yīng)外部刺激的「主動(dòng)性」,是區(qū)分真正的伙伴與簡單問答機(jī)器人的關(guān)鍵。

      想在具身智能體上實(shí)現(xiàn)這一點(diǎn),還得解決一個(gè)核心矛盾:時(shí)間尺度。主動(dòng)行為需要深思熟慮的推理和長程語境分析,也就是要「慢想」;而實(shí)時(shí)交互要求極低的延遲,必須「快回」。單一的端到端模型往往難以兼顧二者,因?yàn)樯疃韧评頃?huì)阻塞實(shí)時(shí)響應(yīng),而追求速度則會(huì)犧牲行為的合理性和準(zhǔn)確性。

      受認(rèn)知科學(xué)中雙重加工理論的啟發(fā),北京大學(xué)研究團(tuán)隊(duì)提出了一種雙系統(tǒng)架構(gòu)ProAct,核心思路在于快慢分離, 即將即時(shí)的反應(yīng)與慢速的推理分離,使得ProAct兼具響應(yīng)速度與主動(dòng)的深度社交能力。


      論文地址:https://arxiv.org/abs/2602.14048

      項(xiàng)目主頁:https://proactrobot.github.io/

      其中,行為系統(tǒng)(Behavioral System)作為「快系統(tǒng)」,負(fù)責(zé)維持高頻、低延遲的多模態(tài)交互流;認(rèn)知系統(tǒng)(Cognitive System)作為「慢系統(tǒng)」,配備記憶與推理模塊,負(fù)責(zé)長程推理并生成高層主動(dòng)意圖。


      圖1. ProAct 雙系統(tǒng)框架概覽。(a) 系統(tǒng)架構(gòu)整合了快速的行為系統(tǒng)與慢速的認(rèn)知系統(tǒng);(b) 實(shí)時(shí)交互中,智能體在用戶離開時(shí)主動(dòng)發(fā)起挽留與提醒。

      為了彌合兩者的時(shí)間差,ProAct進(jìn)一步提出了一種基于流匹配(Flow Matching)的流式生成模型,支持通過 ControlNet 異步注入語義意圖,這樣一來,機(jī)器人在保持流暢交互的同時(shí),也能無縫地從「被動(dòng)反應(yīng)」切換到「主動(dòng)出擊」。

      文章的技術(shù)貢獻(xiàn)主要體現(xiàn)在以下三點(diǎn):

      1. 提出了一種用于具身社交智能體的雙系統(tǒng)架構(gòu),成功將實(shí)時(shí)反應(yīng)與語境驅(qū)動(dòng)的主動(dòng)行為融為一體。

      2. 提出一種基于流匹配的流式生成模型,支持將高層語義意圖異步注入實(shí)時(shí)動(dòng)作流,實(shí)現(xiàn)了反應(yīng)式與主動(dòng)式行為的平滑切換。

      3. 將該系統(tǒng)部署于Unitree G1人形機(jī)器人,在真實(shí)世界中驗(yàn)證了其主動(dòng)交互的有效性。

      下方的演示視頻可以直觀地感受ProAct如何讓機(jī)器人像人類一樣擁有「社交心智」:


      視頻1. 在生活管家場景中,ProAct 發(fā)現(xiàn)用戶有急事后停止說話,并主動(dòng)提醒用戶離開時(shí)忘記拿書包。


      視頻2. 在情感支持場景中,ProAct 檢測到用戶劇烈的情緒波動(dòng),主動(dòng)詢問緣由并安慰用戶。


      視頻3. 在尋找物品場景中,ProAct在用戶尋找物品時(shí),回憶起用戶之前放置藥品柜的經(jīng)過,主動(dòng)提醒用戶藥瓶放在了哪里。

      方法簡介

      ProAct采用雙系統(tǒng)并行運(yùn)行的機(jī)制:行為系統(tǒng)維持實(shí)時(shí)交互閉環(huán),認(rèn)知系統(tǒng)在后臺(tái)進(jìn)行周期性推理。

      行為系統(tǒng):流式多模態(tài)交互

      行為系統(tǒng)充當(dāng)著「快系統(tǒng)」的角色,負(fù)責(zé)處理用戶音頻與視覺流,生成低延遲的語音與動(dòng)作反饋,由一個(gè)流式Omni-LLM和一個(gè)流式動(dòng)作生成器級聯(lián)而成。

      語音方面,系統(tǒng)利用GPT-4o Realtime模型處理用戶語音和第一視角圖像,實(shí)現(xiàn)了支持隨時(shí)打斷的實(shí)時(shí)對話。動(dòng)作方面,為了維持具身的「存在感」,動(dòng)作必須連續(xù)且流暢。

      為此,ProAct提出了一種基于流匹配的生成模型,具備極高的實(shí)時(shí)性,首次響應(yīng)時(shí)間與真實(shí)社交場景中的人類相當(dāng)。通過「重疊-緩存」機(jī)制,ProAct保證每一幀動(dòng)作的生成時(shí)間小于播放時(shí)間,并且能完美銜接上一幀的動(dòng)作,滿足實(shí)時(shí)流式輸出的要求。

      此外,模型還能同時(shí)接收雙方的語音流進(jìn)行雙人交互建模,這讓機(jī)器人不僅在說話時(shí)有手勢,在傾聽時(shí)也能有自然的身體晃動(dòng)等反饋。


      圖2. 認(rèn)知系統(tǒng)架構(gòu)。(a) 增量式多模態(tài)輸入;(b) 上下文編碼器與行為規(guī)劃器并行工作;(c) 通過不同通道注入行為計(jì)劃。

      認(rèn)知系統(tǒng):社會(huì)語境推理

      認(rèn)知系統(tǒng)作為「慢系統(tǒng)」,通過一個(gè)基于 LLM 的智能體框架在后臺(tái)運(yùn)行,旨在解決「何時(shí)」以及「如何」發(fā)起主動(dòng)行為的問題。如圖 2 所示,該系統(tǒng)包含兩個(gè)關(guān)鍵模塊。

      首先是上下文編碼器 (Context Encoder)。為了防止隨著對話進(jìn)行導(dǎo)致推理延遲增加,該模塊負(fù)責(zé)將累積的對話歷史、視覺幀與過往行為壓縮進(jìn)一個(gè)「記憶庫」。記憶庫結(jié)構(gòu)化地存儲(chǔ)了用戶分析(如心智理論)、情境追蹤(如物體位置變化)以及機(jī)器人的歷史行為。

      其次是行為規(guī)劃器 (Behavior Planner)。該模塊依據(jù)當(dāng)前的記憶與感知,進(jìn)行動(dòng)機(jī)評估。系統(tǒng)會(huì)從視覺場景變化、用戶意圖信號、對話狀態(tài)、社會(huì)規(guī)范要求、情感響應(yīng)需求這五個(gè)維度對當(dāng)前狀況進(jìn)行打分。當(dāng)任一維度的動(dòng)機(jī)分?jǐn)?shù)超過設(shè)定閾值時(shí),系統(tǒng)將觸發(fā)主動(dòng)干預(yù)。

      最終,認(rèn)知系統(tǒng)的輸出將通過三個(gè)通道注入行為系統(tǒng):一是手勢意圖注入,通過 ControlNet 引導(dǎo)動(dòng)作生成,例如「揮手打招呼」;二是對話干預(yù),向 Omni-LLM 注入指令以打斷對話或引導(dǎo)話題;三是移動(dòng)控制,調(diào)整機(jī)器人的站位與朝向,例如「轉(zhuǎn)向用戶」。

      實(shí)驗(yàn)結(jié)果與部署

      研究者們將ProAct全棧部署在Unitree G1人形機(jī)器人上,實(shí)驗(yàn)設(shè)計(jì)了包括「海報(bào)講解」、「講故事」、「尋找物品」等多個(gè)交互場景。


      圖3. 在海報(bào)講解場景中,ProAct 主動(dòng)發(fā)現(xiàn)用戶并打招呼,隨后糾正用戶的誤解。


      視頻4. 在海報(bào)講解場景中,ProAct 主動(dòng)發(fā)現(xiàn)用戶并打招呼,隨后糾正用戶的誤解。


      圖4. 在講故事場景中,ProAct 檢測到用戶玩手機(jī)分心,主動(dòng)中斷故事并提醒用戶。


      視頻5. 在講故事場景中,ProAct 檢測到用戶玩手機(jī)分心,主動(dòng)中斷故事并提醒用戶。

      如上述圖片所示,在海報(bào)講解任務(wù)中,ProAct 展現(xiàn)了超越簡單問答的能力:它能主動(dòng)捕捉路過的用戶,建立眼神接觸,并在用戶表達(dá)錯(cuò)誤觀點(diǎn)時(shí)主動(dòng)打斷并糾正。在講故事場景中,當(dāng)檢測到用戶低頭玩手機(jī)時(shí),機(jī)器人并未繼續(xù)自言自語,而是根據(jù)「社會(huì)規(guī)范」觸發(fā)器,生成了不滿的肢體語言(雙手叉腰)并口頭提醒用戶專心。通過視頻結(jié)果中的鏈接可以觀看完整的社交視頻。

      視頻6. ProAct的完整demo視頻

      結(jié)論

      研究人員提出了一個(gè)用于主動(dòng)具身社交智能體的雙系統(tǒng)框架ProAct。

      ProAct首先構(gòu)建了一個(gè)支持語義意圖注入的流式動(dòng)作生成模型;在此之上,設(shè)計(jì)了能夠解耦實(shí)時(shí)反應(yīng)與長程推理的雙系統(tǒng)架構(gòu)。

      可視化結(jié)果與用戶研究表明,ProAct能夠生成語境恰當(dāng)?shù)闹鲃?dòng)行為,顯著增強(qiáng)了人機(jī)交互的自然度與參與感 。

      盡管該方法在提升主動(dòng)性方面取得了顯著進(jìn)展,仍存在一些局限性。首先,目前的觸發(fā)機(jī)制基于固定頻率與閾值,可能會(huì)錯(cuò)過最合適的干預(yù)機(jī)會(huì) ;其次,當(dāng)前系統(tǒng)主要依賴云端大模型,其網(wǎng)絡(luò)延遲(約1-2秒)在一定程度上限制了對極速突發(fā)事件的響應(yīng)能力 。未來研究者們將致力于端到端多模態(tài)模型的本地化部署與自適應(yīng)觸發(fā)策略的研究。

      參考資料:

      https://arxiv.org/abs/2602.14048

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點(diǎn)推薦
      特朗普沒想到:美伊大戰(zhàn)打醒兩個(gè)國家,一個(gè)是越南,一個(gè)是菲律賓

      特朗普沒想到:美伊大戰(zhàn)打醒兩個(gè)國家,一個(gè)是越南,一個(gè)是菲律賓

      東極妙嚴(yán)
      2026-03-07 12:41:17
      雕和鷹誰更厲害?看完才知道,根本不是一個(gè)量級!

      雕和鷹誰更厲害?看完才知道,根本不是一個(gè)量級!

      心中的麥田
      2026-03-07 19:20:54
      剛?cè)刖尘吐渚W(wǎng)!普拉托五名中國男子因攜帶武器和爆炸物被捕

      剛?cè)刖尘吐渚W(wǎng)!普拉托五名中國男子因攜帶武器和爆炸物被捕

      意大利華人網(wǎng)0039
      2026-03-08 00:33:36
      勇士如何防亞歷山大;萊納德的胸與肩

      勇士如何防亞歷山大;萊納德的胸與肩

      張佳瑋寫字的地方
      2026-03-08 13:07:23
      伊朗老國王每天要性生活,三個(gè)老婆不夠用,讓警察綁架女子進(jìn)宮

      伊朗老國王每天要性生活,三個(gè)老婆不夠用,讓警察綁架女子進(jìn)宮

      老土歷史
      2026-03-08 10:10:07
      集體下挫!美聯(lián)儲(chǔ)降息,突傳大消息!

      集體下挫!美聯(lián)儲(chǔ)降息,突傳大消息!

      證券時(shí)報(bào)e公司
      2026-03-07 22:27:40
      秦牛正威回應(yīng)退還彩禮:不用催,人家催的比你們急

      秦牛正威回應(yīng)退還彩禮:不用催,人家催的比你們急

      韓小娛
      2026-03-07 20:24:21
      外媒:為何世界應(yīng)關(guān)注中國兩會(huì)?

      外媒:為何世界應(yīng)關(guān)注中國兩會(huì)?

      參考消息
      2026-03-07 11:45:13
      下午17點(diǎn),中國女足vs朝鮮!賽前傳來2個(gè)好消息,感謝亞足聯(lián)助攻

      下午17點(diǎn),中國女足vs朝鮮!賽前傳來2個(gè)好消息,感謝亞足聯(lián)助攻

      侃球熊弟
      2026-03-08 01:25:03
      宮魯鳴最大失誤:不是沒招李夢、晚招劉禹彤,而是用錯(cuò)張子宇

      宮魯鳴最大失誤:不是沒招李夢、晚招劉禹彤,而是用錯(cuò)張子宇

      卿子書
      2026-03-08 10:46:27
      中華人民共和國居民身份證上竟然還有隱藏彩蛋!滿滿的科技感和中國元素

      中華人民共和國居民身份證上竟然還有隱藏彩蛋!滿滿的科技感和中國元素

      閃電新聞
      2026-03-07 21:16:03
      俄媒:蘇萊曼尼繼任者是內(nèi)鬼,確認(rèn)哈梅內(nèi)伊位置,會(huì)沒開完就溜了

      俄媒:蘇萊曼尼繼任者是內(nèi)鬼,確認(rèn)哈梅內(nèi)伊位置,會(huì)沒開完就溜了

      蕭鑟科普解說
      2026-03-07 00:30:38
      國家衛(wèi)健委主任:已有3300萬家庭領(lǐng)到育兒補(bǔ)貼,有人比喻“孩子一出生就自帶口糧、自帶工資”

      國家衛(wèi)健委主任:已有3300萬家庭領(lǐng)到育兒補(bǔ)貼,有人比喻“孩子一出生就自帶口糧、自帶工資”

      紅星新聞
      2026-03-07 12:41:11
      美以伊軍事沖突最大副作用,是斬?cái)嗔硕砹_斯的“救命稻草”

      美以伊軍事沖突最大副作用,是斬?cái)嗔硕砹_斯的“救命稻草”

      廖保平
      2026-03-05 12:08:52
      中國警告:若安世半導(dǎo)體糾紛再升級 全球芯片供應(yīng)或再度陷入危機(jī)

      中國警告:若安世半導(dǎo)體糾紛再升級 全球芯片供應(yīng)或再度陷入危機(jī)

      cnBeta.COM
      2026-03-08 02:02:05
      遼寧男籃全力出擊!布羅金頓CBA首秀,趙繼偉漸入佳境,央視直播

      遼寧男籃全力出擊!布羅金頓CBA首秀,趙繼偉漸入佳境,央視直播

      體壇瞎白話
      2026-03-08 08:52:00
      女孩想"白嫖"大奔反被"白嫖"8天,背上一屁股債,還幫騙子賺了3萬

      女孩想"白嫖"大奔反被"白嫖"8天,背上一屁股債,還幫騙子賺了3萬

      觀世記
      2026-03-06 16:53:47
      朱亞文的“發(fā)言”在全網(wǎng)火了,馮遠(yuǎn)征的兩會(huì)建議,含金量還在升

      朱亞文的“發(fā)言”在全網(wǎng)火了,馮遠(yuǎn)征的兩會(huì)建議,含金量還在升

      好賢觀史記
      2026-03-07 09:51:22
      房東突然說要漲租3千,我口頭答應(yīng)連夜跑路,3天后她腸子悔青

      房東突然說要漲租3千,我口頭答應(yīng)連夜跑路,3天后她腸子悔青

      奶茶麥子
      2026-03-07 22:26:32
      打人時(shí)有多狂,求和解時(shí)就有多慫!看完太解氣!

      打人時(shí)有多狂,求和解時(shí)就有多慫!看完太解氣!

      風(fēng)起見你
      2026-02-25 18:54:43
      2026-03-08 13:32:49
      新智元 incentive-icons
      新智元
      AI產(chǎn)業(yè)主平臺(tái)領(lǐng)航智能+時(shí)代
      14666文章數(shù) 66667關(guān)注度
      往期回顧 全部

      科技要聞

      OpenClaw最大的推手是閑魚和小紅書

      頭條要聞

      英國考慮向中東地區(qū)派遣航母 特朗普批評:不需要

      頭條要聞

      英國考慮向中東地區(qū)派遣航母 特朗普批評:不需要

      體育要聞

      大傷后被交易,他說:22歲的我已經(jīng)死了

      娛樂要聞

      周迅新戀情曝光,李亞鵬等人已成過去

      財(cái)經(jīng)要聞

      油價(jià)要失控?

      汽車要聞

      9分鐘充飽 全新騰勢Z9GT首搭閃充技術(shù)26.98萬起

      態(tài)度原創(chuàng)

      家居
      教育
      手機(jī)
      本地
      軍事航空

      家居要聞

      暖棕撞色 輕法奶油風(fēng)

      教育要聞

      父母留給子女最好的財(cái)富是什么?

      手機(jī)要聞

      麒麟9030產(chǎn)能火力全開!華為Mate 80系列銷量激增:已突破400萬臺(tái)

      本地新聞

      食味印象|一口入魂!康樂烤肉串起千年絲路香

      軍事要聞

      美第三個(gè)航母打擊群據(jù)稱準(zhǔn)備部署至中東

      無障礙瀏覽 進(jìn)入關(guān)懷版