![]()
新智元報道
編輯:LRST
【新智元導讀】讓AI像助手一樣主動幫助,才是我們心中AGI的樣子。主動智能體的概念已經被多次提出,但都很難做到可以真正在生活中落地。現有的工作都還停留在概念層面,無法解決復雜世界中所要求的實時性、深度、和記憶等問題。 南洋理工大學謝之非團隊提出Pask,使用「底層小模型流式意圖檢測」+ 「上層Agents執行」架構,實現首個能夠做到實時、有深度、基于個人全局記憶自進化的主動智能體。
開會時,當討論到「Pask的上下文是不是可以考慮和Obsidian, 或者飛書聯動一下?自成一派會很難」 時,Pask思考三秒后,給出了思路:
「你們如果把用戶記憶全都收進自己系統,本質上是在做一個新的數據孤島。這樣雖然短期上更可控,但長期會有兩個問題:一是不兼容用戶已經在用的工具,二是用戶遷移成本太高,生態天花板會很低。更好的定位不是自建一套記憶庫,而是做: 個人上下文入口 + 生態上的主動AI編排層。也就是,用戶的知識和行為仍然留在原系統里,你們負責理解、索引、觸發、協同和執行。Pask更好的位置是:最懂這個人的統一入口,以及能在各生態之間主動行動的代理層。」
理想中的AI、人類真正期待的AGI,必須具備一種能力:主動性。
這種主動性,不是OpenClaw一類產品的「自主性」,也不是會后幫你寫封郵件的AI,它必須深度理解你、能猜到你意圖,并在恰當時機提供關鍵幫助的超級外掛大腦。
它不像工具一樣被調用,而是需要包圍你,能讓你感受到「被主動關懷,又極有價值」。
聽起來,這個問題似乎關注的是Agent機制,但真正開始做之后,就會發現,這件事遠比想象中難:
準確性太低,一盤散沙式的消息看起來像是騷擾短信,給出有深度的實時輔助難度極大。
實時性太差,僅僅推理人類的需求都要3-4秒,而人類能夠忍受的最大延遲極限是兩秒。
海量記憶下對人的深度理解,主動式AI每天接受海量的新token,不可能每次都去查詢,怎么保證系統能夠自主切換正確的記憶背景,以及最核心的,真正了解自己的主人呢?
南洋理工大學的研究人員調研了大量相關論文和產品后發現,發現過去的大多數工作都在回避這些關鍵問題,尤其是實時性。
于是,研究人員決定自己探索一套方法,提出了「需求探測—記憶—主動智能體」的范式PASK,包括全新的問題解決范式、IntentFlow流式意圖檢測模型、自進化式記憶模塊和主動智能體工程架構。
![]()
論文鏈接:https://arxiv.org/abs/2604.08000
![]()
需求檢測、長期記憶、主動智能體范式
![]()
首先需要確定:主動AI需要哪些「組件」?
研究人員提出了一個通用范式,將被動模型轉換為主動智能,包含三個相互作用的模塊:需求檢測(DD)、長期記憶(MM)和主動系統(PAS)。
需求檢測(Demand Detection,DD)是第一步,也是最核心的一步。它與人類同聽、同看,并實時檢測出當下的需求——比如「他現在需要知道這個詞的意思」,或「他可能在懷疑對方是否在說真話」。
長期記憶(MM)負責系統中的個性化部分。它與用戶一起成長、持續進化,作為貫穿始終的「長期上下文」。
主動系統(PAS)是整個Agent的底層執行邏輯,保持循環運行,驅動前兩個組件協同工作。
IntentFlow:流式意圖檢測模型
![]()
主動AI做過頭就是信息騷擾。
一個好的主動AI,必須在實時性、精準度、觸發頻率上做到精準平衡。但不幸的是,準確率、記憶查詢與實時響應,這三個特性天生相互矛盾。
更大的挑戰在于:這件事完全無法用傳統 Agent 的方式來做。如果整個流程需要在2秒內完成,留給意圖檢測的時間最多只有1秒,甚至不夠完成一次API調用。
而意圖推理,到記憶查詢,至少需要10秒。
Proactive AI不是簡單的Agents機制能做的事,研究人員從語音和視頻的端到端流式模型獲得靈感,選擇了「模型+Agents」實現路徑,即重新訓一個在「文本流」上實時運行的意圖檢測模型,構建出了IntentFlow,接收文本化的多模態信息流和用戶記憶,自主判斷人類當下需要什么。
至于具體最終的結果是什么,IntentFlow并不關注,Intentflow只關心人類需要什么。
IntentFlow更像一座橋:一邊是用戶面對的信息流,一邊是世界上最新,最強的AI,它只負責在正確的時機,成為AI介入的新入口。
MeMory:多層自進化記憶系統
![]()
記憶系統是主動AI與人類共同成長的核心,而主動AI的記憶有一層額外要求:實時。
在Pask中,研究人員借鑒了計算機存儲的Cache—內存—外存架構,設計了三層記憶體系:
用戶記憶(類似 Cache):AI隨時需要知道用戶是誰、有什么偏好。
Workspace 記憶(類似內存):負責當前事件內部的所有上下文信息。
全局記憶(類似外存):現實中的事件往往是一個系列,全局記憶承擔「超級上下文」的角色,跨事件持久保存。
PAS:主動AI底層的流式系統
![]()
主動AI如何在復雜的現實環境中穩定運行?
其底層系統相當復雜:每個Demand需要開啟一個獨立進程,所有環境變量需要持續維護,整個系統中存在一個DD-MM大循環,以及無數個內部小循環。
底層系統分為三層:
前端:負責信息流的輸入與輸出。
服務器后端:負責多進程執行、循環控制與數據存儲調度。
AI 后端:負責連接外部模型,提供可調用的搜索、工具和代碼執行環境。
實驗結果
![]()
![]()
Pask在學習、工作、日常三大領域的十類任務上進行了測試,效果與閉源模型加思考鏈的水平相當。
在延遲上,當其他開閉源模型普遍都需要3–10秒才能推理一次人類的潛在需要時,Intentflow只需要1.5s就可以結合著人類的個人,工作和全局記憶完成一次完整的意圖檢測。
在報告中,研究人員對于主動AI 進行了詳細的實驗,并總結為了12個findings。
主動AI的探索
剛剛開始
AI變聰明,這條路已經走了很遠;AI懂人,這件事才剛開始。
現實世界沒有統一答案,只有復雜的場景、角色和任務。每個行業都有自己的工作流、判斷方式和隱性規則,同一句話放在不同人身上,背后的需求可能完全不同。
主動AI的核心挑戰,是數據。
真正的意圖數據幾乎不存在。不是因為缺少人工標注,而是從邏輯上說,標注本身就并不總是成立。
主動AI不再是 「I know what I don't know」 的邏輯,而是 「I don't know what I don't know」,因為所謂更深層、更有價值的信息,往往需要超出用戶當下的認知。
很多時候,人并不真正知道自己想要什么,更說不清自己下一步需要什么。能證明 AI 猜對了的,不是一次問答是否對齊,而是它給出幫助之后,用戶是不是立刻感到「就是這個」。
底層流式意圖模型+上層Agents執行,才是主動AI的未來。
研究人員開發Pask的一年里,有幾個月是在agents機制上下功夫的,最終得出的結論很簡單:走不通。
原因也很直接:人類能接受的時延,連一次完整的模型調用都不夠,更沒有時間留給意圖推理。
第一作者謝之非是做語音模型背景出身的。面對這個核心矛盾,當時就意識到,這是實時對話模型的歷史重演。2024年之前,當語音助手有3秒延遲的時候,沒有人能用得下去。
當GPT-4o這類實時模型出現,語音模型的應用瞬間爆發。開發團隊當時就想到了用一個流式模型來做意圖檢測,才有了Intentflow。
所以,Pask從一開始就不打算去卷「更聰明」的執行agents,而是只做一件事:更快、更準地猜中人的心思。
不做更大的模型,也不做更復雜的調用邏輯,而是去回答一個問題:它能不能在連續上下文里看懂你,在你開口之前就知道你的深層意圖,并在準確的時機,用極短的時間給出最有價值的幫助。
AI的未來,是主動理解意圖的能力真正進入你身邊的每一臺移動設備,讓AI不再只是回答問題,而是成為一個實時理解你、持續貼近你、真正懂你的AI soul knower。
作者介紹
論文第一作者謝之非是南洋理工大學的博士生。通訊作者為顏水成、苗春燕、葉德珩。
![]()
Pask研究團隊的Project Lead為來自南洋理工大學的謝之非: 謝之非,南洋理工大學在讀PhD。
研究方向為多模態流式模型。本科時曾做出全球首個「開源GPT4o」系列實時對話模型 Mini-Omni系列,三篇一作論文單引超過百次,開源項目累計獲5k+ stars。
隨后與顏水成老師一拍即合,選擇離開清華大學加入NUS LV_Lab,成為其回歸學術界后第一個博士生。 論文通訊作者為顏水成老師、苗春燕老師、葉德珩老師。
參考資料:
https://arxiv.org/abs/2604.08000
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.