網易首頁 > 網易號 > 正文申請入駐

流式意圖檢測+永久記憶，NUS&NTU發布Pask：把賈維斯AI拉進現實

2026-04-28 13:45:34　來源: 新智元

北京舉報

分享至

新智元報道

編輯：LRST

【新智元導讀】讓AI像助手一樣主動幫助，才是我們心中AGI的樣子。主動智能體的概念已經被多次提出，但都很難做到可以真正在生活中落地。現有的工作都還停留在概念層面，無法解決復雜世界中所要求的實時性、深度、和記憶等問題。南洋理工大學謝之非團隊提出Pask，使用「底層小模型流式意圖檢測」+ 「上層Agents執行」架構，實現首個能夠做到實時、有深度、基于個人全局記憶自進化的主動智能體。

開會時，當討論到「Pask的上下文是不是可以考慮和Obsidian, 或者飛書聯動一下？自成一派會很難」時，Pask思考三秒后，給出了思路：

「你們如果把用戶記憶全都收進自己系統，本質上是在做一個新的數據孤島。這樣雖然短期上更可控，但長期會有兩個問題：一是不兼容用戶已經在用的工具，二是用戶遷移成本太高，生態天花板會很低。更好的定位不是自建一套記憶庫，而是做：個人上下文入口 + 生態上的主動AI編排層。也就是，用戶的知識和行為仍然留在原系統里，你們負責理解、索引、觸發、協同和執行。Pask更好的位置是：最懂這個人的統一入口，以及能在各生態之間主動行動的代理層。」

理想中的AI、人類真正期待的AGI，必須具備一種能力：主動性。

這種主動性，不是OpenClaw一類產品的「自主性」，也不是會后幫你寫封郵件的AI，它必須深度理解你、能猜到你意圖，并在恰當時機提供關鍵幫助的超級外掛大腦。

它不像工具一樣被調用，而是需要包圍你，能讓你感受到「被主動關懷，又極有價值」。

聽起來，這個問題似乎關注的是Agent機制，但真正開始做之后，就會發現，這件事遠比想象中難：

準確性太低，一盤散沙式的消息看起來像是騷擾短信，給出有深度的實時輔助難度極大。

實時性太差，僅僅推理人類的需求都要3-4秒，而人類能夠忍受的最大延遲極限是兩秒。

海量記憶下對人的深度理解，主動式AI每天接受海量的新token，不可能每次都去查詢，怎么保證系統能夠自主切換正確的記憶背景，以及最核心的，真正了解自己的主人呢？

南洋理工大學的研究人員調研了大量相關論文和產品后發現，發現過去的大多數工作都在回避這些關鍵問題，尤其是實時性。

于是，研究人員決定自己探索一套方法，提出了「需求探測—記憶—主動智能體」的范式PASK，包括全新的問題解決范式、IntentFlow流式意圖檢測模型、自進化式記憶模塊和主動智能體工程架構。

論文鏈接：https://arxiv.org/abs/2604.08000

需求檢測、長期記憶、主動智能體范式

首先需要確定：主動AI需要哪些「組件」？

研究人員提出了一個通用范式，將被動模型轉換為主動智能，包含三個相互作用的模塊：需求檢測（DD）、長期記憶（MM）和主動系統（PAS）。

需求檢測（Demand Detection，DD）是第一步，也是最核心的一步。它與人類同聽、同看，并實時檢測出當下的需求——比如「他現在需要知道這個詞的意思」，或「他可能在懷疑對方是否在說真話」。

長期記憶（MM）負責系統中的個性化部分。它與用戶一起成長、持續進化，作為貫穿始終的「長期上下文」。

主動系統（PAS）是整個Agent的底層執行邏輯，保持循環運行，驅動前兩個組件協同工作。

IntentFlow：流式意圖檢測模型

主動AI做過頭就是信息騷擾。

一個好的主動AI，必須在實時性、精準度、觸發頻率上做到精準平衡。但不幸的是，準確率、記憶查詢與實時響應，這三個特性天生相互矛盾。

更大的挑戰在于：這件事完全無法用傳統 Agent 的方式來做。如果整個流程需要在2秒內完成，留給意圖檢測的時間最多只有1秒，甚至不夠完成一次API調用。

而意圖推理，到記憶查詢，至少需要10秒。

Proactive AI不是簡單的Agents機制能做的事，研究人員從語音和視頻的端到端流式模型獲得靈感，選擇了「模型+Agents」實現路徑，即重新訓一個在「文本流」上實時運行的意圖檢測模型，構建出了IntentFlow，接收文本化的多模態信息流和用戶記憶，自主判斷人類當下需要什么。

至于具體最終的結果是什么，IntentFlow并不關注，Intentflow只關心人類需要什么。

IntentFlow更像一座橋：一邊是用戶面對的信息流，一邊是世界上最新，最強的AI，它只負責在正確的時機，成為AI介入的新入口。

MeMory：多層自進化記憶系統

記憶系統是主動AI與人類共同成長的核心，而主動AI的記憶有一層額外要求：實時。

在Pask中，研究人員借鑒了計算機存儲的Cache—內存—外存架構，設計了三層記憶體系：

用戶記憶（類似 Cache）：AI隨時需要知道用戶是誰、有什么偏好。
Workspace 記憶（類似內存）：負責當前事件內部的所有上下文信息。
全局記憶（類似外存）：現實中的事件往往是一個系列，全局記憶承擔「超級上下文」的角色，跨事件持久保存。

PAS：主動AI底層的流式系統

主動AI如何在復雜的現實環境中穩定運行？

其底層系統相當復雜：每個Demand需要開啟一個獨立進程，所有環境變量需要持續維護，整個系統中存在一個DD-MM大循環，以及無數個內部小循環。

底層系統分為三層：

前端：負責信息流的輸入與輸出。
服務器后端：負責多進程執行、循環控制與數據存儲調度。
AI 后端：負責連接外部模型，提供可調用的搜索、工具和代碼執行環境。

實驗結果

Pask在學習、工作、日常三大領域的十類任務上進行了測試，效果與閉源模型加思考鏈的水平相當。

在延遲上，當其他開閉源模型普遍都需要3–10秒才能推理一次人類的潛在需要時，Intentflow只需要1.5s就可以結合著人類的個人，工作和全局記憶完成一次完整的意圖檢測。

在報告中，研究人員對于主動AI 進行了詳細的實驗，并總結為了12個findings。

主動AI的探索

剛剛開始

AI變聰明，這條路已經走了很遠；AI懂人，這件事才剛開始。

現實世界沒有統一答案，只有復雜的場景、角色和任務。每個行業都有自己的工作流、判斷方式和隱性規則，同一句話放在不同人身上，背后的需求可能完全不同。

主動AI的核心挑戰，是數據。

真正的意圖數據幾乎不存在。不是因為缺少人工標注，而是從邏輯上說，標注本身就并不總是成立。

主動AI不再是「I know what I don't know」的邏輯，而是「I don't know what I don't know」，因為所謂更深層、更有價值的信息，往往需要超出用戶當下的認知。

很多時候，人并不真正知道自己想要什么，更說不清自己下一步需要什么。能證明 AI 猜對了的，不是一次問答是否對齊，而是它給出幫助之后，用戶是不是立刻感到「就是這個」。

底層流式意圖模型+上層Agents執行，才是主動AI的未來。

研究人員開發Pask的一年里，有幾個月是在agents機制上下功夫的，最終得出的結論很簡單：走不通。

原因也很直接：人類能接受的時延，連一次完整的模型調用都不夠，更沒有時間留給意圖推理。

第一作者謝之非是做語音模型背景出身的。面對這個核心矛盾，當時就意識到，這是實時對話模型的歷史重演。2024年之前，當語音助手有3秒延遲的時候，沒有人能用得下去。

當GPT-4o這類實時模型出現，語音模型的應用瞬間爆發。開發團隊當時就想到了用一個流式模型來做意圖檢測，才有了Intentflow。

所以，Pask從一開始就不打算去卷「更聰明」的執行agents，而是只做一件事：更快、更準地猜中人的心思。

不做更大的模型，也不做更復雜的調用邏輯，而是去回答一個問題：它能不能在連續上下文里看懂你，在你開口之前就知道你的深層意圖，并在準確的時機，用極短的時間給出最有價值的幫助。

AI的未來，是主動理解意圖的能力真正進入你身邊的每一臺移動設備，讓AI不再只是回答問題，而是成為一個實時理解你、持續貼近你、真正懂你的AI soul knower。

作者介紹

論文第一作者謝之非是南洋理工大學的博士生。通訊作者為顏水成、苗春燕、葉德珩。

Pask研究團隊的Project Lead為來自南洋理工大學的謝之非: 謝之非，南洋理工大學在讀PhD。

研究方向為多模態流式模型。本科時曾做出全球首個「開源GPT4o」系列實時對話模型 Mini-Omni系列，三篇一作論文單引超過百次，開源項目累計獲5k+ stars。

隨后與顏水成老師一拍即合，選擇離開清華大學加入NUS LV_Lab，成為其回歸學術界后第一個博士生。論文通訊作者為顏水成老師、苗春燕老師、葉德珩老師。

參考資料：

https://arxiv.org/abs/2604.08000

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.