![]()
隨著AI技術不斷進步,真正有用的智能體將能夠更好地預測用戶需求。為了讓移動設備上的體驗真正有幫助,底層模型需要理解用戶在與其交互時正在做什么(或試圖做什么)。一旦理解了當前和之前的任務,模型就有更多上下文來預測潛在的下一步操作。例如,如果用戶之前搜索過歐洲的音樂節,現在正在尋找飛往倫敦的航班,智能體可以主動提供在這些特定日期在倫敦舉辦的音樂節信息。
大型多模態大語言模型已經能夠很好地從用戶界面(UI)軌跡中理解用戶意圖。但使用大語言模型執行這項任務通常需要將信息發送到服務器,這可能很慢、成本高昂,并且存在暴露敏感信息的潛在風險。
我們在EMNLP 2025上發表的最新論文"小模型,大成果:通過分解實現卓越意圖提取",解決了如何使用小型多模態大語言模型來理解用戶在網頁和移動設備上的交互序列的問題,并且全部在設備上完成。通過將用戶意圖理解分為兩個階段——首先分別總結每個屏幕,然后從生成的摘要序列中提取意圖,我們使小模型更容易處理這項任務。我們還制定了評估模型性能的正式指標,并顯示我們的方法產生了與更大模型相當的結果,展示了其在設備上應用的潛力。
分解式工作流程
我們引入了一種用于從用戶交互中理解用戶意圖的分解工作流程。在推理時,模型執行兩個主要步驟。第一步,每個在單一屏幕和UI元素上的單獨交互都被獨立總結。接下來,這些摘要被用作一系列事件來預測整個UI軌跡的一般意圖。
在第一階段,每個單獨的交互都由一個小型多模態大語言模型進行總結。給定三個屏幕的滑動窗口(上一個、當前、下一個),會詢問以下問題:屏幕上下文是什么?用戶采取了什么行動?用戶可能試圖實現什么?
在這個階段,使用經過微調的小模型從屏幕摘要中提取一個句子。在第二階段的分解工作流程中,使用經過微調的模型,將第一階段生成的摘要作為輸入,輸出簡潔的意圖陳述。在這個階段,我們從摘要中刪除所有推測,并在訓練期間清理標簽,使其不鼓勵幻覺。
評估方法
我們使用Bi-Fact方法來評估預測意圖與參考意圖的質量。通過這種方法,我們使用單獨的大語言模型調用將參考意圖和預測意圖分解為不能進一步分解的意圖細節,我們稱之為"原子事實"。例如,"單程航班"將是一個原子事實,而"從倫敦到基加利的航班"將是兩個。然后我們計算預測意圖所包含的參考事實數量和參考意圖所包含的預測事實數量。這使我們能夠了解方法的精確度(有多少預測事實是正確的)和召回率(我們正確預測了多少真實事實),并計算F1分數。
實驗結果
當使用小模型時,分別總結每個屏幕然后從生成的摘要序列中提取意圖的分解方法是有幫助的。我們將其與標準方法(包括思維鏈提示(CoT)和端到端微調(E2E))進行比較,發現它超越了兩者。當我們在移動設備和網頁軌跡以及Gemini和Qwen2基礎模型上測試時,這個結果都成立。我們甚至發現,將分解方法應用于Gemini 1.5 Flash 8B模型可以實現與使用Gemini 1.5 Pro相當的結果,但成本和速度只是其一小部分。
結論
我們已經表明,軌跡總結的分解方法對于使用小模型進行意圖理解是有幫助的。最終,隨著模型性能的提高和移動設備獲得更多處理能力,我們希望設備上的意圖理解能夠成為未來移動設備上許多輔助功能的構建基塊。
Q&A
Q1:什么是分解式意圖提取方法?
A:分解式意圖提取是一種將用戶意圖理解分為兩個階段的方法。第一階段使用小型多模態大語言模型分別總結每個屏幕上的用戶交互,第二階段使用經過微調的模型從這些摘要序列中提取整體意圖。這種方法讓小模型更容易處理復雜的用戶行為理解任務。
Q2:為什么要使用小模型而不是大型語言模型?
A:使用大語言模型通常需要將信息發送到服務器,這會導致延遲高、成本昂貴,并且存在暴露用戶敏感信息的風險。而小模型可以直接在設備上運行,保護用戶隱私,降低成本,提高響應速度,同時通過分解方法仍能達到與大模型相當的性能。
Q3:Bi-Fact評估方法是如何工作的?
A:Bi-Fact方法將預測意圖和參考意圖都分解為不可再分的"原子事實",然后計算預測意圖包含的參考事實數量和參考意圖包含的預測事實數量。通過這種方式可以得出精確度(預測事實的正確率)和召回率(真實事實的預測覆蓋率),進而計算F1分數來綜合評估模型性能。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.