網易首頁 > 網易號 > 正文申請入駐

香港科技大學：AI智能助手如何在超長對話中保持"記憶力"不衰退

2026-02-10 17:23:13　來源: 科技行者

北京舉報

分享至

當我們和AI助手進行長時間對話時，你有沒有發現一個問題：對話進行得越久，AI就越容易"忘記"之前說過的話，甚至開始胡言亂語？這就像一個人在極度疲勞狀態下工作，剛開始還能保持專注，但隨著時間推移，注意力就開始分散，工作質量也直線下降。

這個問題在AI領域有個專門的名字叫"上下文腐爛"（context rot），而香港科技大學的研究團隊最近發布了一項重要研究，專門解決這個讓人頭疼的問題。這項研究發表于2026年2月，論文編號為arXiv:2602.07962v1，為我們深入理解AI在長時間工作中的表現提供了全新視角。

傳統的AI測試就像給學生出一道閱讀理解題：給你一篇很長的文章，然后問你文章里的某個細節。但現實中，AI助手的工作更像是一個私人秘書，需要在漫長的工作日中處理各種復雜任務：查看郵件、整理日程、分析數據、撰寫報告。隨著工作時間的延長，這位"AI秘書"需要記住的信息越來越多，而它的"記憶力"卻開始出現問題。

香港科技大學的研究團隊意識到，現有的測試方法就像只考查學生的短期記憶能力，卻忽略了在真實工作環境中需要的長期專注力和綜合處理能力。于是，他們創建了一個名為LOCA-bench的全新測試平臺，這個名字代表"長上下文智能體"（LOng-Context Agents）的基準測試。

LOCA-bench就像為AI助手設計了一個模擬的真實工作環境。在這個環境中，AI需要扮演一個萬能助手的角色，處理各種實際工作場景：管理在線課程系統、處理電子郵件、操作電子表格、查詢數據庫、管理電商平臺等。關鍵在于，隨著工作的進行，AI需要處理的信息量會越來越大，就像一個秘書的桌子上文件越堆越高。

研究團隊巧妙地設計了一個可以控制"工作量"的系統。他們可以讓同一個任務在不同的信息量條件下進行。比如說，讓AI整理學生的考試安排，在簡單模式下可能只有10門課程需要處理，而在復雜模式下可能有上百門課程，每門課程還有大量的詳細信息。這樣，研究人員就能準確觀察到AI的表現是如何隨著信息量增加而變化的。

這個測試系統包含了15種不同類型的真實工作場景，每種場景都可以在7個不同的復雜度級別上運行，從相對簡單的8000個信息單位到極其復雜的256000個信息單位。整個測試包含了525個不同的任務樣本和280種不同的工具，幾乎涵蓋了現代辦公環境中的所有常見工作。

一、現代AI助手面臨的"記憶力"危機

當我們深入觀察AI助手在處理復雜任務時的表現，就會發現一個令人擔憂的現象：就像人在極度疲勞狀態下工作一樣，AI的各項能力都會隨著任務復雜度的增加而顯著下降。

研究團隊測試了七個目前最先進的AI模型，包括Claude-4.5-Opus、GPT-5.2-Medium、Gemini-3-Flash等知名的商業模型，以及DeepSeek-V3.2-Thinking、MiniMax-M2.1等優秀的開源模型。測試結果就像一條陡峭的下坡路：當信息量較少時，大多數AI模型都能保持70%以上的準確率，表現相當不錯。但隨著信息量的增加，它們的表現就開始急劇下滑。

最引人注目的發現是，當信息量達到最高級別時，即使是最先進的商業模型，準確率也會下降到20%左右，而一些開源模型的表現甚至不到5%。這就好比一個平時工作能力很強的員工，在面對海量信息時完全失去了方向感，工作效率嚴重下降。

更有意思的是，不同類型的AI模型展現出了不同的"疲勞模式"。Claude-4.5-Opus在處理簡單任務時表現最為出色，準確率高達96%，但隨著復雜度增加，下降幅度也最為明顯。相比之下，GPT-5.2-Medium雖然起始表現不如Claude，但在高復雜度情況下保持得更好，展現出了更強的"持久力"。

研究團隊還發現了一個令人意外的現象：隨著任務復雜度的增加，AI模型實際探索和處理的信息量并沒有相應增加，反而開始"偷懶"。就像一個面對滿桌文件的員工，不是更加努力地處理每一份文件，而是開始挑三揀四，只處理看起來簡單的部分，最終導致工作質量下降。

這種現象反映在具體數據上就是：當環境復雜度從96K信息單位增加到更高級別時，大多數AI模型的工作軌跡長度、工具調用次數都開始趨于平穩，不再增長。這意味著AI并沒有因為任務更復雜而更加努力，反而選擇了一種"應付了事"的工作方式。

二、AI助手的四大"職場病"

通過深入分析AI助手在復雜環境下的工作表現，研究團隊識別出了四種典型的"職場病"，這些問題就像職場新人在面對高強度工作時容易犯的錯誤。

第一種病癥是"思維簡化癥"。在信息量較少時，AI助手能夠進行復雜的多步驟推理，就像一個細心的偵探，會從多個線索源收集信息，進行交叉驗證，最后得出準確結論。但當信息量增加后，AI就開始"偷懶"，往往只看一部分信息就匆忙下結論。

研究團隊給出了一個生動的例子：AI需要整理學生的期末考試安排，這些信息分散在課程公告和電子郵件中。在簡單情況下，AI會仔細查看所有公告和郵件，還會核對課程編號確保信息準確。但在復雜情況下，AI可能只查看公告就開始制作考試安排表，完全忽略了郵件中的重要信息，導致最終結果不完整。

第二種病癥是"健忘癥"。這表現在AI越來越容易忘記任務開始時給出的重要指示，特別是一些格式要求和約束條件。就像一個員工在忙碌中忘記了老板最初的要求，按照自己的想法來完成工作。

一個典型案例是，AI被要求分析A/B測試數據并將結果記錄在CSV文件中，明確要求"遵循文件中的相同格式，不要更改列名"。在信息量較少時，AI會先檢查現有文件的格式，然后嚴格按照要求來記錄數據。但在信息量增加后，AI往往會忽略這個重要指示，按照自己的理解來設置列名，導致最終結果不符合要求。

第三種病癥是"急躁癥"。隨著上下文變長，AI變得越來越沒有耐心，經常在完成任務之前就提前結束工作。這就像一個員工面對堆積如山的文件時，匆忙瀏覽了一部分就認為已經完成了全部工作。

研究中有一個很好的例子：AI需要在電商平臺中找出所有庫存不足的商品。在簡單情況下，AI會耐心地翻看所有商品頁面，確保沒有遺漏。但在復雜情況下，AI可能只查看了前100個商品，發現沒有符合條件的，就匆忙得出"沒有庫存不足商品"的結論，完全沒有繼續查看剩余的商品。實際上，在后續的商品中確實存在需要處理的情況。

第四種病癥是"幻覺癥"。這是最令人擔憂的問題：即使AI正確獲取了信息，在后續處理過程中也可能出現信息失真，就像傳話游戲中的信息變形。

一個典型例子是，AI需要監控工廠設備的傳感器數據，識別異常讀數。研究人員發現，AI能夠正確從數據庫中查詢到某臺機器在特定時間的振動值是1.61，但在后續生成報告時，卻將這個數值記錄為2.46。這種信息失真在短上下文情況下很少出現，但隨著上下文增長變得越來越頻繁。

三、拯救AI助手的"記憶增強"技術

面對AI助手的"職場病"，研究團隊并沒有坐以待斃，而是開發了一套完整的"治療方案"，就像給過度疲勞的員工提供各種工作輔助工具和方法。

這些解決方案可以分為兩大類：基礎的"整理術"和高級的"工作法"。基礎整理術包括三種方法，就像辦公室的文件管理技巧。

第一種是"工具結果清理法"。當AI的工作記錄變得過于冗長時，系統會自動刪除一些早期的、不太重要的工具調用記錄，就像定期清理辦公桌上的舊文件。這樣可以為新的重要信息騰出空間，讓AI保持專注。

第二種是"思考過程壓縮法"。AI在工作時會產生很多內部思考記錄，就像我們在草稿紙上的涂涂畫畫。當這些記錄太多時，系統會保留最新的思考內容，刪除較早的思考過程，確保AI能夠專注于當前任務。

第三種是"對話歷史摘要法"。當工作對話變得很長時，AI會將早期的對話內容總結成簡潔的要點，就像會議紀要一樣，既保留了重要信息，又節省了空間。

高級工作法則更加智能和主動。"上下文感知法"就像給AI安裝了一個"內存監控器"，讓它實時了解自己的"記憶空間"還剩多少。每次使用工具后，系統都會告訴AI："你的記憶空間還剩XX%，請合理安排后續工作。"這樣AI就能更好地規劃自己的工作節奏。

"記憶工具法"更像是給AI配備了一個外部筆記本。當重要信息太多時，AI可以將一些關鍵信息寫入專門的記憶文件中，需要時再調取。這就像我們在處理復雜項目時會做各種備忘錄一樣。

最有趣的是"程序化工具調用法"，這相當于讓AI學會寫"工作腳本"。傳統方式下，AI需要一步步手動操作：打開文件、讀取內容、處理數據、保存結果。但通過程序化調用，AI可以寫一個小程序來自動完成這一系列操作，既提高了效率，又減少了中間過程中的信息累積。

研究結果顯示，這些"治療方法"確實有效。以Gemini-3-Flash為例，在復雜任務中，基礎準確率只有21.3%，但應用了上下文感知技術后提升到33.3%，使用記憶工具后達到30.7%，而程序化工具調用法同樣達到了30.7%。最令人印象深刻的是GPT-5.2-Medium，通過程序化工具調用，準確率從38.7%提升到了49.3%，提升幅度超過25%。

更重要的是，這些技術不僅提高了準確率，還顯著減少了工作軌跡的長度。程序化工具調用法尤其出色，它讓AI的工作變得更加高效和有序，就像從手工作業升級到了工業化生產。

四、真實世界測試：AI助手與專業工具的較量

為了驗證這些改進方法在現實環境中的效果，研究團隊還進行了一項特殊的對比測試，讓AI助手與現有的專業智能助手工具進行直接比拼，就像讓不同品牌的產品在相同條件下接受消費者測試。

這次對比的對象是Claude Agent SDK，這是Anthropic公司開發的專業智能助手框架，集成了多種先進功能，包括語義搜索、子助手系統等。按理說，這樣的專業工具應該在復雜任務中表現更好，就像專業級的瑞士軍刀應該比普通工具更實用。

然而測試結果卻出人意料。當使用Claude Agent框架時，Claude-4.5-Opus的表現實際上比直接使用模型還要差，準確率從34.0%下降到了26.7%。這就像一個熟練的工人在使用了復雜的自動化設備后，反而工作效率降低了。

研究團隊深入分析后發現了問題所在。Claude Agent框架雖然功能強大，但它鼓勵AI使用各種高級功能，比如同時啟動多個子助手來處理不同任務。聽起來很厲害，但實際上AI對這些復雜環境還不夠熟悉，就像一個新手司機開著配備了各種高科技功能的豪車，反而因為不熟悉這些功能而開得磕磕絆絆。

具體來說，在處理在線學習平臺任務時，AI會啟動很多子助手去收集課程和作業信息，但往往忘記給這些子助手提供必要的工具權限，結果這些子助手什么也做不了，只是白白消耗了"記憶空間"。等到AI意識到問題時，已經浪費了大量資源，只好重新開始，而此時"記憶空間"已經所剩無幾，導致后續工作質量下降。

相比之下，研究團隊自己開發的程序化工具調用方法表現要好得多。雖然他們的實現版本準確率為40.0%，但Anthropic官方的程序化工具調用實現達到了49.3%，這說明這個方向是正確的，只是在具體實現細節上還有優化空間。

這個對比測試揭示了一個重要觀點：技術的先進性并不總是等同于實用性。有時候，簡單直接的解決方案反而能取得更好的效果，就像在某些情況下，一把普通的螺絲刀可能比多功能工具更好用。

五、從實驗室到現實應用的思考

LOCA-bench的研究成果不僅僅是一個學術研究，更像是為未來AI助手的發展指明了方向。這項研究揭示的問題和解決方案，對我們日常使用AI助手有著直接的指導意義。

首先，這項研究幫助我們重新認識了AI助手的能力邊界。在日常使用中，我們經常會遇到這樣的情況：剛開始和AI對話時效果很好，但聊得時間長了，AI的回答質量就開始下降，有時甚至會出現前后矛盾的情況。現在我們知道，這并不是偶然現象，而是AI系統的固有特性。了解這一點后，我們可以調整使用策略，比如在重要任務中適時"重啟"對話，或者將復雜任務分解成幾個獨立的簡單對話。

其次，研究中提到的各種優化技術已經開始在實際產品中得到應用。比如，一些聊天機器人會在對話變長時主動提供對話摘要，這就是"對話歷史摘要法"的實際應用。一些AI寫作助手會提醒用戶當前內容長度，建議分段處理，這體現了"上下文感知"的思想。

程序化工具調用的概念也在改變我們對AI能力的理解。傳統觀念認為AI只能進行對話和文本生成，但現在我們看到，AI可以學會編寫和執行代碼來完成復雜任務。這就像從"手工制作"升級到"工業生產"，不僅提高了效率，還降低了出錯率。

對于企業和開發者而言，這項研究提供了寶貴的指導原則。在設計AI應用時，不應該盲目追求功能的豐富性，而應該重點關注在實際使用場景中的穩定性和可靠性。正如研究中發現的，有時候簡單直接的方案比復雜的多功能方案更有效。

研究還揭示了AI訓練和測試方法的局限性。目前大多數AI模型的測試都集中在短期任務上，就像只考查學生的短期記憶而忽略了長期綜合能力。LOCA-bench提供了一個更貼近現實應用的測試框架，這可能會推動整個行業重新思考AI系統的設計和評估方法。

更深層次地看，這項研究反映了人工智能發展的一個重要趨勢：從追求單項能力的突破，轉向追求綜合能力的平衡和持久。就像人類智能不僅需要聰明，更需要專注力、記憶力和執行力的協調配合，未來的AI系統也需要在各個方面實現更好的平衡。

最后，LOCA-bench作為一個開源項目，為整個研究社區提供了一個標準化的測試平臺。這就像為AI研究建立了一個"標準操場"，讓不同團隊的研究成果可以在相同條件下進行比較。這種開放共享的做法，將加速整個領域的進步。

說到底，香港科技大學的這項研究為我們揭示了AI助手在長時間工作中面臨的挑戰，更重要的是，它提供了切實可行的解決方案。雖然目前的AI系統還遠未完美，但通過合理的設計和優化，我們已經能夠顯著改善它們在復雜任務中的表現。隨著技術的不斷發展和這些研究成果的應用，我們有理由相信，未來的AI助手將能夠在更長時間、更復雜的任務中保持穩定可靠的表現，真正成為我們工作和生活中的得力助手。

對于普通用戶而言，這項研究的最大價值在于幫助我們更好地理解和使用AI工具。當我們了解了AI的"職場病"后，就能夠更有策略地與它們協作，揚長避短，讓這些數字助手發揮出最大的價值。

Q&A

Q1：什么是LOCA-bench測試平臺？

A：LOCA-bench是香港科技大學開發的AI助手測試平臺，專門評估AI在處理長時間、復雜任務時的表現。它模擬真實工作環境，讓AI處理郵件管理、數據分析等實際任務，可以控制任務復雜度從簡單到極復雜，幫助研究人員了解AI助手在什么情況下會出現"記憶力衰退"等問題。

Q2：AI助手的四大"職場病"都有哪些表現？

A：四大"職場病"包括：思維簡化癥（在復雜情況下只看部分信息就下結論）、健忘癥（忘記任務開始時的重要指示和格式要求）、急躁癥（沒完成任務就提前結束工作）、幻覺癥（即使獲取了正確信息也可能在處理過程中出現失真）。這些問題在信息量增加時會越來越明顯。

Q3：程序化工具調用法為什么能提高AI助手的表現？

A：程序化工具調用法讓AI學會寫代碼來自動完成任務，而不是一步步手動操作。這就像從手工制作升級到工業化生產，不僅提高了效率，還減少了中間過程的信息累積，降低了出錯率。研究顯示，這種方法能讓GPT-5.2-Medium的準確率從38.7%提升到49.3%。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.