![]()
當我們和AI助手進行長時間對話時,你有沒有發現一個問題:對話進行得越久,AI就越容易"忘記"之前說過的話,甚至開始胡言亂語?這就像一個人在極度疲勞狀態下工作,剛開始還能保持專注,但隨著時間推移,注意力就開始分散,工作質量也直線下降。
這個問題在AI領域有個專門的名字叫"上下文腐爛"(context rot),而香港科技大學的研究團隊最近發布了一項重要研究,專門解決這個讓人頭疼的問題。這項研究發表于2026年2月,論文編號為arXiv:2602.07962v1,為我們深入理解AI在長時間工作中的表現提供了全新視角。
傳統的AI測試就像給學生出一道閱讀理解題:給你一篇很長的文章,然后問你文章里的某個細節。但現實中,AI助手的工作更像是一個私人秘書,需要在漫長的工作日中處理各種復雜任務:查看郵件、整理日程、分析數據、撰寫報告。隨著工作時間的延長,這位"AI秘書"需要記住的信息越來越多,而它的"記憶力"卻開始出現問題。
香港科技大學的研究團隊意識到,現有的測試方法就像只考查學生的短期記憶能力,卻忽略了在真實工作環境中需要的長期專注力和綜合處理能力。于是,他們創建了一個名為LOCA-bench的全新測試平臺,這個名字代表"長上下文智能體"(LOng-Context Agents)的基準測試。
LOCA-bench就像為AI助手設計了一個模擬的真實工作環境。在這個環境中,AI需要扮演一個萬能助手的角色,處理各種實際工作場景:管理在線課程系統、處理電子郵件、操作電子表格、查詢數據庫、管理電商平臺等。關鍵在于,隨著工作的進行,AI需要處理的信息量會越來越大,就像一個秘書的桌子上文件越堆越高。
研究團隊巧妙地設計了一個可以控制"工作量"的系統。他們可以讓同一個任務在不同的信息量條件下進行。比如說,讓AI整理學生的考試安排,在簡單模式下可能只有10門課程需要處理,而在復雜模式下可能有上百門課程,每門課程還有大量的詳細信息。這樣,研究人員就能準確觀察到AI的表現是如何隨著信息量增加而變化的。
這個測試系統包含了15種不同類型的真實工作場景,每種場景都可以在7個不同的復雜度級別上運行,從相對簡單的8000個信息單位到極其復雜的256000個信息單位。整個測試包含了525個不同的任務樣本和280種不同的工具,幾乎涵蓋了現代辦公環境中的所有常見工作。
一、現代AI助手面臨的"記憶力"危機
當我們深入觀察AI助手在處理復雜任務時的表現,就會發現一個令人擔憂的現象:就像人在極度疲勞狀態下工作一樣,AI的各項能力都會隨著任務復雜度的增加而顯著下降。
研究團隊測試了七個目前最先進的AI模型,包括Claude-4.5-Opus、GPT-5.2-Medium、Gemini-3-Flash等知名的商業模型,以及DeepSeek-V3.2-Thinking、MiniMax-M2.1等優秀的開源模型。測試結果就像一條陡峭的下坡路:當信息量較少時,大多數AI模型都能保持70%以上的準確率,表現相當不錯。但隨著信息量的增加,它們的表現就開始急劇下滑。
最引人注目的發現是,當信息量達到最高級別時,即使是最先進的商業模型,準確率也會下降到20%左右,而一些開源模型的表現甚至不到5%。這就好比一個平時工作能力很強的員工,在面對海量信息時完全失去了方向感,工作效率嚴重下降。
更有意思的是,不同類型的AI模型展現出了不同的"疲勞模式"。Claude-4.5-Opus在處理簡單任務時表現最為出色,準確率高達96%,但隨著復雜度增加,下降幅度也最為明顯。相比之下,GPT-5.2-Medium雖然起始表現不如Claude,但在高復雜度情況下保持得更好,展現出了更強的"持久力"。
研究團隊還發現了一個令人意外的現象:隨著任務復雜度的增加,AI模型實際探索和處理的信息量并沒有相應增加,反而開始"偷懶"。就像一個面對滿桌文件的員工,不是更加努力地處理每一份文件,而是開始挑三揀四,只處理看起來簡單的部分,最終導致工作質量下降。
這種現象反映在具體數據上就是:當環境復雜度從96K信息單位增加到更高級別時,大多數AI模型的工作軌跡長度、工具調用次數都開始趨于平穩,不再增長。這意味著AI并沒有因為任務更復雜而更加努力,反而選擇了一種"應付了事"的工作方式。
二、AI助手的四大"職場病"
通過深入分析AI助手在復雜環境下的工作表現,研究團隊識別出了四種典型的"職場病",這些問題就像職場新人在面對高強度工作時容易犯的錯誤。
第一種病癥是"思維簡化癥"。在信息量較少時,AI助手能夠進行復雜的多步驟推理,就像一個細心的偵探,會從多個線索源收集信息,進行交叉驗證,最后得出準確結論。但當信息量增加后,AI就開始"偷懶",往往只看一部分信息就匆忙下結論。
研究團隊給出了一個生動的例子:AI需要整理學生的期末考試安排,這些信息分散在課程公告和電子郵件中。在簡單情況下,AI會仔細查看所有公告和郵件,還會核對課程編號確保信息準確。但在復雜情況下,AI可能只查看公告就開始制作考試安排表,完全忽略了郵件中的重要信息,導致最終結果不完整。
第二種病癥是"健忘癥"。這表現在AI越來越容易忘記任務開始時給出的重要指示,特別是一些格式要求和約束條件。就像一個員工在忙碌中忘記了老板最初的要求,按照自己的想法來完成工作。
一個典型案例是,AI被要求分析A/B測試數據并將結果記錄在CSV文件中,明確要求"遵循文件中的相同格式,不要更改列名"。在信息量較少時,AI會先檢查現有文件的格式,然后嚴格按照要求來記錄數據。但在信息量增加后,AI往往會忽略這個重要指示,按照自己的理解來設置列名,導致最終結果不符合要求。
第三種病癥是"急躁癥"。隨著上下文變長,AI變得越來越沒有耐心,經常在完成任務之前就提前結束工作。這就像一個員工面對堆積如山的文件時,匆忙瀏覽了一部分就認為已經完成了全部工作。
研究中有一個很好的例子:AI需要在電商平臺中找出所有庫存不足的商品。在簡單情況下,AI會耐心地翻看所有商品頁面,確保沒有遺漏。但在復雜情況下,AI可能只查看了前100個商品,發現沒有符合條件的,就匆忙得出"沒有庫存不足商品"的結論,完全沒有繼續查看剩余的商品。實際上,在后續的商品中確實存在需要處理的情況。
第四種病癥是"幻覺癥"。這是最令人擔憂的問題:即使AI正確獲取了信息,在后續處理過程中也可能出現信息失真,就像傳話游戲中的信息變形。
一個典型例子是,AI需要監控工廠設備的傳感器數據,識別異常讀數。研究人員發現,AI能夠正確從數據庫中查詢到某臺機器在特定時間的振動值是1.61,但在后續生成報告時,卻將這個數值記錄為2.46。這種信息失真在短上下文情況下很少出現,但隨著上下文增長變得越來越頻繁。
三、拯救AI助手的"記憶增強"技術
面對AI助手的"職場病",研究團隊并沒有坐以待斃,而是開發了一套完整的"治療方案",就像給過度疲勞的員工提供各種工作輔助工具和方法。
這些解決方案可以分為兩大類:基礎的"整理術"和高級的"工作法"。基礎整理術包括三種方法,就像辦公室的文件管理技巧。
第一種是"工具結果清理法"。當AI的工作記錄變得過于冗長時,系統會自動刪除一些早期的、不太重要的工具調用記錄,就像定期清理辦公桌上的舊文件。這樣可以為新的重要信息騰出空間,讓AI保持專注。
第二種是"思考過程壓縮法"。AI在工作時會產生很多內部思考記錄,就像我們在草稿紙上的涂涂畫畫。當這些記錄太多時,系統會保留最新的思考內容,刪除較早的思考過程,確保AI能夠專注于當前任務。
第三種是"對話歷史摘要法"。當工作對話變得很長時,AI會將早期的對話內容總結成簡潔的要點,就像會議紀要一樣,既保留了重要信息,又節省了空間。
高級工作法則更加智能和主動。"上下文感知法"就像給AI安裝了一個"內存監控器",讓它實時了解自己的"記憶空間"還剩多少。每次使用工具后,系統都會告訴AI:"你的記憶空間還剩XX%,請合理安排后續工作。"這樣AI就能更好地規劃自己的工作節奏。
"記憶工具法"更像是給AI配備了一個外部筆記本。當重要信息太多時,AI可以將一些關鍵信息寫入專門的記憶文件中,需要時再調取。這就像我們在處理復雜項目時會做各種備忘錄一樣。
最有趣的是"程序化工具調用法",這相當于讓AI學會寫"工作腳本"。傳統方式下,AI需要一步步手動操作:打開文件、讀取內容、處理數據、保存結果。但通過程序化調用,AI可以寫一個小程序來自動完成這一系列操作,既提高了效率,又減少了中間過程中的信息累積。
研究結果顯示,這些"治療方法"確實有效。以Gemini-3-Flash為例,在復雜任務中,基礎準確率只有21.3%,但應用了上下文感知技術后提升到33.3%,使用記憶工具后達到30.7%,而程序化工具調用法同樣達到了30.7%。最令人印象深刻的是GPT-5.2-Medium,通過程序化工具調用,準確率從38.7%提升到了49.3%,提升幅度超過25%。
更重要的是,這些技術不僅提高了準確率,還顯著減少了工作軌跡的長度。程序化工具調用法尤其出色,它讓AI的工作變得更加高效和有序,就像從手工作業升級到了工業化生產。
四、真實世界測試:AI助手與專業工具的較量
為了驗證這些改進方法在現實環境中的效果,研究團隊還進行了一項特殊的對比測試,讓AI助手與現有的專業智能助手工具進行直接比拼,就像讓不同品牌的產品在相同條件下接受消費者測試。
這次對比的對象是Claude Agent SDK,這是Anthropic公司開發的專業智能助手框架,集成了多種先進功能,包括語義搜索、子助手系統等。按理說,這樣的專業工具應該在復雜任務中表現更好,就像專業級的瑞士軍刀應該比普通工具更實用。
然而測試結果卻出人意料。當使用Claude Agent框架時,Claude-4.5-Opus的表現實際上比直接使用模型還要差,準確率從34.0%下降到了26.7%。這就像一個熟練的工人在使用了復雜的自動化設備后,反而工作效率降低了。
研究團隊深入分析后發現了問題所在。Claude Agent框架雖然功能強大,但它鼓勵AI使用各種高級功能,比如同時啟動多個子助手來處理不同任務。聽起來很厲害,但實際上AI對這些復雜環境還不夠熟悉,就像一個新手司機開著配備了各種高科技功能的豪車,反而因為不熟悉這些功能而開得磕磕絆絆。
具體來說,在處理在線學習平臺任務時,AI會啟動很多子助手去收集課程和作業信息,但往往忘記給這些子助手提供必要的工具權限,結果這些子助手什么也做不了,只是白白消耗了"記憶空間"。等到AI意識到問題時,已經浪費了大量資源,只好重新開始,而此時"記憶空間"已經所剩無幾,導致后續工作質量下降。
相比之下,研究團隊自己開發的程序化工具調用方法表現要好得多。雖然他們的實現版本準確率為40.0%,但Anthropic官方的程序化工具調用實現達到了49.3%,這說明這個方向是正確的,只是在具體實現細節上還有優化空間。
這個對比測試揭示了一個重要觀點:技術的先進性并不總是等同于實用性。有時候,簡單直接的解決方案反而能取得更好的效果,就像在某些情況下,一把普通的螺絲刀可能比多功能工具更好用。
五、從實驗室到現實應用的思考
LOCA-bench的研究成果不僅僅是一個學術研究,更像是為未來AI助手的發展指明了方向。這項研究揭示的問題和解決方案,對我們日常使用AI助手有著直接的指導意義。
首先,這項研究幫助我們重新認識了AI助手的能力邊界。在日常使用中,我們經常會遇到這樣的情況:剛開始和AI對話時效果很好,但聊得時間長了,AI的回答質量就開始下降,有時甚至會出現前后矛盾的情況。現在我們知道,這并不是偶然現象,而是AI系統的固有特性。了解這一點后,我們可以調整使用策略,比如在重要任務中適時"重啟"對話,或者將復雜任務分解成幾個獨立的簡單對話。
其次,研究中提到的各種優化技術已經開始在實際產品中得到應用。比如,一些聊天機器人會在對話變長時主動提供對話摘要,這就是"對話歷史摘要法"的實際應用。一些AI寫作助手會提醒用戶當前內容長度,建議分段處理,這體現了"上下文感知"的思想。
程序化工具調用的概念也在改變我們對AI能力的理解。傳統觀念認為AI只能進行對話和文本生成,但現在我們看到,AI可以學會編寫和執行代碼來完成復雜任務。這就像從"手工制作"升級到"工業生產",不僅提高了效率,還降低了出錯率。
對于企業和開發者而言,這項研究提供了寶貴的指導原則。在設計AI應用時,不應該盲目追求功能的豐富性,而應該重點關注在實際使用場景中的穩定性和可靠性。正如研究中發現的,有時候簡單直接的方案比復雜的多功能方案更有效。
研究還揭示了AI訓練和測試方法的局限性。目前大多數AI模型的測試都集中在短期任務上,就像只考查學生的短期記憶而忽略了長期綜合能力。LOCA-bench提供了一個更貼近現實應用的測試框架,這可能會推動整個行業重新思考AI系統的設計和評估方法。
更深層次地看,這項研究反映了人工智能發展的一個重要趨勢:從追求單項能力的突破,轉向追求綜合能力的平衡和持久。就像人類智能不僅需要聰明,更需要專注力、記憶力和執行力的協調配合,未來的AI系統也需要在各個方面實現更好的平衡。
最后,LOCA-bench作為一個開源項目,為整個研究社區提供了一個標準化的測試平臺。這就像為AI研究建立了一個"標準操場",讓不同團隊的研究成果可以在相同條件下進行比較。這種開放共享的做法,將加速整個領域的進步。
說到底,香港科技大學的這項研究為我們揭示了AI助手在長時間工作中面臨的挑戰,更重要的是,它提供了切實可行的解決方案。雖然目前的AI系統還遠未完美,但通過合理的設計和優化,我們已經能夠顯著改善它們在復雜任務中的表現。隨著技術的不斷發展和這些研究成果的應用,我們有理由相信,未來的AI助手將能夠在更長時間、更復雜的任務中保持穩定可靠的表現,真正成為我們工作和生活中的得力助手。
對于普通用戶而言,這項研究的最大價值在于幫助我們更好地理解和使用AI工具。當我們了解了AI的"職場病"后,就能夠更有策略地與它們協作,揚長避短,讓這些數字助手發揮出最大的價值。
Q&A
Q1:什么是LOCA-bench測試平臺?
A:LOCA-bench是香港科技大學開發的AI助手測試平臺,專門評估AI在處理長時間、復雜任務時的表現。它模擬真實工作環境,讓AI處理郵件管理、數據分析等實際任務,可以控制任務復雜度從簡單到極復雜,幫助研究人員了解AI助手在什么情況下會出現"記憶力衰退"等問題。
Q2:AI助手的四大"職場病"都有哪些表現?
A:四大"職場病"包括:思維簡化癥(在復雜情況下只看部分信息就下結論)、健忘癥(忘記任務開始時的重要指示和格式要求)、急躁癥(沒完成任務就提前結束工作)、幻覺癥(即使獲取了正確信息也可能在處理過程中出現失真)。這些問題在信息量增加時會越來越明顯。
Q3:程序化工具調用法為什么能提高AI助手的表現?
A:程序化工具調用法讓AI學會寫代碼來自動完成任務,而不是一步步手動操作。這就像從手工制作升級到工業化生產,不僅提高了效率,還減少了中間過程的信息累積,降低了出錯率。研究顯示,這種方法能讓GPT-5.2-Medium的準確率從38.7%提升到49.3%。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.