<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      香港科技大學:AI智能助手如何在超長對話中保持"記憶力"不衰退

      0
      分享至


      當我們和AI助手進行長時間對話時,你有沒有發現一個問題:對話進行得越久,AI就越容易"忘記"之前說過的話,甚至開始胡言亂語?這就像一個人在極度疲勞狀態下工作,剛開始還能保持專注,但隨著時間推移,注意力就開始分散,工作質量也直線下降。

      這個問題在AI領域有個專門的名字叫"上下文腐爛"(context rot),而香港科技大學的研究團隊最近發布了一項重要研究,專門解決這個讓人頭疼的問題。這項研究發表于2026年2月,論文編號為arXiv:2602.07962v1,為我們深入理解AI在長時間工作中的表現提供了全新視角。

      傳統的AI測試就像給學生出一道閱讀理解題:給你一篇很長的文章,然后問你文章里的某個細節。但現實中,AI助手的工作更像是一個私人秘書,需要在漫長的工作日中處理各種復雜任務:查看郵件、整理日程、分析數據、撰寫報告。隨著工作時間的延長,這位"AI秘書"需要記住的信息越來越多,而它的"記憶力"卻開始出現問題。

      香港科技大學的研究團隊意識到,現有的測試方法就像只考查學生的短期記憶能力,卻忽略了在真實工作環境中需要的長期專注力和綜合處理能力。于是,他們創建了一個名為LOCA-bench的全新測試平臺,這個名字代表"長上下文智能體"(LOng-Context Agents)的基準測試。

      LOCA-bench就像為AI助手設計了一個模擬的真實工作環境。在這個環境中,AI需要扮演一個萬能助手的角色,處理各種實際工作場景:管理在線課程系統、處理電子郵件、操作電子表格、查詢數據庫、管理電商平臺等。關鍵在于,隨著工作的進行,AI需要處理的信息量會越來越大,就像一個秘書的桌子上文件越堆越高。

      研究團隊巧妙地設計了一個可以控制"工作量"的系統。他們可以讓同一個任務在不同的信息量條件下進行。比如說,讓AI整理學生的考試安排,在簡單模式下可能只有10門課程需要處理,而在復雜模式下可能有上百門課程,每門課程還有大量的詳細信息。這樣,研究人員就能準確觀察到AI的表現是如何隨著信息量增加而變化的。

      這個測試系統包含了15種不同類型的真實工作場景,每種場景都可以在7個不同的復雜度級別上運行,從相對簡單的8000個信息單位到極其復雜的256000個信息單位。整個測試包含了525個不同的任務樣本和280種不同的工具,幾乎涵蓋了現代辦公環境中的所有常見工作。

      一、現代AI助手面臨的"記憶力"危機

      當我們深入觀察AI助手在處理復雜任務時的表現,就會發現一個令人擔憂的現象:就像人在極度疲勞狀態下工作一樣,AI的各項能力都會隨著任務復雜度的增加而顯著下降。

      研究團隊測試了七個目前最先進的AI模型,包括Claude-4.5-Opus、GPT-5.2-Medium、Gemini-3-Flash等知名的商業模型,以及DeepSeek-V3.2-Thinking、MiniMax-M2.1等優秀的開源模型。測試結果就像一條陡峭的下坡路:當信息量較少時,大多數AI模型都能保持70%以上的準確率,表現相當不錯。但隨著信息量的增加,它們的表現就開始急劇下滑。

      最引人注目的發現是,當信息量達到最高級別時,即使是最先進的商業模型,準確率也會下降到20%左右,而一些開源模型的表現甚至不到5%。這就好比一個平時工作能力很強的員工,在面對海量信息時完全失去了方向感,工作效率嚴重下降。

      更有意思的是,不同類型的AI模型展現出了不同的"疲勞模式"。Claude-4.5-Opus在處理簡單任務時表現最為出色,準確率高達96%,但隨著復雜度增加,下降幅度也最為明顯。相比之下,GPT-5.2-Medium雖然起始表現不如Claude,但在高復雜度情況下保持得更好,展現出了更強的"持久力"。

      研究團隊還發現了一個令人意外的現象:隨著任務復雜度的增加,AI模型實際探索和處理的信息量并沒有相應增加,反而開始"偷懶"。就像一個面對滿桌文件的員工,不是更加努力地處理每一份文件,而是開始挑三揀四,只處理看起來簡單的部分,最終導致工作質量下降。

      這種現象反映在具體數據上就是:當環境復雜度從96K信息單位增加到更高級別時,大多數AI模型的工作軌跡長度、工具調用次數都開始趨于平穩,不再增長。這意味著AI并沒有因為任務更復雜而更加努力,反而選擇了一種"應付了事"的工作方式。

      二、AI助手的四大"職場病"

      通過深入分析AI助手在復雜環境下的工作表現,研究團隊識別出了四種典型的"職場病",這些問題就像職場新人在面對高強度工作時容易犯的錯誤。

      第一種病癥是"思維簡化癥"。在信息量較少時,AI助手能夠進行復雜的多步驟推理,就像一個細心的偵探,會從多個線索源收集信息,進行交叉驗證,最后得出準確結論。但當信息量增加后,AI就開始"偷懶",往往只看一部分信息就匆忙下結論。

      研究團隊給出了一個生動的例子:AI需要整理學生的期末考試安排,這些信息分散在課程公告和電子郵件中。在簡單情況下,AI會仔細查看所有公告和郵件,還會核對課程編號確保信息準確。但在復雜情況下,AI可能只查看公告就開始制作考試安排表,完全忽略了郵件中的重要信息,導致最終結果不完整。

      第二種病癥是"健忘癥"。這表現在AI越來越容易忘記任務開始時給出的重要指示,特別是一些格式要求和約束條件。就像一個員工在忙碌中忘記了老板最初的要求,按照自己的想法來完成工作。

      一個典型案例是,AI被要求分析A/B測試數據并將結果記錄在CSV文件中,明確要求"遵循文件中的相同格式,不要更改列名"。在信息量較少時,AI會先檢查現有文件的格式,然后嚴格按照要求來記錄數據。但在信息量增加后,AI往往會忽略這個重要指示,按照自己的理解來設置列名,導致最終結果不符合要求。

      第三種病癥是"急躁癥"。隨著上下文變長,AI變得越來越沒有耐心,經常在完成任務之前就提前結束工作。這就像一個員工面對堆積如山的文件時,匆忙瀏覽了一部分就認為已經完成了全部工作。

      研究中有一個很好的例子:AI需要在電商平臺中找出所有庫存不足的商品。在簡單情況下,AI會耐心地翻看所有商品頁面,確保沒有遺漏。但在復雜情況下,AI可能只查看了前100個商品,發現沒有符合條件的,就匆忙得出"沒有庫存不足商品"的結論,完全沒有繼續查看剩余的商品。實際上,在后續的商品中確實存在需要處理的情況。

      第四種病癥是"幻覺癥"。這是最令人擔憂的問題:即使AI正確獲取了信息,在后續處理過程中也可能出現信息失真,就像傳話游戲中的信息變形。

      一個典型例子是,AI需要監控工廠設備的傳感器數據,識別異常讀數。研究人員發現,AI能夠正確從數據庫中查詢到某臺機器在特定時間的振動值是1.61,但在后續生成報告時,卻將這個數值記錄為2.46。這種信息失真在短上下文情況下很少出現,但隨著上下文增長變得越來越頻繁。

      三、拯救AI助手的"記憶增強"技術

      面對AI助手的"職場病",研究團隊并沒有坐以待斃,而是開發了一套完整的"治療方案",就像給過度疲勞的員工提供各種工作輔助工具和方法。

      這些解決方案可以分為兩大類:基礎的"整理術"和高級的"工作法"。基礎整理術包括三種方法,就像辦公室的文件管理技巧。

      第一種是"工具結果清理法"。當AI的工作記錄變得過于冗長時,系統會自動刪除一些早期的、不太重要的工具調用記錄,就像定期清理辦公桌上的舊文件。這樣可以為新的重要信息騰出空間,讓AI保持專注。

      第二種是"思考過程壓縮法"。AI在工作時會產生很多內部思考記錄,就像我們在草稿紙上的涂涂畫畫。當這些記錄太多時,系統會保留最新的思考內容,刪除較早的思考過程,確保AI能夠專注于當前任務。

      第三種是"對話歷史摘要法"。當工作對話變得很長時,AI會將早期的對話內容總結成簡潔的要點,就像會議紀要一樣,既保留了重要信息,又節省了空間。

      高級工作法則更加智能和主動。"上下文感知法"就像給AI安裝了一個"內存監控器",讓它實時了解自己的"記憶空間"還剩多少。每次使用工具后,系統都會告訴AI:"你的記憶空間還剩XX%,請合理安排后續工作。"這樣AI就能更好地規劃自己的工作節奏。

      "記憶工具法"更像是給AI配備了一個外部筆記本。當重要信息太多時,AI可以將一些關鍵信息寫入專門的記憶文件中,需要時再調取。這就像我們在處理復雜項目時會做各種備忘錄一樣。

      最有趣的是"程序化工具調用法",這相當于讓AI學會寫"工作腳本"。傳統方式下,AI需要一步步手動操作:打開文件、讀取內容、處理數據、保存結果。但通過程序化調用,AI可以寫一個小程序來自動完成這一系列操作,既提高了效率,又減少了中間過程中的信息累積。

      研究結果顯示,這些"治療方法"確實有效。以Gemini-3-Flash為例,在復雜任務中,基礎準確率只有21.3%,但應用了上下文感知技術后提升到33.3%,使用記憶工具后達到30.7%,而程序化工具調用法同樣達到了30.7%。最令人印象深刻的是GPT-5.2-Medium,通過程序化工具調用,準確率從38.7%提升到了49.3%,提升幅度超過25%。

      更重要的是,這些技術不僅提高了準確率,還顯著減少了工作軌跡的長度。程序化工具調用法尤其出色,它讓AI的工作變得更加高效和有序,就像從手工作業升級到了工業化生產。

      四、真實世界測試:AI助手與專業工具的較量

      為了驗證這些改進方法在現實環境中的效果,研究團隊還進行了一項特殊的對比測試,讓AI助手與現有的專業智能助手工具進行直接比拼,就像讓不同品牌的產品在相同條件下接受消費者測試。

      這次對比的對象是Claude Agent SDK,這是Anthropic公司開發的專業智能助手框架,集成了多種先進功能,包括語義搜索、子助手系統等。按理說,這樣的專業工具應該在復雜任務中表現更好,就像專業級的瑞士軍刀應該比普通工具更實用。

      然而測試結果卻出人意料。當使用Claude Agent框架時,Claude-4.5-Opus的表現實際上比直接使用模型還要差,準確率從34.0%下降到了26.7%。這就像一個熟練的工人在使用了復雜的自動化設備后,反而工作效率降低了。

      研究團隊深入分析后發現了問題所在。Claude Agent框架雖然功能強大,但它鼓勵AI使用各種高級功能,比如同時啟動多個子助手來處理不同任務。聽起來很厲害,但實際上AI對這些復雜環境還不夠熟悉,就像一個新手司機開著配備了各種高科技功能的豪車,反而因為不熟悉這些功能而開得磕磕絆絆。

      具體來說,在處理在線學習平臺任務時,AI會啟動很多子助手去收集課程和作業信息,但往往忘記給這些子助手提供必要的工具權限,結果這些子助手什么也做不了,只是白白消耗了"記憶空間"。等到AI意識到問題時,已經浪費了大量資源,只好重新開始,而此時"記憶空間"已經所剩無幾,導致后續工作質量下降。

      相比之下,研究團隊自己開發的程序化工具調用方法表現要好得多。雖然他們的實現版本準確率為40.0%,但Anthropic官方的程序化工具調用實現達到了49.3%,這說明這個方向是正確的,只是在具體實現細節上還有優化空間。

      這個對比測試揭示了一個重要觀點:技術的先進性并不總是等同于實用性。有時候,簡單直接的解決方案反而能取得更好的效果,就像在某些情況下,一把普通的螺絲刀可能比多功能工具更好用。

      五、從實驗室到現實應用的思考

      LOCA-bench的研究成果不僅僅是一個學術研究,更像是為未來AI助手的發展指明了方向。這項研究揭示的問題和解決方案,對我們日常使用AI助手有著直接的指導意義。

      首先,這項研究幫助我們重新認識了AI助手的能力邊界。在日常使用中,我們經常會遇到這樣的情況:剛開始和AI對話時效果很好,但聊得時間長了,AI的回答質量就開始下降,有時甚至會出現前后矛盾的情況。現在我們知道,這并不是偶然現象,而是AI系統的固有特性。了解這一點后,我們可以調整使用策略,比如在重要任務中適時"重啟"對話,或者將復雜任務分解成幾個獨立的簡單對話。

      其次,研究中提到的各種優化技術已經開始在實際產品中得到應用。比如,一些聊天機器人會在對話變長時主動提供對話摘要,這就是"對話歷史摘要法"的實際應用。一些AI寫作助手會提醒用戶當前內容長度,建議分段處理,這體現了"上下文感知"的思想。

      程序化工具調用的概念也在改變我們對AI能力的理解。傳統觀念認為AI只能進行對話和文本生成,但現在我們看到,AI可以學會編寫和執行代碼來完成復雜任務。這就像從"手工制作"升級到"工業生產",不僅提高了效率,還降低了出錯率。

      對于企業和開發者而言,這項研究提供了寶貴的指導原則。在設計AI應用時,不應該盲目追求功能的豐富性,而應該重點關注在實際使用場景中的穩定性和可靠性。正如研究中發現的,有時候簡單直接的方案比復雜的多功能方案更有效。

      研究還揭示了AI訓練和測試方法的局限性。目前大多數AI模型的測試都集中在短期任務上,就像只考查學生的短期記憶而忽略了長期綜合能力。LOCA-bench提供了一個更貼近現實應用的測試框架,這可能會推動整個行業重新思考AI系統的設計和評估方法。

      更深層次地看,這項研究反映了人工智能發展的一個重要趨勢:從追求單項能力的突破,轉向追求綜合能力的平衡和持久。就像人類智能不僅需要聰明,更需要專注力、記憶力和執行力的協調配合,未來的AI系統也需要在各個方面實現更好的平衡。

      最后,LOCA-bench作為一個開源項目,為整個研究社區提供了一個標準化的測試平臺。這就像為AI研究建立了一個"標準操場",讓不同團隊的研究成果可以在相同條件下進行比較。這種開放共享的做法,將加速整個領域的進步。

      說到底,香港科技大學的這項研究為我們揭示了AI助手在長時間工作中面臨的挑戰,更重要的是,它提供了切實可行的解決方案。雖然目前的AI系統還遠未完美,但通過合理的設計和優化,我們已經能夠顯著改善它們在復雜任務中的表現。隨著技術的不斷發展和這些研究成果的應用,我們有理由相信,未來的AI助手將能夠在更長時間、更復雜的任務中保持穩定可靠的表現,真正成為我們工作和生活中的得力助手。

      對于普通用戶而言,這項研究的最大價值在于幫助我們更好地理解和使用AI工具。當我們了解了AI的"職場病"后,就能夠更有策略地與它們協作,揚長避短,讓這些數字助手發揮出最大的價值。

      Q&A

      Q1:什么是LOCA-bench測試平臺?

      A:LOCA-bench是香港科技大學開發的AI助手測試平臺,專門評估AI在處理長時間、復雜任務時的表現。它模擬真實工作環境,讓AI處理郵件管理、數據分析等實際任務,可以控制任務復雜度從簡單到極復雜,幫助研究人員了解AI助手在什么情況下會出現"記憶力衰退"等問題。

      Q2:AI助手的四大"職場病"都有哪些表現?

      A:四大"職場病"包括:思維簡化癥(在復雜情況下只看部分信息就下結論)、健忘癥(忘記任務開始時的重要指示和格式要求)、急躁癥(沒完成任務就提前結束工作)、幻覺癥(即使獲取了正確信息也可能在處理過程中出現失真)。這些問題在信息量增加時會越來越明顯。

      Q3:程序化工具調用法為什么能提高AI助手的表現?

      A:程序化工具調用法讓AI學會寫代碼來自動完成任務,而不是一步步手動操作。這就像從手工制作升級到工業化生產,不僅提高了效率,還減少了中間過程的信息累積,降低了出錯率。研究顯示,這種方法能讓GPT-5.2-Medium的準確率從38.7%提升到49.3%。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      馬斯克談Seedance 2.0:發展速度太快

      馬斯克談Seedance 2.0:發展速度太快

      財聯社
      2026-02-12 13:40:07
      鐘南山:會用證據讓全世界服氣

      鐘南山:會用證據讓全世界服氣

      第一財經資訊
      2026-02-12 18:13:00
      官方:U17亞洲杯中國隊分組出爐!

      官方:U17亞洲杯中國隊分組出爐!

      五星體育
      2026-02-12 17:32:54
      筱梅提前報喜:小寶貝迫不及待,奔赴新年與溫暖

      筱梅提前報喜:小寶貝迫不及待,奔赴新年與溫暖

      觀察鑒娛
      2026-02-12 11:53:34
      今晚賽事:2月12日晚21點39,中央電視臺CCTV5、CCTV5+直播節目表

      今晚賽事:2月12日晚21點39,中央電視臺CCTV5、CCTV5+直播節目表

      皮皮觀天下
      2026-02-12 12:50:12
      沒了!再見,楊瀚森,主帥正式攤牌:沒那么多時間給年輕人

      沒了!再見,楊瀚森,主帥正式攤牌:沒那么多時間給年輕人

      球童無忌
      2026-02-12 15:28:35
      美司法部提起訴狀,要求強制中國隨銳集團從收購的美國丘比特系統公司撤資

      美司法部提起訴狀,要求強制中國隨銳集團從收購的美國丘比特系統公司撤資

      俄羅斯衛星通訊社
      2026-02-12 15:07:34
      郭德綱沒想到,封箱演出這晚郭麒麟用9個字,讓德云社口碑翻盤了

      郭德綱沒想到,封箱演出這晚郭麒麟用9個字,讓德云社口碑翻盤了

      白面書誏
      2026-02-12 14:35:14
      中國已購買部分美國政府出售的委內瑞拉石油?外交部回應

      中國已購買部分美國政府出售的委內瑞拉石油?外交部回應

      北青網-北京青年報
      2026-02-12 19:44:01
      國際雪聯公開陰陽谷愛凌:無緣金牌是報應!遭投訴后只發郵件道歉

      國際雪聯公開陰陽谷愛凌:無緣金牌是報應!遭投訴后只發郵件道歉

      念洲
      2026-02-12 11:35:10
      中國人民銀行通告全國:2月1日起,人民幣現金收付新規正式施行

      中國人民銀行通告全國:2月1日起,人民幣現金收付新規正式施行

      縱擁千千晚星
      2026-02-12 17:01:18
      16GB+1TB!新機官宣:2月26日,正式全球首發!

      16GB+1TB!新機官宣:2月26日,正式全球首發!

      科技堡壘
      2026-02-12 12:24:27
      南丁格爾做了張“玫瑰圖”,結果把士兵的死亡率從42%降到2.2%

      南丁格爾做了張“玫瑰圖”,結果把士兵的死亡率從42%降到2.2%

      果殼
      2026-02-12 16:48:42
      影石公司年會送出5套房 員工:獲獎房者都是90后、無高管 背后是認可和期許

      影石公司年會送出5套房 員工:獲獎房者都是90后、無高管 背后是認可和期許

      紅星新聞
      2026-02-12 14:13:24
      鄭州“路虎大哥”開車撞倒持刀男子,被認定見義勇為,因歹徒家境普通未向其索賠;此前曾做多年公益捐贈十幾萬

      鄭州“路虎大哥”開車撞倒持刀男子,被認定見義勇為,因歹徒家境普通未向其索賠;此前曾做多年公益捐贈十幾萬

      大風新聞
      2026-02-11 21:09:26
      TCL Mini LED登頂全球,從618霸榜看中國品牌“價值戰”新范式

      TCL Mini LED登頂全球,從618霸榜看中國品牌“價值戰”新范式

      趣寫科技
      2025-06-23 20:33:24
      楊蘭蘭不認罪

      楊蘭蘭不認罪

      藍鉆故事
      2026-02-11 16:19:23
      但斌爆猛料:公司有研究員炒黃金期貨,90萬賺了10多億...

      但斌爆猛料:公司有研究員炒黃金期貨,90萬賺了10多億...

      金石隨筆
      2026-02-11 23:32:38
      教育部亮紅牌!這些專業的學生“畢業即失業”,985也在連夜撤銷

      教育部亮紅牌!這些專業的學生“畢業即失業”,985也在連夜撤銷

      離離言幾許
      2026-02-09 20:16:57
      全球最貴!10歲馬來西亞男孩100美元買下域名“AI.com”,33年后賣出7000萬美元

      全球最貴!10歲馬來西亞男孩100美元買下域名“AI.com”,33年后賣出7000萬美元

      臺州交通廣播
      2026-02-12 00:21:21
      2026-02-12 20:31:00
      科技行者 incentive-icons
      科技行者
      科技正在如何變革商業世界
      7245文章數 550關注度
      往期回顧 全部

      科技要聞

      10倍速的一夜:三大模型春節前的暗戰

      頭條要聞

      女子返鄉"打順風車卻打到大貨車"視頻爆火 當事人發聲

      頭條要聞

      女子返鄉"打順風車卻打到大貨車"視頻爆火 當事人發聲

      體育要聞

      31歲首次參加冬奧,10年前她是個水管工

      娛樂要聞

      體操運動員墜樓涉事教練被立案調查

      財經要聞

      “影子萬科”如何掘金萬科?

      汽車要聞

      開212 T01柴油版去穿越 連牧馬人都跟不上

      態度原創

      教育
      時尚
      家居
      本地
      旅游

      教育要聞

      “這不是導師,是親爹!”女博士吐槽被導師PUA,塊畢業卻傻眼了

      穿好“奶油色”,狂甩別人幾條街

      家居要聞

      本真棲居 愛暖伴流年

      本地新聞

      下一站是嘉禾望崗,請各位乘客做好哭泣準備

      旅游要聞

      燈已亮起,雙廊等你

      無障礙瀏覽 進入關懷版