網易首頁 > 網易號 > 正文申請入駐

亞馬遜Bedrock藏了3個評分維度，AI終于學會"長記性"

2026-03-25 19:00:53　來源: 報錯免疫體

北京舉報

分享至

你的Agent能調取過去6個月的全部會議記錄，卻在回答項目 deadline 時，把昨天剛敲定的關鍵節點埋在3月的幾十條無關狀態更新下面。

技術上全對，體驗上全廢。這是大多數Agent的通病——除非你有意識地設計檢索邏輯。

斯坦福的25個虛擬人，把記憶問題演成了行為藝術

斯坦福研究團隊構建"生成式智能體（Generative Agents）"時，給虛擬小鎮塞了25個模擬角色。每個Agent能存儲數千條觀察記錄，但問到"接下來該做什么"時，系統只靠關鍵詞隨機檢索。

結果出現荒誕循環：同一個Agent連續五次走進咖啡館，因為記憶系統分不清"我五分鐘前剛喝過"和"我一般午飯時間來"。

研究團隊用三個評分維度破解了這個困局：時效性（recency）——這件事何時發生；重要性（importance）——這件事有多關鍵；相關性（relevance）——與當前處境的關聯程度。

Amazon Bedrock AgentCore 現在把這套機制封裝成企業級基礎設施。但為什么這些維度有效、如何配置，得回到那項研究的具體設計里找答案。

上下文窗口越大，幻覺越隱蔽

大語言模型能處理極長的上下文，但這能力本身是個陷阱。企業常誤以為：給Agent完整的對話歷史和知識庫，就能產出智能行為。實際運行中，這套邏輯頻頻翻車。

想象一個客服場景：用戶提到三個月前的賬單問題、詢問當前的功能需求、還想約個電話。Agent的記憶庫里躺著數千條交互記錄，涵蓋賬單糾紛、功能反饋、日程沖突、甚至上周閑聊時提的咖啡偏好。

沒有評分機制的Agent，把所有記憶視為同等重要。上下文窗口被最近存儲的內容或基礎關鍵詞匹配填滿——它可能調取用戶上周隨口說的拿鐵口味，卻漏掉需要立即處理的賬單升級模式。

斯坦福的研究把這種失效模式量化呈現了。模擬角色Klaus Mueller被問到"推薦誰一起度過時間"時，無評分版本的系統選了Wolfgang，僅僅因為這個名字在近期觀察中出現頻率高。實際上，兩人從未有過實質性交流。

他們只是住在同一街區。

三個維度如何改寫檢索邏輯

引入三維評分后，同一問題的輸出完全不同。時效性壓低三個月前的舊記錄權重，重要性把賬單糾紛標記為高優先級，相關性確保功能需求和日程安排進入候選集。

Bedrock AgentCore 的實現允許開發者自定義各維度權重。客服場景可能調高時效性和重要性，法律文檔分析可能側重相關性和重要性，創意寫作助手或許給時效性更低權重以保留長期靈感。

這種靈活性對應著斯坦福研究的核心發現：記憶的價值不是存儲本身，而是檢索時的決策質量。

研究團隊記錄了一個典型對比。無評分系統中，Agent Maria在虛擬小鎮連續三天去同一家餐廳，因為"餐廳"關鍵詞高頻出現且近期有記錄。引入三維評分后，Maria開始根據當天心情、社交關系變化、甚至天氣選擇不同場所——行為模式從機械重復轉向情境適應。

企業部署時的真實權衡

Bedrock AgentCore 把這套機制打包成可配置模塊，但企業落地時面臨具體選擇。時效性權重過高，Agent變成"金魚記憶"，反復詢問剛確認過的信息；重要性權重過高，可能固化早期形成的偏見判斷；相關性算法設計不當，會制造"信息繭房"，只檢索與當前查詢字面匹配的內容。

AWS 官方文檔建議從均等權重起步，根據實際對話日志迭代調整。一個被驗證的模式是：客服場景時效性40%、重要性35%、相關性25%；知識庫問答場景調整為時效性20%、重要性30%、相關性50%。

這些數字不是最佳實踐，而是調試起點。每個業務場景的"重要"定義不同——賬單糾紛在SaaS公司是P0，在內容平臺可能是P2。

斯坦福研究的25個虛擬人跑了兩天模擬，產生數萬條交互記錄。Bedrock AgentCore 面對的是真實企業的百萬級會話。規模差異意味著評分算法需要更精細的工程優化，但底層邏輯沒變：讓Agent"記得"不如讓它"記得該記的"。

當Klaus Mueller最終推薦了一位真正有過深度交流的角色時，研究團隊記錄了他的檢索日志：時效性過濾掉兩周前的表面寒暄，重要性保留了那次關于職業焦慮的長談，相關性確認了對方當前的時間可用性。

三個維度的乘積，決定了一條記憶是否值得被想起。你的Agent現在擁有同樣的計算框架——問題是，你準備讓它記住什么、又忘記什么？

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦

熱點推薦

亞馬遜傳聞引爆軟件板塊恐慌 “AI顛覆邏輯”再度升溫

財聯社 2026-03-25 01:32:06
0 跟貼 0
把AI裝進出海營銷全鏈路，易點天下揭秘智能體落地方法論

智東西 2026-03-24 23:18:08
0 跟貼 0

AI主權的底層戰爭：全同態加密正在成為新基礎設施

36氪 2026-02-28 17:20:13
0 跟貼 0

養蝦省91%詞元！這家AI記憶公司用1億個多模態文件驗證了！

機器之心Pro 2026-03-25 11:01:48
1 跟貼 1
AI Agent狂潮中的金融新范式：AI漲樂養了一只“金融小龍蝦”，正破解投資最難一公里

鈦媒體APP 2026-03-25 17:03:07
0 跟貼 0

AI“搶飯碗”，硅谷大裁員！一線工程師戳破真相：AI效率被嚴重高估，人類被倒逼成審核員，工作量是過去10倍

華爾街見聞官方 2026-03-25 23:20:49
1 跟貼 1

Agent運行提速10倍！斯坦福教授押注異構推理，破解AI推理瓶頸

DeepTech深科技 2026-03-25 19:52:15
0 跟貼 0
跨越兩千公里！成都都市圈亮相杭州，共筑人工智能產業新生態

每日經濟新聞 2026-03-25 23:06:05
0 跟貼 0

美國2月9萬裁員狂潮，超過去一年！亞馬遜甲骨文成最大劊子手

新智元 2026-03-25 10:09:15
1 跟貼 1
一臺七萬塊的中國小車，勇闖亞馬遜魔鬼爛路！

小魚有事說 2026-03-21 21:00:28
0 跟貼 0
3月25日（報道時間），河南。孩子想到馬路對面找爸爸，一路"疾跑"奔向馬路對面險釀悲劇，媽媽擔心孩子

中安在線 2026-03-25 11:55:16
936 跟貼 936
斯凱奇這雙鞋我走了100英里，亞馬遜突然砍到70美元

碳基打工人 2026-03-25 17:32:30
0 跟貼 0
微軟Power BI藏了5個函數，80%分析師卻只會用SUM

薛定諤的BUG 2026-03-25 17:01:16
0 跟貼 0
寶可夢卡牌亞馬遜偷偷降價17刀，沃爾瑪還沒反應過來

薛定諤的BUG 2026-03-25 18:07:29
0 跟貼 0
一夜之間，微信為何失守？

虎嗅APP 2026-03-24 16:50:56
37 跟貼 37
宇宙一共有多少維度？

盼葉落歸根 2026-03-24 06:10:10
0 跟貼 0
微信放開入口，我用鵝廠“官配蝦”試著跑了“一人公司”

智東西 2026-03-25 21:57:56
0 跟貼 0
突發！OpenAI關停Sora，迪士尼10億美元大單作廢

智東西 2026-03-25 13:48:13
0 跟貼 0
New Balance這雙鞋藏了3年技術，亞馬遜打折后賣95美元

報錯免疫體 2026-03-25 18:06:41
1 跟貼 1
日本自衛隊現役軍官攜刀強闖中使館中國軍號連續發聲

看看新聞Knews 2026-03-25 17:33:25
1404 跟貼 1404
女子稱找高鐵乘務員投訴一名男子在列車口抽煙，被發了一個口罩，當事人：乘務員的態度很好，但自己對這種情況無語，希望高鐵全面禁煙

洪觀新聞 2026-03-25 14:56:54
1656 跟貼 1656
學習教育：巧做兩道加法題，善解兩道減法題，推進教育走深走實

愛寫作的老于 2026-03-24 11:17:25
0 跟貼 0
廣東慘敗上海，賽后球員評分，1人優秀，3人不及格

鏗鏘格斗 2026-03-24 00:12:15
1 跟貼 1
沙特410億買下字節游戲業務，王爺這波居然賺了？

酷玩實驗室 2026-03-25 18:33:16
1 跟貼 1
評分10.0，如果我能早點看到這部電影，說不定我早就結婚了！

小暨derderder 2026-03-23 07:56:40
81 跟貼 81
這是什么算法

金鑫影視 2026-03-24 11:10:02
1 跟貼 1
湖北：超前布局算力設施提升電力保障能力

財聯社 2026-03-25 20:11:08
0 跟貼 0
為什么算法和活人，都偏愛九邊的文字？答案是兩個字：不裝

聚焦真實瞬間 2026-03-25 20:06:18
0 跟貼 0
拼多多“新拼姆”落地上海：開啟品牌自營，一期已注資150億

新京報 2026-03-25 21:40:27
0 跟貼 0
雪天建庇護所才叫爽！原木拼框架，手工烤面包，暖哭了！

月夜宵野 2026-03-24 10:21:27
3 跟貼 3
于東來：30歲開始吃藥，CT拍了上百次，身體出什么問題都不足為奇，哪天說沒就沒了

每日經濟新聞 2026-03-25 23:58:31
0 跟貼 0
2026年氨糖軟骨素7個維度實測榜單可信嗎？

彌勒市融媒體中心 2026-03-25 15:32:16
0 跟貼 0
亞馬遜毀林的回旋鏢，或將打碎全球咖啡夢

食通社Foodthink 2026-03-25 19:13:23
0 跟貼 0
“聚力向C 重構未來” 2026酒業創新思享會今日在蓉舉行

每日經濟新聞 2026-03-26 00:16:09
0 跟貼 0
中泰化學：2025年度凈利潤約-2.89億元

每日經濟新聞 2026-03-26 00:09:03
0 跟貼 0
為什么有很多人連基本的常識都沒有？網友：尊重他人命運

另子維愛讀史 2026-03-25 22:16:48
0 跟貼 0
孔云龍直擊德云影視評分，岳云鵬笑翻面館！

漫漫輕云r 2026-03-23 00:32:04
0 跟貼 0
德總統稱"對美信任已然喪失" 得到法國軍方強烈共鳴

紅星新聞 2026-03-25 13:54:18
308 跟貼 308
AI上春晚：一場十四億人的驗收

36氪 2026-02-18 10:56:31
16 跟貼 16
機器人的算法太恐怖了

阿朵看劇 2026-03-22 08:53:18
1 跟貼 1

手機 / 數碼

房產 / 家居

亞馬遜Bedrock藏了3個評分維度，AI終于學會"長記性"

斯坦福的25個虛擬人，把記憶問題演成了行為藝術

上下文窗口越大，幻覺越隱蔽

三個維度如何改寫檢索邏輯

企業部署時的真實權衡

紅極一時卻草草收場，Sora宣布正式關停

伊朗放話愿意與"主和派"萬斯談 特朗普表態

伊朗放話愿意與"主和派"萬斯談 特朗普表態

35歲替補門將，憑什么入選英格蘭隊？

張雪峰經搶救無效不幸去世 年僅41歲

管濤:中東局勢如何影響人民幣匯率走勢?

智己LS8放大招 30萬內8系旗艦+全線控底盤秀實力

態度原創

Bigme大我HiBreak Plus彩墨屏手寫手機亮相，預售價1699元

輕奢堇天府 小資情調

PS6升級動力遭質疑！玩家或當“PS5釘子戶”

探秘云南保山勐赫小鎮，感受與怒江貢山相擁的獨特魅力！

伊朗放話愿意與"主和派"萬斯談特朗普表態

伊朗放話愿意與"主和派"萬斯談特朗普表態

張雪峰經搶救無效不幸去世年僅41歲

輕奢堇天府小資情調