網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

AI聊天機(jī)器人越聊越“笨”？可能真不是錯(cuò)覺

2026-02-21 21:35:15　來源: 科技美學(xué)

北京舉報(bào)

分享至

不知道大家有沒有這種感覺：和AI機(jī)器人短時(shí)間聊天的話還行，時(shí)間一長(zhǎng)，就感覺對(duì)話開始變的前言不搭后語、邏輯不通。

其實(shí)這種感覺并不是錯(cuò)覺。

最近，微軟發(fā)表的一項(xiàng)研究證實(shí)，即使是目前最先進(jìn)的大語言模型，在多輪對(duì)話中的可靠性也會(huì)急劇下降。

研究人員對(duì)包括 GPT-4.1、Gemini 2.5 Pro、Claude 3.7 Sonnet、o3、DeepSeek R1 和 Llama 4 在內(nèi)的 15 款頂尖模型進(jìn)行了超過 20 萬次模擬對(duì)話分析，揭示出一個(gè)被稱為“迷失會(huì)話”的系統(tǒng)性缺陷。

數(shù)據(jù)顯示，這些模型在單次提示任務(wù)中的成功率可達(dá) 90%，但當(dāng)同樣的任務(wù)被拆解成多輪自然對(duì)話后，成功率驟降至約 65%。

研究指出，模型的核心能力僅降低約 15%，但“不可靠性”卻飆升 112%。

也就是說，AI 大模型仍然具備解決問題的能力，但在多輪對(duì)話中變得高度不穩(wěn)定，難以持續(xù)跟蹤上下文。

研究人員進(jìn)一步分析了造成性能下降的行為機(jī)制。

首先是“過早生成”。模型在用戶尚未完整說明需求前就嘗試給出最終答案。一旦在早期回合中形成錯(cuò)誤假設(shè)，模型后續(xù)便會(huì)在該錯(cuò)誤的基礎(chǔ)上繼續(xù)推理，而不是隨著新信息的加入進(jìn)行修正，從而導(dǎo)致錯(cuò)誤逐步放大。

其次是“答案膨脹”。在多輪對(duì)話中，模型的回復(fù)長(zhǎng)度比單輪對(duì)話增加了 20% 至 300%。更長(zhǎng)的回答往往包含更多假設(shè)與“幻覺”，這些內(nèi)容隨后被納入對(duì)話的持續(xù)上下文，從而進(jìn)一步影響后續(xù)推理的準(zhǔn)確性。

令人意外的是，即使是配備了額外“思考詞元”（thinking tokens）的新一代推理模型，如 OpenAI o3 和 DeepSeek R1，也未能顯著改善在多輪對(duì)話中的表現(xiàn)。

研究人員指出，現(xiàn)有的基準(zhǔn)測(cè)試主要基于理想的單輪場(chǎng)景，忽略了模型在真實(shí)世界中的行為。

因此，對(duì)于那些依賴 AI 構(gòu)建復(fù)雜對(duì)話流程或智能體的開發(fā)者而言，這一結(jié)論意味著未來將要接受嚴(yán)峻挑戰(zhàn)。

再來看看其他消息。

微軟日前測(cè)試 Windows 11 新版“畫圖”（Paint）應(yīng)用，重點(diǎn)引入“自由旋轉(zhuǎn)”功能。

根據(jù)微軟官方描述，用戶現(xiàn)在可以全方位角度調(diào)整形狀、文本框以及任何活動(dòng)的圖像選區(qū)。用戶選中對(duì)象后，其上方會(huì)出現(xiàn)一個(gè)“旋轉(zhuǎn)手柄”，用戶只需拖動(dòng)該手柄即可向任意方向自由旋轉(zhuǎn)對(duì)象，從而實(shí)現(xiàn)更自然的構(gòu)圖和布局。

除了直觀的手動(dòng)拖拽，微軟還為需要高精度編輯的用戶提供了解決方案。在“旋轉(zhuǎn)”菜單下新增了“自定義旋轉(zhuǎn)”選項(xiàng)，用戶可以在此輸入具體的角度數(shù)值，實(shí)現(xiàn)精確到 1 度的微調(diào)。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.