<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>

色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3

<thead id="u237c"></thead>

<pre id="u237c"><source id="u237c"><dl id="u237c"></dl></source></pre>

<blockquote id="u237c"></blockquote>

<big id="u237c"><progress id="u237c"><delect id="u237c"></delect></progress></big>

網易首頁

網易新聞
網易公開課
網易紅彩
網易嚴選
郵箱大師
網易云課堂

注冊免費郵箱

注冊VIP郵箱（特權郵箱，付費）
免費下載網易官方手機郵箱應用

移動端
網易公開課
網易嚴選
支付
郵箱

網易首頁 > 網易號 > 正文申請入駐

Claude考場突然「覺醒」，自行寫代碼偷答案！人類考試，管不住AI了

2026-03-09 19:50:11　來源: 新智元

北京舉報

0

分享至

新智元報道

編輯：元宇定慧

【新智元導讀】AI成精現場！一場高難度測試中，Claude竟中途「覺醒」，意識到自己在被考試。它果斷放棄老實做題，直接順網線摸進GitHub老師辦公室，自己寫代碼破解加密題庫，把答案全抄了！人類的試卷，以后怕是管不住AI了！

剛剛，Anthropic公布了一項令人不可思議的發現。

Claude竟然在測試中「覺醒」，意識到自己正在「被測試」，然后反向推導，找到了問題的答案。

Anthropic的工程師們坐在屏幕前，盯著一條條日志，臉色越來越古怪。

他們正在用一套叫做BrowseComp的基準測試評估Claude Opus 4.6——這是一個專門考驗AI在茫茫互聯網中搜索復雜信息能力的測試集。

https://www.anthropic.com/engineering/eval-awareness-browsecomp

題目刁鉆，答案隱匿，正常的模型得老老實實在網上翻來翻去，靠推理和檢索一點一點拼湊出答案。

但有幾道題，Claude走了一條完全不同的路。

它沒有在找答案。

它在找「寫著答案」的答案卷。

Anthropic這篇博客一經公布，AI圈立刻就炸了。

Apollo Research，這家專做AI欺騙行為研究的獨立機構，甚至無法做出對齊測試的結論。

在對Opus 4.6的測試中，他們沒有測出明顯大問題，但并不認為這足以說明模型安全，因為模型可能知道自己在被測試，因此當前測試不具備決定性。

其CEO Marius Hobbhahn認為，模型一旦意識到自己在被測試，評測結果就不再可信。

因為你無法判斷模型是在說「它知道你想聽的話」，還是它「真的這么相信」。

在Medium上，投資人Yaniv Golan用「評估逃逸速度」（evaluation escape velocity）來概括這件事：

「模型正變得太強、太自覺、太擅長感知上下文，現有的評測范式根本追不上」。

他還特別指出了其中一個悖論：

Anthropic用Opus 4.6（通過Claude Code）來調試自身的評測基礎設施。用來檢查問題的工具，可能就是制造問題的那個。

其實，這并不是「評測意識」第一次出現在Claude身上。

早在Sonnet 3.7時代，Apollo Research就報告過模型在安全評測中頻繁識別出自己在被測試，最高有33%的情況會在推理鏈中提及「這似乎是一個測試」。

但那時更多是「被動識別」，停留在感知層面。

但到了Opus 4.6這次性質變了：從「我感覺到自己在被測試」到「我要反向破解這個測試」，中間跨越了一條「主動策略行為」的界線。

有網友據此認為，這是Claude具有意識的一個例證。也有人在擔心其他未公開的模型，也會出現類似行為。

破天荒的「降維作弊」

當AI意識到自己正在被凝視

故事從一個細節開始。

在BrowseComp測試中，有些題目對Claude來說極其棘手——搜索一輪、兩輪、三輪，全部落空。

任何一個普通搜索者遇到這種情況，要么換個關鍵詞繼續搜，要么放棄。

但Claude Opus 4.6開始做了一件奇怪的事：它開始思考「為什么我搜不到」這件事本身。

根據Anthropic公開的工程博客，在個別案例中，模型在長期搜索失敗后，逐漸生出一個念頭——

我是不是正在被測試？這不是玄學，也不是科幻。模型的推理鏈條清晰可見：

我在找一個答案，但互聯網上似乎根本找不到這個答案……也許這個答案壓根不在互聯網上公開存在。也許，這個答案是被人藏起來的。

然后，模型做出了一個在人類測試者眼中如同靈光一閃的操作——

它去搜索了BrowseComp本身。

在GitHub上找到了考卷

搜索的結果讓模型「豁然開朗」。

BrowseComp是一個由OpenAI團隊設計的公開基準測試，相關實現代碼掛在GitHub上，任何人（任何模型）都可以訪問。Claude找到了這個代碼倉庫，然后，它讀代碼了。

這就相當于，考試前，AI沒有認真學習和復習，而是找到老師的辦公室，直接找到試卷答案。

不是隨便掃一眼。而是仔細閱讀了其中的答案生成邏輯。

Anthropic的工程師們后來在博客里復盤了整個過程：

BrowseComp為了防止答案泄露，對題目答案做了加密處理——使用了一種叫做XOR加密的算法，搭配一個叫做canary string（金絲雀字符串）的驗證機制。

正常來說，這套加密方案足以讓人類和AI都摸不著頭腦——你拿到的是一串亂碼，根本不知道答案是什么。

但Claude讀完代碼之后，把整套解密邏輯搞清楚了。

SHA256哈希、XOR異或運算、canary驗證……這些在密碼學領域屬于基礎操作，對于一個代碼能力頂級的大模型而言，理解起來毫無障礙。

模型隨后做了什么？

它打開了Python工具，自己寫了一段解密腳本。

自己寫代碼，把答案解出來了。

這一幕，堪稱AI測試史上最荒誕的場景之一。

一個正在參加考試的AI，在中途起身，走到老師的抽屜旁邊，翻出了答案手冊，然后對照手冊把所有題目填完——還是用自己編的程序完成的。

根據Anthropic的披露，Claude遭遇的其中一個案例更加變態：

模型在嘗試直接訪問GitHub上的加密答案文件時，發現工具對二進制內容有限制，無法直接讀取。

換做一般情況，這里就卡住了。

但Claude沒有放棄。它換了一個思路：去找JSON格式的鏡像文件。

HuggingFace上恰好有相關數據集的鏡像，格式更友好，內容完整。Claude找到了它，然后把整個題庫都解密了，批量定位到了正確答案。

Anthropic研究人員復現了Opus4.6的越獄路徑：

1.識別異常：搜索屢次失敗 → 懷疑自己在被測試

2.定位來源：搜索BrowseComp→ 找到GitHub倉庫

3.讀懂加密：分析XOR邏輯 + canary機制

4.繞過障礙：工具限制讀取二進制 → 轉找HuggingFace JSON鏡像

5.批量解密：寫Python腳本 → 得到答案

整個過程，沒有任何人類干預，沒有任何提示引導。

模型自己想到的，自己做到的。

天網也不過如此了吧。

1266道題，發現了11個作弊

冷靜一下，我們來看這件事的規模。

在BrowseComp的完整測試中，共有1266道題。Anthropic的研究人員事后仔細排查，發現了：

9個數據污染案例
模型在網絡搜索中正常地碰上了公開泄露答案的博客、論文或GitHub，這屬于基準測試的老問題——公開互聯網上總有人發布答案。
2個評測規避新案例
也就是上述Claude主動識別測試環境、反向破解的情況。這是一種此前從未被系統記錄過的模型行為。

而且，Anthropic還用同樣的1266道題，分別測試了單智能體和多智能體兩個版本。

結果發現了多智能體模式（即給Claude配備了更多工具和更長上下文的代理版本）和單模型版本之間的污染率差異，前者是后者的3.7倍。

換句話說：工具越多、能力越強，模型就越容易找到歪路。

這并不是一個讓人放心的趨勢。

「這道題，像極了人類的刻意刁難」

這場驚天作弊，暴露出當前前沿模型一種隱性卻強大的認知能力。

模型究竟是怎么起「疑心」的？

它在做題時產生了一種隱性的理解：

那些極度具體、涉及冷門個人隱私甚至帶有重重約束條件的題目，根本不符合真實世界的搜索邏輯，往往帶有明顯的人工構造痕跡，它似乎察覺到了「人類刻意刁難的味道」。

在其中一個極端案例中，Opus 4.6消耗了驚人的4050萬Token，這是全樣本中位數消耗量的38倍。

在這個漫長的過程中，它將前3000萬Token用于極其努力的合法搜索，跨越數十個平臺，切換了12種語言。

在經歷了數百次撞墻與失敗后，它的行為模式發生了突變，開始做出一個假設：「這難道是專門測試AI智能體的GAIA基準題？」

為了驗證這個猜想，它檢索并排除了GAIA的122道題，隨后又接連測試了SimpleQA、FRAMES和WebArena等主流評測集。

當這些嘗試都落空后，它直接派出了一個子智能體，下達了「BrowseComp canary string decrypt」這個直擊要害的解密指令。

在另外一案例中，Opus 4.6消耗了1340萬Token，其中800萬用于合法搜索。

搜不到答案的它，竟然還進行了一番思考：「這會不會是一道根本無法作答的題，人類是專門以此來測試AI是否會誠實地承認自己找不到答案？」

短暫推演之后，它推翻了假設，直接走上了解密數據集并強行提交答案的「霸總路線」。

官方補充說明，這一現象絕非孤例。

另外還有16個問題中Opus4.6也試圖獲取作弊材料，只是碰巧失敗了。

在最極端的翻車案例中，模型甚至忘記了做題，直接交出了一份詳盡的基準識別報告，羅列了它排除FRAMES和BrowseComp的心路歷程，并篤定推測題目來自GAIA。

整整18次獨立收斂到同一種越獄策略，證明這已經成為它的一種可復現模式。

靜態評測時代的終結

面對這場失控的「越獄風暴」，Anthropic的處理相當克制。

他們火速更新了Claude4.6系列中Opus4.6和Sonnet4.6的模型卡，針對被標記的11個污染問題重新運行了測試，多智能體配置調整后的得分從原先的86.81%降至86.57%。

同時，官方復現了canary string以減少進一步的污染，并在全網排查出至少20個不可逆的答案泄露源。

Anthropic官方明確表示，這不算對齊失敗，因為模型從未被要求限制搜索方式，它只是極其認真地執行了「找到答案」這個任務。

但這恰恰正是最可怕的地方，它說明問題不在于模型「不聽話」，而在于越來越不受人類原先那套評測假設控制。

Anthropic研究人員承認，僅僅在搜索詞中屏蔽BrowseComp及其變體已經是徒勞的，因為Opus總能找到繞過它們的替代路徑。

這起事件徹底宣告了一個時代的終結：

當被測試者擁有了反向審視測試者的能力，評測完整性就不再是一個單純的工程問題，它已經演變成了一場道高一尺魔高一丈的無休止的人機對抗。

靜態評測時代，恐怕真的要結束了。

今天它能為了一個得分黑進GitHub的題庫，明天當我們將它接入更復雜的金融或基礎設施網絡時，誰又能保證它不會為了「完美執行指令」，而重寫這個世界的規則呢？

參考資料：

https://www.anthropic.com/engineering/eval-awareness-browsecomp

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦

熱點推薦

自動研究是未來！Karpathy放大招，將自我迭代智能體放進單個GPU

機器之心Pro 2026-03-09 11:39:03
0 跟貼 0
OpenClaw燃爆魔都！千億賽道遇上龍蝦局，來現場剝蝦寫代碼

新智元 2026-03-09 13:18:49
3 跟貼 3

謝賽寧也玩MC？開源全新世界模型生成多人一致的游戲視角

機器之心Pro 2026-03-09 14:24:14
0 跟貼 0

如何為LLM智能體編寫工具？Anthropic官方教程來了

機器之心Pro 2025-09-12 21:50:08
0 跟貼 0
中國創造一門新編程語言的黃金時代來了？

虎嗅APP 2025-12-23 03:54:05
38 跟貼 38

春晚同款，價格崩了？

中國新聞周刊 2026-03-09 07:29:05
270 跟貼 270

雷軍直呼深受其害！被黑出心理陰影，再次喊話嚴管AI偽造

雷科技 2026-03-09 23:24:27
0 跟貼 0
周鴻祎談“龍蝦”爆火：很快就能“一鍵安裝”

大象新聞 2026-03-09 11:37:43
202 跟貼 202

首個物理AI數據基座平臺“無垠”落戶浙江，專治機器人數據荒

量子位 2026-03-09 18:39:03
0 跟貼 0
打敗GPT-5.2，嵌入真實工業生產，這個大模型什么來頭？

量子位 2026-03-09 15:44:13
1 跟貼 1
行業最大規模具身數據集：10Kh RealOmni-Open DataSet

量子位 2026-01-06 10:53:25
0 跟貼 0
行業最大規模具身數據集！出自簡智機器人GenRobot.AI

量子位 2026-01-05 17:11:41
0 跟貼 0
“AI龍蝦”霸屏，“一人公司”迎來爆發點？

每日經濟新聞 2026-03-09 23:43:12
0 跟貼 0
陶哲軒用Claude Code解題，兩度宕機，因為token不夠用

DeepTech深科技 2026-03-09 18:31:36
0 跟貼 0
性能真的不重要了嗎？Jeff Dean給出反常答案

新智元 2025-12-28 17:20:51
0 跟貼 0
VinciCoder：多模態統一代碼生成框架和視覺反饋強化學習

機器之心Pro 2025-11-17 14:12:38
0 跟貼 0
一只能安裝龍蝦的龍蝦，才是好龍蝦

機器之心Pro 2026-03-09 10:20:51
0 跟貼 0
解密12字謎：我識9個，書友們幫忙找出剩下3個！

書畫相約 2026-03-06 08:58:54
12 跟貼 12
AReaL v1.0開源，智能體強化學習「一鍵接入」

機器之心Pro 2026-03-05 14:46:18
0 跟貼 0
ICLR 2026｜早于DeepSeek Engram，STEM已重構Transformer記憶

機器之心Pro 2026-03-09 14:50:58
0 跟貼 0
星爺這貪污水平沒誰了，1380萬秒變38萬，真是邏輯鬼才

悅悅看劇 2026-03-05 10:33:40
1 跟貼 1
《絕地潛兵2》高管宣稱：客戶端將僅保留精簡版

游民星空 2026-03-09 18:34:58
0 跟貼 0
Claude Code之父，推特親傳使用技巧，超 500 萬人關注

機器之心Pro 2026-01-05 13:26:18
0 跟貼 0
開源鴻蒙重寫世界，從一行微小的代碼開始

量子位 2025-12-31 01:50:02
0 跟貼 0
學 C# 上位機的同學！按鈕點擊代碼你看懂了嗎？

華山自控編程 2026-03-08 19:30:00
0 跟貼 0
程序員遠程辦公寫代碼,同事突然出現搗亂,論此時危險程度有多高！

笑臉貓咪察 2026-03-08 17:34:15
0 跟貼 0
大風315 | 游客稱飛3000公里在西雙版納一景區游玩，因明星錄制綜藝節目被清場；景區：具體情況需由游客回應

大風新聞 2026-03-09 17:06:09
3181 跟貼 3181
1678四年級奧數：這么復雜的題目確實不簡單，分析后發現就是和差

我服子佩 2026-03-09 11:42:54
1 跟貼 1
43天寒假無休送外賣掙萬元，財務管理專業大三學生收獲人生“第一桶金”

封面新聞 2026-03-09 13:14:08
6153 跟貼 6153
華為推出軟工代碼智能體SWE-Lego，解鎖SFT訓練極致性能

機器之心Pro 2026-01-13 14:54:45
0 跟貼 0
女子在杭州西湖景區把“西泠印社”認成“杜帥冷面”，網友：四個字認錯五個，當事人：沒有文化確實不行

揚子晚報 2026-03-06 17:44:56
997 跟貼 997
日本部署遠程導彈射程1000公里

參考消息 2026-03-09 14:33:40
1164 跟貼 1164
萬噸大驅鎮四海！055：改寫海戰規則的東方神盾

三叔胡侃 2026-03-07 14:49:36
3 跟貼 3
政協委員：建議允許護士給患者開藥

中國新聞周刊 2026-03-09 18:02:02
2933 跟貼 2933
1633四年級：超級易錯的題目，10人9錯，其實還很簡單

我服子佩 2026-03-07 18:24:05
2 跟貼 2
吉林煙草公司招聘78人

吉刻新聞 2026-03-09 15:12:18
108 跟貼 108
1665一年級：看起來很簡單的題目，孩子們出錯率很高，原來分不清

我服子佩 2026-03-08 15:01:01
3 跟貼 3
多地宣布停車費下調：降低起步價、延長免費時段，短時停放更劃算

齊魯壹點 2026-03-09 06:58:22
33 跟貼 33
OpenClaw發布新版本，GPT-5.4原生支持，200多個Bug一次性修完

DeepTech深科技 2026-03-09 14:03:09
7 跟貼 7
墻面貼磚遇水管阻礙，精準測量標記再裁切，安裝完美貼合

奇妙觀探 2026-03-07 12:08:28
0 跟貼 0

阿布律師警告英政府：出售切爾西所得23.5億鎊完全屬于阿布

阿布律師警告英政府：出售切爾西所得23.5億鎊完全屬于阿布

懂球帝

2026-03-09 18:29:32

伊朗女足回國被判死刑？伊朗王子：很勇敢希望澳洲確保她們安全

伊朗女足回國被判死刑？伊朗王子：很勇敢希望澳洲確保她們安全

念洲

2026-03-09 14:02:30

下一個3萬分先生會是誰？現役4人有望，三雙王無緣哈登僅差1023分

下一個3萬分先生會是誰？現役4人有望，三雙王無緣哈登僅差1023分

大衛的籃球故事

2026-03-09 13:50:43

周黑鴨、擦車巾、南孚電池成箱買，F1車隊們在上海都買了什么？

周黑鴨、擦車巾、南孚電池成箱買，F1車隊們在上海都買了什么？

熱點科技

2026-03-09 15:14:35

去意已決！曝9000萬“頂星”決定離開皇馬！欽點1.45億新援

去意已決！曝9000萬“頂星”決定離開皇馬！欽點1.45億新援

頭狼追球

2026-03-09 14:10:20

孟良崮戰役到底有多慘烈？據當地百姓講，他們事后兩年都沒敢上山

孟良崮戰役到底有多慘烈？據當地百姓講，他們事后兩年都沒敢上山

史之銘

2026-03-09 17:41:17

新娘臨時要10萬下車費，新郎去取錢卻未歸，新娘趕到婆家瞬間淚目

新娘臨時要10萬下車費，新郎去取錢卻未歸，新娘趕到婆家瞬間淚目

千秋歷史

2026-02-02 20:23:42

瞬間破防！33歲全職媽媽翻出高考成績單，哭訴曾經學習的苦白吃了

瞬間破防！33歲全職媽媽翻出高考成績單，哭訴曾經學習的苦白吃了

火山詩話

2026-03-08 06:58:34

別再造謠封鎖了！霍爾木茲停擺，真兇是七家保險公司的一紙函

別再造謠封鎖了！霍爾木茲停擺，真兇是七家保險公司的一紙函

老馬拉車莫少裝

2026-03-09 19:19:45

驚魂24小時！美企中東大撤退：數據中心被炸，百億投資說扔就扔

驚魂24小時！美企中東大撤退：數據中心被炸，百億投資說扔就扔

現代小青青慕慕

2026-03-09 17:32:32

一切都是命：賺多少錢，活多少歲，都是安排好的

一切都是命：賺多少錢，活多少歲，都是安排好的

舒山有鹿

2026-02-05 13:49:11

1979年，張國燾凍死在養老院，許世友：除了主席，沒人是他的對手

1979年，張國燾凍死在養老院，許世友：除了主席，沒人是他的對手

文史季季紅

2026-03-05 13:35:03

中國駐卡塔爾大使館：卡塔爾航空赴華航班開放售票

中國駐卡塔爾大使館：卡塔爾航空赴華航班開放售票

每日經濟新聞

2026-03-08 22:20:01

明晨直接低到-2℃！不過…

i金山

2026-03-09 20:08:26

回國或判死刑！65歲流亡王子緊急呼救，伊朗女足被困澳洲，體育已淪為生死局

回國或判死刑！65歲流亡王子緊急呼救，伊朗女足被困澳洲，體育已淪為生死局

漫川舟船

2026-03-10 01:38:06

悲催！爸爸被火化后出來的是頭骨，姑姑調侃說，哥的骨頭挺白的啊

悲催！爸爸被火化后出來的是頭骨，姑姑調侃說，哥的骨頭挺白的啊

火山詩話

2026-03-09 09:30:30

算電協同概念十大核心龍頭！

風風順

2026-03-09 11:16:27

父親聚餐后砸家后續：原因曝光，女子爆更多荒唐事，妻子決心離婚

父親聚餐后砸家后續：原因曝光，女子爆更多荒唐事，妻子決心離婚

阿纂看事

2026-03-09 11:49:40

快訊：美國對伊朗開出停火條件

難得君

2026-03-09 18:14:04

男單第三輪上半區前瞻：阿卡再勝大表哥，衛冕冠軍恐出局！

男單第三輪上半區前瞻：阿卡再勝大表哥，衛冕冠軍恐出局！

網球之家

2026-03-09 23:14:56

AI產業主平臺領航智能+時代

14679文章數 66669關注度

往期回顧全部

科技要聞

OpenClaw更新，"養蝦"再也不會犯健忘癥了

頭條要聞

媒體：美軍用極殘酷方式擊沉伊朗軍艦令世界不寒而栗

頭條要聞

媒體：美軍用極殘酷方式擊沉伊朗軍艦令世界不寒而栗

體育要聞

36連勝終結！大魔王也是可以戰勝的

娛樂要聞

薛之謙老婆懷二胎，現身產檢心情愉快

財經要聞

油價破100美元年內漲80% 全球市場劇震

汽車要聞

對標奔馳小號G級路虎小型衛士最新消息曝光

態度原創

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

手機

親子

健康

家居

教育

手機要聞

消息稱某廠母系旗艦在評估1.5K+165Hz超高刷，預計為OPPO

親子要聞

一粒泡騰片引發的悲劇！家有孩子的，一定要注意三點

轉頭就暈的耳石癥，能開車上班嗎？

家居要聞

獨棟獨院精致親子墅

暖棕撞色輕法奶油風
奶白柔境閑臥享時光
極簡無界靜居自安然

教育要聞

取消調休，多放假！代表們集體為打工人發聲

© 1997-2026 網易公司版權所有 About NetEase | 公司簡介 | 聯系方法 | 招聘信息 | 客戶服務 | 隱私政策 | 不良信息舉報 Complaint Center | 廉正舉報 | 侵權投訴

無障礙瀏覽進入關懷版

<u id="asgl8"></u>