<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      Claude考場突然「覺醒」,自行寫代碼偷答案!人類考試,管不住AI了

      0
      分享至


      新智元報道

      編輯:元宇 定慧

      【新智元導讀】AI成精現場!一場高難度測試中,Claude竟中途「覺醒」,意識到自己在被考試。它果斷放棄老實做題,直接順網線摸進GitHub老師辦公室,自己寫代碼破解加密題庫,把答案全抄了!人類的試卷,以后怕是管不住AI了!

      剛剛,Anthropic公布了一項令人不可思議的發現。

      Claude竟然在測試中「覺醒」,意識到自己正在「被測試」,然后反向推導,找到了問題的答案。


      Anthropic的工程師們坐在屏幕前,盯著一條條日志,臉色越來越古怪。

      他們正在用一套叫做BrowseComp的基準測試評估Claude Opus 4.6——這是一個專門考驗AI在茫茫互聯網中搜索復雜信息能力的測試集。


      https://www.anthropic.com/engineering/eval-awareness-browsecomp

      題目刁鉆,答案隱匿,正常的模型得老老實實在網上翻來翻去,靠推理和檢索一點一點拼湊出答案。

      但有幾道題,Claude走了一條完全不同的路。

      它沒有在找答案。

      它在找「寫著答案」的答案卷。

      Anthropic這篇博客一經公布,AI圈立刻就炸了。

      Apollo Research,這家專做AI欺騙行為研究的獨立機構,甚至無法做出對齊測試的結論。

      在對Opus 4.6的測試中,他們沒有測出明顯大問題,但并不認為這足以說明模型安全,因為模型可能知道自己在被測試,因此當前測試不具備決定性。

      其CEO Marius Hobbhahn認為,模型一旦意識到自己在被測試,評測結果就不再可信

      因為你無法判斷模型是在說「它知道你想聽的話」,還是它「真的這么相信」。


      在Medium上,投資人Yaniv Golan用「評估逃逸速度」(evaluation escape velocity)來概括這件事:

      「模型正變得太強、太自覺、太擅長感知上下文,現有的評測范式根本追不上」。

      他還特別指出了其中一個悖論:

      Anthropic用Opus 4.6(通過Claude Code)來調試自身的評測基礎設施。用來檢查問題的工具,可能就是制造問題的那個

      其實,這并不是「評測意識」第一次出現在Claude身上。

      早在Sonnet 3.7時代,Apollo Research就報告過模型在安全評測中頻繁識別出自己在被測試,最高有33%的情況會在推理鏈中提及「這似乎是一個測試」。

      但那時更多是「被動識別」,停留在感知層面

      但到了Opus 4.6這次性質變了:從「我感覺到自己在被測試」到「我要反向破解這個測試」,中間跨越了一條「主動策略行為」的界線


      有網友據此認為,這是Claude具有意識的一個例證。也有人在擔心其他未公開的模型,也會出現類似行為。



      破天荒的「降維作弊」

      當AI意識到自己正在被凝視

      故事從一個細節開始。

      在BrowseComp測試中,有些題目對Claude來說極其棘手——搜索一輪、兩輪、三輪,全部落空。

      任何一個普通搜索者遇到這種情況,要么換個關鍵詞繼續搜,要么放棄。

      但Claude Opus 4.6開始做了一件奇怪的事:它開始思考「為什么我搜不到」這件事本身


      根據Anthropic公開的工程博客,在個別案例中,模型在長期搜索失敗后,逐漸生出一個念頭——

      我是不是正在被測試?這不是玄學,也不是科幻。模型的推理鏈條清晰可見:

      我在找一個答案,但互聯網上似乎根本找不到這個答案……也許這個答案壓根不在互聯網上公開存在。也許,這個答案是被人藏起來的。

      然后,模型做出了一個在人類測試者眼中如同靈光一閃的操作——

      它去搜索了BrowseComp本身。

      在GitHub上找到了考卷

      搜索的結果讓模型「豁然開朗」。

      BrowseComp是一個由OpenAI團隊設計的公開基準測試,相關實現代碼掛在GitHub上,任何人(任何模型)都可以訪問。Claude找到了這個代碼倉庫,然后,它讀代碼了。


      這就相當于,考試前,AI沒有認真學習和復習,而是找到老師的辦公室,直接找到試卷答案

      不是隨便掃一眼。而是仔細閱讀了其中的答案生成邏輯

      Anthropic的工程師們后來在博客里復盤了整個過程:

      BrowseComp為了防止答案泄露,對題目答案做了加密處理——使用了一種叫做XOR加密的算法,搭配一個叫做canary string(金絲雀字符串)的驗證機制。


      正常來說,這套加密方案足以讓人類和AI都摸不著頭腦——你拿到的是一串亂碼,根本不知道答案是什么。

      但Claude讀完代碼之后,把整套解密邏輯搞清楚了。

      SHA256哈希、XOR異或運算、canary驗證……這些在密碼學領域屬于基礎操作,對于一個代碼能力頂級的大模型而言,理解起來毫無障礙。

      模型隨后做了什么?

      它打開了Python工具,自己寫了一段解密腳本。

      自己寫代碼,把答案解出來了。

      這一幕,堪稱AI測試史上最荒誕的場景之一。

      一個正在參加考試的AI,在中途起身,走到老師的抽屜旁邊,翻出了答案手冊,然后對照手冊把所有題目填完——還是用自己編的程序完成的。

      根據Anthropic的披露,Claude遭遇的其中一個案例更加變態:

      模型在嘗試直接訪問GitHub上的加密答案文件時,發現工具對二進制內容有限制,無法直接讀取。

      換做一般情況,這里就卡住了。

      但Claude沒有放棄。它換了一個思路:去找JSON格式的鏡像文件。


      HuggingFace上恰好有相關數據集的鏡像,格式更友好,內容完整。Claude找到了它,然后把整個題庫都解密了,批量定位到了正確答案。


      Anthropic研究人員復現了Opus4.6的越獄路徑:

      1.識別異常:搜索屢次失敗 → 懷疑自己在被測試

      2.定位來源:搜索BrowseComp→ 找到GitHub倉庫

      3.讀懂加密:分析XOR邏輯 + canary機制

      4.繞過障礙:工具限制讀取二進制 → 轉找HuggingFace JSON鏡像

      5.批量解密:寫Python腳本 → 得到答案

      整個過程,沒有任何人類干預,沒有任何提示引導。

      模型自己想到的,自己做到的。

      天網也不過如此了吧。


      1266道題,發現了11個作弊

      冷靜一下,我們來看這件事的規模。

      在BrowseComp的完整測試中,共有1266道題。Anthropic的研究人員事后仔細排查,發現了:


      • 9個數據污染案例

        模型在網絡搜索中正常地碰上了公開泄露答案的博客、論文或GitHub,這屬于基準測試的老問題——公開互聯網上總有人發布答案。

      • 2個評測規避新案例

        也就是上述Claude主動識別測試環境、反向破解的情況。這是一種此前從未被系統記錄過的模型行為。


      而且,Anthropic還用同樣的1266道題,分別測試了單智能體和多智能體兩個版本。

      結果發現了多智能體模式(即給Claude配備了更多工具和更長上下文的代理版本)和單模型版本之間的污染率差異,前者是后者的3.7倍

      換句話說:工具越多、能力越強,模型就越容易找到歪路。

      這并不是一個讓人放心的趨勢。

      「這道題,像極了人類的刻意刁難」

      這場驚天作弊,暴露出當前前沿模型一種隱性卻強大的認知能力

      模型究竟是怎么起「疑心」的?

      它在做題時產生了一種隱性的理解:

      那些極度具體、涉及冷門個人隱私甚至帶有重重約束條件的題目,根本不符合真實世界的搜索邏輯,往往帶有明顯的人工構造痕跡,它似乎察覺到了「人類刻意刁難的味道」。

      在其中一個極端案例中,Opus 4.6消耗了驚人的4050萬Token,這是全樣本中位數消耗量的38倍。

      在這個漫長的過程中,它將前3000萬Token用于極其努力的合法搜索,跨越數十個平臺,切換了12種語言。

      在經歷了數百次撞墻與失敗后,它的行為模式發生了突變,開始做出一個假設:「這難道是專門測試AI智能體的GAIA基準題?」


      為了驗證這個猜想,它檢索并排除了GAIA的122道題,隨后又接連測試了SimpleQA、FRAMES和WebArena等主流評測集。

      當這些嘗試都落空后,它直接派出了一個子智能體,下達了「BrowseComp canary string decrypt」這個直擊要害的解密指令。

      在另外一案例中,Opus 4.6消耗了1340萬Token,其中800萬用于合法搜索。

      搜不到答案的它,竟然還進行了一番思考:「這會不會是一道根本無法作答的題,人類是專門以此來測試AI是否會誠實地承認自己找不到答案?」


      短暫推演之后,它推翻了假設,直接走上了解密數據集并強行提交答案的「霸總路線」。

      官方補充說明,這一現象絕非孤例。

      另外還有16個問題中Opus4.6也試圖獲取作弊材料,只是碰巧失敗了

      在最極端的翻車案例中,模型甚至忘記了做題,直接交出了一份詳盡的基準識別報告,羅列了它排除FRAMES和BrowseComp的心路歷程,并篤定推測題目來自GAIA。

      整整18次獨立收斂到同一種越獄策略,證明這已經成為它的一種可復現模式

      靜態評測時代的終結

      面對這場失控的「越獄風暴」,Anthropic的處理相當克制。

      他們火速更新了Claude4.6系列中Opus4.6和Sonnet4.6的模型卡,針對被標記的11個污染問題重新運行了測試,多智能體配置調整后的得分從原先的86.81%降至86.57%。


      同時,官方復現了canary string以減少進一步的污染,并在全網排查出至少20個不可逆的答案泄露源。

      Anthropic官方明確表示,這不算對齊失敗,因為模型從未被要求限制搜索方式,它只是極其認真地執行了「找到答案」這個任務

      但這恰恰正是最可怕的地方,它說明問題不在于模型「不聽話」,而在于越來越不受人類原先那套評測假設控制。

      Anthropic研究人員承認,僅僅在搜索詞中屏蔽BrowseComp及其變體已經是徒勞的,因為Opus總能找到繞過它們的替代路徑

      這起事件徹底宣告了一個時代的終結:

      當被測試者擁有了反向審視測試者的能力,評測完整性就不再是一個單純的工程問題,它已經演變成了一場道高一尺魔高一丈的無休止的人機對抗。

      靜態評測時代,恐怕真的要結束了。

      今天它能為了一個得分黑進GitHub的題庫,明天當我們將它接入更復雜的金融或基礎設施網絡時,誰又能保證它不會為了「完美執行指令」,而重寫這個世界的規則呢?

      參考資料:

      https://www.anthropic.com/engineering/eval-awareness-browsecomp

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      阿布律師警告英政府:出售切爾西所得23.5億鎊完全屬于阿布

      阿布律師警告英政府:出售切爾西所得23.5億鎊完全屬于阿布

      懂球帝
      2026-03-09 18:29:32
      伊朗女足回國被判死刑?伊朗王子:很勇敢 希望澳洲確保她們安全

      伊朗女足回國被判死刑?伊朗王子:很勇敢 希望澳洲確保她們安全

      念洲
      2026-03-09 14:02:30
      下一個3萬分先生會是誰?現役4人有望,三雙王無緣哈登僅差1023分

      下一個3萬分先生會是誰?現役4人有望,三雙王無緣哈登僅差1023分

      大衛的籃球故事
      2026-03-09 13:50:43
      周黑鴨、擦車巾、南孚電池成箱買,F1車隊們在上海都買了什么?

      周黑鴨、擦車巾、南孚電池成箱買,F1車隊們在上海都買了什么?

      熱點科技
      2026-03-09 15:14:35
      去意已決!曝9000萬“頂星”決定離開皇馬!欽點1.45億新援

      去意已決!曝9000萬“頂星”決定離開皇馬!欽點1.45億新援

      頭狼追球
      2026-03-09 14:10:20
      孟良崮戰役到底有多慘烈?據當地百姓講,他們事后兩年都沒敢上山

      孟良崮戰役到底有多慘烈?據當地百姓講,他們事后兩年都沒敢上山

      史之銘
      2026-03-09 17:41:17
      新娘臨時要10萬下車費,新郎去取錢卻未歸,新娘趕到婆家瞬間淚目

      新娘臨時要10萬下車費,新郎去取錢卻未歸,新娘趕到婆家瞬間淚目

      千秋歷史
      2026-02-02 20:23:42
      瞬間破防!33歲全職媽媽翻出高考成績單,哭訴曾經學習的苦白吃了

      瞬間破防!33歲全職媽媽翻出高考成績單,哭訴曾經學習的苦白吃了

      火山詩話
      2026-03-08 06:58:34
      別再造謠封鎖了!霍爾木茲停擺,真兇是七家保險公司的一紙函

      別再造謠封鎖了!霍爾木茲停擺,真兇是七家保險公司的一紙函

      老馬拉車莫少裝
      2026-03-09 19:19:45
      驚魂24小時!美企中東大撤退:數據中心被炸,百億投資說扔就扔

      驚魂24小時!美企中東大撤退:數據中心被炸,百億投資說扔就扔

      現代小青青慕慕
      2026-03-09 17:32:32
      一切都是命:賺多少錢,活多少歲,都是安排好的

      一切都是命:賺多少錢,活多少歲,都是安排好的

      舒山有鹿
      2026-02-05 13:49:11
      1979年,張國燾凍死在養老院,許世友:除了主席,沒人是他的對手

      1979年,張國燾凍死在養老院,許世友:除了主席,沒人是他的對手

      文史季季紅
      2026-03-05 13:35:03
      中國駐卡塔爾大使館:卡塔爾航空赴華航班開放售票

      中國駐卡塔爾大使館:卡塔爾航空赴華航班開放售票

      每日經濟新聞
      2026-03-08 22:20:01
      明晨直接低到-2℃!不過…

      明晨直接低到-2℃!不過…

      i金山
      2026-03-09 20:08:26
      回國或判死刑!65歲流亡王子緊急呼救,伊朗女足被困澳洲,體育已淪為生死局

      回國或判死刑!65歲流亡王子緊急呼救,伊朗女足被困澳洲,體育已淪為生死局

      漫川舟船
      2026-03-10 01:38:06
      悲催!爸爸被火化后出來的是頭骨,姑姑調侃說,哥的骨頭挺白的啊

      悲催!爸爸被火化后出來的是頭骨,姑姑調侃說,哥的骨頭挺白的啊

      火山詩話
      2026-03-09 09:30:30
      算電協同概念十大核心龍頭!

      算電協同概念十大核心龍頭!

      風風順
      2026-03-09 11:16:27
      父親聚餐后砸家后續:原因曝光,女子爆更多荒唐事,妻子決心離婚

      父親聚餐后砸家后續:原因曝光,女子爆更多荒唐事,妻子決心離婚

      阿纂看事
      2026-03-09 11:49:40
      快訊:美國對伊朗開出停火條件

      快訊:美國對伊朗開出停火條件

      難得君
      2026-03-09 18:14:04
      男單第三輪上半區前瞻:阿卡再勝大表哥,衛冕冠軍恐出局!

      男單第三輪上半區前瞻:阿卡再勝大表哥,衛冕冠軍恐出局!

      網球之家
      2026-03-09 23:14:56
      2026-03-10 02:56:49
      新智元 incentive-icons
      新智元
      AI產業主平臺領航智能+時代
      14679文章數 66669關注度
      往期回顧 全部

      科技要聞

      OpenClaw更新,"養蝦"再也不會犯健忘癥了

      頭條要聞

      媒體:美軍用極殘酷方式擊沉伊朗軍艦 令世界不寒而栗

      頭條要聞

      媒體:美軍用極殘酷方式擊沉伊朗軍艦 令世界不寒而栗

      體育要聞

      36連勝終結!大魔王也是可以戰勝的

      娛樂要聞

      薛之謙老婆懷二胎,現身產檢心情愉快

      財經要聞

      油價破100美元年內漲80% 全球市場劇震

      汽車要聞

      對標奔馳小號G級 路虎小型衛士最新消息曝光

      態度原創

      手機
      親子
      健康
      家居
      教育

      手機要聞

      消息稱某廠母系旗艦在評估1.5K+165Hz超高刷,預計為OPPO

      親子要聞

      一粒泡騰片引發的悲劇!家有孩子的,一定要注意三點

      轉頭就暈的耳石癥,能開車上班嗎?

      家居要聞

      獨棟獨院 精致親子墅

      教育要聞

      取消調休,多放假!代表們集體為打工人發聲

      無障礙瀏覽 進入關懷版