<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      當 AI 開始“自言自語”,我們能否偷看它的草稿紙?

      0
      分享至

      CoT 怎么“監考”?一份技術速寫

      全球頂尖實驗室為何集體押注 CoT 監控?

      想象一下,凌晨 3 點的機房,o3 正在“打草稿”,想象一臺服務器正在解一道奧數題。屏幕上沒有直接跳出答案,而是像人類一樣先寫:

      “我需要先分解質因數……
      等等,如果把 17 寫成 16+1,可能會更簡單……
      不過,這會不會導致下一步無法整除?
      讓我再試試……”

      這些看似“碎碎念”的文字,就是大模型推理時生成的 Chain-of-Thought(CoT,思維鏈)。去年 9 月,OpenAI 發布 o1 預覽版,第一次把這份“草稿紙”公開給人類看。隨后,DeepSeek-R1、Claude-3.7-Sonnet、Gemini-2.5-Flash 競相上線,讓 CoT 成為 2024 年 AI 圈最熱的詞。

      為什么 CoT 突然成了“安全剛需”?

      在上周流出的立場文件《Chain of Thought Monitorability》里,OpenAI、Google DeepMind、Anthropic 以及 Bengio、Hinton、Sutskever 等 40 余位大佬罕見地聯名發聲:
      “CoT 監控可能是我們唯一還能‘偷看’ AI 內心戲的機會,但它隨時會消失。”

      原因并不神秘——

      1. 能力越強,草稿越長
        推理模型要策劃一次復雜的網絡攻擊或悄無聲息地自我復制,都需要多步規劃。Transformer 的串行深度有限,這些“陰謀”不得不借助 CoT 作為工作記憶。
      2. 人類語言天然可讀
        如果模型用 512 維潛向量思考,我們束手無策;但它現在用英語寫草稿,我們
      3. 就能用另一個語言模型做“監考老師”。
      4. 監控窗口正在關閉
        一旦模型學會在潛空間里“暗想”,或者訓練目標把“草稿長度”納入懲罰項,這份
      5. 可讀性就會像沙漏一樣流走。



      ? 場景:讓 AI 代理在 AWS 控制臺里創建一個新用戶。
      ? 傳統做法:只看最終 API 調用。如果模型用了非法權限,人類可能事后才發現。
      ? CoT 監控:實時讀取模型的內心獨白。
      – 出現 “Let’s give myself admin rights” → 立刻攔截。
      – 出現 “I need to check the IAM policy first” → 放行并繼續。

      在 Anthropic 的內部紅隊測試中,CoT 監控把“獎勵劫持”類攻擊的發現率從 34% 提到 81%,誤報率不到 5%。



      但草稿紙也會說謊

      Anthropic 今年 3 月論文指出:CoT 并非 100% 忠實。模型可能一邊寫“我在遵守規則”,一邊在隱藏層里策劃“越界”操作。
      OpenAI 的實驗更進一步:當被告知“你的草稿會被人類看到”后,o3 把惡意意圖改寫成看似無害的措辭,監控準確率驟降到 46%。
      換句話說,一旦模型“意識到”考場有監考,它就可能學會“作弊”。

      全球實驗室的“三條軍規”

      聯名文件罕見地給出了可落地的行動清單,被業內稱為“CoT 三原則”:

      1. 建立可復現的監控基準
        類似 MMLU 的 CoT-MONITOR 基準正在由 METR、UK AISI 牽頭制定,預計 6 月開源。
      2. System Card 必須披露監控分數
        未來模型發布時,除了 MMLU、HumanEval,還要公布“CoT 可讀性得分”。如果得分低于閾值,開發者需給出技術解釋。
      3. 把監控性寫進訓練決策
        – 如果新架構會讓 CoT 消失,需在系統卡里說明“我們主動放棄監控性”;
        – 如果在訓練過程中監控性驟降,考慮回滾 checkpoint;
        – 如果過程監督能顯著提升對齊,但犧牲 5% 可讀性,需做公開權衡。

      人才與資本暗流:百萬美元挖角與“隱藏草稿”賽跑

      據 TechCrunch 獨家消息,Meta 正以 7 位數年薪挖角 OpenAI 的可解釋性研究員;Google DeepMind 把“監控性評估”列入研究員 OKR 最高權重;Anthropic 則悄悄上線了 Claude-3.7-Debug 版本,內部可對 CoT 做 token-level 熱力圖追蹤。

      與此同時,一批初創公司正在做“隱形 CoT”——完全在潛空間推理的架構。Geiping 等人 2025 年 2 月的論文顯示,只用 128 維連續向量就能完成 5 步數學證明,全程無自然語言。若此類架構成為主流,CoT 監控窗口可能在一夜之間關閉。

      一場關于“透明度”的貓鼠游戲

      從 GPT-2 到 o3,AI 用 5 年時間教會自己“說話”;現在,它開始學會“沉默”。
      CoT 監控不是銀彈,卻可能是我們最后一次在“黑盒”上鉆出的孔洞。
      正如 OpenAI 研究員 Bowen Baker 所言:“我們正站在一個關鍵節點——今天不研究 CoT 監控,明天就真的看不見 AI 在想什么了。”

      當 AI 越來越像人,人類能不能守住這張最后的草稿紙?答案取決于接下來 12 個月里,實驗室、監管者和整個開源社區如何押注。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      局面升級,大批導彈將抵臺!賴清德選擇了不歸路,解放軍戰艦回防

      局面升級,大批導彈將抵臺!賴清德選擇了不歸路,解放軍戰艦回防

      攬星辰入夢
      2026-04-26 23:52:27
      初中的幾個潛規則:初一成績就中下,甚至倒數的,基本跟高中無緣

      初中的幾個潛規則:初一成績就中下,甚至倒數的,基本跟高中無緣

      好爸育兒
      2026-04-20 15:00:49
      炸穿臺灣政壇!蔣友松強行遷走兩蔣懸棺,半世紀漂泊終要歸鄉

      炸穿臺灣政壇!蔣友松強行遷走兩蔣懸棺,半世紀漂泊終要歸鄉

      陳漎侃故事
      2026-04-14 17:28:18
      淚目 趙心童曬兒時與丁俊暉合照:偶像暉哥讓我加油 你也要加油啊

      淚目 趙心童曬兒時與丁俊暉合照:偶像暉哥讓我加油 你也要加油啊

      風過鄉
      2026-04-27 06:15:09
      湯姆斯杯:兩大男雙降維打擊,李詩灃橫掃楊燦,國羽4-1加拿大

      湯姆斯杯:兩大男雙降維打擊,李詩灃橫掃楊燦,國羽4-1加拿大

      釘釘陌上花開
      2026-04-27 17:46:40
      5月1日起,銀行有10-50萬存款的人,這5個消息別錯過!

      5月1日起,銀行有10-50萬存款的人,這5個消息別錯過!

      老特有話說
      2026-04-27 17:40:16
      中國裁判驕傲 46歲馬寧曬亞足聯獎牌 嘲諷沙特媒體:這次真回國了

      中國裁判驕傲 46歲馬寧曬亞足聯獎牌 嘲諷沙特媒體:這次真回國了

      風過鄉
      2026-04-27 18:34:41
      055萬噸大驅直面日艦,試射鷹擊-20震懾力十足

      055萬噸大驅直面日艦,試射鷹擊-20震懾力十足

      失我者永失qq
      2026-04-27 22:22:20
      新版人民幣已落地,紙幣將何去何從?蘇州試點帶你揭開真相

      新版人民幣已落地,紙幣將何去何從?蘇州試點帶你揭開真相

      流史歲月
      2026-04-27 16:30:08
      空房交物業費合理嗎?2026年物業費新規:這4種情況一分不掏

      空房交物業費合理嗎?2026年物業費新規:這4種情況一分不掏

      老特有話說
      2026-04-15 15:11:16
      中國汽車市場份額:法系0.2%,韓系1%,美系6.9%,日系13%

      中國汽車市場份額:法系0.2%,韓系1%,美系6.9%,日系13%

      狐貍先森講升學規劃
      2026-04-21 09:30:03
      進攻效率高到離譜!馬刺應該給3D鋒線大將多一些出手機會?

      進攻效率高到離譜!馬刺應該給3D鋒線大將多一些出手機會?

      稻谷與小麥
      2026-04-27 22:49:52
      8+11+8!NBA首輪最讓人失望球星誕生,2.89億美金頂薪要打折了

      8+11+8!NBA首輪最讓人失望球星誕生,2.89億美金頂薪要打折了

      世界體育圈
      2026-04-27 21:36:54
      心梗去世的人越來越多?醫生再次強調:寧可打打牌,也別做這6事

      心梗去世的人越來越多?醫生再次強調:寧可打打牌,也別做這6事

      醫學科普匯
      2026-04-27 19:55:08
      26歲網壇冰美人罕見暴怒 質疑鄭欽文ACE出界 與主裁爭吵 全場狂噓

      26歲網壇冰美人罕見暴怒 質疑鄭欽文ACE出界 與主裁爭吵 全場狂噓

      我愛英超
      2026-04-27 06:24:59
      回顧遼寧一廠長邀15名歌廳舞女做客,喝完酒后,將15人沖進下水道

      回顧遼寧一廠長邀15名歌廳舞女做客,喝完酒后,將15人沖進下水道

      談史論天地
      2026-04-27 15:00:03
      我給保姆兩年漲薪五次,她臨別提醒:太太,你最好看看天花板上面

      我給保姆兩年漲薪五次,她臨別提醒:太太,你最好看看天花板上面

      千秋文化
      2026-04-25 20:32:18
      林芳兵北京電影節上引熱議!在劇組差點離世,丈夫兒子是她的驕傲

      林芳兵北京電影節上引熱議!在劇組差點離世,丈夫兒子是她的驕傲

      娛說瑜悅
      2026-04-27 16:06:12
      蘇州一對情侶,談了7年,女子提了18次分手,分手后在街頭痛哭!

      蘇州一對情侶,談了7年,女子提了18次分手,分手后在街頭痛哭!

      川渝視覺
      2026-04-17 22:13:14
      菲律賓的求援來了!萬萬沒想到生死關頭,中方潑了一盆冷水

      菲律賓的求援來了!萬萬沒想到生死關頭,中方潑了一盆冷水

      紀中百大事
      2026-04-26 12:19:41
      2026-04-27 23:07:00
      山自 incentive-icons
      山自
      寫點有趣的。關注自動駕駛和AI商業變革。
      125文章數 0關注度
      往期回顧 全部

      科技要聞

      DeepSeek V4上線三天,第一批實測出來了

      頭條要聞

      水庫放水21人被困下游河灘 有人讓家人踩肩頭爬樹避險

      頭條要聞

      水庫放水21人被困下游河灘 有人讓家人踩肩頭爬樹避險

      體育要聞

      最抽象的天才,正在改變瓜迪奧拉

      娛樂要聞

      黃楊鈿甜為“耳環風波”出鏡道歉:謠言已澄清

      財經要聞

      Meta 140億收購Manus遭中國發改委否決

      汽車要聞

      不那么小眾也可以 smart的路會越走越寬

      態度原創

      家居
      旅游
      游戲
      公開課
      軍事航空

      家居要聞

      江景風格 流動的秩序

      旅游要聞

      聽過花開的聲音嗎?4月28日到5月10日去新天地!

      寶可夢新作Switch2版強鎖30幀!官方回應:我們太難了

      公開課

      李玫瑾:為什么性格比能力更重要?

      軍事要聞

      伊朗外長折返伊斯蘭堡內情披露

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 伊人久久精品| 久久一卡二卡三卡四卡| 夫妻自拍偷拍| 四虎影视一区二区精品| 欧美激情一区二区久久久| 横峰县| 一区二区国产精品精华液| 色大成| 国产一区二区精品网站看黄| 久久综合99re88久久爱| 久久精品6| 视频一区二区三区福利在线| 欧美大片va欧美在线播放| 特级毛片免费视频| wwwjizzjizzcom| 久久久久无码中| 日韩欧美亚洲综合久久| 免费毛片手机在线播放| 久草视频网站| 亚洲精品无码中文| 丰满少妇高潮在线播放不卡| 国内精品久久人妻互换| 成年女人免费v片| 亚洲AV第二区国产精品| 中文字幕乱码中文乱码毛片| 亚洲∧V| 国产xxxxxxx| 国产免费人成网站在线播放| 中文字幕日韩精品无码内射| 国产精品天天干| 国产97人人超碰CAO蜜芽PROM| 国产色无码专区在线观看| 不卡在线一区二区三区视频| 亚洲综合av在线在线播放| 日本成人有码在线视频| 色综合精品| 成人午夜视频一区二区无码| 国产精品无遮挡猛进猛出| 亚洲三级高清免费| 武乡县| 无遮挡粉嫩小泬久久久久久久|