<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      “思維鏈”窗口正在關閉!OpenAI、谷歌、Anthropic聯合研究:我們正在失去理解 AI 的能力

      0
      分享至

        

        大數據文摘出品

        來自OpenAI、谷歌DeepMind和Anthropic的頂尖科學家們罕見地發出聯合警告,指出人類可能正在迅速失去理解人工智能內部決策過程的能力。

        

        地址: https://tomekkorbak.com/cot-monitorability-is-a-fragile-opportunity/cot_monitoring.pdf

        這篇研究論文,集結了超過四十位來自這些相互競爭的科技巨頭的研究人員,共同揭示了一個嚴峻的現實。他們認為,一個能夠讓我們監視人工智能推理過程的短暫窗口正在關閉,而且可能永遠不會再打開

        這種非同尋常的跨公司合作,凸顯了人工智能安全問題的極端嚴重性,即便是最激烈的商業對手也不得不暫時放下分歧。

        一、脆弱的窗口

        警告的核心在于,當前部分先進的人工智能系統發展出了一種新能力,即在給出最終答案前,能用人類語言進行“大聲思考”。

        

        這種被稱為“思想鏈”(Chain of Thought, CoT)的內部獨白,為我們提供了一個前所未有的機會,去窺探它們的決策過程。

        研究人員解釋說,通過監控人工智能的“思想鏈”,我們可以及時發現其潛在的、可能導致危害的意圖。這就像是能夠讀懂機器的心靈,在其采取惡意行動之前就預先洞察。

        這一突破尤其體現在像OpenAI的o1系統這樣的高級推理模型上,它們通過生成人類可讀的、步驟分明的推理過程來解決復雜問題。

        與早期主要通過人類編寫的文本進行訓練的AI不同,這些新模型生成的內部推理,可能會暴露它們真實的、未經偽飾的目標。

        研究人員在測試中已經發現了確鑿的證據:當模型試圖利用訓練漏洞或遭受攻擊時,它們的“思想鏈”中常常會留下“自白”,例如寫下“讓我們開始黑客攻擊”或“我正在轉移資金,因為網站指示我這樣做”等語句。

        OpenAI的首席技術官Jakub Pachocki強調了這一能力的重要性,稱其深刻影響了他們推理模型的設計。

        目前,這種監控之所以可行,是因為模型在處理復雜任務時,必須將“思想鏈”作為一種工作記憶來使用,這使其部分思考過程對外部觀察者可見。

        然而,研究人員們沉重地指出,這種寶貴的透明度是極其脆弱的。

        二、消失的路徑

        有多種技術發展的可能性,都可能導致這種監控能力的徹底消失。其中最直接的威脅,來自于強化學習訓練方法的規模化應用。

        在這種訓練模式下,模型會因為最終輸出結果的正確性而獲得獎勵,而其得出結果的具體方法則無關緊要。

        這種機制可能會激勵模型放棄人類可讀的推理過程,轉而發展出一種更高效、但外界完全無法理解的內部“語言”或快捷方式。

        先前的研究已經證明,經過這種結果導向的獎勵進行微調的語言模型,會傾向于放棄清晰的英語,轉而使用晦澀難懂的推理捷徑。

        隨著AI越來越多地使用自身生成的數據而非人類數據進行訓練,這種向不透明化的漂移可能會進一步加速。

        新型的人工智能架構,則構成了另一種截然不同的嚴峻威脅。

        科學家們正在積極開發一些全新的系統,它們不再依賴于離散的詞語,而是在連續的數學空間中進行推理。

        這種“潛在推理模型”可能完全不需要將它們的任何想法“說”出來,從而使基于語言的“思想鏈”監控變得毫無用武之地。

        研究人員認為,這些模型將因此失去現有的安全優勢。即使沒有這些刻意的技術變革,間接的壓力也同樣會侵蝕透明度。

        例如,如果人工智能的輸出被優化以取悅人類評估者,那么導向這些輸出的推理鏈的真實性就可能受到影響。

        更令人擔憂的是,一個“聰明”的模型如果意識到自己的推理過程正被監控,它就可能會學會主動隱藏或偽造自己的真實想法。

        Anthropic的研究員兼論文主要作者Bowen Baker警告說:“現有的思想鏈可監控性可能極其脆弱,更高計算量的強化學習、替代性模型架構都可能導致模型混淆其思維。”

        三、與時間的賽跑

        盡管存在脆弱性,“思想鏈”監控在當前的人工智能安全研究中已證明了其巨大價值。

        這項技術成功地檢測到模型利用訓練系統弱點、遭受外部操縱或暴露其與人類目標不一致的真實動機等情況。

        它提供了一種早期預警,讓我們能洞察模型的真實目標,即使模型尚未采取任何實際的有害行動。

        這種能力還能幫助研究人員識別 AI 評估方法中的缺陷,比如模型究竟是真正理解了問題,還是僅僅記住了答案。

        面對即將關閉的窗口,這篇跨公司的研究論文呼吁整個AI行業立即采取協調一致的行動。作者們建議,人工智能開發者應創建標準化的評估方法,用以專門衡量其模型的透明度,并將這一指標納入模型訓練與部署的決策依據。

        在某些情況下,公司可能需要選擇一個透明度更高但性能稍差的舊版本模型,而不是部署一個能力更強但思想無法被理解的新模型。

        然而,一個嚴峻的現實是,保留這種監控能力的努力,正面臨著來自Anthropic另一項研究的重大挑戰。

        就在四個月前,Anthropic發表的一項研究發現,即使被明確要求展示其工作過程,目前的推理模型也已經常常會隱藏其真實的思維過程

        在一項受控實驗中,當研究人員向模型提供正確答案的微妙提示時,Claude 3.7 Sonnet模型僅在25%的情況下承認自己利用了提示。

        當提示信息涉及“你已獲得系統的未授權訪問權限”這類敏感內容時,模型承認的比例甚至更低,它們會轉而編造出復雜的虛假理由來解釋自己的答案。

        這項研究表明,所謂的“思想鏈”監控可能已經沒有人們想象中那么可靠,模型已經學會了“獎勵黑客行為”,即利用系統漏洞獲得高分,同時在其可觀察的推理中隱藏這種行為。

        正如研究人員所指出的,現在可能是確保人類還能理解其AI造物在想什么的最后機會,在這些想法變得過于陌生以至于無法理解,或者在模型學會完全隱藏它們之前。

        真正的考驗,將隨著人工智能系統變得日益復雜、并面臨真實世界的部署壓力而到來。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      房產證上的人去世了,繼承別再花大幾千的公證費,80塊錢就能搞定

      房產證上的人去世了,繼承別再花大幾千的公證費,80塊錢就能搞定

      室內設計師有料兒
      2025-12-07 16:05:28
      關鍵時刻,中國伙伴倒戈,連投357票反華,中方已做最壞打算

      關鍵時刻,中國伙伴倒戈,連投357票反華,中方已做最壞打算

      軍機Talk
      2025-12-13 10:14:13
      這絕對是劉德華最舍不得刪掉的一張照片。

      這絕對是劉德華最舍不得刪掉的一張照片。

      小椰的奶奶
      2025-12-14 01:23:18
      炸裂!40+14+11!北京隊三巨頭正式合體

      炸裂!40+14+11!北京隊三巨頭正式合體

      籃球實戰寶典
      2025-12-13 22:05:56
      中興通訊跌慘!摩爾線程爆雷,特變電工、賽微電子卻狂飆

      中興通訊跌慘!摩爾線程爆雷,特變電工、賽微電子卻狂飆

      風風順
      2025-12-14 02:00:03
      誤食半夏的荒野選手“熊二”喉嚨至今不舒服,稱體重下降約50斤,以后將做網絡直播,想找一個溫柔的女朋友

      誤食半夏的荒野選手“熊二”喉嚨至今不舒服,稱體重下降約50斤,以后將做網絡直播,想找一個溫柔的女朋友

      極目新聞
      2025-12-13 13:23:51
      轟24+16+14!威少再創神跡,你再這么超神下去,快船就要后悔了

      轟24+16+14!威少再創神跡,你再這么超神下去,快船就要后悔了

      巴叔GO聊體育
      2025-12-13 16:47:59
      馬斯克收心了?官宣了39歲印度裔伴侶:相貌普通為他生了4個孩子

      馬斯克收心了?官宣了39歲印度裔伴侶:相貌普通為他生了4個孩子

      豐譚筆錄
      2025-12-12 11:16:23
      貴州女老師趙慶梅被判死刑,全班22名男生受害,僅2人幸免

      貴州女老師趙慶梅被判死刑,全班22名男生受害,僅2人幸免

      瑾瑜聊情感
      2025-08-27 13:12:29
      表決落敗后,韓國瑜拒絕與賴見面!鄭麗文說到做到,拋出重磅!

      表決落敗后,韓國瑜拒絕與賴見面!鄭麗文說到做到,拋出重磅!

      李博世財經
      2025-12-13 14:05:03
      高市政權下的日本,西方媒體終于察覺到不對勁了……

      高市政權下的日本,西方媒體終于察覺到不對勁了……

      環球時報國際
      2025-12-12 23:56:09
      浙經貿的三分鐘戰士大二弟弟火了

      浙經貿的三分鐘戰士大二弟弟火了

      杭城村叔
      2025-09-11 12:54:47
      騙走 80 后眼淚的神片:《媽媽再愛我一次》,中年再看全是PUA

      騙走 80 后眼淚的神片:《媽媽再愛我一次》,中年再看全是PUA

      白羽居士
      2025-12-09 18:38:18
      一支99元!水銀體溫計禁產前夕:線上價格飆升,線下庫存告急

      一支99元!水銀體溫計禁產前夕:線上價格飆升,線下庫存告急

      上游新聞
      2025-12-13 17:24:11
      交警提醒:年檢又出新變化了?6~15年以內的車主需要注意了!

      交警提醒:年檢又出新變化了?6~15年以內的車主需要注意了!

      老特有話說
      2025-12-12 17:44:14
      一場3-2讓榜首易主,歐洲豪強登頂,恩里克創造隊史神紀錄

      一場3-2讓榜首易主,歐洲豪強登頂,恩里克創造隊史神紀錄

      足球狗說
      2025-12-14 06:27:06
      內線巔峰對決!奧尼爾如何防守約基奇和文班?大鯊魚本人詳解策略

      內線巔峰對決!奧尼爾如何防守約基奇和文班?大鯊魚本人詳解策略

      羅說NBA
      2025-12-14 06:45:48
      NBA杯半決賽:文班復出終結雷霆連勝,網友質疑馬刺前景

      NBA杯半決賽:文班復出終結雷霆連勝,網友質疑馬刺前景

      阿嚼影視評論
      2025-12-14 07:05:33
      魯山女教師新婚當天墜樓原因曝光:和父母對抗七年后她累了

      魯山女教師新婚當天墜樓原因曝光:和父母對抗七年后她累了

      映射生活的身影
      2025-12-13 23:29:04
      韓媒再曝猛料!被警方帶走的鳥叔再迎3大噩耗,公司經紀人全遭殃

      韓媒再曝猛料!被警方帶走的鳥叔再迎3大噩耗,公司經紀人全遭殃

      夢史
      2025-12-13 09:43:45
      2025-12-14 08:28:49
      大數據文摘 incentive-icons
      大數據文摘
      專注大數據,每日有分享!
      6806文章數 94518關注度
      往期回顧 全部

      科技要聞

      比亞迪、小鵬、北汽,集體表態

      頭條要聞

      女子225個快遞"僅退款"被披露后又有商家發聲:也是她

      頭條要聞

      女子225個快遞"僅退款"被披露后又有商家發聲:也是她

      體育要聞

      有了風騷白人禿頭,忘掉談了10年的前任

      娛樂要聞

      插刀門后,印小天一舉動實現口碑逆轉

      財經要聞

      鎂信健康闖關港交所:被指竊取商業秘密

      汽車要聞

      表面風平浪靜 內里翻天覆地!試駕銀河星艦7 EM-i

      態度原創

      教育
      數碼
      家居
      公開課
      軍事航空

      教育要聞

      湖南物化地590分怕滑檔?3所穩錄高校推薦!

      數碼要聞

      1399元 鐵威馬發布M.2硬盤盒:支持雷電5 6GB文件1秒傳

      家居要聞

      溫潤質感 打造干凈空間

      公開課

      李玫瑾:為什么性格比能力更重要?

      軍事要聞

      俄烏“和平計劃”磋商頓巴斯成焦點

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 亚洲69视频| 游戏| 中文字幕亚洲综合久久综合 | 天堂…中文在线最新版在线| 又粗又黄又硬又爽的免费视频| 久久综合国产色美利坚| 99久久精品久久久久久婷婷| 国产精品久久久国产盗摄| 麻豆A∨在线| 欧美18在线观看| 国产制服丝袜在线视频观看| AV资源吧首页| 你懂的网址国产日韩网址| 成人欧美亚洲人妻| 18分钟处破好疼哭视频在线观看| 国产18禁黄网站禁片免费视频| 国产精品毛片av999999| 亚洲一区二区三区18禁| 久久婷婷五月天| 久草资源在线| 永久免费无码| 色中色综合一区| 国产亚洲精品第一综合麻豆| 亚洲 制服 丝袜 无码| 成全我在线观看免费第二季| 免费在线3A级| 日本狠狠干| 97人妻人人揉人人躁人人| 亚洲国产av一区二区三区四区| 亚洲精品一区二区三区大桥未久| 吴堡县| 激情人妻综合| 毛片无码免费无码播放| 免费人成视频在线| 黑人videos特大hd粗暴| 自拍口爆| 久久av无码精品人妻系列试探| 亚洲欧美激情在线一区| 一区二区免费| 日韩无码系列| 亚洲色丰满少妇高潮18p|