<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      AI黑箱,這次能打開嗎?OpenAI新方法:訓練稀疏神經網絡,讓模型思維過程可追溯

      0
      分享至


      神經網絡是當今最強大AI系統的動力核心,但其內部工作原理依然難以捉摸。我們并非為這些模型編寫一步一指令的明確代碼,相反,它們通過調整數十億個內部連接(即“權重”)來自我學習,直至掌握任務。我們設計了訓練規則,卻無法預知最終涌現出的具體行為,其結果是一個任何人都難以輕易解讀的、稠密的連接網絡。

      現在,OpenAI提出了一種新方法,旨在通過訓練模型以更簡單、更可追溯的方式“思考”,從而更好地理解它們的工作原理

      如何看待可解釋性

      隨著AI系統能力日益增強,并在科學、教育和醫療等領域產生真實世界的影響,理解其工作方式變得至關重要。可解釋性,指的是幫助我們理解模型為何產生特定輸出的方法。

      實現這一目標有多種途徑。例如,推理模型被激勵在通往最終答案的過程中解釋其工作步驟,這種“思維鏈可解釋性”利用這些解釋來監控模型行為。這種方法已展現出直接的實用價值,例如當前模型的思維鏈似乎能有效揭示欺騙等令人擔憂的行為。然而,完全依賴此特性是一種脆弱的策略,未來可能會失效。

      另一方面,機制可解釋性(mechanistic interpretability)——也正是OpenAI本次研究的焦點——旨在徹底逆向工程一個模型的計算過程。盡管它迄今為止的直接應用較少,但原則上,它可以為模型行為提供更完整的解釋。通過在最細粒度的層面上解釋模型行為,機制可解釋性可以減少假設,給予我們更強的信心。但從底層細節到復雜行為解釋的路徑也因此更長、更艱難。

      可解釋性支持著幾個關鍵目標,例如實現更好的監督,并為不安全或策略性失調行為提供早期預警。它也補充了OpenAI在其他安全方面的工作,如可擴展監督、對抗性訓練和紅隊測試。

      在這項工作中,OpenAI展示了我們通常可以采用某種訓練方式,讓模型變得更容易解釋。他們將這項工作視為對稠密網絡進行事后分析的一種有希望的補充。

      這是一個比較大的賭注,從當前的工作到完全理解最強大模型的復雜行為,還有很長的路要走。盡管如此,研究發現,對于簡單的行為,用這種新方法訓練的稀疏模型包含了小型的、解耦的“電路”,這些電路既可被理解,也足以執行該行為。這表明,可能存在一條可行的路徑,用以訓練出我們能夠理解其機制的大型系統。

      一種新思路:學習稀疏模型

      以往的機制可解釋性工作,通常從一個已經訓練好的、稠密且糾纏的網絡入手,試圖去解開它。在這些網絡中,每個神經元都與成千上萬個其他神經元相連,并且大多數神經元似乎執行著多種不同功能,這使得理解它們變得幾乎不可能。

      但如果我們換一種思路呢?如果我們訓練一個“不糾纏”的神經網絡——它擁有更多的神經元,但每個神經元只有幾十個連接。那么,最終得到的網絡或許會更簡單、更容易理解。這就是OpenAI這項工作的核心研究思路

      基于這一原則,OpenAI訓練了一些語言模型,其架構與GPT-2等現有模型非常相似,但有一個微小改動:強制模型絕大多數權重為零。這限制了模型只能使用其神經元之間極少數的可能連接。研究人員認為,這個簡單的改變能極大地解耦模型的內部計算

      在傳統的的稠密神經網絡中,每一層的每個神經元都與下一層的所有神經元相連。而在稀疏模型中,每個神經元只與下一層的少數幾個神經元連接。研究人員希望這能讓神經元乃至整個網絡變得更容易被理解


      如何評估可解釋性

      為了衡量稀疏模型的計算在多大程度上是解耦的,研究人員考察了各種簡單的模型行為,并檢查是否能分離出負責每種行為的模型部分——他們稱之為電路(circuits)

      他們手工策劃了一系列簡單的算法任務。對于每項任務,他們將模型剪枝,找到能執行該任務的最小電路,并檢查該電路的簡潔程度。研究發現,通過訓練更大、更稀疏的模型,可以得到能力越來越強、同時電路也越來越簡單的模型。

      下圖是一張可解釋性與模型能力的對比圖中(左下角為更優),對于一個固定大小的稀疏模型,增加稀疏度(即設置更多權重為零)會降低模型能力,但提高可解釋性。而擴大模型尺寸則會將這條能力-可解釋性的邊界向外推移。這表明,我們或許可以構建出既強大又可解釋的大型模型


      深入電路:一個具體案例

      為了更具體地說明,可以看一個任務:一個在Python代碼上訓練的模型,需要用正確的引號來補全一個字符串。在Python中,'hello'必須以單引號結尾,而"hello"必須以雙引號結尾。模型可以通過記住字符串開頭的引號類型,并在末尾復現它來解決這個問題


      研究發現,最易于解釋的模型似乎包含了實現了這一確切算法的解耦電路。

      這個預測字符串應以單引號還是雙引號結尾的電路,僅使用了5個殘差通道、第0層的2個MLP神經元、以及第10層的1個注意力查詢-鍵通道和1個值通道。其工作流程如下:

      1.模型在一個殘差通道中編碼單引號,在另一個通道中編碼雙引號

      2.一個MLP層將此信息轉換為一個檢測任意引號的通道和另一個區分單雙引號的通道

      3.一個注意力操作會忽略中間的詞元,找到之前的開引號,并將其類型復制到最終詞元

      4.模型預測出匹配的閉合引號

      根據定義,上圖所示的連接對于執行該任務是充分的——如果我們移除模型的其余部分,這個小電路仍然能工作。同時它們也是必要的——刪除這幾個連接會導致模型失敗。

      研究人員還研究了一些更復雜的行為,例如變量綁定。這些行為的電路更難被完全解釋。即便如此,仍然可以獲得相對簡單的部分解釋,這些解釋對模型行為具有預測性。例如,在一個電路中,一個注意力操作在變量current被定義時,將變量名復制到set()詞元中;后續另一個操作則將類型從set()詞元復制到該變量的后續使用中,從而讓模型推斷出正確的下一個詞元


      這些稀疏模型比前沿模型小得多,其計算的很大一部分仍未被解釋。

      接下來,研究團隊希望將這些技術擴展到更大的模型,并解釋模型更多的行為。通過在有能力的稀疏模型中枚舉出更復雜推理背后的電路基元,或許能發展出一種有助于更有針對性地研究前沿模型的理解

      為了克服訓練稀疏模型的低效問題,研究人員看到了兩條前進的道路:

      1.從現有的稠密模型中提取稀疏電路,而不是從頭開始訓練稀疏模型。因為稠密模型在部署上本質比稀疏模型更高效

      2.開發更高效的可解釋性訓練技術,這可能更容易投入生產。

      需要注意的是,目前的發現并不能保證這種方法會延伸到能力更強的系統上,但這些早期結果充滿希望。最終目標是逐步擴大我們能夠可靠解釋的模型范圍,并構建工具,使未來的系統更容易分析、調試和評估

      參考:

      https://openai.com/index/understanding-neural-networks-through-sparse-circuits/

      paper:

      https://cdn.openai.com/pdf/41df8f28-d4ef-43e9-aed2-823f9393e470/circuit-sparsity-paper.pdf

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      業主欠交物業費被禁用門禁卡?最高法案例:禁止違法催交

      業主欠交物業費被禁用門禁卡?最高法案例:禁止違法催交

      南方都市報
      2025-12-08 13:50:08
      1架俄羅斯Su-34轟炸機意外發生故障,導致2名俄軍飛行員死亡

      1架俄羅斯Su-34轟炸機意外發生故障,導致2名俄軍飛行員死亡

      山河路口
      2025-12-08 16:55:00
      俄給日本發通牒,高市或下臺?日本議員再向中方發請求

      俄給日本發通牒,高市或下臺?日本議員再向中方發請求

      志宏教授
      2025-12-08 21:45:45
      太陽報:球票機酒都瘋漲,這是英格蘭球迷最昂貴的一屆世界杯

      太陽報:球票機酒都瘋漲,這是英格蘭球迷最昂貴的一屆世界杯

      懂球帝
      2025-12-08 22:16:21
      獵鷹9號技術全球開源?俄宇航員在SpaceX訓練時偷拍發動機被遣返

      獵鷹9號技術全球開源?俄宇航員在SpaceX訓練時偷拍發動機被遣返

      科普大世界
      2025-12-06 16:40:09
      果然每個國家都有自己的「牛馬套餐」

      果然每個國家都有自己的「牛馬套餐」

      窮游網
      2025-12-03 10:46:27
      烏軍越打越來勁!俄又一架蘇-24被打爆,車臣首府也被炸!

      烏軍越打越來勁!俄又一架蘇-24被打爆,車臣首府也被炸!

      瞳哥視界
      2025-12-08 22:12:00
      男子看手機墜崖后續:奇跡生還,同行者曝更多細節,朋友圈曝光

      男子看手機墜崖后續:奇跡生還,同行者曝更多細節,朋友圈曝光

      深析古今
      2025-12-08 09:44:59
      有一種痛苦叫買了“連廊中間戶”,不好住也不好賣,已經砸手里了

      有一種痛苦叫買了“連廊中間戶”,不好住也不好賣,已經砸手里了

      家居設計師蘇哥
      2025-12-08 19:35:04
      吉爾吉斯斯坦總統:我們身體里流著李陵的血,中國永遠是兄弟

      吉爾吉斯斯坦總統:我們身體里流著李陵的血,中國永遠是兄弟

      軍機Talk
      2025-12-04 10:01:22
      史玉柱再陷債務危機,大半輩子都在還債

      史玉柱再陷債務危機,大半輩子都在還債

      冰川思想庫
      2025-07-21 12:31:53
      亨廷頓《文明的沖突》:十大預言已逐一兌現!

      亨廷頓《文明的沖突》:十大預言已逐一兌現!

      尚曦讀史
      2025-12-08 10:32:06
      歐冠晉級分析:巴薩國米或進附加賽,阿森納巴黎拜仁皇馬沒有難度

      歐冠晉級分析:巴薩國米或進附加賽,阿森納巴黎拜仁皇馬沒有難度

      嗨皮看球
      2025-12-08 18:14:27
      抗美援朝,為啥美國寧可戰敗,也不用原子彈?美專家:真不敢用

      抗美援朝,為啥美國寧可戰敗,也不用原子彈?美專家:真不敢用

      云霄紀史觀
      2025-12-05 18:23:55
      馬卡:皇馬高層連夜開會,確定歐冠對曼城是阿隆索生死戰

      馬卡:皇馬高層連夜開會,確定歐冠對曼城是阿隆索生死戰

      懂球帝
      2025-12-08 22:30:44
      81歲林豆豆現狀:已退休23年,獨居在北京老房子,用閱讀打發時間

      81歲林豆豆現狀:已退休23年,獨居在北京老房子,用閱讀打發時間

      攬星河的筆記
      2025-11-12 12:36:17
      又暴雷!48小時卷走129億,200萬會員血本無歸,“傳銷巨頭”涼了

      又暴雷!48小時卷走129億,200萬會員血本無歸,“傳銷巨頭”涼了

      墨印齋
      2025-11-11 16:31:34
      美國難脫對華依賴!白宮態度180°轉變,美專家:優勢在中國

      美國難脫對華依賴!白宮態度180°轉變,美專家:優勢在中國

      瞳哥視界
      2025-12-08 22:15:03
      越南最大軍艦訪問中國,一次原本友好的訪問卻出圈,被全方位碾壓

      越南最大軍艦訪問中國,一次原本友好的訪問卻出圈,被全方位碾壓

      鐵錘簡科
      2025-12-08 19:25:21
      同為華人,聽到邱黨和張本的采訪,才明白兩個人的不同全在骨子里

      同為華人,聽到邱黨和張本的采訪,才明白兩個人的不同全在骨子里

      千言娛樂記
      2025-12-05 23:47:06
      2025-12-08 23:04:49
      AI寒武紀 incentive-icons
      AI寒武紀
      專注于人工智能,科技領域
      1002文章數 375關注度
      往期回顧 全部

      科技要聞

      外面有人挖,家里有人跑:蘋果亂成了一鍋粥

      頭條要聞

      "00后"在上海跑外賣5年攢112萬:除了吃飯睡覺都在接單

      頭條要聞

      "00后"在上海跑外賣5年攢112萬:除了吃飯睡覺都在接單

      體育要聞

      一位大學美術生,如何用4年成為頂級跑者?

      娛樂要聞

      章子怡被說拜高踩低 主動和卡梅隆熱聊

      財經要聞

      百億金融爆雷 浙商大佬"朋友圈"也不靈了

      汽車要聞

      純電全尺寸大六座 凱迪拉克"小凱雷德"申報圖曝光

      態度原創

      數碼
      健康
      藝術
      手機
      本地

      數碼要聞

      不到300元!小米開卷無線吸塵器,追覓云鯨石頭們笑而不語?

      甲狀腺結節到這個程度,該穿刺了!

      藝術要聞

      一棵樹的力量

      手機要聞

      澎湃OS進展通報引熱議:十個問題,為何僅修復一項?

      本地新聞

      云游安徽|七千年敘事,第一章寫在蚌埠

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 国产欧美精品久久久| 久久性色欲av免费精品观看| www.黄| 富婆如狼似虎找黑人老外 | 性欧美丰满熟妇xxxx性久久久| 天天干天天日三级| 9久久精品| 人人肏| 精品人妻伦九区久久aaa片| 尤物av无码色av无码| 亚洲欧洲一区二区免费| 91在线小视频| 婷婷99狠狠躁天天| 国产妇女馒头高清泬20p多| 国产91特黄特色A级毛片| 人人操网| 久久中文人妻| 国产精品天天在线午夜更新| 色综合久久中文综合久久激情 | 麻豆A∨在线| 国产AV一区二区三区| 柠檬福利第一导航在线| 欧美激情综合色综合啪啪五月| 愛爱视频在线3| 色就是色3751| 无码精品久久久久久人妻中字| 熟妇无码熟妇毛片| 曰批免费40分钟免费观看软件| 欧美?日韩?人妻| 48沈阳熟女高潮嗷嗷叫| 日韩AV高清在线看片| 日日夜夜撸免费视频| 天天躁日日躁狠狠躁欧美老妇小说| 2020精品国产自在现线看| 久久婷婷成人综合色综合| 人妻无码一区二区三区| 国产精品美女久久久| 强行糟蹋人妻hd中文字幕| 欧洲码亚洲码的区别入口| 黄色视频在线观看18| 亚洲日韩久久综合中文字幕|