<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

      大模型黑箱被撬開:MIT華人聯(lián)創(chuàng),造出能追溯思考過程的大模型

      0
      分享至

      大模型的黑箱問題有解了?2 月 23 日,三名 MIT 博士在美國舊金山創(chuàng)辦的 Guide Labs 初創(chuàng)公司開源了一個 80 億參數(shù)的語言模型 Steerling-8B。它最特別的地方在于,所生成的每一個詞都可以追溯到三個源頭:輸入了哪些提示詞、動用了哪些概念、參考了哪些訓(xùn)練數(shù)據(jù)。之所以能做到這些,是因為 Guide Labs 在設(shè)計之初就給模型 Steerling-8B 事先埋了功能。


      (來源:Guide Labs)

      創(chuàng)始團隊的三個人在 AI 領(lǐng)域已經(jīng)泡了十幾年。

      Guide Labs 的 CEO 朱利葉斯·阿德巴約(Julius Adebayo)是尼日利亞裔,本科在楊百翰大學(xué)學(xué)習(xí)機械工程,后來在麻省理工學(xué)院拿了三個學(xué)位。2017 年他在谷歌做 AI 研究院,隨后進入基因泰克子公司 Prescient Design 做數(shù)據(jù)科學(xué)。他的博士論文研究方向就是調(diào)試機器學(xué)習(xí)模型的工具,2018 年他那篇被廣泛引用的論文證明了一個結(jié)論:現(xiàn)有的深度學(xué)習(xí)模型解釋方法根本不可靠。


      圖 | Guide Labs 的 CEO 朱利葉斯·阿德巴約(來源:領(lǐng)英)

      Guide Labs 的首席科學(xué)家阿雅·阿卜杜勒薩拉姆·伊斯梅爾(Aya Abdelsalam Ismail)在馬里蘭大學(xué)帕克分校拿的計算機科學(xué)博士,在 NeurIPS、ICLR 這些頂級會議上發(fā)了十幾篇論文。她在 2021 年那篇論文里提出使用顯著性指導(dǎo)訓(xùn)練來提升深度學(xué)習(xí)解釋性,同時還建立了一套時間序列數(shù)據(jù)的解釋性評估框架。加入 Guide Labs 之前,她也在 Prescient Design 做解釋性 AI 研究。


      圖 | 阿雅·阿卜杜勒薩拉姆·伊斯梅爾(來源:領(lǐng)英)

      第三位聯(lián)合創(chuàng)始人富爾頓·王(Fulton Wang)是麻省理工學(xué)院計算機科學(xué)博士,2015 年拿過美國統(tǒng)計協(xié)會統(tǒng)計學(xué)習(xí)與數(shù)據(jù)挖掘分會的最佳學(xué)生論文獎。


      圖 | 富爾頓·王(Fulton Wang)(來源:領(lǐng)英)

      這三個人湊在一起就是希望解決同一個問題:如何讓 AI 的解釋變得可信。

      當(dāng)前市面上流行的方法,就像給一個陌生人做腦部掃描,試圖通過觀察這個人的神經(jīng)活動來推斷他在想什么。Guide Labs 的 CEO 阿德巴約把這叫做對模型做神經(jīng)科學(xué)。但 Guide Labs 換了個思路,他們放棄從外部解讀的方法,轉(zhuǎn)而從內(nèi)部設(shè)計。也就是從一開始就把模型架構(gòu)做成可解釋的,讓每一層計算都留下痕跡。

      他們在模型里嵌入了一個概念層,相當(dāng)于給數(shù)據(jù)分了類,貼上了可追溯的標簽。這個層里有大約 3.3 萬個已知概念,是人工預(yù)先標注好的,比如基因編輯、量子計算這些話題。還有大約 10 萬個發(fā)現(xiàn)概念,是模型自己在訓(xùn)練過程中學(xué)會的。


      (來源:Guide Labs)

      當(dāng)你讓 Steerling-8B 生成一段文字,它輸出的每一個詞塊,都可以點開并查看以下三張清單。第一張清單是輸入特征歸因,會告訴你這個詞主要受到了提示詞里哪些詞的影響。第二張清單是概念歸因,會列出它動用了哪些概念,包括形容詞類的比如“臨床感”,也包括名詞類的比如“基因改造”方法。第三張清單是訓(xùn)練數(shù)據(jù)歸因,會告訴你這個詞涉及的概念主要來自哪些訓(xùn)練數(shù)據(jù)源,比如是來自 arXiv、維基百科還是 FLAN 數(shù)據(jù)集。

      這意味著如果模型輸出了一段涉及版權(quán)的內(nèi)容,你可以直接追溯到是哪篇訓(xùn)練文章影響了它。如果模型在回答醫(yī)療問題時表現(xiàn)得有偏見,你可以查看到底是哪些概念在起作用,然后就能精準關(guān)掉那個概念的開關(guān)。

      說到開關(guān),這個模型還有一個能力叫做概念控制。你在推理的時候,可以手動放大或者壓制某個概念的影響,不需要重新訓(xùn)練模型。比如說你想讓回答更專業(yè)一點,就把“專業(yè)”這個概念對應(yīng)的向量調(diào)大。再比如你想避免模型談?wù)摫┝Γ桶选氨┝Α备拍畹臋?quán)重調(diào)低。Guide Labs 稱,這相當(dāng)于使用幾十個概念的調(diào)節(jié),取代了以往需要成千上萬條安全訓(xùn)練數(shù)據(jù)才能做到的護欄效果。

      在性能上,Steerling-8B 訓(xùn)練使用了 1.35 萬億個 tokens,在各種基準測試上的表現(xiàn)和使用了 2 到 7 倍數(shù)據(jù)量的模型差不多。Guide Labs 表示,80% 以上的 tokens 貢獻來自概念層,而不是其他通道。這意味著模型的預(yù)測確實是沿著概念走的,而不是表面上給個解釋、暗地里使用其他方式干活。


      (來源:Guide Labs)

      要想驗證這一點其實很簡單:把其他通道關(guān)掉,看看模型還能不能正常工作。Guide Labs 的測試結(jié)果顯示,在各種任務(wù)上性能變化很小,這反過來證明了模型主要依靠概念在運轉(zhuǎn)。

      阿德巴約告訴媒體,把可解釋性做進模型的基因里,對于人類來說是一件長期的好事。據(jù)了解,Guide Labs 于 2024 年浮出水面,當(dāng)時從 Initialized Capital 拿了 900 萬美元種子輪融資,阿德巴約也是 Y Combinator 的畢業(yè)生。這次開源的 Steerling-8B 是他們目前為止最大的概念驗證。下一步,他們打算做更大的模型,并將開放 API 接口讓更多人用上這套可追溯的 AI 系統(tǒng)。


      (來源:Guide Labs)

      Guide Labs 也在公司官網(wǎng)的博客里介紹了一些接下來要深挖的方向:概念控制、概念發(fā)現(xiàn)、無需微調(diào)的對齊、訓(xùn)練數(shù)據(jù)溯源,這些目標的每一條背后都用論文支撐,有的是幾年前發(fā)的,有的是剛發(fā)的,總共二十多篇,分布在 NeurIPS、ICML、ICLR 這些地方。

      七年前,阿德巴約在麻省理工學(xué)院寫博士論文的時候,開頭第一句話大意是隨著機器學(xué)習(xí)系統(tǒng)部署到越來越多的高風(fēng)險領(lǐng)域,確保它們可靠、公平、安全變得至關(guān)重要。但是,如果沒有有效工具來理解這些系統(tǒng)為何做出某個決定,這些目標就很難實現(xiàn)。

      現(xiàn)在,Guide Lab 走出了第一步。Steerling-8B 還不能回答所有問題,每個解釋也不是完美無缺的,但它證明了這樣一條走得通的新路,那就是對著 AI 黑箱瞎猜是不行的,要在一開始就給黑箱安個燈。

      參考資料:

      Huggingface:https://huggingface.co/guidelabs/steerling-8b

      GitHub:https://github.com/guidelabs/steerling

      軟件包:https://pypi.org/project/steerling/

      https://techcrunch.com/2026/02/23/guide-labs-debuts-a-new-kind-of-interpretable-llm/

      https://www.guidelabs.ai/post/steerling-8b-base-model-release/

      https://www.linkedin.com/in/juliusadebayo/

      https://www.linkedin.com/in/ayaabdelsalamismail/

      https://www.linkedin.com/in/fulton-wang-aa904a75/

      運營/排版:何晨龍

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點推薦
      世界上最燒錢的十項運動,沒錢你真玩不起!

      世界上最燒錢的十項運動,沒錢你真玩不起!

      馬拉松跑步健身
      2026-02-28 11:37:18
      這么看侯佩岑挺慘,還在等周杰倫求復(fù)合呢,周杰倫跑去追田馥甄了

      這么看侯佩岑挺慘,還在等周杰倫求復(fù)合呢,周杰倫跑去追田馥甄了

      一盅情懷
      2026-03-06 16:27:03
      這家船廠宣布:史上最大幅度加薪協(xié)議達成

      這家船廠宣布:史上最大幅度加薪協(xié)議達成

      龍de船人
      2026-03-07 20:07:13
      隨著蘭帕德率隊2-0,萊斯特城1-1,赫爾城1-3,英冠最新積分榜出爐

      隨著蘭帕德率隊2-0,萊斯特城1-1,赫爾城1-3,英冠最新積分榜出爐

      側(cè)身凌空斬
      2026-03-08 07:03:56
      王曼昱退賽,太原賽8人名單公布,4男4女,陳熠無緣

      王曼昱退賽,太原賽8人名單公布,4男4女,陳熠無緣

      東球貓貓
      2026-03-08 10:01:42
      江西母女喝了3瓶牛奶,被老公數(shù)落2小時,眼神太嚇人,網(wǎng)友炸鍋

      江西母女喝了3瓶牛奶,被老公數(shù)落2小時,眼神太嚇人,網(wǎng)友炸鍋

      青梅侃史啊
      2026-03-08 07:18:01
      霍爾木茲海峽如果斷供,中國的石油能撐多久?我查完數(shù)據(jù)算了一遍

      霍爾木茲海峽如果斷供,中國的石油能撐多久?我查完數(shù)據(jù)算了一遍

      何毅商業(yè)財經(jīng)
      2026-03-08 09:07:44
      蘋果在美升級地理封鎖:字節(jié)跳動中文應(yīng)用遭全面限制,跨區(qū)下載已成歷史

      蘋果在美升級地理封鎖:字節(jié)跳動中文應(yīng)用遭全面限制,跨區(qū)下載已成歷史

      驅(qū)動中國
      2026-03-06 11:12:05
      美軍或用對付伊拉克的方法,對付中國?一旦開戰(zhàn),衛(wèi)星必然不保!

      美軍或用對付伊拉克的方法,對付中國?一旦開戰(zhàn),衛(wèi)星必然不保!

      阿籫你好
      2026-03-08 10:28:25
      新加坡急了,外長幾乎是拍著桌子,讓中國“尊重”馬六甲的地位。

      新加坡急了,外長幾乎是拍著桌子,讓中國“尊重”馬六甲的地位。

      南權(quán)先生
      2026-01-26 15:41:26
      難辨真?zhèn)危_實有可能,美媒:中國用殲16的舊雷達來升級殲11B

      難辨真?zhèn)危_實有可能,美媒:中國用殲16的舊雷達來升級殲11B

      嘯鷹評
      2026-03-07 23:24:42
      葛薈婕的男友吳海峰,32歲,廣西農(nóng)村初中學(xué)歷,曾是薇婭公司司機

      葛薈婕的男友吳海峰,32歲,廣西農(nóng)村初中學(xué)歷,曾是薇婭公司司機

      靜若梨花
      2026-03-08 11:15:50
      政府工作報告:加強初婚初育家庭住房保障;落實職工帶薪錯峰休假制度

      政府工作報告:加強初婚初育家庭住房保障;落實職工帶薪錯峰休假制度

      每日經(jīng)濟新聞
      2026-03-07 20:19:10
      全國人大代表、北京協(xié)和醫(yī)院院長張抒揚建議:年輕人,別錯過最佳生育年齡,為人父母的幸福感是無可替代的

      全國人大代表、北京協(xié)和醫(yī)院院長張抒揚建議:年輕人,別錯過最佳生育年齡,為人父母的幸福感是無可替代的

      觀威海
      2026-03-07 12:07:22
      地中海又傳來一聲巨響,俄6萬噸巨輪慘遭擊沉,普京:絕不輕饒!

      地中海又傳來一聲巨響,俄6萬噸巨輪慘遭擊沉,普京:絕不輕饒!

      甜檸聊史
      2026-03-08 01:56:33
      全新一代雷克薩斯ES美國售價揭曉:48795美元起,下月登陸國內(nèi)

      全新一代雷克薩斯ES美國售價揭曉:48795美元起,下月登陸國內(nèi)

      IT之家
      2026-03-06 18:19:38
      朝鮮戰(zhàn)爭期間:美軍原本已接近擊敗中國,卻碰上中國決死的指揮官

      朝鮮戰(zhàn)爭期間:美軍原本已接近擊敗中國,卻碰上中國決死的指揮官

      別人都叫我阿腈
      2026-02-13 21:25:33
      中央定調(diào)!15年最低繳費成歷史,2030年15年繳費還能正常退休嗎?

      中央定調(diào)!15年最低繳費成歷史,2030年15年繳費還能正常退休嗎?

      另子維愛讀史
      2026-03-03 21:58:41
      羅永浩怒懟算命大V!稱沒了膽也不慣著,網(wǎng)友:踢到鋼板了

      羅永浩怒懟算命大V!稱沒了膽也不慣著,網(wǎng)友:踢到鋼板了

      雷科技
      2026-03-07 23:58:00
      請12人吃飯結(jié)賬變四桌,我悄悄結(jié)賬走人,半小時飯店來電:人被扣了,我直接回答:和我沒關(guān)系

      請12人吃飯結(jié)賬變四桌,我悄悄結(jié)賬走人,半小時飯店來電:人被扣了,我直接回答:和我沒關(guān)系

      奶茶麥子
      2026-03-08 00:01:07
      2026-03-08 12:07:00
      DeepTech深科技 incentive-icons
      DeepTech深科技
      麻省理工科技評論獨家合作
      16376文章數(shù) 514725關(guān)注度
      往期回顧 全部

      科技要聞

      OpenClaw最大的推手是閑魚和小紅書

      頭條要聞

      伊朗公布行動細節(jié) 有導(dǎo)彈配備集束彈頭均命中目標

      頭條要聞

      伊朗公布行動細節(jié) 有導(dǎo)彈配備集束彈頭均命中目標

      體育要聞

      大傷后被交易,他說:22歲的我已經(jīng)死了

      娛樂要聞

      周迅新戀情曝光,李亞鵬等人已成過去

      財經(jīng)要聞

      油價要失控?

      汽車要聞

      9分鐘充飽 全新騰勢Z9GT首搭閃充技術(shù)26.98萬起

      態(tài)度原創(chuàng)

      時尚
      健康
      數(shù)碼
      公開課
      軍事航空

      2026春夏一定要擁有的6只包,好看又百搭

      轉(zhuǎn)頭就暈的耳石癥,能開車上班嗎?

      數(shù)碼要聞

      華為PC加速鴻蒙化 上半年或推出兩款鴻蒙PC新品!

      公開課

      李玫瑾:為什么性格比能力更重要?

      軍事要聞

      美第三個航母打擊群據(jù)稱準備部署至中東

      無障礙瀏覽 進入關(guān)懷版