<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

      楊立昆等聯(lián)合發(fā)文:為何AI還不能自學習?如何實現(xiàn)?

      0
      分享至

      當前,人工智能(AI)在自主學習方面存在一個根本性缺陷:缺乏像人一樣學習的能力

      兒童從出生起就在學習和行動,他們能靈活選擇關(guān)注什么、學習什么、何時行動、何時觀察,并在不同學習模式間自由切換。

      相比之下,AI 模型一旦部署,它的學習模式就固定了,每一次適配,都需要一支人類工程師團隊重新介入,負責準備數(shù)據(jù)、構(gòu)建訓練?案并根據(jù)性能指標進?調(diào)整。換句話說,AI 的自主學習能力被“外包”給了人類

      最近,來自 Meta、紐約大學和加州大學伯克利分校的Emmanuel Dupoux楊立昆(Yann LeCun)、Jitendra Malik三位研究者,對當前 AI 范式提出了系統(tǒng)性批判,并給出了一套受人類和動物認知啟發(fā)的學習架構(gòu)。

      該框架整合了基于觀察的學習(System A)和基于主動行為的學習(System B),并能夠根據(jù)內(nèi)部生成的元控制信號在這些學習模式之間靈活切換。

      此外,他們也借鑒生物體在進化與發(fā)育時間尺度上適應(yīng)現(xiàn)實世界動態(tài)環(huán)境的方式,探討了該框架的構(gòu)建方法。


      論文鏈接:https://arxiv.org/pdf/2603.15381

      為什么AI還無法自主學習?

      那么,當前的 AI 難以實現(xiàn)自學習,問題究竟出在哪里?研究團隊在論文中點出了4 個結(jié)構(gòu)性困境

      • 高質(zhì)量文本數(shù)據(jù)的供給已接近天花板;

      • 由于缺乏與環(huán)境的真實交互,模型無法學習超越人類現(xiàn)有知識的新內(nèi)容;

      • 過度依賴語言,而忽視了空間感知、具身認知以及對物理世界的扎根推理物理世界中的空間、具身和接地(grounded)推理;

      • 模型在部署之后便停止自我改進,無法實現(xiàn)終身學習。

      在論文中,研究團隊詳細探討了限制自主學習發(fā)展的三方面技術(shù)障礙,并提出了可能的解決方案。

      1.學習范式的碎片化

      現(xiàn)有學習方法分散于各個子領(lǐng)域,彼此之間缺乏交互,難以整合到統(tǒng)一框架之中。研究團隊認為,整合的起點是認識到兩種基本學習模式:通過觀察學習(System A)與通過行動學習(System B),系統(tǒng)梳理兩者之間可能的交互方式。

      2.學習能力的外部化

      當前 AI 的學習實際上是由人類完成的。數(shù)據(jù)篩選、訓練方案設(shè)計、性能監(jiān)控,全部依賴人類 MLOps 流水線。為此,他們提出了元控制架構(gòu)(System M),這是一個協(xié)調(diào)各學習組件間信息流的中央調(diào)度器,能夠自動重現(xiàn)通常需要人工完成的學習與數(shù)據(jù)過濾流程。

      3.缺乏規(guī)模化構(gòu)建方法

      研究團隊表示,目前還沒有一種有效手段在大規(guī)模架構(gòu)上實現(xiàn)上述組件的聯(lián)合訓練。他們提出了一種受進化機制啟發(fā)的雙層優(yōu)化方法,聯(lián)合學習元控制模型與 System A、System B 的初始狀態(tài),以實現(xiàn)魯棒的真實世界性能。


      圖|標準機器學習(左):機器本?并不能學習,它需要?條由研究?程師和數(shù)據(jù)科學家組成的流?線,負責收集、整理和處理各種類型的數(shù)據(jù),每?種數(shù)據(jù)都?于依次訓練模型的不同組件,每個組件都使?專?設(shè)計的損失函數(shù)和獎勵函數(shù)。這樣一來,機器就無法從自身經(jīng)驗中學習。自主機器學習(右):Agent 直接通過與世界的交互進行學習;數(shù)據(jù)源由 Agent 自身通過不同的學習模式(通過觀察、行動學習,以及可擴展為更高階的模式,例如通過語言互動或自我博弈進行學習)生成。團隊提出的架構(gòu)包含一個元控制器,使 Agent 能夠在真實世界中運行的同時進行學習。(圖片來自 ChatGPT)。

      讓機器像人一樣學習

      具體而言,研究團隊的核心思路,是將學習拆解為兩種基本模式,再由元控制系統(tǒng)動態(tài)調(diào)度兩者之間的協(xié)作。前兩者是學習模式,后者是調(diào)度兩者的元控制器。

      System A:觀察學習

      System A 對應(yīng)機器學習中的自監(jiān)督學習(SSL)。嬰兒 6 個月時能同時辨別人類與猴子面孔,至 9 個月則專精于人類面孔;新生兒能區(qū)分多種語言的音素,至 6 至 12 個月逐漸專精于母語語音,正是這一機制的典型體現(xiàn)。

      System A 的優(yōu)勢在于可擴展性強,能有效擴展處理大規(guī)模數(shù)據(jù)集,能夠提取具有層次感的抽象特征,并在各類下游任務(wù)中表現(xiàn)出強大的遷移能力。局限在于依賴人工設(shè)計的數(shù)據(jù)分布與任務(wù)生成器,缺乏主動決定獲取哪些數(shù)據(jù)的內(nèi)置機制,表征與 Agent 的行動能力脫節(jié),導致學習成果難以與現(xiàn)實行為場景有效對接,在區(qū)分相關(guān)性與因果關(guān)系時存在顯著困難。

      System B:行動學習

      System B 對應(yīng)強化學習(RL)與控制理論。System B 算法類包含通過交互運作的學習機制。行動是指通過一系列動作干預環(huán)境以達成特定目標,即在時間范圍 T 內(nèi)優(yōu)化獎勵 r。例如,兒童學習走路并非模仿他人步態(tài),而是經(jīng)由翻滾、爬行等非雙足階段,在反復試錯中逐步發(fā)展出成熟步態(tài)。

      System B 的優(yōu)勢在于天然適用于實時自適應(yīng)行為,能夠直接從稀疏或延遲結(jié)果中學習;但缺點是樣本效率極低,即使學習簡單任務(wù)也常需大量交互;在高維或開放式動作空間中表現(xiàn)欠佳;且高度依賴具有明確定義的獎勵函數(shù)和可解釋的動作,而這些在自然環(huán)境中往往難以實現(xiàn)。

      兩個System的雙向支撐

      從直觀層面來看,當可能的動作數(shù)量有限、世界狀態(tài)易于追蹤時,通過行動學習相對容易。但在現(xiàn)實中,動作空間隨自由度的增加呈指數(shù)級擴張,世界狀態(tài)也幾乎無窮無盡。這正是 System A 能夠發(fā)揮作用的地方,通過為狀態(tài)與動作提供壓縮表征、構(gòu)建預測世界模型,以及生成內(nèi)在獎勵信號,使 System B 的學習與規(guī)劃變得更加可處理。

      System A 為 System B 提供三類關(guān)鍵支撐:第一,通過自監(jiān)督學習方法,將原始感知數(shù)據(jù)(像素或聲波)壓縮為更抽象、更緊湊的狀態(tài)與動作表征,降低強化學習的搜索空間維度;第二,構(gòu)建預測世界模型,捕捉環(huán)境動態(tài),當模型以自身動作為條件時,可將 System B 從無模型強化學習轉(zhuǎn)變?yōu)榛谀P偷囊?guī)劃,以規(guī)劃代替盲目試錯;第三,提供預測誤差的內(nèi)在獎勵信號,引導 Agent 高效探索,并在獲得足夠置信后轉(zhuǎn)向利用。

      System B 同樣反過來支撐 System A。System A 的局限在于依賴被動或靜態(tài)數(shù)據(jù),沒有引導或數(shù)據(jù)篩選,它無法從無信息量、嘈雜或無關(guān)的數(shù)據(jù)流中學到有用的表征。System B 通過主動行為,可以從兩個方向支持 System A 的學習:通過主動自監(jiān)督學習顯式優(yōu)化 System A 的表征能力。例如選擇不確定性高或預測誤差大的數(shù)據(jù)片段,或通過干預行動揭示被動觀察無法觸及的因果關(guān)系;通過目標導向的自監(jiān)督學習優(yōu)化自身任務(wù)獎勵,將數(shù)據(jù)作為副產(chǎn)品提供給 System A,為其表征提供現(xiàn)實世界的行為錨點。


      圖|System A 和 System B 之間的交互模式概述:System A 根據(jù)過去狀態(tài)和動作向 System B 提供未來狀態(tài)的預測,并提供可能動作的層級抽象,以及可?于探索/好奇的 SSL 損失函數(shù)。System B 通過其動作為 System A 提供豐富且與任務(wù)相關(guān)的輸?,供其學習。

      然而,兩個 System 之間的協(xié)作并非是自然發(fā)生的。研究團隊基于兒童“模仿學習”的例子,指出這一能力依賴于 System A 與 System B 的緊密集成與協(xié)同運作,直觀呈現(xiàn)了兩個 System 協(xié)作的復雜性。


      圖 | 模仿學習中的學習模式交互。(a)自我博弈(Self Play)System B 向 System A 提供動作和狀態(tài)軌跡,System A 據(jù)此學習世界模型,并向 System B 提供基于預測的內(nèi)在獎勵信號。(b)社會觀察。System B 將注意力引導到為 System A 提供復雜軌跡(用于推斷潛在動作)的對等節(jié)點。(c)重定向模仿。System A 學會將外在行為和狀態(tài)映射到以自我為中心的行為和狀態(tài),幫助 System B 實現(xiàn)目標導向的行為。(圖?來? ChatGPT)

      System M:元控制

      System M 作為中央調(diào)度器,并不直接處理原始感知輸入或運動指令,而是監(jiān)控三類低維內(nèi)部元狀態(tài):預測誤差、不確定性、新奇度等認知信號。并據(jù)此動態(tài)連接或斷開 System A、System B 與情節(jié)記憶之間的數(shù)據(jù)通路,即時組裝和拆解學習與推理流水線。

      System M 的就位還讓兩種高階學習模式成為可能。通過交流學習,識別社會性觸發(fā)信號并根據(jù)信源可信度動態(tài)調(diào)節(jié)學習權(quán)重;通過想象學習,以記憶替代感官輸入、以內(nèi)部模擬替代真實動作,對應(yīng)生物中的記憶回放與睡眠鞏固機制。


      圖 | 認知架構(gòu)藍圖,其中 System M 作為?主協(xié)調(diào)器。System M 作為中央控制平臺,可?動執(zhí)?數(shù)據(jù)路由和訓練?案。

      如何從零構(gòu)建?

      A、B、M 三系統(tǒng)的藍圖已然成型,但隨之而來的是一個冷啟動難題:System A 依賴 System B 產(chǎn)生的數(shù)據(jù),System B 依賴 System A 提供的感知結(jié)構(gòu),System M 又依賴兩者產(chǎn)生的誤差信號。三者相互依賴,學習如何開始?

      研究團隊借鑒生物學中進化與發(fā)育尺度的區(qū)分,提出雙層優(yōu)化框架來破解這一困境。內(nèi)層對應(yīng)發(fā)育尺度:智能體在環(huán)境中交互,System A 與 B 在固定的 System M 調(diào)控下持續(xù)更新參數(shù)。外層對應(yīng)進化尺度:通過評估智能體整個生命周期的適應(yīng)度,優(yōu)化系統(tǒng)的初始元參數(shù),類比于遺傳信息對神經(jīng)系統(tǒng)初始狀態(tài)的規(guī)定。

      整個系統(tǒng)中唯一需要人工設(shè)計的,只有適應(yīng)度函數(shù)與訓練環(huán)境。參數(shù)初始化、數(shù)據(jù)過濾、學習課程,全部由 System M 自動提供。


      圖 | Evo/Devo 框架用于構(gòu)建自主學習 Agent。學習過程分為兩個層級:在發(fā)展層級中,學習者架構(gòu)(A、B和M)通過元參數(shù) ? 進行初始化。A 和 B 通過與由固定控制器M控制的環(huán)境交互來更新參數(shù);在進化層級中,phi 參數(shù)會持續(xù)更新以優(yōu)化系統(tǒng)生命周期內(nèi)的適應(yīng)度函數(shù) L。(圖片來自ChatGPT)

      為什么依然很難?

      研究團隊表示,自 AI 誕生以來,打造一臺像兒童一樣學習的機器始終是這一領(lǐng)域的核心愿景,但實現(xiàn)路上仍橫亙著多重現(xiàn)實障礙:

      模擬環(huán)境。訓練緊耦合的 A、B、M 三系統(tǒng),需要同時滿足兩個要求:足夠真實又足夠快速。在大規(guī)模情況下,引入社會性 Agent 或?qū)崿F(xiàn)師生交互尤其具有挑戰(zhàn)性。

      評估體系。當 Agent 趨于通用,任務(wù)特定基準便逐漸失去診斷價值。論文建議轉(zhuǎn)向以人類兒童學習速度為參照的評估體系。

      雙層優(yōu)化的可擴展性。在復雜環(huán)境中優(yōu)化終身學習過程,既需要大量計算資源,又對課程設(shè)計高度敏感。

      倫理問題。自主學習在靈活性、安全性與社會監(jiān)管之間引入了全新的權(quán)衡。

      • 自主性越強,系統(tǒng)與預期目標的對齊就越難保證,這可能需要明確的審計機制與對 System M 的干預能力。

      • 依賴內(nèi)部代理信號驅(qū)動的系統(tǒng),可能像生物一樣因信號與環(huán)境錯位而產(chǎn)生目標偏移乃至類似成癮或自我傷害的行為。

      • 隨著 Agent 行為愈發(fā)類人,用戶越容易產(chǎn)生情感依附與錯位信任,應(yīng)對這一風險需要對系統(tǒng)能力與局限性保持充分透明。

      • 一旦軀體信號被以類似疼痛或恐懼的方式處理,此類 Agent 的道德地位問題將真正無可回避。

      這些問題遠超當前 AI 技術(shù)所面臨的倫理挑戰(zhàn),自主學習在靈活性、安全性與社會監(jiān)管之間引入了全新的權(quán)衡,沒有一項可以被輕易忽視。

      未來與展望

      A 與 B 的深度整合已在受限領(lǐng)域取得成功,在 MuZero、Dreamer 等系統(tǒng)將學習到的潛在動力學與動作規(guī)劃結(jié)合,實現(xiàn)了超人類水平的游戲性能;視覺-語言-動作(VLA)模型也正將大規(guī)模被動預訓練表征直接用于引導機器人運動執(zhí)行。然而,這些系統(tǒng)的學習方案與運行邏輯依然由人類工程師固定設(shè)定,遠不及生物體中自主、流動的協(xié)作方式。

      研究團隊認為,距離完全自主、廣域?qū)W習系統(tǒng)的實現(xiàn),可能還有數(shù)十年時間。自主學習不是 AI 的加分項,而是其在真實世界可靠運行的必要前提。

      研究團隊同時強調(diào),構(gòu)建這類系統(tǒng)的過程本身就具有獨立的科學價值,這將為我們理解生物有機體如何在真實環(huán)境中學習與適應(yīng)提供不可替代的定量模型,并推動 AI 與認知科學的雙向深度融合。

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點推薦
      他從正軍職轉(zhuǎn)任副廳職,2年后找老帥、總長、總政主任申訴回部隊

      他從正軍職轉(zhuǎn)任副廳職,2年后找老帥、總長、總政主任申訴回部隊

      驚視
      2026-04-04 14:07:43
      上海VS吉林沖擊十六連勝!懷特塞德繼續(xù)統(tǒng)治內(nèi)線,盧偉展望季后賽

      上海VS吉林沖擊十六連勝!懷特塞德繼續(xù)統(tǒng)治內(nèi)線,盧偉展望季后賽

      老葉評球
      2026-04-04 16:48:31
      廣州早茶新規(guī),5月1日起實施→

      廣州早茶新規(guī),5月1日起實施→

      FM96.2廣州新聞電臺
      2026-04-04 10:16:58
      國安三輪不勝!媒體人熱議:輸球非個例,戰(zhàn)術(shù)粗線條陣容太單薄

      國安三輪不勝!媒體人熱議:輸球非個例,戰(zhàn)術(shù)粗線條陣容太單薄

      奧拜爾
      2026-04-04 17:55:30
      臺積電:我們已經(jīng)顧不上美國工廠了,大陸再不給稀土,大家都得完

      臺積電:我們已經(jīng)顧不上美國工廠了,大陸再不給稀土,大家都得完

      觸摸史跡
      2026-04-03 21:47:03
      戰(zhàn)功赫赫的紅軍軍團長,整編時竟無人愿收,主席震怒直言純屬瞎胡鬧

      戰(zhàn)功赫赫的紅軍軍團長,整編時竟無人愿收,主席震怒直言純屬瞎胡鬧

      磊子講史
      2026-03-30 15:41:41
      萬科裁員1.25萬人

      萬科裁員1.25萬人

      地產(chǎn)微資訊
      2026-04-03 14:24:44
      北汽集團3月銷量超18.2萬輛,同比增長7%

      北汽集團3月銷量超18.2萬輛,同比增長7%

      IT之家
      2026-04-04 13:14:17
      《紐約時報》:特朗普根本不知道如何收拾自己造成的爛攤子

      《紐約時報》:特朗普根本不知道如何收拾自己造成的爛攤子

      奇思妙想生活家
      2026-04-04 15:14:07
      學醫(yī)后才知道,心衰最危險信號,不是氣喘,而是頻繁出現(xiàn) 4 種異常

      學醫(yī)后才知道,心衰最危險信號,不是氣喘,而是頻繁出現(xiàn) 4 種異常

      今日養(yǎng)生之道
      2026-04-04 13:45:35
      你們都是什么時候?qū)δ信麻_竅的?網(wǎng)友:果然還是攔不住有心人

      你們都是什么時候?qū)δ信麻_竅的?網(wǎng)友:果然還是攔不住有心人

      夜深愛雜談
      2026-02-21 21:37:02
      俘虜表示要露一手,朱德:我給你官當,俘虜:老哥,你比我還能吹

      俘虜表示要露一手,朱德:我給你官當,俘虜:老哥,你比我還能吹

      棠棣分享
      2026-04-01 19:10:34
      日本加息,比戰(zhàn)火、油價更狠!

      日本加息,比戰(zhàn)火、油價更狠!

      犀利強哥
      2026-04-03 22:04:33
      覆水難收,“兩人的關(guān)系回不去了”

      覆水難收,“兩人的關(guān)系回不去了”

      觀察者網(wǎng)
      2026-04-04 17:14:08
      入世25年,中國的財神是“WTO!而不是趙公明

      入世25年,中國的財神是“WTO!而不是趙公明

      律法刑道
      2026-04-04 08:17:06
      張雪峰創(chuàng)造了蘇州歷史

      張雪峰創(chuàng)造了蘇州歷史

      言立方
      2026-04-02 07:38:47
      為楊瀚森入股!二老板操盤,開拓者有望成為“雙中國球員”戰(zhàn)隊?

      為楊瀚森入股!二老板操盤,開拓者有望成為“雙中國球員”戰(zhàn)隊?

      民宿體驗志
      2026-04-03 15:44:55
      他是男籃名宿,拿過籃板王,如今兒子也進CBA,成為頂級中鋒

      他是男籃名宿,拿過籃板王,如今兒子也進CBA,成為頂級中鋒

      大西體育
      2026-04-04 15:41:40
      日本足球什么水平?8個世界杯冠軍贏了7個,董路黃健翔各執(zhí)一詞

      日本足球什么水平?8個世界杯冠軍贏了7個,董路黃健翔各執(zhí)一詞

      夏侯看英超
      2026-04-03 21:28:31
      輕斷食再次封神!復旦大學研究證實:讓肝臟脂肪在3月內(nèi)少20.5%?

      輕斷食再次封神!復旦大學研究證實:讓肝臟脂肪在3月內(nèi)少20.5%?

      健康科普365
      2026-04-02 10:16:49
      2026-04-04 18:19:00
      人工智能學家 incentive-icons
      人工智能學家
      人工智能領(lǐng)域權(quán)威媒體
      4633文章數(shù) 37447關(guān)注度
      往期回顧 全部

      科技要聞

      內(nèi)存一年漲四倍!國產(chǎn)手機廠商集體漲價

      頭條要聞

      媒體:失蹤飛行員已成最大危機 特朗普恐無法體面退場

      頭條要聞

      媒體:失蹤飛行員已成最大危機 特朗普恐無法體面退場

      體育要聞

      剎不住的泰格·伍茲,口袋里的兩粒藥丸

      娛樂要聞

      闞清子口碑贏了!全開麥跑調(diào)拒絕重唱

      財經(jīng)要聞

      中微董事長,給半導體潑點冷水

      汽車要聞

      17萬級海豹07EV 不僅續(xù)航長還有9分鐘滿電的快樂

      態(tài)度原創(chuàng)

      教育
      藝術(shù)
      健康
      手機
      時尚

      教育要聞

      重磅!13位校長入選!北京市中小學卓越校長最新名單來了

      藝術(shù)要聞

      西漢巨幅真跡出土!這才是草書的源頭法帖,王羲之也要叫“祖師爺”

      干細胞抗衰4大誤區(qū),90%的人都中招

      手機要聞

      三星Galaxy Z Wide Fold曝光!4:3橫屏零黑邊:把手機變平板

      好養(yǎng)眼啊!大家快收下這份春日片單

      無障礙瀏覽 進入關(guān)懷版