<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      為何強化學習火遍硅谷?AGI的關鍵一步

      0
      分享至

      (點擊收聽本期音頻)


      采訪|泓君

      圖文|斯佳

      編輯|泓君 梓沁


      RL

      Reinforcement Learning
      強化學習)
      曾在AlphaGo時代登頂熱搜,又在大模型浪潮中沉寂多年。如今,不管在AI Agent的技術架構還是模型預訓練中,使用強化學習的方式搭建技術架構已經成為硅谷的一種主流趨勢。強化學習的頂級人才,正成為硅谷巨頭與投資人的香餑餑。

      本期《硅谷101》,主播泓君繼續對話Pokee.ai創始人、前Meta AI應用強化學習團隊負責人朱哲清,我們將討論:

      1.模型進化與Agent的商業化中,最新技術方向是什么;

      2.Meta收購ScaleAI背后的商業邏輯

      3.硅谷強化學習頂級人才的大本營


      歡迎關注《硅谷101視頻號》的音頻欄直接收聽本期播客如 果 你喜歡我們的 節目,更推薦大家使用音頻客戶端來收聽,《硅谷101 》已覆蓋各大主流音頻平臺(渠道見文末),歡迎訂閱!

      以下是這次對話內容的精選:

      01

      強化學習與AGI的五個層次

      真實的分水嶺在哪?

      泓君:我注意到這一次OpenAI的發布會里也提到了在用RL

      Reinforcement Learning
      強化學習)
      的底層架構。我知道 RL
      (強化學習)
      的架構也是你的強項,你可不可以簡單介紹一下用 RL 的架構好在哪?它對應的是什么?


      來源:Scribbr

      朱哲清:我覺得先要簡單解釋一下的是RL的架構有很多種,有完全以LLM

      Large Language Model
      語言模型)
      為核心的基于 token
      (令牌)
      的,也有我們這種整個 action
      (行為)
      ,即我要讓 Agent
      (智能體)
      不再以 language token
      (語言令牌)
      作為決策的 element
      (元素)
      的強化學習。

      這兩種決策方式沒有好壞之分,他們的用例也不太一樣。但是總體來說,為什么要用RL的framework

      (框架)
      去完成 Agent 訓練是因為有目標在。

      不管是 Deep Research

      (深度研究)
      ,它可能只需要從 token by token
      (逐個令牌)
      的 generation
      (生成)
      方式去盡可能地搜索相關信息,然后完成一整個報告;還是說 agentic system
      智能體系統)
      里面,像 Pokee 一樣,我的工具可能就是一個 tokenize
      (令牌化)
      的東西,然后我可能通過很多個工具放在一塊可以解決一個問題,它都是以目標為驅動。跟過往的 LLM 訓練很大的一個不同在于 LLM 本身的訓練可以通過大量的 supervise learning data
      (監督學習數據)
      完成,即 auto regressive
      (自回歸)
      的 training
      (訓練)
      方式,而 agentic system 很難做到。 Deep Research 仍然可以用一些,但是到了 tool calling
      (工具調用)
      這一部分,單一的工具調用可以通過數據來完成,但是變成工具鏈的時候就很難再完成一個自回歸的訓練。比如我有一個任務,其對應的是 50 個工具調用,然后把這個數據復議地給它去訓練,沒有人撞見過這個數據,也不可能通過互聯網去得到這個數據,因為互聯網上也沒有人產生過這種數據,所以如果你非要用這樣的數據就只能靠人為標注了。


      圖源:技術吧

      泓君:你覺得有哪些任務用監督學習微調的方式更加容易?有哪些任務是一定要通過這種RL

      強化學習)
      的方式來做呢?這兩者之間,我想它針對的任務也是不太一樣的。

      朱哲清:對,目前的共識是針對于世界上已有的很多協作數據、文本、視頻、圖片,這一系列有大量已標注數據的任務一般通過監督學習就可以得到很高的水平,然后再通過RLHF

      Reinforcement Learning from Human Feedback
      基于人類反饋的強化學習
      的 post training
      (后訓練)
      的方式,使這個能力再上一個臺階可以更符合大多數人類 preference
      (偏好)
      的效果。

      為什么要做這個是因為大量的監督數據中摻雜著好壞,并不是每一個數據點都是人類喜歡的,那它訓練完了以后是完全泛化到所有互聯網上的數據。下一步就是我能不能以人類喜好為目標去 fine-tune

      精調)
      一下我的模型,使它更偏向于人類喜好的模式,那這是 RLHF 的目的。

      那為什么現在甚至要講RL pretraining

      強化學習預訓練
      ,原因是在于很多的任務是只有目標驅動的。

      泓君:有哪些公司在做RL pretraining ?

      朱哲清:現在只有研究的組在做RL pretraining,但我們其實已經開始做一些類似于RL pretraining的東西。但它還有些prior knowledge

      (先驗知識)
      沒法靠預訓練得到,它基本上把中間的很多訓練的過程給扔掉了。

      以強化學習為核心的訓練機制是為了解決什么問題,很多的任務是以目標驅動的,比如寫代碼,數學、物理,金融機構的一些東西;城市規劃,operations

      (執行)
      、 research
      (研究)
      、 supply chain
      (供應鏈)
      ,它都是有明確目標的,世界機制也很完整,如果 a 發生了會出現 b ,在這種情況下 pretraining 就變得不是很有必要。

      第一,這種專業型的以目標為驅動的場景,大多數都是沒有任何數據的。數學跟代碼是唯一的倆個可能有相對較多數據點的場景。除此以外,我剛剛說的剩下那些點都沒什么數據,很難在互聯網上得到大量的數據去完成這個訓練。

      第二,質上它要解決的問題是非常泛化的。而書面上已經出現的數據大多數都非常聚焦在經常會發生的代碼問題和數學問題,非常高深難測的數學問題是從來沒有出現過的,那它就必須要通過一個 counter factual

      (反事實的)
      形式,即我要生成一些市面上從來沒有出現過的代碼、數學、物理規劃等輸出。然后靠一個 ground truth
      (真實標簽)
      的 validator
      (驗證集)
      來告訴我做得對不對,然后去 self train (自我訓練) 。這種訓練方式非常適合于有 ground truth 且能夠做出精確判斷的用例,然后去進行優化,這是 RL
      (強化學習)
      最閃光的時候了。其實有很多研究在網上都說過現在最大的問題是 verification
      (驗證)
      ,如果能找到一個好的 verifier
      (驗證器)
      就可以認為問題解決了,因為通過 RL 去完成這個驗證器的優化就可以。

      接下來我也講一個我認為可能有一定非共識的事情,在 verifier 之上,我們可能下一步最需要完成的就是怎么去提升驗證方向的模型或者驗證機制的泛化性,以及當 Agent 本身輸出在偏離人們實際看到的東西,如何能夠使 verifier 適應到新的輸出上使它可以完成更好的驗證。這個如果有誰能做出來,我們可能會真正踏入向 super intelligence

      (超級人工智能)
      邁進的一條路,因為可能它產出的知識就是人類所不擁有的。

      泓君:這個如果能做出來,它是可以解決幻覺的問題嗎?

      朱哲清:我覺得幻覺的問題是另外一個問題,這個東西很容易產生幻覺。就像我們當年看到Alpha Zero

      DeepMind
      開發的一種通用強化學習算法
      打敗人類一樣,它能夠走出的一些路子是人類正常想象不到的。甚至通過這個機制可能可以發現新的物理定理,發現人類所不擁有的知識,這可能是下一步真正邁向 super intelligence 的一個關鍵點,但是目前還沒有很好的突破。

      泓君:對,你說到這個點讓我想起Open AI對AGIArtificial General Intelligence,通用人工智能)的五個層次的劃分,其實也是因為Open AI在這一輪跟微軟爭奪控制權的問題上,把他們之前跟微軟簽的一份協議給曝光了。我覺得整個路徑就是在沿著你說的這個方向走,它的AGI的第一個層級就是聊天機器人,像ChatGPT的對話型AI。


      來源:OpenAI

      第二個是推理型的AI,這也是大家在去年看到的一個方向。第三個方向就是AI agent(智能體),這個AI不僅能思考,還能替代人類去執行多步驟的自主操作,完成一系列的任務,比如旅行訂航班、訂酒店,看起來今年也在朝著這個方向邁進了。第四個等級的AI就是創新型AI,稱為innovators(創新者),它需要具備創造性思維,能夠自主地發明新的工具或者方案。比如說在藥物發現中它可以去發現一個新的分子,這個時候AI就已經可以提出人類沒有想過的辦法,然后自己去找到創新型的解決方案。像你剛剛說的如果有了這個方案,AI是不是在創作性的問題上可以超越人的范疇,去提出一些人沒有想到的解決方式。第五個等級就是組織型或者是超人級的AI,它可以獨立承擔一個組織的全部職責,遠超常人,有點類似于“超級AGI”。

      朱哲清:不得不說的一個點是,他們對于AI能力的定義其實是偏產品能力的,而不是偏技術能力的。從某種意義上來說,第二跟三

      (層級)
      之間沒有一個巨大的跨越性。第一
      (層級)
      看你怎么定義它了?因為聊天機器人可以是非常普通的,也可能是我們現在看到的這些聊天機器人。然后第四跟第五
      (層級)
      之間我認為也沒有很大的 gap
      (差距)
      主要是第三到第四(層級)之間有個巨大的gap,核心原因就是驗證能力的無法跨越。

      從人的角度來舉例子,因為人的學習方式跟 RL

      (強化學習
      很像,比如小時候學一個東西,你可能可以判斷的東西都是在你知識范圍之內的;比如說你學會了加法,那你只能判斷 “1 + 1” , “2 + 2” 等于多少,你無法直接泛化到判斷 “3 - 2” 等于多少,這個 reasoning
      (推理)
      的過程并不是一個靠內在知識就可以完全提升的。我們現在所說的 verifiable
      (可驗證的)
      的,比如 reinforcement
      (強化)
      和 fine-tuning
      (精調)
      ,都是以一個內在驗證體系就可以完成的知識迭代。比如有一個 verification
      (驗證)
      是永久固定的,你可以通過這個 verification 去不停地提升,或者我預置了給你一定 verification knowledge
      (驗證知識)
      ,你可以根據這個知識不停提升。但如果一個 agent 可以做到 20 位數的加減法,但它從來沒有見過減法這個東西,就仍然沒辦法 verify 一個減法是對還是錯。

      泓君:我覺得人也是,哈哈。假設我學的是數學,或者說我從來沒有學過生物,我的數學領域的知識,我不知道生物的底層邏輯的話,我也很難泛化。

      朱哲清:對,所以最難的兩個地方是:

      1. 如何通過一個人類給定的簡單描述,比如減法跟加法的關系是什么,就能夠

      (得到)
      從 a 推理到 b 的驗證是什么,如果可以做到這一點,那 Agent 的驗證泛化性就會上到下一個臺階。


      2. 它能不能通過自我探索,基于現有知識的grounding(錨定),去完成對于未來知識驗證的延伸,這個也很難。比如你已經知道了大多數的堿和酸之間會生成二氧化碳,那你能不能對二氧化碳的性質進行一個簡單的了解,并且對未來可能會出現(針對)二氧化碳的問題做出驗證,這個也是非常難的。未來如果出現了類似的 Agent 產生的結果,能否verify 這個結果是對還是錯?這個也非常非常難。


      泓君:所以我們在說到AGI的五個等級時,從第三層級代理型AI到創新型AI,它可能是跨越從低于人類水平到超過人類的平均水平,甚至是超過最好的人類水平的時間基點。

      朱哲清:對。所以第三到第四

      (層級)
      之間是遠超過第一二三
      (層級)
      跟第四五
      (層級)
      之間的 gap
      (差距)
      的。我覺得第五層級可能還有一個很微妙的東西: agent 跟 agent 之間會不會出現人之間的 politics
      (政治)
      ?因為如果 Agent 之間是 decentralized
      (去中心化的)
      ,那么它們的 objective
      目標)
      可能互相之間會有 misalignment
      (不一致)
      ,在去中心化的 multi-agent system
      多智能體系統
      就有可能中出現 politics 。

      泓君:你指的人與人之間的

      politics
      ,比如辦公室政治斗爭?

      朱哲清:對,但是在Agent環境下會出現完全不一樣的

      (情況)
      ,因為他們的 objective 會互相沖突,一旦出現互相沖突會卡死在那,甚至有點像在計算機系統里面的那種 racing condition
      (競態條件)
      ,直接 lock
      (卡住)

      泓君:回形針問題。

      朱哲清:對,可能會出現類似的情況。但是第一二三

      (層級)
      跟第四
      (層級)
      之間是一個鴻溝,如果誰能解決的話會是非常非常大的一個突破。

      泓君:有大公司在沿著你說的方向,用RL

      (強化學習)
      做 pretraining
      (預訓練)
      的路徑去解決嗎?包括做驗證機制的泛化。

      朱哲清:驗證機制的泛化還沒有看到誰

      (在這個路徑)
      有非常大的突破,目前就是Human Knowledge Distillation(人類知識蒸餾)來做到驗證(能力)的提升。

      強化學習預訓練確實有很多人在提,但是它有一個致命弱點。因為RL是一個完全counter factual learning

      (反事實學習)
      的過程,一個無法避免的問題是它會不會出現能夠解決問題但人類看不懂的解決方案。比如我們寫一個代碼驗證能夠驗證 input
      (輸入)
      和 output
      (輸出)
      是什么。然后這個 Agent 寫了一段代碼,它確實能運行,但是里面所有的 operator
      (操作者)
      都是你看不懂的,比如 object
      (對象)
      的 variable
      (變量)
      的定義都是亂碼;它的加減乘除都是用的非常復雜的,編譯語言寫出來的,然后把它再硬生生摁進了原來的代碼里面,人類就看不懂了,但它就是能運行。所以它的 reward definition
      (獎勵定義)
      會非常重要,比如說 human readability
      (人類可讀性)
      要怎么樣?但是 human readability 你沒有辦法用一個 rule
      (規則
      來解決,所以就變成 unverifiable
      (不可驗證的)

      泓君:整個聽下來世界也很危險啊。我大概能理解為什么Jeffrey Hinton會那么悔恨自己去創造了AI的底層了,比如說當這個AI已經可以用人類不知道的語言寫出超越人類知識的時候,還是蠻危險的。

      朱哲清:那應該Richard S. Sutton會更悔恨一點因為Jeffrey Hinton所創造的neural network

      (人工神經網絡)
      更多的是能夠表示人類知識的,而要做到 counterfactua l
      (反事實的)
      的知識發現或者 policy discovery
      (策略發現)
      ,還得靠 RL
      (強化學習)
      。我覺得最終如果要談到監管的信息,對 reward design
      (獎勵機制設計)
      可能是需要一定的 regulatory efforts
      (監管治理)
      的。訓練的時候給 Agent 是什么樣的 incentive
      (激勵)
      ,可能會決定這個 Agent 訓練出來是什么樣子。

      泓君嗯嗯。關于剛剛我們在比較強化學習跟SFT

      Supervised Fine-Tuning
      監督微調)
      學習的時候,我也聽到了這樣一個說法,(我在有一期節目里面講過),比如說我們用強化學習的效果比 SFT 的效果好兩倍,但是它消耗的 token
      (令牌)
      數量可能在 10 倍之多,對于現在大家馬上要商業化,要應用來說,這個性價比算不過來,你怎么看?

      朱哲清:對,這個是很正常的,因為reinforcement fine-tuning

      (強化學習微調)
      的做法是說我只有一個reward function
      (獎勵函數)
      ,沒有其他信息,我要去完成那個目標。而SFT
      (監督微調)
      是說我已經有標準答案了,我只是需要想辦法去靠近那個標準答案就好。無法避免的就是RL fine-tuning
      (強化學習微調)
      的價格會更高,但是長期以往有更復雜的任務,它就沒有辦法做SFT,因為它沒有標準答案,所以就不再是一個選擇性問題。現在為什么會有選擇性問題是因為我們解決的問題還不夠復雜,到了未來問題會越來越復雜,當它到了極度復雜的時候就沒有選擇了。

      泓君:嗯對。然后你剛剛提到強化學習跟監督學習微調的這些方式不太一樣的一個大點:強化學習是在你沒有標注數據的時候也可以用的方法,但是比如說對傳統的方法,這個數據必須是標注的。而且這個可能已經慢慢的成為業界的一個共識了。

      02

      Meta收購ScaleAI

      背后藏著多模態焦慮

      泓君:那Meta 為什么還要收購Scale AI?

      朱哲清:數據的重要性在現在是有下降的。但是有一個方向是無法避免的:數據的標注性在Multimodality(多模態),特別是在視頻和圖片數據上,是目前無法跳開的一件事情。因為它的verification

      (驗證)
      能力會基于,比如說我們要做基于視頻跟圖像的 reinforcement fine-tuning
      (強化學習微調)
      ,它的圖像輸入的解析能力要達到很高的一個程度,而且沒有辦法靠 human rule
      (人類規則)
      來完成,它必須要靠模型的解析能力去把視頻和圖片的內容解析出來,在這個內容之上人類才能寫 rule 說我怎么去驗證它,這個解析能力就變得非常的難。因為我們都知道圖片,視頻里面的很多細節是我們的模型現在沒有辦法很好地解析的,特別是這種 Multi-model
      (多模態)
      的模型還是更多地偏向于文本的能力,所以他們可能想在多模態上面發力,而多模態以及 Robotics
      (機器人)
      的標注是目前還跳不開的一個問題,所以這可能會是 Meta 接下來發力的一個點。

      泓君:所以第一步多模態上還是得有先解析或者已標注好了的數據,把所有的數據先有一個基礎的訓練以后,我們再看強化學習能怎么處理。

      朱哲清:我現在看的整個路徑都是這樣。ChatGPT最早是我有大量的數據訓練出了模型,這個基礎模型再做一些SFT

      (監督微調)
      把它變成一個精煉的基礎模型,在這之上,最早是說我們拿一些數據訓練一個 reward model
      (獎勵模型)
      ,然后通過這個獎勵模型再去訓練我的 language model
      (語言模型)
      ,用 RL
      (強化學習)
      去訓練語言模型讓它變得泛化性更強,或者說它在未知領域能夠達到更好的效果。現在慢慢就變成強化學習微調,不要獎勵模型,我就用現在的共識或者說 LLM as judge
      (大語言模型評估)
      去訓練模型,那這個慢慢會變成一個共識。


      來源:DeepMind Safety Research

      在多模態上面現在還處于第一階段,第二步就是說我現在有大量的數據在訓練一個基礎模型,訓練完了以后我做了一些強化微調,那我怎么能夠去做一個標準化的judge

      (判斷)
      , verifier
      (驗證器)
      ,或者說一個 rule based
      (基于規則)
      的 verifier ?這個是目前不存在的一個東西,而且非常難做。因為一個圖像本身它沒有標準答案,所以它可能會說我先通過數據來訓練一個獎勵模型,然后使得我多模態能力變到最大。然后再說我多模態的能力已經很強了,我能不能通過這個輸入輸出的能力把它變成一個驗證器?然后通過這個驗證器我再去做強化微調,我覺得整個周期都是這樣在轉,到目前為止。

      泓君:對,你覺得Scale AI在標注圖片跟視頻的這些數據上更像是一個技術含量很高的一個工作,還是說它其實就是我找很多工人來給這個數據打標,只要找的人多打的標多,它就可以成為一個數據庫很多的地方,還是說它這個中間其實要很多考驗你技術的環節?

      朱哲清:我覺得第一點最難的地方就是文字的人為打標還稍微簡單一點,圖片的人為打標就變得更難了。比如說你要生成一個產品圖,這個產品圖是好還是壞? 100 個人估計有 100 個說法,那他怎么能夠標化那個產品圖好壞?這個非常非常難,所以這里面其實有alignment對齊)問題,這個是個技術問題,我覺得短時間內可能很難解決,他們可能會先寫一個非常復雜的rubrics

      (評分標準)
      ,然后去訓練這些人,說這些圖哪些比較好,哪些比較不好,然后 Robotics
      (機器人學習領域)
      就變得更難了,就是說在這個情況下, Robot 干了這么一件事情,是好還是不好?人可能都看不懂這個 Robot 在干嘛,但 Robot 可能自己心里有計劃要先做這個再做那個,但是人可能完全不懂這個 Robot 為什么干這件事情。所以多模態,以后再加上多模態加 action
      (執行)
      這一長串下來其實需要很多數據的支持。

      所以我覺得數據是個中期問題,如果你說非常短期,比如說資源,人才,中期可能會在數據上面有瓶頸,長期可能還是一個 optimization RL

      (強化學習優化)
      的問題,所以它短中長期所需要的資源和能力都不太一樣。Meta可能希望Scale AI能夠從某種意義上解決它自己的中期的數據問題,使得它自己多模態的能力會有比較大的提升。

      泓君:它挖的這批人算是在解決長期問題嗎?

      朱哲清:對。

      泓君:短期是什么?是算力?

      朱哲清:對,我們最早不是遇到了卡不夠,各種各樣的問題,那個問題已經解決了,現在就到中期問題,中期就說我們可能已經解決了一些在文字,代碼上面的 optimization

      (優化)
      問題,但現在多模態上面是不是也能夠解決這些問題?在數據上還是有缺口的,那之前的那些數據缺口,在 GPT4o 之后的那一整批的 iteration
      (迭代)
      里面其實已經基本上完成了對于代碼和文字上面的這些迭代。那現在就到了多模態上面,等于是一模一樣的 gain chart
      (增益圖)
      ,那它只是把這個東西橫移過來了而已。

      泓君:但是也會有新的問題產生,比如說剛我們提到的審美、圖片、視頻的標注。

      朱哲清對,但我覺得都是時間問題。

      泓君:那你覺得你自己做Pokee AI,你搭AI Agent的底層開發哲學跟邏輯是什么?

      朱哲清:最核心的邏輯是我們現在認為AI Agent使用不像當年ChatGPT剛出來的時候那么簡單,但我們希望AI Agent的使用就跟ChatGPT一樣簡單,不只是在用戶

      consumer
      層面,而是對于任何的企業開發者
      professional
      來說,他們調用一個 Agent 就是對著一個簡單的 API
      (應用程序接口)
      ,一行 prompt
      (提示詞)
      ,就完成了整個 Agent 調用,得到的就是你最后的結果,而你不用擔心中間出現各種各樣的 Browser
      (瀏覽器)
      的環境,這些問題都不再存在,這是我們的開發邏輯。這是為什么?我們盡可能避免了非常非常復雜的Infrainfrastructure基礎設施)架構,而是通過很多的集成把更多的能力全都壓在Agent本身的模型里面。而不是說我通過一個語言模型,然后不停地去調用市面上更多的 infrastructure
      (基礎設施)
      去 bypass
      (繞開)
      這個工具的能力,把工具的數量去壓縮。

      某種意義上說,你用瀏覽器就是用一個工具代替了幾千個工具,但是同時也意味著你的模型所需要的能力會更小一些,而我們的方式就是我們希望模型的能力變得最強,然后工具就直接把它鋪開,你就直接去想要用什么工具就好了,相當于一個 Agent 可以操作整個互聯網和一個 Agent 只能看一個網頁的區別。

      泓君:模型的能力用到最強還是接其他的基座大模型嗎?還是你們自己也會開發自己的模型?

      朱哲清:我們會開發自己的模型,我們現在很多的模型調用、選擇的這些能力都是我們自己的模型在做了,未來的話可能連語言模型的部分會跟我們的模型直接結合在一塊,變成一個單一模型。那個時候就從用戶的輸入到語義理解到工具選擇、規劃,到最后的結果全都變成同一個Agent來完成,此時這個Agent會變得非常好用,因為它不再像很多市面上的Agent一樣需要有大量的在Infra之間的跳轉,而是說你只要把 prompt輸進一個API,這個API就可以給你最終可交付的結果。

      泓君:為什么要開發自己的模型?這個是所有的通用型Agent它必須具備的一個技能,還是說它也可以只接大模型?

      朱哲清:如果你用瀏覽器,你用那些Sandbox

      (沙盒虛擬機)
      ,想讓另外一個編程 Agent 去完成編程的過程,然后再給結果,你可以不用自己開發大模型。原因是在于你把工具壓縮了,我去依賴于另外一個寫代碼的 Agent 去跳過這些工具的使用,或者說我選擇一個瀏覽器的 Agent ,去跳過你選擇工具的使用。這個就是通過壓縮工具的數量選擇更通用的工具來完成你的目標,而不是說直接選擇工具。

      為什么我們要去訓練模型的原因:第一,成本很高。你從一開始去解析用戶、理解、規劃,到你選擇Sandbox,其本身價格很高, 瀏覽器還有視覺的部分。第二,它速度很慢第三它的泛化性很差它訓練的時候見過很多網頁,當你進入到專業場景以后,它就很難。我舉個例子,有朋友問我們要的一個feature

      (功能)
      ,說我能不能從 PostHog ,一個分析網絡流量的網站上面,是個很復雜的網頁,去找到這個用戶本身的行為,然后基于用戶行為的一些指標,去導入一個分析的 script
      (腳本)
      ,然后在這個腳本里面得到幾個 segmentation
      (用戶分群)
      的圖表,再放進報告里生成一個 PDF 。就這么一個 Agent flow
      (流程)
      ,你是不可能通過瀏覽器 Sandbox 來完成的,你必須要直接訪問那個工具去得到最精確的數據然后再去做分析,那這個流程就變成了我們的優勢。

      類似于這種的用戶設立其實非常多,如在廣告分析,用戶分析里面,其實有很多的工具是在互聯網上面,但是正常的瀏覽器肯定是搞不定的,因為他們在訓練當中從來沒見過。所以我們能夠通過我們的 foundation model

      (基礎模型)
      把成本降下來,把泛化性提升,把它適用的 workflow
      (工作流)
      的類型有很大程度的拓展,而不只是限定于那幾個最簡單的購物,寫幻燈片,做些研究,其實有很多專業型的 workflow 是他們解決不了的。

      泓君:所以你們搭的是一個垂直的選Agent的模型對不對?

      朱哲清:選工具的模型,我們不選Agent,它不只是選單一工具,它是選一個工具序列,就是一個推理加工具選擇的一個模型

      泓君:因為我看見大家在談到AI的時候,大家其實一般有兩種派別:一種是我把越來越多的問題交給AI,然后端到端的訓練,它主打的就是人更少地干預,讓AI去犯錯誤,去學習。那另外一種就是說我們在真實應用中還是產品跟用戶體驗優先,那這種情況下我們就要減少幻覺,方式是我們還是要拆分一些細節,讓它的工作流中能確認的地方更加確認,讓產品跟應用能夠先用起來跟落地,你自己的產品哲學上更偏向于哪種?

      朱哲清:我作為一個CEO,現在一半的我是一個產品人,一半的我是一個研究者。作為一個研究者我同意第一個觀點,因為越是通用的環境能訓練出越強的模型。作為一個產品人,我會選擇第二種,因為用戶的體驗跟模型的能力是不成正比的,我們模型能力肯定很強,但是最后用戶的體驗可以是非常糟糕的。

      舉個簡單例子,我們之前遇到的問題就是我們模型其實選擇工具從頭到尾都是對的。我們的工具是可以發帖到所有平臺的,以社媒運營為例,之前我們有一段時間我發布完了以后,那個鏈接沒有給到你,有很多用戶就非常困惑的來問我這發文發到哪去了,他也不知道自己應該跑到那個賬戶里面去看是不是有新的視頻,新的圖片出現了,就導致能力其實都端到端打通了,但是這個用戶不知道你的產品在干什么。

      還有一個另外的例子,比如生成Google Slides

      (幻燈片)
      ,我們之前是給你個 Google Slides 鏈接你自己去看。但現在我們會直接把它 embed
      (嵌入)
      在我們的網頁里面,你可以直接在 Pokee 里面修改 Google Slides ,大家就會覺得這個是完全在我的掌控之下的一個東西,而不是說我還要跑到另外一個網頁里面去再改,完了回來再看你生成點什么東西。所以它有很多這種用戶細節在里面,跟你模型能力毫不相關。在這種情況下,作為產品或者作為一家創業公司,你必須要去打磨產品的細節。而模型能力是決定你的產品下限的,而產品的上限是由你的產品細節決定的。

      03

      強化學習正當時技術圈層與路徑正在重構

      泓君:對,我們剛剛好多次提到了Richard S. Sutton教授,他是強化學習的奠基人之一,也是2025年的圖靈獎得主。你在斯坦福讀博,自己學的也是強化學習嘛。所以你跟Richard S. Sutton的淵源是什么?


      來源:amii.ca

      朱哲清:Richard S. Sutton跟我的導師是鐵哥們,在他們提出RL

      (強化學習)
      這個概念,當時提出temporal difference learning
      (時序差分學習)
      的時候就認識了。當年證明Q-learning,

      最基礎的基于時序差分的策略學習,的理論能夠被function approximation

      (函數逼近)
      完成,那篇論文是我導師寫的。然后我在斯坦福讀博的時候其實見過好幾次Richard S. Sutton,甚至有一次在我導師家里,他來開party,然后大家就在一起吃燒烤。


      為什么我提到Richard S. Sutton?第一是他的這個經歷跟很多人不太一樣,他當年其實是罹患癌癥的,有好幾年都沒有任何工作,一度非常艱難,但是他從來沒有放棄RL這個研究方向。后來他去了University of Alberta

      (阿爾伯塔大學)
      ,Alberta給了他挺大的支持,但他整個人身體的狀態一直都不是很好,即便很多人都說強化學習是一個玄學,那時候也沒有放棄過。

      第二個就是他這個人,我跟他交流過幾次,他非常講原則。他的這批學生是我們公司的視覺科學家,所以有更多的淵源在里面。我們其實有聊很多我們初創的想法,模型的想法,他其實有非常多的前瞻性的想法,他不會拘泥于現在,比如說LLM(大語言模型)的能力,或者說基礎模型是否會取代強化學習。就是因為他的堅持,所以現在有了RL(強化學習)整個行業的基礎,有那么大的發展雖然現在市面上有很多謠言,很多人其實并不是特別懂強化學習,但所有人都在說我們無論如何要做強化學習。但真正能夠把強化學習優化好的,其實整個行業也就這么幾十號人吧。然后你可以看到都集中在這些人發的 paper 和做的產品里面,我覺得未來還是有很大的潛力的,而且要感謝他能夠對這個行業和他自己的領域有那么強的堅持,否則也沒有我們現在那么大的發展。

      泓君:嗯,然后你提到你跟Richard S. Sutton在聊天的時候,他提到了很多非常前瞻性的想法,你覺得有哪些想法是非常打動你的,讓你印象深刻的?

      朱哲清:我覺得他跟我提了很多次model plasticity(模型可塑性)這個問題,模型本身你是不可以無限制對它訓練的,你訓練到某一個程度它就會fall apart

      (崩潰)
      。其實在強化學習領域,之前經常看到叫catastrophic forgetting
      (災難性遺忘)
      ,就是說在你訓練很久很久以后,它開始忘記所有過往的學習到的知識,然后整個模型像瘋了一樣,它所有原來的 policy
      (策略)
      都消失。

      泓君:這個出現過嗎?


      朱哲清:出現過,很多文章里都提到過這種事情。這是為什么你一開始模型要建的足夠大,其實就像海綿一樣,然后你往里面不停地注水,你注水注到一定程度它滿了,那你再往里面注水會發生什么?就是它會流出來一些,但流出來的不一定是注入的水,很有可能是原來已經有的水,那如果原來已經有的一部分水是很重要的水,就像你大腦里面不停地灌輸知識,然后到最后你過載了,把加減乘除忘了,那是不是剩下的所有的知識體系就直接崩潰?這個問題本身叫模型可塑性,就是說它的可塑性到了某種程度就直接崩潰了,然后你要怎么去解決這個問題叫 continue learning

      (持續學習)
      ,現在可能有一天人類會生成一個1TB data,那10天是10TB,那未來可能生成數據還會越來越多,那你怎么能夠用一個模型無限地去訓練它,讓它仍然能夠對未來的知識進行獲取?這是不可能的。

      泓君:你覺得現在整個模型的訓練,比如說到GPT 4,甚至是GPT 5,它的數據量已經到極限了嗎?

      朱哲清:還沒有,模型的規模是一個線性在增長的過程,但是我們的數據量是一個指數在往上漲的過程,到了某一個階段一定會碰壁的,沒有辦法這樣規模化下去。其實我們在Pokee訓練的時候就已經遇到過這個問題,因為我們訓練的模型比較小,然后我們的工具量,數據量又很大,我們其實用小模型訓練到某一個點,它就突然整個performance

      (表現)
      就會掉得非常厲害。所以我們必須要把模型變得更大一號然后再去訓練,才能夠不出現這個災難性遺忘的情況,它取決于你的使用場景,有些使用場景可能小模型有一定的數據量它就已經發生了。

      另外一個他一直提的就是reward design

      (獎勵設計)
      的問題。在未來的世界,如果RL作為核心的模型優化機制了,那去設計這個reward model的人,他有什么樣的標準?這個激勵本身怎么設計能夠保證他的道德標準?這是一個非常麻煩的事情,因為強化學習是一個sequential decision making
      (序列決策)
      的問題,它的激勵是相加的。你可以定義一個單步的激勵是合理的。當它被加起來變成很多步以后,它就變得不是一個你可預測的東西,因為它的總體激勵如果是跟著策略
      Agent policy
      或者它的決策機制所改變,它的設計就可能跟你原來的想法已經背道而馳了。

      然后還有一個問題,比如說你有多個激勵怎么辦?你要同時優化四五個不同的目標,在這種情況下你怎么能夠做到平衡這些目標?在它們當中找到一個每個項目都做得相對比較好的狀態,這也是個問題。他也提出過這個想法叫generalize value function

      (廣義價值函數)
      ,怎么能夠去學到一個同時優化多個目標的價值函數?價值函數就是在強化學習里面去決策我去到下一步,去到哪個狀態能夠達到更優解的一件事情,然后它可以在一個狀態下得到多個目標所對應的值,這樣它可以判斷如何平衡這些對應的目標。

      泓君:嗯,挺有意思的。你覺得你從他身上學到了什么?

      朱哲清:如果你自己覺得第一性原理是對的,就不要放棄。有很多東西,中期、短期、長期所看到的結果都很不一樣。有些東西可能短期內你可以看到很多的結果,但你會卡死在那。但有些你可能退一步,真正去專注于你認為第一性原理是對的東西,你可能長期會得到更好的結果。

      泓君:嗯,你說到現在對RL

      (強化學習)
      研究得特別深的人,是以哪些高校或者以哪些中心為原點的?

      朱哲清:就是以Open AI早期的這批人,Pieter Abbeel的學生,可能現在PI

      Physical Intelligence
      機器人公司)
      里面的這批人,Sergey Levine的學生,Richard Sutton的學生基本上都在學界。除此以外,也有很多現在已經分支出來的好的教授,學界偏多一些,但是學界一個問題就是大家做RL都做得太理論,寫很多Regret Bound
      (后悔界)
      ,寫一些新的理論之類的。

      產業的話,就是David Silver為核心的DeepMind的那批人,我導師也在DeepMind,可能對強化學習的領域是最了解然后做的最好的,然后Microsoft也有,比如說像John Langford其實是做強化學習的理論方向很先驅的人之一,但是這個核心人群并不大,基本上不管他們怎么換地方,你都看到是這幾個核心人底下的學生,或者跟他們一同工作的這些人衍生出來的。

      泓君:對,你覺得倫敦會是一個RL的大本營嗎?我是想到當年AlphaGo、AlphaZero的那段時間,是強化學習非常火的一段時間,可能也是最早的一批人在研究強化學習的方向的,算是一個小熱潮吧。你覺得那個時候研究強化學習,跟現在大家去研究強化學習,方向上會有很大的不同嗎?

      朱哲清:2015-2018年是AlphaGo、AlphaZero、Mu Zero,到后面比如StarCraft游戲里面的,強化學習發展的一個巔峰,之后就開始沉寂了,然后所有人都說大語言模型可以解決所有事情,到現在突然之間強化學習又變火了。我自己看下來是覺得倫敦的David Silver他們這批人做的強化學習是有一個自己的風格的。它有一個formal verification

      (形式化驗證)
      的方式,一定能夠知道對或錯。基于這個verification
      (驗證)
      方式去訓練一個非常dedicated
      (特定的)
      ,只能解決一個問題的Agent。它沒有真的說通過一個非常通用的采取決策的action space
      (行動空間
      去訓練一個可以解決很多問題的,可驗證的Agent。但是現在倫敦其實做強化學習的人也不止David Silver,有很多人在做強化學習,我覺得大本營還是灣區,因為Open AI跟DeepMind的人都在那,大概率還是以那邊為核心。


      來源:Level Up Coding

      泓君:OpenAI是不是也是2015-2017年左右是花了很多時間去研究強化學習的?因為我記得他們早期的研究就是有各種游戲里面的推方塊,我覺得那些好像都是強化學習去解決問題的。

      朱哲清:對對對,最早的時候是Gym environments,他們希望能夠通過一些比較簡單的游戲證明強化學習的目標導向的解決問題的能力,但因為這些游戲就止于游戲。2018 年為什么慢慢RL

      (強化學習)
      開始沉寂的核心原因就是因為大家都認為RL就是一個游戲環境的產物,它沒有一個真正能夠解決實際問題的能力。但是直到現在我不得不承認的一點就是,強化學習還是作為一個大語言模型之上的optimizer
      (優化器)
      ,它并不是從零開始訓練出了一個可以解決通用問題的機制的。所以RL pretraining
      (強化學習預訓練)
      也是一個值得去深究的一件事情,這個事如果能做成的話意味著可以從零開始訓練一個完全通用的強化學習解決方案,這個會是一個非常大的一個成果。

      泓君:在我們整個的聊天過程中,我感覺你的整個思維方式,包括你的眼界還是非常非常超前的。但是當你真正去做產品或者去跟投資人賣一個想法的時候,可能有的時候是越超前是越沒有共識的,你有遇到類似的困難嗎?

      朱哲清:有,其實上禮拜在ICML panel的時候,其中有一個問題就是怎么跟投資人聊特別技術的初創項目,我個人認為是不要嘗試去賣你的想法,除非你的想法是共識,但是一旦你的想法是超共識的話,那投你的項目也沒有任何的意義。如果要去跟投資人聊的話,利用市場的共識,但是在這共識之上加一個邏輯飛躍,比如說市場共識是強化學習agent是很火熱的,大家都覺得這個東西有未來,你的唯一的那個吸引人的點是說你怎么能夠實現它?同時你實現它的時候你有什么優勢?你告訴他我訓練強化學習Agent的這個方式跟所有人都不一樣其實是沒有任何意義的,所有人都不會理解說你為什么跟別人不一樣,你要說的是你要解決的這個問題在你的技術基礎之上是很有意義的,以及你為什么有這個不公平的優勢。

      泓君:剛剛其實我們在談到你做這個AI Agent底層哲學的時候,我也把兩種不同的思維方式有丟給你。然后我們剛剛在評價幾家不同的AI Agent公司的時候,比如說GensPark、Manus、 Open AI 的ChatGPT,還有Fellou,所有的公司大家用的方法都不太一樣,你覺得未來Agent能在這中間脫穎而出的核心點是什么?是技術路線、產品、還是什么樣的決策?

      朱哲清:我覺得這些公司最后都會走向不一樣的專注領域,像早期的,Mistral,OpenAI,Anthropic,大家后面都走了不一樣的路。最后會有一個區分化、多樣化的過程,然后大家會發現Agent 都越發展越不一樣,因為創始人也不一樣,人在這里面會自然地發展出很多不一樣的一些決定。第二,技術方向會是一個決定一家公司能否存活下去的核心,原因在于agentic system

      (智能體系統)
      的成本很高,雖然你融了很多錢,但是很多 AI 公司的一個核心痛點就是你融了錢,你的growth
      (增長)
      越快,你死得越快,因為你都是入不敷出的在做增長,然后你下一輪融資的時候給所有的投資人一看,你的毛利潤全是負的50%,第一反應就是就算我投了你下一輪你有什么辦法把它轉正嗎?你說你沒有,那投資人也不會買賬。總體來說就變成了一個無限消耗的過程,那技術的提升會使得你可以把這個毛利潤轉正,對投資人來說,只要能增長,那就值得投。所以技術路徑是你能夠活下來的核心,但是最后的產品發展形態以及最后的市場的格局會是 創始人以及這個團隊的決策所導致的,而且區分度會很大。

      泓君:對,講得特別好。如果你技術路徑選錯了,那可能整個AI的成本就太高了,短時間還可以靠融資維持,但是這不是一個長時間能一直維持的事情。

      朱哲清:當然很多可能都估值很高,都快上10億美金了,可能被收購的可能性不太大。但是小一點團隊,現在相對拋得比較高的那種團隊,被收購的的概率其實都挺大的。所以這個市場可能接下來一到兩年都會是一個非常瘋狂的大魚吃小魚的過程,所以我們可以拭目以待,我覺得接下來的商業市場會是一個非常有意思的故事。

      【音頻收聽渠道】

      公眾號:硅谷101

      收聽渠道:蘋果|小宇宙|喜馬拉雅|蜻蜓FM|網易云音樂|QQ音樂|荔枝播客|嗶哩嗶哩

      海外用戶:Apple Podcast|Spotify|TuneIn|Amazon Music

      聯系我們:podcast@sv101.net

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      俄國防部前副部長薩多文科上將在莫斯科突然去世,享年56歲

      俄國防部前副部長薩多文科上將在莫斯科突然去世,享年56歲

      山河路口
      2025-12-26 19:47:21
      女兒非親生!多部門勸放棄索賠,這種調解還被宣傳成經典例子?

      女兒非親生!多部門勸放棄索賠,這種調解還被宣傳成經典例子?

      你食不食油餅
      2025-12-25 23:26:55
      多地整治“世襲崗”,網友:都是交叉安置,換形式不變本質,為啥

      多地整治“世襲崗”,網友:都是交叉安置,換形式不變本質,為啥

      你食不食油餅
      2025-12-25 23:38:53
      2036年奧運會舉辦地,有兩個國家很頭痛,一個中國,另一個是印度

      2036年奧運會舉辦地,有兩個國家很頭痛,一個中國,另一個是印度

      扶蘇聊歷史
      2025-12-26 18:01:18
      26央視春晚再度官宣,出來一群“牛鬼蛇神”,他們不再被追捧

      26央視春晚再度官宣,出來一群“牛鬼蛇神”,他們不再被追捧

      小張帥
      2025-12-24 15:56:14
      前TVB花旦被前未婚夫溫暖舉動感動,坦誠有被愛感覺:我覺得很甜蜜

      前TVB花旦被前未婚夫溫暖舉動感動,坦誠有被愛感覺:我覺得很甜蜜

      TVB劇評社
      2025-12-26 18:03:06
      周大福回應黃金牛馬吊墜陰陽打工人

      周大福回應黃金牛馬吊墜陰陽打工人

      界面新聞
      2025-12-26 15:42:10
      WTCC首日:王欣瑜惜敗戰袍受好評,絲襪復仇萊巴透露喜歡拼樂高

      WTCC首日:王欣瑜惜敗戰袍受好評,絲襪復仇萊巴透露喜歡拼樂高

      網球之家
      2025-12-26 22:33:08
      已經亡國49年,國王卻依舊健在,仍繼續號召同胞企圖復國

      已經亡國49年,國王卻依舊健在,仍繼續號召同胞企圖復國

      芊芊子吟
      2025-12-26 21:50:02
      臺灣青年實拍!島內隨處可見“臺灣省”車牌

      臺灣青年實拍!島內隨處可見“臺灣省”車牌

      看看新聞Knews
      2025-12-25 15:17:01
      分手14年,再迎喜訊的劉詩雯,早已是張繼科“高攀不起”的存在

      分手14年,再迎喜訊的劉詩雯,早已是張繼科“高攀不起”的存在

      銀河史記
      2025-12-26 12:15:34
      江蘇一學生在校墜樓后已昏迷月余 公安及教育部門介入調查

      江蘇一學生在校墜樓后已昏迷月余 公安及教育部門介入調查

      封面新聞
      2025-12-26 19:01:04
      60:51!韓國瑜落錘,彈劾賴清德提案通過,鄭麗文有個擔憂或成真

      60:51!韓國瑜落錘,彈劾賴清德提案通過,鄭麗文有個擔憂或成真

      南宮一二
      2025-12-26 15:40:37
      廣東3消息!徐杰破紀錄,宏遠確定回購徐昕,崔永熙更新復出時間

      廣東3消息!徐杰破紀錄,宏遠確定回購徐昕,崔永熙更新復出時間

      多特體育說
      2025-12-26 22:48:23
      廣州恒大給9歲萬項開合同!違約金1億 董路驚了:以為最多500萬

      廣州恒大給9歲萬項開合同!違約金1億 董路驚了:以為最多500萬

      念洲
      2025-12-26 19:09:49
      北京某國企設計院:兩年多沒發工資了!

      北京某國企設計院:兩年多沒發工資了!

      黯泉
      2025-12-26 22:16:11
      一大早,被群毆兩次的女人!

      一大早,被群毆兩次的女人!

      鈞言堂
      2025-12-25 09:42:17
      “大傻”去世14年后,兒子入獄孫子身亡:有件事他騙了我們好多年

      “大傻”去世14年后,兒子入獄孫子身亡:有件事他騙了我們好多年

      小熊侃史
      2025-12-26 11:26:05
      1981年,華國鋒并未辭去所有職位,仍留著一個關鍵職務直到2002年

      1981年,華國鋒并未辭去所有職位,仍留著一個關鍵職務直到2002年

      賈文彬的史書
      2025-12-25 17:28:15
      姜昆翻車,美國境內唱紅歌,早年抵制洋節掛在嘴邊,回應未移民!

      姜昆翻車,美國境內唱紅歌,早年抵制洋節掛在嘴邊,回應未移民!

      你食不食油餅
      2025-12-26 06:13:35
      2025-12-27 01:03:00
      硅谷101 incentive-icons
      硅谷101
      從這里駛向未來
      134文章數 102關注度
      往期回顧 全部

      科技要聞

      收割3000億!拼多多"土辦法"熬死所有巨頭

      頭條要聞

      老人婚宴上被提醒孫女非親生 做鑒定后忍3年忍不了了

      頭條要聞

      老人婚宴上被提醒孫女非親生 做鑒定后忍3年忍不了了

      體育要聞

      開翻航母之后,他決定親手造一艘航母

      娛樂要聞

      王傳君生病后近照變化大,面部浮腫

      財經要聞

      投資巨鱷羅杰斯最新持倉:只留四種資產

      汽車要聞

      兩大CEO試駕 華為乾崑*啟境開啟首款獵裝轎跑路測

      態度原創

      親子
      本地
      游戲
      時尚
      公開課

      親子要聞

      女星為生二胎減重20斤,面對鏡頭哭訴:我明年45歲了,很怕懷不上

      本地新聞

      云游安徽|踏訪池州,讀懂山水間的萬年史書

      PS6或兼容PS1-PS5全世代游戲!索尼新專利曝光

      我們為什么需要節日穿搭?

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 香港三级日本三级a视频| 贡觉县| 99久久久无码国产精品免费 | 免费超爽大片黄| 好吊视频在线一区二区三区| ..真实国产乱子伦毛片| 1024视频在线| 激情久久av一区av二区av三区| 婷婷久久香蕉五月综合加勒比| 国内精品视频区在线2021| 蜜桃av网站| 欧美性猛交xxxx富婆| 真人祼交二十三式视频| 亚洲精品自拍在线视频| 91在线小视频| www插插插无码视频网站| 国产成人精品综合久久久| 她也色tayese在线视频| 岛国无码精品| 色综合天天综合网国产成人网| 日本在线看片免费人成视频| gogogo高清在线播放免费| 美女网站免费| 国产95在线| 精品综合久久久久久98| 免费乱理伦片在线观看| 国产熟女区| 亚洲第一网站| 欧美黑人欧美精品刺激| 久久精品免视看国产成人| 18禁网址| b站永久免费看片大全| 国产国语性生话播放| 久久毛片ddd| 中文字幕人妻熟女人妻a?6| 亚洲欧美日韩久久一区二区| 国产欧美日韩高清在线不卡| 肉大榛一出一进免费观看| 伊人久久大香线蕉av一区二区 | 日本特黄特黄刺激大片| 亚洲毛片多多影院|