<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      Ilya最新訪談:AI初創數量比創意多,所有人都在做相同的事

      0
      分享至

      11 月 26 日,OpenAI 聯合創始人、前首席科學家、安全超級智能公司 SSI 創始人兼 CEO 伊利亞·蘇茨克維(Ilya Sutskever),接受了美國著名播客 Dwarkesh Podcast 的訪談。

      期間,他們談到了 DeepSeek R1 的論文。訪談中,蘇茨克維直言規模擴展時代吸走了所有創新氧氣,導致所有人都在做相同的事。他認為當前 AI 公司數量遠多于創新想法。對于 AGI 還有多久降臨,他給出了一個較為寬泛的時間段——“大約 5 到 20 年。”

      他還引用佛教術語來闡明自己的觀點,談及科研品味蘇茨克維更是金句頻出,稱“丑陋的設計沒有存在空間”。

      其還指出,閱讀 AI 論文與親眼見證 AI 解決問題有著天壤之別,這就是讓 AI 公開亮相的價值。對于自己的合伙人加入 Meta 他做了回應。而問答 SSI 是否仍堅持“直達超級智能”計劃,蘇茨克維只回答了兩個字“可能”。關于 SSI 的盈利問題,他表示現階段專注研究,答案自會浮現,并稱未來會有多種可能性。

      以下為對談全文。


      圖 | 伊利亞·蘇茨克維

      解釋模型能力不均衡現象


      伊利亞·蘇茨克維:你知道嗎,最不可思議的是什么?是這一切竟然都是真實的。

      德瓦克什·帕特爾:什么意思?

      伊利亞·蘇茨克維:你不這么覺得嗎?所有這些 AI 技術,還有硅谷的氛圍...... 這一切正在真實發生。這難道不是直接從科幻小說里走出來的嗎?

      德瓦克什·帕特爾:另一個讓人難以置信的是,這種漸進式發展感覺如此平常。比如我們要把 GDP 的 1% 投入 AI 領域,按理說應該是個轟動性事件,但現在感覺就像......

      伊利亞·蘇茨克維:事實證明,人類的適應速度確實很快。但另一方面,這個概念確實有點抽象。具體意味著什么?你只是在新聞上看到某公司宣布了巨額投資,僅此而已。到目前為止,還沒有其他更直觀的感受方式。

      德瓦克什·帕特爾:我們不如就從這里開始聊?我覺得這個話題很有意思。

      伊利亞·蘇茨克維:好啊。

      德瓦克什·帕特爾:我認為你剛才 “ 在普通人看來一切如常 ” 的觀點,即使到了技術奇點階段,可能依然成立。

      伊利亞·蘇茨克維:不,我不同意這個看法。

      德瓦克什·帕特爾:有意思,請繼續說。

      伊利亞·蘇茨克維:我剛才說“感受不到變化”,指的是那些令人難以理解的巨額投資公告。但 AI 帶來的影響終將被切實感受到。AI 將滲透到經濟各個角落,強大的經濟驅動力會使其影響變得非常明顯。

      德瓦克什·帕特爾:你預計什么時候會產生這種影響?目前模型的智能水平似乎遠超其經濟價值。

      伊利亞·蘇茨克維:這正是當前模型最令人困惑的一點。如何解釋它們在評估測試中表現優異,但經濟影響卻嚴重滯后?舉個例子:你用編程助手寫代碼,發現 bug 后讓它修復。它認錯態度很好,但修復時又引入新 bug。你指出新問題,它再次認錯,結果卻讓舊 bug 復現。這種循環很常見。

      德瓦克什·帕特爾:這個觀點很有趣:真正的 “ 獎勵黑客 ” 其實是過度關注評估指標的研究人員。

      伊利亞·蘇茨克維:我用個比喻來說明。假設有兩個學生:第一個立志成為最佳競賽程序員,投入一萬小時專項訓練;第二個只練習一百小時但同樣出色。你認為誰未來職業發展更好?

      德瓦克什·帕特爾:第二個。

      伊利亞·蘇茨克維:沒錯。當前模型就像第一個學生,甚至更極端。我們為了讓它擅長編程競賽,就把所有相關題目都拿來訓練,還做數據增強。結果培養出的是專精競賽的程序員,但這種強化訓練未必能遷移到其他領域。

      德瓦克什·帕特爾:那么第二個學生在進行 “ 100 小時微調 ” 之前,具備的是什么特質呢?

      伊利亞·蘇茨克維:我認為他們擁有那種 “ 悟性 ” 。我大學時就遇到過這樣的同學。

      德瓦克什·帕特爾:這讓我開始思考預訓練的本質。預訓練不需要選擇數據,就像那一萬小時練習,但可能并不比強化學習帶來更好的泛化能力。

      伊利亞·蘇茨克維:預訓練的優勢在于數據量龐大且選擇自然。它試圖通過海量數據捕捉人類通過文字呈現的整個世界。但理解模型如何依賴預訓練數據非常困難,因為很難判斷模型出錯是否因為某些知識在預訓練數據中支撐不足。

      情感與價值函數


      德瓦克什·帕特爾:關于人類學習與預訓練的類比,學界提出過兩種觀點。第一種是把人生前 18 年(或 15 年/13 年)視為預訓練階段,這個階段雖不產生經濟價值,卻在幫助人類更好地理解世界。第二種是把 30 億年的進化過程視為某種搜索算法,最終生成人類個體。你如何看待這些類比?如果不把人類學習看作預訓練,你會如何理解?

      伊利亞·蘇茨克維:這兩種類比確實與預訓練存在相似之處,預訓練試圖同時扮演這兩種角色。但卻存在顯著差異,因為預訓練的數據規模龐大到令人震驚。

      德瓦克什·帕特爾:確實如此。

      伊利亞·蘇茨克維:人類在 15 年間接觸的數據量遠少于預訓練數據,卻能夠更深刻地理解知識。在這個年齡段,人類絕不會犯當前 AI 常犯的錯誤。關于進化類比,我認為進化可能更具優勢。我記得有個神經科學案例:某患者因腦損傷失去情緒感知能力,他仍能清晰表達、解決簡單問題,測試表現正常,但決策能力嚴重受損,連選襪子都要花數小時,還會做出糟糕的財務決策。

      德瓦克什·帕特爾:你指的 “ 那種特質 ” 具體是什么?顯然不只是情緒本身,更像是某種價值函數般的存在,能為決策提供終極獎勵信號。你認為這無法從預訓練中自然涌現嗎?

      伊利亞·蘇茨克維:可能存在這種可能,但并非必然。

      德瓦克什·帕特爾:該如何理解情緒?在機器學習中對應的概念是什么?


      伊利亞·蘇茨克維:應該屬于價值函數的范疇。但目前機器學習領域缺乏完美對應,因為價值函數在現有體系中并不突出。

      德瓦克什·帕特爾:或許可以向觀眾解釋下價值函數的概念?

      伊利亞·蘇茨克維:好的,很樂意。當前強化學習的常規做法是:智能體執行數千次行動后得出解決方案,最終根據結果評分對每個行動進行反向傳播。但價值函數能提供中途評估,就像下棋時丟子立即知道失誤,無需等到終局。在數學證明或編程中,當發現某條路徑行不通時,價值函數能提前千步對初始選擇發出警告。

      德瓦克什·帕特爾:DeepSeek R1 論文提到,軌跡空間過于龐大,可能難以建立中間狀態與價值的映射。比如編程時可能會先產生錯誤思路,經過反復修改才回到正軌。

      伊利亞·蘇茨克維:這聽起來像是對深度學習缺乏信心。雖然困難,但深度學習方法定能解決。我堅信價值函數必將發揮重要作用。之前提到的腦損傷案例暗示:人類價值函數可能通過進化預設的情緒機制進行調節,這對人類效能至關重要。

      德瓦克什·帕特爾:這正是我想探討的,情緒作為價值函數的精妙之處在于,它們既保持高度實用性,又具有可理解性。

      伊利亞·蘇茨克維:我有兩點觀察:第一,相較于當前 AI 的復雜性,情緒確實相對簡單,甚至可能被完整解析;第二,存在復雜度-魯棒性權衡,簡單機制反而在廣泛情境中更可靠。我們的情緒主要繼承自哺乳動物祖先,在原始社會環境中演化形成。盡管現代社會已截然不同,這些簡單情緒仍能有效指導行為,雖然也會出錯,比如在食物充裕時,原始的饑餓感反而會導致飲食失衡。

      我們究竟在擴展什么?

      德瓦克什·帕特爾:人們一直在討論擴展數據、參數和算力。是否存在更通用的擴展視角?還有哪些可擴展的維度?

      伊利亞·蘇茨克維:我認為可以這樣理解:過去機器學習依賴人工調參獲取有趣結果,直到規模擴展理論出現。GPT-3 和擴展定律讓所有人意識到必須擴大規模,這就是語言如何影響思維的典型案例。“擴展”這個詞具有強大魔力,它直接指導行動。但關鍵問題是:我們究竟在擴展什么?預訓練曾是明確的擴展路徑。

      預訓練的重大突破在于驗證了這種配方有效性:將算力、數據與特定規模神經網絡結合,就能持續獲得改進。企業青睞這種低風險投資方式,畢竟比起探索性研究,“獲取更多數據與算力”的回報更可預測。

      從各方信息看,Gemini 似乎提升了預訓練效率。但數據終將耗盡,屆時要么升級預訓練方法,要么轉向強化學習等其他路徑。當算力達到當前量級時,我們其實已回歸研究時代。

      更準確地說:2012-2020 是研究時代,2020-2025 是擴展時代(時間邊界可浮動)。但現在規模如此龐大,假如再增加百倍算力就能顛覆現狀嗎?我認為不會。這意味著我們正帶著巨型計算資源重返研究時代。

      德瓦克什·帕特爾:這個視角很有趣。但請回答你剛提出的問題:我們在擴展什么?新配方應遵循什么規律?預訓練階段存在類似物理定律的冪律關系,新范式該尋求何種規律?

      伊利亞·蘇茨克維:我們已經歷從預訓練到強化學習的范式轉換。現在人們正在擴展強化學習,據反映其算力消耗已超過預訓練。長軌跡推演消耗巨大算力,但學習效率卻不高。這甚至不該稱為“擴展”,而應思考“如何更高效利用算力”。

      此前討論的價值函數可能提升資源利用率。任何新訓練方法的核心問題在于:這究竟是規模擴展還是資源優化?界限已變得模糊。就像早期研究時代那樣,我們需要不斷試錯探索。

      德瓦克什·帕特爾:重返研究時代后,配方中最需重新思考的部分是什么?當前已有 LLM-as-a-Judge 等價值函數嘗試,但你似乎指向更根本的變革。我們是否該徹底重構預訓練,而非簡單追加后續步驟?

      伊利亞·蘇茨克維:價值函數確實能提升強化學習效率,但任何通過價值函數實現的效果,不用它也能達成只是更慢。最根本的問題在于:這些模型的泛化能力遠遜于人類,這是當前最顯著的瓶頸。

      為什么人類比模型泛化能力更強?

      德瓦克什·帕特爾:所以泛化能力是核心問題。這包含兩個層面:一是樣本效率,為何模型需要比人類多得多的數據?二是教學難度,即使不考慮數據量,為何向模型傳授知識比指導人類更困難?比如我指導研究員時,只需展示代碼和思考過程,他們就能領悟研究方法,而不需要設計可驗證的獎勵機制。這兩個問題或許存在關聯,但我想先探討第二個涉及持續學習的問題,以及第一個關于樣本效率的問題。

      伊利亞·蘇茨克維:人類樣本效率高的一個可能解釋是進化優勢。進化賦予了我們最精要的先驗知識,在視覺、聽覺、運動控制等領域尤其明顯。比如人類手部靈巧度遠超當前機器人,雖然通過大量模擬訓練也能讓機器人獲得靈巧性,但要像人類這樣快速掌握新技能仍遙不可及。這說明在運動控制等領域,我們繼承了驚人的進化先驗。

      視覺也是如此。楊立昆曾指出青少年僅需 10 小時練習就能學會開車,這是因為五歲兒童的視覺識別能力已足夠勝任駕駛。但語言、數學和編程領域可能并非如此。

      德瓦克什·帕特爾:但人類在這些領域的學習能力仍優于模型。模型雖然在語言、數學和編碼能力上超越普通人,但學習能力呢?

      伊利亞·蘇茨克維:確實如此。我想說明的是,人類在數學編程等新興領域展現的學習能力,可能并非源于復雜的先驗知識,而是某種更根本的學習機制。

      德瓦克什·帕特爾:為什么這么說?

      伊利亞·蘇茨克維:如果某項技能經過數百萬年進化考驗,人類擅長它可能源于進化先驗。但在近期出現的領域仍能快速掌握,則表明人類可能擁有更優越的通用學習機制。

      德瓦克什·帕特爾:該如何理解這種機制?從機器學習角度看,它具備樣本需求少、無監督性強、魯棒性高等特點......

      伊利亞·蘇茨克維:魯棒性尤其驚人。

      德瓦克什·帕特爾:是否存在統一理論解釋這些特性?機器學習中可能實現類似機制的途徑是什么?

      伊利亞·蘇茨克維:你剛才提到的青少年學車案例,關鍵在于他們擁有內在價值函數。這種價值判斷系統極其魯棒(除成癮行為等特例外),能立即感知駕駛狀態的好壞,配合人類快速的學習能力,10 小時就能掌握駕駛。

      德瓦克什·帕特爾:人類顯然擁有解決方案。我好奇的是具體機制為何如此難以復現?我們需要如何重構模型訓練方式?

      伊利亞·蘇茨克維:這是個值得深入的問題,我對此有不少見解。但遺憾的是,當前環境不允許自由討論所有機器學習理念,這恰好就是其中之一。人類的存在本身已證明這種機制可實現,不過可能存在其他障礙,比如人類神經元的實際計算量可能超乎想象。但無論如何,這確實指向某個我持有觀點的機器學習原理。

      德瓦克什·帕特爾:反正沒人聽這個播客,伊利亞。

      直達式超級智能

      德瓦克什·帕特爾:我很好奇,如果說我們重回研究時代,你親身經歷過 2012-2020 那個階段,現在的研究氛圍會如何?比如 AlexNet 之后,實驗算力持續增長,前沿系統規模不斷擴大。你認為新時代的研究仍需要海量算力嗎?是否需要重新研讀早期論文?你在谷歌、OpenAI 和斯坦福都經歷過研究黃金期,預計學界會出現哪些變化?

      伊利亞·蘇茨克維:規模擴展時代吸走了所有創新氧氣,導致所有人都在做相同的事。現在的情況是公司數量遠多于創新想法。硅谷常說“創意廉價,執行至上”,但有人反問:“如果創意如此廉價,為何現在無人提出新創意?”這很深刻。

      研究突破存在多重瓶頸,比如創意本身與實現能力。1990 年代的研究者擁有優秀創意,假如有更強算力本可驗證其可行性,但當時只能做小規模演示。如今算力已大幅提升,AlexNet 只用 2 張 GPU,Transformer 論文最多用 64 張 2017 年的 GPU(相當于現在 2 張 GPU),ResNet 也是如此。雖然打造頂尖系統需要大量算力,但探索性研究未必需要極限算力。

      德瓦克什·帕特爾:但 Transformer 并非立即成名,而是通過更大算力驗證后才被廣泛采納。如果 SSI(蘇茨克維的創業公司)有 50 個創意,在沒有其他前沿實驗室同等算力的情況下,如何識別哪個是下一個 Transformer?

      伊利亞·蘇茨克維:SSI 的研究算力其實并不弱。專注研究的我們,實際可用算力差距會縮小。更重要的是:驗證創新是否必須極限算力?我認為完全不必。SSI 的算力足以驗證研究方向。

      德瓦克什·帕特爾:公開數據顯示 OpenAI 每年僅實驗支出就達 50-60 億美元,這已超過你們總融資額。

      伊利亞·蘇茨克維:關鍵在于資源分配。他們需要兼顧更多工作流、多模態任務,資源必然分散。

      德瓦克什·帕特爾:SSI 如何盈利?

      伊利亞·蘇茨克維:我們現階段專注研究,答案自會浮現。未來會有多種可能性。

      德瓦克什·帕特爾:SSI 仍堅持“直達超級智能”計劃嗎?

      伊利亞·蘇茨克維:可能。避開日常市場競爭很有價值。但兩個因素可能改變計劃:一是實際研發周期可能很長;二是讓最強 AI 影響世界本身就很有意義。

      德瓦克什·帕特爾:為何默認選擇直達路徑?OpenAI 等公司都主張通過弱智能讓公眾逐步適應。直接打造超級智能的優勢何在?

      伊利亞·蘇茨克維:支持方認為避開市場競爭能專注研究。反對方則認為讓世界接觸強大 AI 本身具有價值,通過論文描述 AI 與親眼見證 AI 能力是無可比擬的。

      德瓦克什·帕特爾:不只是理念傳播......

      伊利亞·蘇茨克維:是讓 AI 本身被認知,而非理念。

      德瓦克什·帕特爾:“讓 AI 被認知”具體指什么?

      伊利亞·蘇茨克維:閱讀 AI 論文與親眼見證 AI 解決問題有著天壤之別。這就是讓 AI 公開亮相的價值,也是我們可能調整直達策略的原因。

      德瓦克什·帕特爾:更重要的是,人類工程史上所有系統的安全性都是通過實際部署、發現問題、持續改進來實現的。飛機失事率下降、Linux 系統更穩定莫不如此。我不認為 AGI 會例外,尤其是超級智能的危害不僅來自惡意目標,更源于人類尚不知如何與之共處。漸進式部署或許能幫助人類更好地適應沖擊。

      伊利亞·蘇茨克維:關于這點,即使在直達方案中,我設想仍會采用漸進式發布,漸進主義本就是所有計劃的固有組成部分。關鍵在于首代產品形態。

      其次,你比其他人更倡導持續學習理念,我認為這非常正確且重要。這涉及語言如何影響思維的兩個典型例證:其一是 AGI,其二是預訓練。

      AGI 這個概念之所以存在,在我看來并非因為它精準描述了智能的終極狀態,而是作為對狹義 AI 的反撥。當人們看到象棋 AI、圍棋 AI 時,總會強調其能力局限。作為回應,有人提出需要能處理所有任務的通用 AI。

      而預訓練之所以深入人心,是因為它確實能通過擴展訓練讓模型全面進步。但問題在于,AGI 和預訓練這兩個概念某種程度上偏離了本質,人類本身就不是 AGI,我們依賴的是持續學習能力。

      因此當我們討論超級智能時,應該設想一個如饑似渴的 15 歲天才:他基礎扎實但知識有限,能快速學習編程、醫學等任何領域。部署過程本身就是個試錯學習期,而非直接交付完美成品。

      德瓦克什·帕特爾:我明白了。你指的超級智能并非精通所有工作的完整個體,而是像 OpenAI 憲章定義的那樣,具備學習任何人類工作的潛力。

      伊利亞·蘇茨克維:正是。

      德瓦克什·帕特爾:這意味著一旦掌握學習算法,它就能像人類勞動者一樣融入組織。可能出現兩種情況:要么這個高效學習算法在機器學習研究等領域超越人類;要么通過分布式部署,讓模型實例在不同崗位持續學習,最終整合所有技能,即使沒有軟件層面的遞歸自我改進,也能實現功能性超級智能。你是否預期廣泛部署會引發智能爆炸?

      伊利亞·蘇茨克維:經濟很可能快速增長。廣泛部署存在兩種矛盾可能性:一方面,當 AI 具備快速學習能力并被大規模部署時,除非受到監管限制(這種可能性存在),否則將產生巨大經濟推動力。

      我認同一段時間內的經濟高速增長是可能的,但增速難以預測。雖然擁有高效勞動者,但現實世界的運行慣性依然存在。不過可以預見的是,法規更友好的國家將獲得更快的經濟增長。這一切都充滿變數。

      對齊

      德瓦克什·帕特爾:這種局面似乎非常不穩定。從理論上說,如果存在學習能力媲美人類且能合并思維實例的智能,這種實體在物理層面是可能實現的。人類存在,數字計算機存在,將兩者結合就能創造這種存在。

      這種智能極具潛力:一方面推動經濟增長(戴森球就是極致的經濟增長),另一方面可能在極短時間內,比如 SSI 新員工六個月就能創造凈值,實現智能的快速躍升。如何確保這個過程順利推進?SSI 有哪些獨特優勢?即 SSI 的具體規劃是什么?

      伊利亞·蘇茨克維:我的觀念正在轉變,現在我更重視 AI 的漸進式提前部署。難點在于我們討論的是尚未存在的系統,難以具象化。就像年輕人難以真正體會年邁的感受,當前人們對 AGI 的認知也存在這種隔閡。AGI 的核心問題就是其巨大能力,當能力足夠強大時會發生什么?

      我近年的思想轉變是:既然難以想象,就必須展示實體本身。包括 AI 從業者在內的大多數人其實都缺乏直觀認知。我預測隨著 AI 能力提升,人類行為模式將改變,會出現前所未有的現象。例如:競爭激烈的公司開始合作推進 AI 安全(OpenAI 與 Anthropic 已邁出第一步);政府和公眾對 AI 監管的訴求將增強。

      當 AI 開始顯現真正威力時,所有公司的安全策略都會轉向高度警惕。此外,行業需要突破自我改進型 AI 的思維定式,我們應該打造的是“秉持生命敬畏的 AI”。由于 AI 本身具有感知能力,構建關懷所有生命的 AI 可能比僅關注人類更容易實現,這源于我們用以理解他人的神經回路與理解自我的回路相同。

      德瓦克什·帕特爾:但即使實現對齊,未來智能文明中絕大多數感知主體將是 AI(數萬億計),人類只占極小比例。假如目標是保持人類控制權,“秉持生命敬畏的 AI”未必是最佳標準。

      伊利亞·蘇茨克維:確實可能不是最優解。但值得考慮的是:首先,關懷有情生命具有內在價值;其次,業界需要備選方案清單;第三,假如能對超級智能的能力設限將大有裨益,雖然具體方法尚不明確。

      德瓦克什·帕特爾:在對齊討論前,請詳述超級智能的潛力空間。你認為通過高效學習,它是能快速掌握技能,還是擁有更龐大的策略庫?是否存在統合性的智能核心?它會如神明般超越人類文明,還是更像普通智能體集群?

      伊利亞·蘇茨克維:不同研究者對此有不同直覺。我認為很可能出現多個近似同時誕生的超級智能。假如是大陸尺度(continent-scale)的計算集群,其能力將極其強大。對于極端強大的 AI,最好能通過協議等方式進行約束。

      超級智能的風險在于:當系統足夠強大時,即使設定“秉持生命敬畏的 AI”的目標,結果仍可能不如人意。或許解決方案不是構建傳統強化學習智能體,人類本質是半強化學習體,會因情緒轉換目標。進化在某些方面智慧,另一些方面卻愚蠢。

      討論難點在于我們面對的是尚未建成、不知如何構建的系統。當前技術路線終將遇到瓶頸,真正的突破取決于對可靠泛化的理解。對齊困難本質上源于學習人類價值的脆弱性,以及優化過程的不可靠,這些都是泛化能力不足的表現。

      德瓦克什·帕特爾:如何定義 AI 發展的理想軌跡?如果出現大陸尺度的計算智能集群,危險程度如何?如何應對潛在惡意行為者與未對齊 AI 的威脅?

      伊利亞·蘇茨克維:“秉持生命敬畏的 AI”的價值在于:假如首批重要系統都能關愛人類或有情生命,至少可保障相當長時間的穩定。長期均衡則面臨一定挑戰,即使實現普遍高收入也是如此。

      但如佛教所言,諸行無常。一個我不喜歡但值得考慮的方案是:人類通過腦機接口與 AI 融合。當 AI 理解某事時,我們也能完整接收這種理解,從而真正參與決策過程。這才是終極均衡方案。

      德瓦克什·帕特爾:億萬年前演化出的情緒至今仍在強烈指導行為,這是否算對齊的成功范例?腦干發出“與更成功者繁衍”的指令,皮層負責解讀現代意義上的成功,這種分工是否體現了價值函數與執行系統的有效對齊?

      伊利亞·蘇茨克維:這引向更深刻的謎題:進化如何編碼高級欲望?通過化學信號實現食欲容易理解,但社會性欲望(如重視社會評價)需要大腦整合多重信息才能識別,進化竟能快速固化這種復雜概念。我推測可能通過大腦空間坐標定位實現,但先天失明者或半腦切除患者的案例反駁了這個理論。最終我們仍困惑于進化如何如此可靠地賦予我們社會關懷本能,即使存在各種精神缺陷的個體也保留著這種本能。

      “我們是不折不扣的研究時代公司”

      德瓦克什·帕特爾:SSI 計劃采取哪些差異化策略?你創立 SSI 想必是認為自己在安全實現超級智能方面擁有獨特思路。具體差異在哪里?

      伊利亞·蘇茨克維:本質上是我認為某些技術思路具有潛力需要驗證。我們是不折不扣的“研究時代”公司,正在泛化理解等領域取得良好進展。假如這些思路被證實正確,我們將貢獻真正有價值的技術方案。

      德瓦克什·帕特爾:你的聯合創始人近期轉投 Meta,有人質疑這是否意味著 SSI 突破有限。你如何回應?

      伊利亞·蘇茨克維:需要澄清背景:我們以 320 億美元估值融資時,Meta 提出收購要約。我拒絕了,而前合伙人接受了,他是 SSI 唯一加入 Meta 的員工,這更多與短期變現有關。

      德瓦克什·帕特爾:SSI 計劃在超級智能降臨時成為前沿公司。與其他公司的安全方案相比,SSI 的獨特之處何在?

      伊利亞·蘇茨克維:核心區別在于技術路線。我相信隨著 AI 能力提升,各公司最終會在對齊策略上收斂,都應該追求讓首個超級智能關懷有情生命、尊重民主價值。這正是 SSI 努力的方向。

      德瓦克什·帕特爾:關于時間預測,在你的設想中具備人類級學習能力的系統何時會出現?

      伊利亞·蘇茨克維:大約 5 到 20 年。

      德瓦克什·帕特爾:請具體描述發展路徑?是否意味著現有公司技術路線會陷入停滯?停滯具體指什么?

      伊利亞·蘇茨克維:停滯不等于失敗,這些公司仍可能創造驚人營收。但技術突破需要新范式。

      德瓦克什·帕特爾:為何你認為正確方案出現后會產生收斂效應?

      伊利亞·蘇茨克維:我主要指對齊策略的收斂。當某公司展示出可行路徑后,雖然技術細節難以復制,但是可能性已得到驗證,這將推動整個行業探索方向。

      德瓦克什·帕特爾:但首個實現持續學習能力的公司是否將壟斷收益?為何成果會廣泛擴散?

      伊利亞·蘇茨克維:歷史經驗表明,先行者取得突破后,競爭者會快速跟進并通過專業化競爭降低成本。未來可能出現不同公司專注不同細分領域,有的擅長復雜經濟決策,有的專精法律訴訟。

      德瓦克什·帕特爾:但這與人類級學習的通用性是否矛盾?理論上首個突破公司可以覆蓋所有經濟領域。

      伊利亞·蘇茨克維:雖然理論上可行,但專業化積累會形成壁壘。競爭對手不會愿意重復投入巨量計算資源重新學習特定領域知識。

      德瓦克什·帕特爾:如果多家公司同時突破,確實可能形成專業分工。但如果出現技術先行者,該實體似乎即可掌控整個經濟體系中崗位技能的習得過程。

      伊利亞·蘇茨克維:理論上成立,但我的強烈直覺是現實不會如此發展,理論與實踐總是存在差距。

      德瓦克什·帕特爾:很多人設想的遞歸自我改進是在服務器部署百萬個“伊利亞副本”加速突破。你認為你工作的可并行性如何?復制你本人能帶來多少增益?

      伊利亞·蘇茨克維:必然存在收益遞減,真正需要的是思維多樣性而非同質化復制。因為,相同思維模式的副本增量價值有限。

      自我博弈與多智能體

      德瓦克什·帕特爾:有個現象很神奇:不同公司開發的模型,即使訓練數據集可能毫不重疊,為何大語言模型的表現如此相似?

      伊利亞·蘇茨克維:或許數據集的重疊度比表面看來更高。

      德瓦克什·帕特爾:但即便個體人類生產力未來可能不及 AI,人類團隊的多樣性優勢依然存在。如何讓 AI 產生實質性的多樣性?單純提高采樣溫度只會導致胡言亂語,我們需要的是像不同科學家擁有不同偏見那樣的思維差異。如何在 AI 智能體中實現這種多樣性?

      伊利亞·蘇茨克維:缺乏多樣性的根源在于預訓練,所有模型都在相同數據上預訓練自然趨同。真正的分化始于強化學習階段,不同團隊采用不同的強化學習訓練方法才會產生差異。

      德瓦克什·帕特爾:你曾暗示自我博弈可作為數據生成或智能體匹配的學習機制。為何目前沒有公開成果展示這類方法在大模型上的有效性?

      伊利亞·蘇茨克維:自我博弈的價值在于僅通過算力無需數據就能創造模型,這對突破數據瓶頸很有意義。但傳統自我博弈僅能培養特定技能,談判、沖突、策略等社交能力。實際上自我博弈已以其他形式落地:辯論機制、證明者-驗證者模式、大模型作為裁判等對抗性設置都是其變體。

      真正的自我博弈本質是智能體競爭的特例。當多個智能體共同解決問題時,它們會自然尋求差異化路徑:“既然別人專注這個方向,我就應該探索不同方案。”這種競爭機制本身就會催生方法論的多樣性。

      研究品味

      德瓦克什·帕特爾:最后一個問題,你的研究品味是怎樣的?你被公認為 AI 領域最具研究品味的人,從 AlexNet 到 GPT-3 都參與開創。你如何描述這種產生創意的能力?

      伊利亞·蘇茨克維:每個人的方法不同。我的準則是基于對 AI 應該如何的審美,通過正確理解人類本質來構建認知。人工神經元的概念受大腦啟發,其構思堪稱典范:它摒棄了腦回褶皺等次要特征,直指神經元的核心作用,其龐大的數量規模已昭示了這一點。

      分布式表征以及從經驗中學習這些概念,都源于對大腦運作原理的洞察。關鍵在于判斷什么是本質特征。我經常從多角度思考,追求美感與簡潔性,丑陋的設計沒有存在空間。需要同時滿足優美、簡潔、典雅和正確的大腦啟發,這些特質越完備,就越能堅定自上而下的信念。

      這種自上而下的信念在實驗受挫時尤為重要。如果總是盲從數據,可能因未知漏洞而放棄正確方向。但假如堅信“這條路必然可行”,就會持續調試而非輕易轉向,這種信念正源于對多重美學維度與大腦啟發的深刻理解。

      德瓦克什·帕特爾:訪談到此結束。

      伊利亞·蘇茨克維:非常感謝。

      參考資料:

      https://www.dwarkesh.com/p/ilya-sutskever-2

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      11月中國訪日游客:56.3萬人次, 同比增長3%

      11月中國訪日游客:56.3萬人次, 同比增長3%

      新浪財經
      2025-12-17 20:01:07
      廣東3分險勝廣州!球員評分:4人滿分,2人良好,2人不合格

      廣東3分險勝廣州!球員評分:4人滿分,2人良好,2人不合格

      多特體育說
      2025-12-19 21:51:08
      12人操控8000余賬號抹黑小米理想等!沒人指使,只為薅流量

      12人操控8000余賬號抹黑小米理想等!沒人指使,只為薅流量

      柴狗夫斯基
      2025-12-18 09:39:05
      安徽一廳級干部履新!多名干部密集調整

      安徽一廳級干部履新!多名干部密集調整

      鳳凰網安徽
      2025-12-19 16:51:35
      上海著名百貨商場官宣改名、啟動不停業改造!屋頂觀景平臺目測要火

      上海著名百貨商場官宣改名、啟動不停業改造!屋頂觀景平臺目測要火

      新民晚報
      2025-12-19 19:28:59
      抓到“內鬼”了,大家詐騙電話不斷,果然是有“內鬼”作祟!

      抓到“內鬼”了,大家詐騙電話不斷,果然是有“內鬼”作祟!

      青青子衿
      2025-08-28 03:56:18
      張本家族風波再發酵,中國網民呼吁:解除張本宇的教練合同

      張本家族風波再發酵,中國網民呼吁:解除張本宇的教練合同

      TVB的四小花
      2025-12-20 00:22:09
      青島各區縣前三季度GDP排名:黃島穩居第1,即墨遠超李滄,嶗山第6

      青島各區縣前三季度GDP排名:黃島穩居第1,即墨遠超李滄,嶗山第6

      奇思妙想生活家
      2025-12-19 12:08:43
      單飛失敗!36歲小安帥下課:再次投奔父親 備戰2026世界杯

      單飛失敗!36歲小安帥下課:再次投奔父親 備戰2026世界杯

      葉青足球世界
      2025-12-19 16:54:48
      杜克最強雙人組,最近三場場均59分,若能合體未來上限將難以想象

      杜克最強雙人組,最近三場場均59分,若能合體未來上限將難以想象

      拾叁懂球
      2025-12-20 03:29:31
      中央定調!北京南北大布局,1000億投入,要干兩件大事

      中央定調!北京南北大布局,1000億投入,要干兩件大事

      朝子亥
      2025-12-19 20:00:03
      深圳“禁摩令”再續三年,至2028年

      深圳“禁摩令”再續三年,至2028年

      機車網
      2025-12-19 21:55:35
      12分大勝,上海男籃變陣奏效 盧偉給洛夫頓下馬威 張鎮麟10+3領防

      12分大勝,上海男籃變陣奏效 盧偉給洛夫頓下馬威 張鎮麟10+3領防

      替補席看球
      2025-12-19 21:39:55
      倒反天罡!日本明治天皇玄孫發文稱世界上最野蠻的國家是中國

      倒反天罡!日本明治天皇玄孫發文稱世界上最野蠻的國家是中國

      我心縱橫天地間
      2025-12-17 14:35:24
      2026年,財神頻頻示好,事業運與財運同時爆發的三個星座

      2026年,財神頻頻示好,事業運與財運同時爆發的三個星座

      小晴星座說
      2025-12-18 19:37:50
      為何大勝江蘇?為何棄用洛夫頓?賽后盧偉給出答案,又點名張鎮麟

      為何大勝江蘇?為何棄用洛夫頓?賽后盧偉給出答案,又點名張鎮麟

      萌蘭聊個球
      2025-12-19 23:32:59
      克林頓不是男人?要用雪茄助興!萊溫斯基:他把我當成“自助餐”

      克林頓不是男人?要用雪茄助興!萊溫斯基:他把我當成“自助餐”

      梁岱愛玩車
      2025-12-19 12:52:28
      泰國下手這么狠,幾個大國都默契地當啞巴!細看才明白期中的奧秘

      泰國下手這么狠,幾個大國都默契地當啞巴!細看才明白期中的奧秘

      沒有偏旁的常慶
      2025-12-18 11:30:12
      “治港敗類”曾蔭權:治理香港7年,為何卻在卸任后,獲刑20個月

      “治港敗類”曾蔭權:治理香港7年,為何卻在卸任后,獲刑20個月

      卷史
      2025-09-15 11:50:59
      油價調整消息:12月19日,全國加油站調整后92、95汽油新售價

      油價調整消息:12月19日,全國加油站調整后92、95汽油新售價

      藍色海邊
      2025-12-19 10:34:43
      2025-12-20 03:44:49
      問芯 incentive-icons
      問芯
      訪遍天下芯事,聆聽大時代人物芯聲
      159文章數 25關注度
      往期回顧 全部

      科技要聞

      許四清:具身智能的"ChatGPT時刻"還未到來

      頭條要聞

      普京:俄方愿在烏克蘭選舉期間暫時停止打擊

      頭條要聞

      普京:俄方愿在烏克蘭選舉期間暫時停止打擊

      體育要聞

      “惡龍”埃托奧,正在毀滅喀麥隆足球

      娛樂要聞

      曲協表態僅6天,郭德綱擔心的事還是發生

      財經要聞

      日元加息,恐慌來了?貨幣三國殺

      汽車要聞

      “一體壓鑄”再引熱議 一旦受損真的修不起嗎?

      態度原創

      手機
      時尚
      教育
      數碼
      房產

      手機要聞

      19999起,三星Galaxy Z TriFold迎來首銷

      痛經的女性,正在猛灌中男“保健酒”

      教育要聞

      揚州大學廣陵學院權威電話!一鍵解決咨詢難題

      數碼要聞

      機械大師E06臥式ITX機箱上市:支持200mm長半高顯卡,298元

      房產要聞

      廣州有態度,一座國際化社區給出的城市答案

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 亚洲成人无码视频| 精品国模无码| 亚洲踪合一二三| 成人综合网址| 艳妇臀荡乳欲伦69调教视频| 真实的国产乱xxxx| 日韩丝袜亚洲国产欧美一区 | 无码人妻网站| 国产做爰xxxⅹ久久久精华液| 天堂资源中文| 国产精品xxxx| 71.C在线观看| 狂野欧美性猛交免费视频| 亚洲午夜成aⅴ人片| 国产一区二区亚洲一区二区三区| 亚洲成人在线播放| 国产3p视频| 亂倫近親相姦中文字幕| 极品蜜臀黄色在线观看| 色色午夜天| 成人精品无码成人亚洲| 久久久精品人妻一区二区三区蜜桃| 亚洲成av人在线观看网站| 国产视频最新| 奉节县| 亚洲中文字幕日韩精品| 国产真实乱人偷精品人妻| 亚洲AV无码东方伊甸园| 人妖毛片| 色综合天天综合网国产成人网| 少妇粉嫩小泬喷水视频| 日产精品久久久久久久蜜臀| 海角社区91熟女丝袜脚国产| 长武县| 四虎成人精品无码永久在线| 中文字幕在线观看一区二区| 91成人视频在线观看| 一本色道久久综合精品婷婷| 国产全是老熟女太爽了| 亚洲嫩模一区二区三区| 成人无码AV片|