<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      無需Attention的未來,RWKV-7能成為替代Transformer的那只黑天鵝嗎?

      0
      分享至


      作者 | 周一笑
      郵箱 | zhouyixiao@pingwest.com

      在當今大模型領域,Transformer架構占據著主導地位。然而,盡管Transformer非常強大,但它的計算需求隨著文本長度呈平方級增長,這導致運行成本高昂,同時限制了其擴展能力。

      與此相對,更為古老的RNN(循環神經網絡)架構雖然計算效率高,但通常無法達到Transformer的性能水平,并且訓練過程更為復雜和緩慢。

      在這一背景下,由元始智能創始人彭博提出了RWKV架構。RWKV融合了Transformer和RNN的優點,在訓練階段可以像Transformer那樣并行計算,在推理階段又能像RNN那樣高效運行。隨著發展,RWKV現已成為隸屬于Linux基金會的開源非盈利組織,其代碼、模型和文檔均公開透明,核心項目RWKV-LM在GitHub上開源,形成了一個活躍的開發者社區。

      自2021年8月首個實驗性版本RWKV-V1發布以來,RWKV架構經歷了多次重要迭代。它最初是對傳統循環神經網絡的改良嘗試,旨在解決處理長文本時的效率問題。2023年,RWKV-4實現了關鍵突破,使其能夠在普通硬件環境下高效處理各種語言和長篇文本。此后,RWKV逐漸被納入主流AI工具庫,RWKV社區的開發者甚至發現微軟Windows系統在Office組件更新后內置了RWKV的運行庫。

      剛剛發布論文的RWKV-7是這一架構的最新進展,它采用創新的動態狀態演化技術,支持100多種語言,能夠編寫代碼,處理超長文本。RWKV-7系列發布了七個預訓練模型,參數規模從0.19億到29億不等,訓練token數量從1.6萬億到5.6萬億不等,適應不同應用場景的需求。


      彭博稱RWKV-7設計靈感來自于“第一性原理”,核心想法是:模型的內部世界必須持續擬合外部世界。


      這聽起來有點抽象,但我們可以把它想象成一個“聰明的學生”在學習和適應環境的過程。QKV-softmax-attention(常見于 transformer 模型),它的做法是把所有“問題-答案”對放在一起,然后通過比較新問題 q 和每個“問題” k 的相似度,來決定答案是什么。就像小學生每次考試前,把課本里的所有題目都翻一遍,找到和新問題最像的那個,再寫下答案。

      而 RWKV-7 的方法不是每次都去翻課本,而是直接從這些“問題-答案”對中動態學到一個“變換規則”(k -> v 的映射)。這個規則就像小學生自己總結出的解題技巧,遇到新問題時,直接用這個技巧推導出答案。

      #01

      性能驗證:超同尺寸模型

      RWKV-的7創新在實際性能測試中也得到了驗證,在訓練數據遠低于 Qwen2.5、Llama3.2 等開源模型的前提下,RWKV-7-World 模型的語言建模能力在所有開源 3B 規模模型中達到 SoTA 水平。


      RWKV團隊采用 Uncheatable Eval 方法——利用 2025 年 1 月之后的最新論文、新聞文章等實時數據,測試開源大語言模型的真實建模能力和泛化能力。


      評測結果顯示,在同等參數規模的前沿模型中,RWKV-7 依然具備強競爭力,展現出優秀的適應性和泛化性能。團隊正在訓練數據更多的 RWKV7-G1 系列模型,目標是在這個榜單同樣超越所有其他前沿模型。


      #02

      技術創新:動態狀態演化

      RWKV-7究竟通過哪些技術創新實現了這些令人印象深刻的性能表現呢?根據由社區成員聯合撰寫的RWKV-7架構論文《RWKV-7 "Goose" with Expressive Dynamic State Evolution》,RWKV-7引入了一項名為“表達性動態狀態演化”的關鍵創新,這是其性能提升的核心所在 。具體來說,RWKV-7通過引入一種廣義化的delta規則,使模型能更好地理解和處理信息。

      RWKV-7在讀取新信息時,有一種特殊的方式來更新其記憶,有點像記筆記。這種特殊的方式被稱為“廣義 Delta 規則”。

      把模型想象成有一個草稿本,它在上面記錄了從目前為止的文本中學到的東西。當它看到一個新的詞或信息時,它需要決定如何更新這個草稿本。

      最初的“Delta 規則”擦除一點它為該鍵存儲的舊信息,并添加一點新信息。它擦除和添加的數量由一個簡單的數字控制。現在,RWKV-7 的規則是“廣義的”,這意味著它更靈活、更強大。它不是只用一個數字來決定為一個鍵擦除和添加多少信息,而是使用更詳細的指令。

      通過引入廣義Delta Rule,RWKV-7 使用 2 層即可實現 復雜度的 狀態跟蹤問題,使用 4 層即可識別所有正則語言。

      簡單來說,Transformers在處理這些“正則語言”時有局限性。它們的能力被限制在一個叫 TC0 的計算類別里。TC0 就像是一個只能用固定步驟解決問題的工具箱,遇到某些復雜任務時就顯得力不從心。

      而RWKV-7可以用固定的層數(也就是固定的計算步驟)處理所有正則語言。這意味著,不管語言規則有多復雜。

      這個能力聽起來很理論,但實際上特別有用。RWKV-7 能更高效地解決一些需要“跟蹤狀態”的問題。什么是“跟蹤狀態”呢?舉個例子:

      在讀一個長故事時,記住誰做了什么、事情是怎么發展的;

      在理解一句復雜句子時,搞清楚每個詞之間的關系。

      這些任務需要模型一邊讀一邊更新自己的“記憶”。RWKV-7 靠它的“狀態矩陣”來做到這一點。你可以把“狀態矩陣”想象成一個記事本,模型會在這上面記下看到的信息,還能靈活地“交換”信息或者改變記錄的方式(專業點叫“狀態轉換函數”)。


      Hugging Face上的RWKV Gradio Demo提供了0.1B模型的交互體驗

      應用方面,RWKV-7適用于語言建模和多模態應用,其高效處理長上下文的能力使其在文檔摘要、對話系統和代碼生成等領域具有優勢。其無注意力機制和恒定內存使用也使其適合資源受限的設備,潛在擴展到邊緣計算場景。

      RWKV-7開發團隊已規劃了明確的技術發展方向,計劃通過擴充訓練數據集來支持更大規模模型的訓練,同時將致力于增強模型的思維鏈推理能力。

      團隊還將評估采用DeepSeek近期研究中驗證有效的前沿技術,包括混合專家模型(MoE)架構、多token預測技術和FP8精度訓練等優化方案。

      為了促進開放性、可復現性和采用,RWKV-7開發團隊在Hugging Face上發布了模型和數據集組件列表,并在GitHub上發布了訓練和推理代碼,所有這些資源均在Apache 2.0許可下提供,允許廣泛應用于研究和商業項目。

      #03

      超越Transformer

      Transformer廣泛用于自然語言處理和其他領域,但它在處理長序列時存在顯著的局限性。例如,對于百萬級別的上下文窗口,Transformer 的性能會顯著下降,限制了其在實際應用中的可擴展性。對于需要低延遲或在資源受限設備上運行的場景(如移動設備或實時系統),Transformer 的高計算成本和內存消耗成為瓶頸。

      Mamba是另一個獲得相當多關注的 Transformer 替代方案,Transformer 如此流行,以至于提出它們的原始論文自發表以來的 8 年間獲得了超過 17.1 萬次引用,而提出 LSTM 的 1997 年論文則有 12.2 萬次引用。Mamba 論文有 2537 次引用,RetNet 有 350 次,xLSTM 有 31次,RWKV論文有510次引用,而谷歌DeepMind最新提出的Titans架構只有12次引用。

      類似RWKV-7這樣的發展,即使還不會完全顛覆現有的范式,也會推動這一領域的進一步發展,AI的未來不僅將由更大的模型塑造,還將由更智能的架構設計引領。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      深圳發布以舊換新方案:汽車、家電、數碼、智能產品均有補貼

      深圳發布以舊換新方案:汽車、家電、數碼、智能產品均有補貼

      南方都市報
      2026-02-28 16:38:04
      伊朗稱摧毀美軍戰略預警雷達,探測距離5000公里,系美軍戰略級裝備

      伊朗稱摧毀美軍戰略預警雷達,探測距離5000公里,系美軍戰略級裝備

      澎湃新聞
      2026-02-28 21:22:26
      張元英辱華升級!在港參加活動發言挑釁,相關代言被抵制連夜捂嘴

      張元英辱華升級!在港參加活動發言挑釁,相關代言被抵制連夜捂嘴

      瓜農娟姐
      2026-01-03 15:15:00
      250架戰機集結中國大西北!美媒驚呼:中國最大規模空戰演習來了

      250架戰機集結中國大西北!美媒驚呼:中國最大規模空戰演習來了

      壹知眠羊
      2026-02-28 09:37:22
      《鏢人》女演員長相排名,陳麗君墊底,李云霄第3,第1實至名歸

      《鏢人》女演員長相排名,陳麗君墊底,李云霄第3,第1實至名歸

      銀河史記
      2026-02-28 13:17:46
      踏俄之土,充俄之軍?俄羅斯要求18至65歲外國男性服兵役,到底意味著什么?

      踏俄之土,充俄之軍?俄羅斯要求18至65歲外國男性服兵役,到底意味著什么?

      靜夜史君
      2026-02-27 23:56:22
      去政府部門借廁所,被懟“我還把你當神敬嘞”

      去政府部門借廁所,被懟“我還把你當神敬嘞”

      中國新聞周刊
      2026-02-27 21:04:19
      美以動手了!明明伊朗已經慫到了家,為何還要打?原因其實很簡單

      美以動手了!明明伊朗已經慫到了家,為何還要打?原因其實很簡單

      剛哥說法365
      2026-02-28 18:42:47
      新華社快訊:以色列特拉維夫一建筑冒起濃煙

      新華社快訊:以色列特拉維夫一建筑冒起濃煙

      極目新聞
      2026-02-28 15:48:43
      春天,少吃蘋果多吃它,一次買20斤,曬干囤起來,從春天吃到夏天

      春天,少吃蘋果多吃它,一次買20斤,曬干囤起來,從春天吃到夏天

      阿龍美食記
      2026-02-26 19:13:38
      太憋屈!昔日王牌自曝曼聯噩夢:滕哈格毀了他的職業生涯

      太憋屈!昔日王牌自曝曼聯噩夢:滕哈格毀了他的職業生涯

      瀾歸序
      2026-02-28 04:57:16
      張洪福母親感謝恒大足校:樹高千尺不忘根,人行千里莫忘本

      張洪福母親感謝恒大足校:樹高千尺不忘根,人行千里莫忘本

      懂球帝
      2026-02-28 10:47:21
      特朗普怒了:拉入黑名單

      特朗普怒了:拉入黑名單

      環球時報國際
      2026-02-28 23:36:00
      “茶幾”正在退出中國家庭,學廣東人這樣做,實用性讓人大開眼界

      “茶幾”正在退出中國家庭,學廣東人這樣做,實用性讓人大開眼界

      室內設計師有料兒
      2026-02-19 11:17:18
      慘烈的仗,要打到2030年?

      慘烈的仗,要打到2030年?

      中國新聞周刊
      2026-02-26 22:44:14
      游客吐槽“杭州西湖景區停車費30元一小時”,官方回應:節假日差別化收費,倡導公交出行,日常收費10元一小時

      游客吐槽“杭州西湖景區停車費30元一小時”,官方回應:節假日差別化收費,倡導公交出行,日常收費10元一小時

      大象新聞
      2026-02-27 15:45:09
      81歲林豆豆現狀:已退休23年,獨居在北京老房子,用閱讀打發時間

      81歲林豆豆現狀:已退休23年,獨居在北京老房子,用閱讀打發時間

      攬星河的筆記
      2025-11-12 12:36:17
      俄媒突發警告:美國打伊朗只是幌子,目的是逼解放軍到太平洋決戰

      俄媒突發警告:美國打伊朗只是幌子,目的是逼解放軍到太平洋決戰

      剛哥說法365
      2026-02-28 21:07:26
      高市破防了,中國剛重拳出擊,日本喊話“無法容忍”,求中方收手

      高市破防了,中國剛重拳出擊,日本喊話“無法容忍”,求中方收手

      通文知史
      2026-02-28 00:00:04
      大消息!美的集團出手,“加倉”300048

      大消息!美的集團出手,“加倉”300048

      中國基金報
      2026-02-28 14:29:49
      2026-03-01 00:44:49
      硅星GenAI incentive-icons
      硅星GenAI
      比一部分人更先進入GenAl。
      243文章數 14關注度
      往期回顧 全部

      科技要聞

      狂攬1100億美元!OpenAI再創融資神話

      頭條要聞

      媒體:美以的真實目標已經擺上臺面 不達目的不罷休

      頭條要聞

      媒體:美以的真實目標已經擺上臺面 不達目的不罷休

      體育要聞

      球隊主力全報銷?頂風擺爛演都不演了

      娛樂要聞

      周杰倫兒子正面照曝光,與父親好像

      財經要聞

      沖突爆發 市場變天?

      汽車要聞

      嵐圖泰山黑武士版3月上市 搭載華為四激光智駕方案

      態度原創

      藝術
      時尚
      數碼
      旅游
      軍事航空

      藝術要聞

      驚艷!這位天使般的女子與油畫讓人心動不已!

      這6款發色居然這么火?50張圖可以直接給tony

      數碼要聞

      小米超薄充電寶亮相MWC,98g有多能打?

      旅游要聞

      忻州古城×元宵節 | “夯”爆了!看非遺社火解鎖忻州古城的超長年味!

      軍事要聞

      美國以色列聯合襲擊伊朗 實時戰況

      無障礙瀏覽 進入關懷版