
近日,浙江大學范鶴鶴、楊易、吳飛與新加坡國立大學 Mohan Kankanhalli 教授提出新型深度神經網絡基礎操作 Translution,通過融合 Self-Attention 的自適應建模優勢與 Convolution 的相對位置建模能力,靈活捕獲只與數據本身內在結構相關的、與絕對位置無關的表征,實現了兩種操作的統一。
![]()
圖 1浙江大學、新加坡國立大學聯合提出Translution
實驗結果顯示,基于 Translution 構建的神經網絡在 ViT 和 GPT 兩大主流架構下均獲得了性能提升,展現出廣闊的應用前景。
![]()
圖 2基于Translution構建的ViT在ImageNet數據集上取得明顯優于Self-attention
![]()
圖 3基于Translution構建的GPT在自然語言建模的任務上也取得了超過Self-attention
目前,基于Self-Attention 的 Transformer 憑借強大的建模能力和優異的 Scaling Law 特性,成為深度學習的主流架構,推動了大模型浪潮的興起。然而,隨著模型規模不斷擴張,業界發現單純增加網絡參數和訓練數據已難以帶來性能提升,Scaling Law 的紅利似乎正逐漸觸頂。因此,探索新型神經網絡,持續推動深度學習的繁榮,已成為人工智能領域的重要任務。
浙大提出的 Translution 正是對這一挑戰的有力回應。其核心思想是將卷積操作中的“固定權重核”轉變為由自注意力機制動態生成的“自適應核”。
![]()
圖 4 Self-attention和Convolution合二為一的性能怪獸Translution
然而,作為融合 Slef-attention 和 Convolution 兩種操作優勢的“性能怪獸”,Translution 在取得性能突破的同時,也對算力——特別是 GPU 顯存——提出了 更高要求,這在一定程度上或將進一步加劇人工智能領域的“貧富差距”。
論文:Translution: Unifying Self-attention and Convolution for Adaptive and Relative Modeling
論文鏈接:https://arxiv.org/pdf/2510.10060
代碼鏈接:https://github.com/hehefan/Translution(投稿或尋求報道:zhanghy@csdn.net)

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.