<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      Ilya剛預言完,世界首個原生多模態架構就來了:視覺和語言被焊死

      0
      分享至

      金磊 發自 凹非寺
      量子位 | 公眾號 QbitAI

      當Ilya Sutskever最近公開宣稱“純靠Scaling Law的時代已經結束”,并斷言“大模型的未來不在于單純的規模更大,而是要架構變得更聰明”時,整個AI界都意識到了一場范式轉移正在發生。

      因為過去幾年,行業似乎沉迷于用更多數據、更大參數、更強算力堆出更強的模型,但這條路正逼近收益遞減的臨界點。

      Ilya和LeCun等頂尖AI大佬不約而同地指出:真正的突破,必須來自架構層面的根本性創新,而非對現有Transformer流水線的修修補補。

      就在如此關鍵節點,一個來自中國研究團隊的新物種橫空出世:

      全球首個可大規模落地的開源原生多模態架構(Native VLM),名曰NEO



      △《黑客帝國》主角Neo,圖片由AI生成

      要知道,此前主流的多模態大模型,例如我們熟悉的GPT-4V、Claude 3.5等,它們的底層邏輯本質上其實玩的就是拼接

      什么意思呢?

      就是將一個預訓練好的視覺編碼器(比如 ViT)通過一個小小的投影層,嫁接到一個強大的大語言模型上。

      這種模塊化的方式雖說是實現了多模態,但視覺和語言始終是兩條平行線,只是在數據層面被粗暴地拉到了一起。

      而這項來自商湯科技與南洋理工大學等高校的聯合研究,要做的就是從根上顛覆這一切。



      在NEO這里,大模型不僅能看、會說,而且天生就懂視覺和語言是一體兩面的道理。

      更驚人的一組數據是,憑借這種原生多模態架構,NEO僅用十分之一的訓練數據,就在多項關鍵評測中追平甚至超越了那些依賴海量數據和復雜模塊堆砌的旗艦級對手!

      那么NEO到底是怎么如何做到的,我們繼續往下看。

      為什么非得是原生架構?

      在深入了解原理之前,我們還需要理解多模態當前的現狀。

      正如我們剛才提到的,當前主流的模塊化架構,實則存在三大難以跨越的技術鴻溝。

      首先是效率鴻溝

      模塊化模型的訓練流程極其復雜,通常分為三步:先分別預訓練視覺編碼器和語言模型,再通過一個對齊階段讓二者學會溝通,最后可能還需要指令微調。

      這個過程不僅耗時耗力,成本高昂,而且每個階段都可能引入新的誤差和不一致性;視覺和語言的知識被割裂在不同的“房間”里,需要不斷“傳紙條”才能勉強協作。

      其次是能力鴻溝

      視覺編碼器在設計之初就帶有強烈的歸納偏置。比如,它通常要求輸入圖像必須是固定的分辨率(如224x224),或者必須被強行展平成一維的token序列。

      這種處理方式,對于理解一幅畫的整體構圖或許足夠,但在面對需要捕捉細微紋理、復雜空間關系或任意長寬比的場景(比如一張長圖、一張工程圖紙)時,就顯得力不從心。

      因為模型看到的,只是一個被過度簡化和結構化的骨架。

      最后是融合鴻溝

      那個連接視覺和語言的映射,幾乎都是停留在簡單的表層,無法觸及深層次的語義對齊。這就導致了模型在處理需要細粒度視覺理解的任務時常常捉襟見肘。

      例如,讓它描述一張復雜圖表,它可能會混淆圖例和數據;讓它理解一個帶有空間指示的指令,比如“把左邊第二個紅蘋果放到右邊籃子里”,它可能會搞錯左右或數量。

      究其根本,是因為在模型內部,視覺信息和語言信息從未被放在同一個語義空間里進行真正的、深度融合的推理。

      也正因如此,NEO背后研究團隊從第一性原理出發,直接打造一個視覺與語言從誕生之初就血脈相連的統一模型——

      這個模型不再有視覺模塊和語言模塊的區分,只有一個統一的、專為多模態而生的大腦。

      回顧AI發展史,從RNN到Transformer,每一次真正的飛躍都源于架構層面的根本性創新。

      而過去幾年,行業陷入了“唯規模論”的路徑依賴,直到今天,以Ilya為代表的一批頂尖研究者才集體發出警示:Transformer架構的固有局限已日益凸顯,僅靠堆疊算力和數據,無法通往真正的通用智能。

      NEO的誕生,恰逢其時。它用一個簡潔而統一的原生架構,有力地證明了:下一代AI的競爭力,關鍵在于架構有多聰明。

      NEO背后的三大原生技術

      NEO 的核心創新,體現在三個底層技術維度上,它們共同構建了模型的原生能力。



      第一,原生圖塊嵌入(Native Patch Embedding)。

      傳統模型常預先采用離散的tokenizer或者連接vision encoder壓縮圖像信息或語義token。

      NEO則是直接摒棄了這一步,它設計了一個輕量級的圖塊嵌入層,通過兩層卷積神經網絡,直接從像素出發,自底向上地構建一個連續的、高保真的視覺表征。

      這就像讓AI學會了像人類一樣,用眼睛直接感受光影和細節,而不是先看一張被馬賽克化的抽象圖。

      這種設計讓模型能更精細地捕捉圖像中的紋理、邊緣和局部特征,從根本上突破了主流模型的圖像建模瓶頸。



      第二,原生三維旋轉位置編碼(Native-RoPE)。

      位置信息對于理解任何序列都至關重要。文本是一維的,而圖像是二維的,視頻更是三維的(時空)。傳統模型要么給所有模態用同一個一維位置編碼,要么簡單地拼接,這顯然無法滿足不同模態的天然結構。

      NEO的Native-RoPE創新性地為時間(T)、高度(H)、寬度(W)三個維度分配了不同的頻率:視覺維度(H, W)使用高頻,以精準刻畫局部細節和空間結構;文本維度(T)兼顧高頻和低頻,同時處理好局部性和長距離依賴。

      更巧妙的是,對于純文本輸入,H和W的索引會被置零,完全不影響原有語言模型的性能。

      這相當于給AI裝上了一個智能的、可自適應的時空坐標系,不僅能精準定位圖像中的每一個像素,也為無縫擴展到視頻理解和3D交互等復雜場景鋪平了道路。



      第三,原生多頭注意力(Native Multi-Head Attention)。

      注意力機制是大模型的思考方式,在傳統模塊化模型里,語言模型的注意力是因果的(只能看到前面的詞),而視覺編碼器的注意力是雙向的(能看到所有像素)。

      NEO采取的方法,則是在一個統一的注意力框架下,讓這兩種模式并存。

      當處理文本token時,它遵循標準的自回歸因果注意力;而當處理視覺token時,它則采用全雙向注意力,讓所有圖像塊之間可以自由地交互和關聯。

      這種“左右腦協同工作”的模式,極大地提升了模型對圖像內部空間結構的理解能力,從而能更好地支撐復雜的圖文交錯推理,比如理解“貓在盒子上方”和“貓在盒子里”的細微差別。

      除了這三大核心,NEO還配套了一套名為Pre-Buffer & Post-LLM的雙階段融合訓練策略。

      在預訓練初期,模型會被臨時劃分為兩部分:一個負責視覺語言深度融合的Pre-Buffer和一個繼承了強大語言能力的Post-LLM。

      前者在后者的引導下,從零開始高效地學習視覺知識,建立初步的像素-詞語對齊;并且隨著訓練的深入,這個劃分會逐漸消失,整個模型融為一個端到端的、不可分割的整體。

      這種策略便巧妙地解決了原生架構訓練中如何在不損害語言能力的前提下學習視覺的難題。

      十分之一的數據,追平旗艦

      紙上談兵終覺淺,實測數據見分曉。接下來我們就來看下NEO在實測中的表現。

      縱觀結果,最直觀的體現就是數據效率——

      NEO僅使用了3.9億個圖像文本對進行訓練,這個數量級僅僅是同類頂級模型所需數據的十分之一!

      它無需依賴龐大的視覺編碼器或海量的對齊數據,僅憑其簡潔而強大的原生架構,就在多項視覺理解任務上追平了 Qwen2-VL、InternVL3等頂級模塊化旗艦模型。



      在權威的評測榜單上,NEO的表現也是較為亮眼。

      在MMMU(多學科綜合理解)、MMBench(綜合多模態能力)、MMStar(空間與科學推理)、SEED-I(視覺感知)以及POPE(衡量模型幻覺程度)等多個關鍵基準測試中,NEO均取得了高分,展現出優于其他原生VLM的綜合性能,真正做到了精度無損。



      尤其值得注意的是,當前NEO在2B到8B的中小參數規模區間內,展現出了較高的推理性價比。

      對于動輒數十B甚至上百B的大模型來說,這些中小模型似乎只是玩具。但正是這些模型,才是未來在手機、機器人、智能汽車等邊緣設備上落地的關鍵。

      NEO不僅在這些規模上實現了精度與效率的雙重躍遷,更大幅降低了推理成本。

      這意味著,強大的多模態視覺感知能力,將不再是云端大模型的專屬,而是可以真正普及到每一個終端設備上。

      如何評價NEO?

      最后,我們還需要討論一個問題:NEO有什么用?

      從我們上述的內容不難看出,NEO真正的價值,不僅在于性能指標的突破,更在于它為多模態AI的演進指明了一條新路徑。

      它原生一體化的架構設計,從底層打通了視覺與語言的語義鴻溝,天然支持任意分辨率圖像、長圖文交錯推理,并為視頻理解、3D空間感知乃至具身智能等更高階的多模態交互場景預留了清晰的擴展接口。

      這種為融合而生的設計哲學,可以讓它成為構建下一代通用人工智能系統的理想底座。

      更關鍵的是,商湯已開源基于NEO架構的2B與9B兩種規格模型,釋放出強烈的共建信號。

      這一舉措有望推動整個開源社區從當前主流的模塊拼接范式,向更高效、更統一的原生架構遷移,加速形成新一代多模態技術的事實標準。

      與此同時,NEO在中小參數規模下展現出的性價比,正在打破大模型壟斷高性能的固有認知。

      它大幅降低了多模態模型的訓練與部署門檻,使得強大的視覺理解能力不再局限于云端,而是可以真正下沉到機器人、智能汽車、AR/VR 眼鏡、工業邊緣設備等對成本、功耗和延遲高度敏感的終端場景。

      從這個角度看,NEO不僅是一個技術模型,更是通向下一代普惠化、終端化、具身化AI基礎設施的關鍵雛形。

      更重要的是,NEO的出現,為當前迷茫的AI界提供了一個清晰而有力的答案。

      在Ilya等人共同指出行業亟需新范式的當下,NEO以其徹底的原生設計理念,成為了“架構創新重于規模堆砌”這一新趨勢的首個成功范例。

      它不僅重新定義了多模態模型的構建方式,更向世界宣告:AI的下一站,是回歸到對智能本質的探索,通過根本性的架構創新,去構建能真正理解并融通多維信息的通用大腦。

      這一步,是中國團隊對全球AI演進方向的一次關鍵性貢獻。或如預言,這正是通往下一代AI的必經之路。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      兩中國女子在日本路口被撞死近一年,家屬起訴索賠1.4 億日元

      兩中國女子在日本路口被撞死近一年,家屬起訴索賠1.4 億日元

      揚子晚報
      2025-12-06 20:35:15
      五糧液突然降價,十年首次

      五糧液突然降價,十年首次

      大風新聞
      2025-12-06 21:17:16
      中世紀歐洲貴婦有多“臟”?在裙子里大小便,糞便和尿液無處不在

      中世紀歐洲貴婦有多“臟”?在裙子里大小便,糞便和尿液無處不在

      銘記歷史呀
      2025-12-06 02:50:03
      欺騙了全世界的把戲,巴沙爾真的亡國了?泰國:別信,都是障眼法

      欺騙了全世界的把戲,巴沙爾真的亡國了?泰國:別信,都是障眼法

      小莜讀史
      2025-12-06 16:44:11
      “作死”的DELL,在中國市場,已把自己徹底作沒了

      “作死”的DELL,在中國市場,已把自己徹底作沒了

      互聯網.亂侃秀
      2025-12-06 12:20:58
      就在今日!全港市民涌入街頭......

      就在今日!全港市民涌入街頭......

      港港地
      2025-12-07 10:50:40
      “畸形”的輪胎市場:外國人愛用的中國輪胎,國人為啥就是不買賬

      “畸形”的輪胎市場:外國人愛用的中國輪胎,國人為啥就是不買賬

      毒sir財經
      2025-12-06 22:07:18
      女兒失蹤3年,竟托夢說在鄰居家魚缸里,警察趕到后當場愣了

      女兒失蹤3年,竟托夢說在鄰居家魚缸里,警察趕到后當場愣了

      罪案洞察者
      2025-09-16 14:31:27
      湖北中獎1200萬幸運兒現狀:6張銀行卡余額加起來不到100元

      湖北中獎1200萬幸運兒現狀:6張銀行卡余額加起來不到100元

      諸神的護佑
      2025-12-06 22:18:38
      日本右翼一語驚人:若中國核彈造成日本幾百萬人死亡,那剩下~~~

      日本右翼一語驚人:若中國核彈造成日本幾百萬人死亡,那剩下~~~

      魔都姐姐雜談
      2025-12-07 06:29:53
      要小心了!原來微信發消息就可以查到對方位置,看看你知道嗎?

      要小心了!原來微信發消息就可以查到對方位置,看看你知道嗎?

      CG說科技
      2025-11-21 23:35:05
      “鎩羽而歸”的“鎩”不讀“shà”,正確讀音是什么?成語源自“社畜鼻祖”鮑照的求職書!

      “鎩羽而歸”的“鎩”不讀“shà”,正確讀音是什么?成語源自“社畜鼻祖”鮑照的求職書!

      中國社會科學網
      2025-12-06 14:06:35
      伊迪:期待楊瀚森在場的表現;在場看到另一位亞洲球員很特別

      伊迪:期待楊瀚森在場的表現;在場看到另一位亞洲球員很特別

      懂球帝
      2025-12-07 11:43:05
      原來醫學界也有自己的江湖門派!看網友評論:引起萬千共鳴!

      原來醫學界也有自己的江湖門派!看網友評論:引起萬千共鳴!

      另子維愛讀史
      2025-12-06 22:17:13
      馬斯克:SpaceX正以8000億美元估值融資的消息并不準確

      馬斯克:SpaceX正以8000億美元估值融資的消息并不準確

      IT之家
      2025-12-07 07:11:06
      鬧大了!三亞大東海沙灘發生慘案,男子持刀捅人,3人不幸身亡

      鬧大了!三亞大東海沙灘發生慘案,男子持刀捅人,3人不幸身亡

      一杯咖啡語
      2025-12-06 22:54:23
      一場大洪水,他信家族起死回生了!

      一場大洪水,他信家族起死回生了!

      天真無牙
      2025-12-07 08:00:17
      毛澤東如何動用最高機密力量,救出那位曾拿功名保他的恩師?

      毛澤東如何動用最高機密力量,救出那位曾拿功名保他的恩師?

      清澈之玹
      2025-12-05 10:08:41
      瓜帥:英超奪冠得靠穩定性;我從未見過梅西像謝爾基那樣傳中

      瓜帥:英超奪冠得靠穩定性;我從未見過梅西像謝爾基那樣傳中

      懂球帝
      2025-12-07 03:01:17
      為什么感覺金融圈子很淫亂呢?看完回答感受到人性欲望的丑惡

      為什么感覺金融圈子很淫亂呢?看完回答感受到人性欲望的丑惡

      另子維愛讀史
      2025-12-05 21:20:39
      2025-12-07 15:08:49
      量子位 incentive-icons
      量子位
      追蹤人工智能動態
      11820文章數 176340關注度
      往期回顧 全部

      科技要聞

      連芯片大神都想跑,蘋果還留得住誰?

      頭條要聞

      歐盟對馬斯克開出巨額罰單 美國外交"一二把手"開噴

      頭條要聞

      歐盟對馬斯克開出巨額罰單 美國外交"一二把手"開噴

      體育要聞

      兩個女生,用165天劃船橫渡太平洋

      娛樂要聞

      尖叫之夜修羅場 魏大勛不顧秦嵐猛炒CP

      財經要聞

      五糧液降價?回應來了

      汽車要聞

      傳奇超跑電動形態重生 雷克薩斯LFA純電概念車

      態度原創

      本地
      數碼
      房產
      藝術
      軍事航空

      本地新聞

      云游安徽|七千年敘事,第一章寫在蚌埠

      數碼要聞

      華碩ROG CES 2026暨品牌20周年發布活動1月6日7:00舉行

      房產要聞

      封關啟幕宜居新時代!觀嵐森嶼定義三亞旅居度假新范本

      藝術要聞

      Todd Williams:當代美國印象派畫家

      軍事要聞

      日本自衛隊飛機多次滋擾遼寧艦航母編隊訓練

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 正在播放肥臀熟妇在线视频| 免费看成人aa片无码视频吃奶| 狠狠干老司机| 亚洲嫩模一区二区三区| 蜜臀av一区二区| 武义县| www.亚洲V| 巨熟乳波霸若妻在线播放| 亚洲区1区3区4区中文字幕码| 精品国产乱码久久久久久婷婷| 狼友综合网| 人妻系列无码专区无码中出 | 狠狠色丁香婷婷久久综合五月| 亚洲精品成人a| 99精品偷自拍| 五十路老熟妇| 韩国精品一区二区| 亚洲AV成人片在线观看| 亚洲美女高潮不断亚洲| 免费无码又黄又爽又刺激| 无码人妻中文字幕| 宝兴县| 婷婷色综合| 精品午夜福利短视频一区| 中文字幕丰满孑伦无码精品| 亚洲欧洲激情| 99精品丰满人妻无码一区二区| 91国在线观看| 亚洲老熟女一区二区三区| 超清无码一区二区三区| 国产精品国产主播在线观看| 五月激情天| 国产亚洲精品VA片在线播放,国产中年熟女大集合 | 91精品亚洲熟妇少妇任你躁| 色色色资源| 一级天堂| 在线精品熟女AV播放| 亚洲综合社区| 无码人妻一区二区三区免费九色| 亚洲成a∨人片在线观看不卡| 97人人模人人爽人人喊网|