<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

      商湯發(fā)布多模態(tài)“效率怪獸”,開源即SOTA!最小僅8B,比肩商用

      0
      分享至


      智東西
      作者 江宇
      編輯 漠影

      當GPT images 2.0又再一次搶占頭條,人們對多模態(tài)模型的關(guān)注也在悄然變化:“畫得好”已經(jīng)不再是問題了,我們還想要“速度快、效率高、成本低”。

      過去很長一段時間里,視覺理解與圖像生成,往往被拆分為兩套體系:前者負責“看懂”,后者負責“畫出”,中間通過不同模塊進行銜接。這種在底層邏輯上的割裂,是阻礙模型效率的核心。

      商湯這次的思路,是從架構(gòu)層面直接處理這個問題。

      他們剛剛開源了原生理解生成統(tǒng)一模型SenseNova U1,便基于自研的NEO-unify架構(gòu),將圖像與文本的理解與生成能力統(tǒng)一到同一體系中,沒有了“中間商”之后,效率得到大幅提升。

      在圖像理解與生成的多項基準測試中,SenseNova U1 Lite在同量級開源模型中達到SOTA水平,并在多項指標上逼近商業(yè)閉源模型表現(xiàn)。以8B參數(shù)規(guī)模,實現(xiàn)接近更大模型的能力,得到“以小搏大”的表現(xiàn)。


      ▲高密度信息圖(en)


      ▲高密度信息圖(zh)

      目前,用戶可以在Hugging Face、GitHub獲取開源模型。同時,商湯AI辦公智能體“辦公小浣熊3.0”也即將接入SenseNova U1,用戶可直接體驗相關(guān)能力。

      一、不靠堆參數(shù),靠效率取勝:8B模型拿下開源SOTA

      本次開源包含兩個版本:SenseNova-U1-8B-MoT與SenseNova-U1-A3B-MoT,均基于統(tǒng)一的多模態(tài)理解、推理與生成架構(gòu),面向圖文理解、生成及復雜交互任務。

      如果從測評結(jié)果來看,SenseNova U1最突出的優(yōu)勢,在于整體效率——在理解、生成、推理與圖文交錯多個維度上,用更小的模型規(guī)模,跑出了接近甚至逼近商業(yè)閉源模型的表現(xiàn)。

      在理解側(cè),SenseNova-U1-8B-MoT在AI2D、IFBench等基準上均取得領(lǐng)先表現(xiàn),例如在AI2D上達到91.7分。結(jié)合空間理解相關(guān)測試,可以看到模型在復雜結(jié)構(gòu)與關(guān)系判斷等任務中表現(xiàn)穩(wěn)定,具備一定的邏輯推理能力。


      在生成側(cè),模型在GenEval、OneIG、LongTextBench等任務中表現(xiàn)穩(wěn)定,能夠同時兼顧復雜結(jié)構(gòu)生成與文本一致性。尤其是在信息圖生成(Infographics)任務中,平均得分達到50.7,是開源模型最強,媲美部分閉源商業(yè)模型。


      進一步看編輯與圖文交錯能力,在Editing、Visual Reasoning等任務中,SenseNova U1在WISE、VBVR、OpenING、GEdit-Bench等測試中表現(xiàn)突出。例如在OpenING相關(guān)任務中達到91分,在視覺推理任務中也明顯優(yōu)于傳統(tǒng)圖像生成模型。


      但相比這些分項成績,更關(guān)鍵的是它的“性能—效率比”。

      從對比結(jié)果來看,在信息圖生成與長文本等任務中,SenseNova U1在約15秒延遲下即可取得接近60分的平均成績,整體屬于“高性能、低延遲”。對比Qwen-Image 2.0 Pro、Seedream 4.5等模型,其在生成質(zhì)量接近商業(yè)閉源模型的同時,響應速度更快。


      ▲Generation Latency vs. Averaging Performance on Infographic Benchmarks, i.e., BizGenEval (Easy, Hard), and IGenBench


      ▲Generation Latency vs. Averaging Performance on OneIG (EN, ZH), LongText (EN, ZH), BizGenEval (Easy, Hard), CVTG and IGenBench

      這些性能表現(xiàn)背后,主要還是來自底層架構(gòu)的優(yōu)勢。SenseNova U1基于商湯自研的NEO-unify原生統(tǒng)一架構(gòu),在設(shè)計上減少了中間環(huán)節(jié)帶來的信息損耗,因此在數(shù)據(jù)利用效率和推理開銷上更有優(yōu)勢

      最終呈現(xiàn)出來的,才得以是“以小搏大”的優(yōu)勢:僅用8B參數(shù)規(guī)模,在多個維度達到同量級開源模型SOTA,并在部分任務上逼近商業(yè)閉源模型。

      從測評結(jié)果來看,這種優(yōu)勢已經(jīng)比較清晰。至于落到真實使用場景中,SenseNova U1是否同樣穩(wěn)定、好用,我們來實測一番。

      二、一手實測揭秘:從立體排版到“言出法隨”

      智東西選取了多個不同類型的任務進行測試,覆蓋高密度信息圖、趣味創(chuàng)意圖以及技術(shù)流程圖等典型場景。

      創(chuàng)作信息圖可以說是最能“精準擊中”職場人的能力。用戶只需要輸入文章、資料或文字說明,模型就能將其中的關(guān)鍵信息提煉出來,并生成一張具備結(jié)構(gòu)、層級和視覺重點的信息圖。

      在“蘇超出圈之路”這一案例中,模型就生成了一張多層蛋糕式信息圖。不同階段以立體分層形式呈現(xiàn),文字隨著結(jié)構(gòu)自然分布在不同空間層級中,而不是簡單平鋪。


      這背后其實反映的是模型對結(jié)構(gòu)的理解能力。更關(guān)鍵的是,在這種復雜排版下,整張圖沒有出現(xiàn)明顯的文字錯位、遮擋或渲染錯誤,整體可讀性很高。

      換一個更復雜的文本場景來看,模型對富文本結(jié)構(gòu)的理解能力,體現(xiàn)得更明顯:哪些信息需要突出,哪些適合做流程,哪些更適合用圖表表達,哪些需要用圖標輔助理解。

      龍蝦使用指南”這個案例,就更能體現(xiàn)細節(jié)處理能力。


      這一任務中包含大量中英文混排、不同字號文本以及情緒化表達。模型不僅把“禁止模糊指令”“禁止無限重試”這些核心文案寫對了,還自動匹配了對應的圖標和帶情緒的畫面,比如龍蝦被“壓榨”、被“投喂指令”等。

      不同模塊之間的文字大小、間距和布局都處理得較為合理,沒有擠在一起,已經(jīng)達到直接商用的水準了。

      在人物與指令理解方面,“馬斯克vs奧特曼”這一案例更具代表性。


      在提示詞中僅輸入“奧特曼”這一昵稱,模型直接生成了一個穿西裝的“奧特曼形象”,與旁邊的馬斯克形成對比,既符合語義又帶有明顯的趣味性。與此同時,馬斯克的表情、動作以及整個對峙氛圍也都比較到位,可見模型在人物理解和場景構(gòu)建上具備較強的語義對齊能力。

      到了技術(shù)表達這一步,難度其實更高。在“SenseNova U1技術(shù)解讀”這一案例中,模型需要生成的是一張邏輯清晰的技術(shù)流程圖。


      從結(jié)果來看,整體結(jié)構(gòu)層級清晰,信息分區(qū)明確、表達直觀,對于非技術(shù)讀者也較為友好。

      一輪實測下來,另一個比較直觀的感受是速度。這類圖像的生成基本都在十幾秒內(nèi)完成,有點接近“言出法隨”的感覺。

      在這樣的生成效率下,各種應用場景也不在話下。目前,SenseNova U1可生成信息圖譜、專業(yè)簡歷、生活指南、產(chǎn)品說明、百科知識、漫畫創(chuàng)作等多種內(nèi)容。對營銷、辦公、設(shè)計、商業(yè)分析等場景來說,這類能力直接對應的是內(nèi)容生產(chǎn)效率提升。

      三、告別“縫合”,NEO-unify架構(gòu)如何成為理解與生成的“通才”?

      測評集成績有優(yōu)勢,實測效果也毫不遜色,這個原生框架究竟好在哪里,我們來拆解一下。

      過去,多模態(tài)模型的工作方式更像是“分工協(xié)作”:視覺編碼器負責理解圖像,變分自編碼器負責生成圖像。前者看圖,后者畫圖,中間再通過不同模塊完成銜接。

      理解與生成更像兩條并行的流程,能配合,但很難真正融合,所以SenseNova U1這次選擇直接推倒重建,從底層架構(gòu)上直接改掉這套“拼接式”體系。

      其采用的自研NEO-unify架構(gòu),不再把語言和視覺當作需要中間轉(zhuǎn)換的兩種信號,而是從一開始就把它們當作同一類信息來建模。


      換句話說,語言與視覺不再各走各路,在同一套表征體系里共同參與理解、推理和生成。

      這種設(shè)計本質(zhì)上回到了“多模態(tài)AI第一性原理”:不同模態(tài)之間本來就是內(nèi)在關(guān)聯(lián)的。

      在具體實現(xiàn)上,模型盡量減少中間壓縮與轉(zhuǎn)換環(huán)節(jié),直接從接近原始的像素和文本信息中學習,讓信息在傳遞過程中損耗更小。

      同時,它的數(shù)據(jù)和推理效率也更高。這也是SenseNova U1值得關(guān)注的地方:并不是單純靠堆參數(shù)規(guī)模換效果,而是在底層架構(gòu)上重新處理多模態(tài)模型的協(xié)作方式。

      四、當AI學會“帶圖思考”,展開空間智能更多想象

      不同于GPT-image2單純圖像上的“卷王體質(zhì)”,SenseNova U1也展示了另一種可能:讓圖像成為邏輯的一部分,并在推理過程中引入對空間結(jié)構(gòu)的理解。

      這也是其“連續(xù)性圖文創(chuàng)作輸出”的能力核心。

      SenseNova U1是業(yè)內(nèi)首個能夠在單一模型上進行連貫圖文交錯生成的模型。這意味著,在處理復雜任務時,模型可以一邊解釋邏輯,一邊生成對應的示意圖、流程圖、草圖或設(shè)計圖。

      例如在教程、在繪本故事等場景中,它可以讓文字敘事、插圖風格、人物事件等保持一致性與連貫


      同時,SenseNova-U1并不是先生成一段完整文字,再去“補圖”,而是從材料準備或構(gòu)圖草稿開始,一步步輸出關(guān)鍵操作,并同步生成對應畫面。

      整個生成過程是連續(xù)的:步驟之間有承接關(guān)系,圖像之間保持風格一致,文字和視覺內(nèi)容也始終圍繞同一上下文展開。這種連貫性,在過去依賴多模型串聯(lián)的方案中很難穩(wěn)定實現(xiàn),往往會出現(xiàn)風格漂移或信息斷裂。

      本質(zhì)上,這得益于SenseNova U1所具備的原生圖文理解生成能力,能天然將圖像和文本底層融合信號完整的保留上下文中,在統(tǒng)一表征空間進行高效連貫思考。

      這也讓它和空間智能產(chǎn)生了更直接的聯(lián)系。空間智能關(guān)注的是模型如何理解位置、方向、布局、關(guān)系和結(jié)構(gòu),而這些能力恰恰會在圖像生成、高密度信息圖排版、流程圖構(gòu)建和場景示意中反復出現(xiàn)。

      如果繼續(xù)往后看,這類能力也可能成為具身智能的重要基礎(chǔ)。機器人要在真實環(huán)境中完成任務,不僅要“看見”物體,還要理解物體之間的關(guān)系、判斷行動路徑,并根據(jù)任務目標做出連續(xù)決策。

      從這個角度看,SenseNova U1的意義不只是生成更好看的圖,而是在單一模型中嘗試打通理解、推理和視覺表達。它距離真正成為機器人的“具身大腦”還有距離,但這類統(tǒng)一架構(gòu),至少提供了一條更接近多模態(tài)閉環(huán)的技術(shù)路徑。

      結(jié)語:理解與生成走向統(tǒng)一,多模態(tài)模型進入分岔口

      從底層架構(gòu)的NEO-unify創(chuàng)新,到應用層面的原生圖文交錯與高密度信息圖生成,商湯的全面開源,不僅是參數(shù)規(guī)模上的“以小搏大”,更是對多模態(tài)第一性原理的深度回歸。

      當行業(yè)還在討論生圖模型的真實邊界時,SenseNova U1已經(jīng)通過理解與生成的統(tǒng)一,為AGI的到來鋪就了一條更具效率的路徑。

      開源的力量將讓這種原生多模態(tài)能力迅速滲透進每一個垂直行業(yè),我們正在見證的是一個“圖文同構(gòu)、思畫合一”的全新時代的開啟。

      在大模型全球競賽的下半場,國產(chǎn)模型正在輸出屬于自己的硬核解法。

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點推薦
      張柏芝姐姐移民加拿大15年,稱混血面孔難在香港發(fā)展,已轉(zhuǎn)行賣房

      張柏芝姐姐移民加拿大15年,稱混血面孔難在香港發(fā)展,已轉(zhuǎn)行賣房

      阿鳧愛吐槽
      2026-04-26 12:12:41
      他是著名演員,從發(fā)病到去世僅20分鐘,主持人兒子比他更有名

      他是著名演員,從發(fā)病到去世僅20分鐘,主持人兒子比他更有名

      削桐作琴
      2026-03-21 15:03:45
      臺灣專家賴岳謙:印度確實有一點比中國強很多,那就是——嘴。

      臺灣專家賴岳謙:印度確實有一點比中國強很多,那就是——嘴。

      荊楚寰宇文樞
      2026-04-22 23:16:37
      騙走50億!用小鮮肉的血抗衰,被央視曝光的“撈金女王”,真栽了

      騙走50億!用小鮮肉的血抗衰,被央視曝光的“撈金女王”,真栽了

      凡知
      2026-04-07 21:16:54
      那年初春的跑馬場上,李嘉欣與許晉亨深情擁吻的一幕

      那年初春的跑馬場上,李嘉欣與許晉亨深情擁吻的一幕

      娛你同歡
      2026-04-27 17:47:48
      豆包提前查到事業(yè)編成績單,全網(wǎng)炸了!

      豆包提前查到事業(yè)編成績單,全網(wǎng)炸了!

      互聯(lián)網(wǎng)品牌官
      2026-04-27 18:11:08
      韓國媒體:中國在被美國制裁的絕境下,竟然在芯片技術(shù)上超過韓國

      韓國媒體:中國在被美國制裁的絕境下,竟然在芯片技術(shù)上超過韓國

      風雨與陽光
      2026-03-29 05:48:33
      A股:明天,4月29日,大家要坐穩(wěn)扶好了,不出意外,很可能這樣走

      A股:明天,4月29日,大家要坐穩(wěn)扶好了,不出意外,很可能這樣走

      云鵬敘事
      2026-04-28 15:26:29
      我們真的有集體主義傳統(tǒng)嗎?

      我們真的有集體主義傳統(tǒng)嗎?

      非典型佛教徒
      2026-04-27 23:22:10
      18歲少女為救八路戰(zhàn)士假扮其妻,43年后戰(zhàn)士已成將軍,提出倆要求

      18歲少女為救八路戰(zhàn)士假扮其妻,43年后戰(zhàn)士已成將軍,提出倆要求

      紀實文錄
      2025-07-21 11:59:28
      20年來首次!西班牙遭G20財長會議排除,桑切斯政府陷入國際孤立

      20年來首次!西班牙遭G20財長會議排除,桑切斯政府陷入國際孤立

      故事終將光明磊落
      2026-04-28 15:34:20
      泰山游客懸崖滑倒拽人后續(xù):險釀墜崖遭群毆,警方介入景區(qū)吐實情

      泰山游客懸崖滑倒拽人后續(xù):險釀墜崖遭群毆,警方介入景區(qū)吐實情

      觀察鑒娛
      2026-04-27 16:43:54
      后悔都來不及了,美商務部長:中方改變主意,美方想賣卻賣不出去

      后悔都來不及了,美商務部長:中方改變主意,美方想賣卻賣不出去

      袁周院長
      2026-04-28 18:45:26
      中央氣象臺發(fā)布強對流、暴雨預警,局地有10級以上雷暴大風

      中央氣象臺發(fā)布強對流、暴雨預警,局地有10級以上雷暴大風

      縱相新聞
      2026-04-28 15:12:04
      趙麗穎上海咖啡店被偶遇!素顏獨坐2小時,粉絲的舉動太圈粉

      趙麗穎上海咖啡店被偶遇!素顏獨坐2小時,粉絲的舉動太圈粉

      木子娛你同行
      2026-04-28 12:30:03
      王晶曝陳百強真正死因,64歲何超瓊顏面盡失

      王晶曝陳百強真正死因,64歲何超瓊顏面盡失

      君笙的拂兮
      2026-03-22 03:44:36
      傳聞故事:15年之期已到,何超瓊與許晉亨的離婚保密協(xié)議曝光

      傳聞故事:15年之期已到,何超瓊與許晉亨的離婚保密協(xié)議曝光

      卡西莫多的故事
      2026-02-04 09:38:40
      上海富商花2000萬,讓情人生3個孩子,2019年后得知娃都不是他的

      上海富商花2000萬,讓情人生3個孩子,2019年后得知娃都不是他的

      漢史趣聞
      2026-04-24 18:35:46
      DeepSeek“嚇崩”智譜和MiniMax,但摩根大通認為:V4打破算力束縛,是行業(yè)利好

      DeepSeek“嚇崩”智譜和MiniMax,但摩根大通認為:V4打破算力束縛,是行業(yè)利好

      華爾街見聞官方
      2026-04-27 09:59:20
      小寶與王某雷,誰探訪花的數(shù)量更多?

      小寶與王某雷,誰探訪花的數(shù)量更多?

      挪威森林
      2026-01-31 12:15:26
      2026-04-29 01:59:00
      智東西 incentive-icons
      智東西
      智東西,AI產(chǎn)業(yè)新媒體,專注報道人工智能的前沿技術(shù)發(fā)展,和技術(shù)應用帶來的千行百業(yè)產(chǎn)業(yè)變革。
      11710文章數(shù) 117050關(guān)注度
      往期回顧 全部

      科技要聞

      10億周活目標落空!傳OpenAI爆發(fā)內(nèi)部分歧

      頭條要聞

      19歲中國女孩被困緬甸 交20萬贖金園區(qū)仍未放人

      頭條要聞

      19歲中國女孩被困緬甸 交20萬贖金園區(qū)仍未放人

      體育要聞

      魔術(shù)黑八活塞,一步之遙?!

      娛樂要聞

      蔡卓妍官宣結(jié)婚,老公比她小10歲

      財經(jīng)要聞

      中央政治局會議定調(diào),八大看點速覽!

      汽車要聞

      拒絕瘋狂套娃!現(xiàn)代艾尼氪金星長在未來審美點上

      態(tài)度原創(chuàng)

      房產(chǎn)
      手機
      教育
      時尚
      旅游

      房產(chǎn)要聞

      紅利爆發(fā)!海南,沖到全國人口增量第4省!

      手機要聞

      三星裸眼3D屏來了,廣告牌能“跳”出來

      教育要聞

      教育部通知,今年9月份開始,上學的規(guī)則全變了

      普通女性春天穿什么好看?這些穿搭值得借鑒,自然舒適

      旅游要聞

      莫讓內(nèi)卷式競爭削弱旅游消費信心

      無障礙瀏覽 進入關(guān)懷版 主站蜘蛛池模板: 茄子av| 久久精产国品一二三产品| 青青草视频免费观看| 久久超碰97人人做人人爱| 无码人妻精品一区二区三区蜜臀百度| 无码人妻专区一区二区三区| 91视频免费| 亚洲欧洲专线一区| 在线aⅴ亚洲中文字幕| 欧洲无码视频| 亚洲爆乳精品无码一区二区三区 | 久久精品国产久精国产果冻传媒| 欧美乱妇高清无乱码免费| 开心五月激情综合婷婷色| 且末县| 亚洲精品国偷自产在线99人热| 日韩天码| 伊人久久大香线蕉精品,亚洲国产一成人久久精品,久久99精品久久久久久三级,亚 | 国内精品伊人久久久久av| 少妇熟女久久综合网色欲| 亚洲成人无码在线| 最近2019中文字幕在线| 国产成a人亚洲精v品无码| 蓬莱市| 久久精品国产精品亚洲毛片 | 亚洲成人在线| 精品久久久久久无码中文字幕| 亚洲 日本 欧美 中文幕| 织金县| 国产成人免费ā片在线观看| 成人Av毛片| 亚洲色拍偷| 一本一道人人妻人人妻αV| AV天堂中文字幕| 国产精品久久久久久福利69堂| 深夜国产成人福利在线观看| 日韩av一区二区三区精品| 四虎永久在线精品国产馆v视影院| 日韩人妻中文无码一区二区七区| 香港三日本8a三级少妇三级99| 国产99久60在线视频 | 传媒|