<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      UniPercept 統一圖像美學、質量與結構紋理感知

      0
      分享至



      操鑠:中國科學技術大學與上海人工智能實驗室聯合培養博士生,專注多模態圖像理解與生成。主導研發了 ArtiMuse、UniPercept 等成果,多篇工作發表于 ECCV、ICCV 等國際頂級會議。

      李佳陽:北京大學碩士生,專注多模態圖像理解及融合。作為核心作者參與了 ArtiMuse、UniPercept 等工作,多篇工作發表于 TIP、TPAMI 等國際頂級期刊。

      盡管多模態大語言模型(MLLMs)在識別「圖中有什么」這一語義層面上取得了巨大進步,但在理解「圖像看起來怎么樣」這一感知層面上仍顯乏力。

      近日,來自上海人工智能實驗室、中科大、北大、清華等機構的研究者聯合發布了UniPercept。這是首個統一了美學(Aesthetics)質量(Quality)結構與紋理(Structure & Texture)三個維度的感知級圖像理解框架。



      項目主頁:https://thunderbolt215.github.io/Unipercept-project/

      代碼倉庫:

      https://github.com/thunderbolt215/UniPercept

      論文地址:

      https://arxiv.org/abs/2512.21675

      模型權重:https://huggingface.co/collections/Thunderbolt215215/unipercept

      相關工作 (ArtiMuse):

      https://github.com/thunderbolt215/ArtiMuse

      引言:

      從「識別物體」到「感知圖像」

      當前,多模態大語言模型在目標檢測、圖像描述和視覺推理等語義級任務中表現卓越。然而,人類視覺感知不僅限于物體識別,還包括對構圖美感、畫質損傷、材質紋理以及結構規律性的細膩捕捉。

      語義級理解關注的是「場景中有哪些實體」,而感知級理解則需要評估精細的、低層級的視覺外觀,例如美學和諧度、降質嚴重程度或表面肌理。這些屬性往往是微妙且主觀的,對內容創作、圖像增強及生成模型對齊至關重要。

      為了填補這一空白,研究團隊提出了UniPercept。該工作建立了層次化的感知屬性定義系統,構建了大規模基準測試集UniPercept-Bench,并開發了一個通過領域自適應預訓練和任務對齊強化學習訓練的強基準模型。此外,研究團隊還給出了UniPercept的下游應用實例,包括作為生成模型的獎勵模型(Reward Model),以及作為生成模型評估的指標(Metrics)等。



      UniPercept-Bench:

      三位一體的全域感知評價體系


      UniPercept 將感知級圖像理解拆解為三個核心領域,構建了「領域 - 類別 - 準則」的三級層次結構,旨在全面覆蓋人類對圖像的視覺評價維度。

      核心評估維度

      • 圖像美學評估(IAA):側重于構圖設計、視覺元素與結構、情感和整體視覺吸引力等。它關注的是圖像是否「好看」,探討藝術表達與視覺平衡。

      • 圖像質量評估(IQA):側重于感知保真度和降質因素,如噪聲、模糊、壓縮偽影。它回答的是圖像是否「技術性達標」。

      • 圖像結構與紋理評估(ISTA):這是 UniPercept 首次系統化提出的維度,強調局部特征、幾何規律性、材質屬性(如平滑度、粗糙度)和細節豐富度。它回答的是圖像的「場景、結構、紋理和構成與復雜程度」。



      UniPercept-Bench 的定義體系分為三級細分,包含 3 個領域、17 個類別和 44 個細分準則,給出了專家級的細致定義體系,其精細程度遠遠超過此前的圖像評估 Benchmark。

      在具體定義上,它實現了從領域到準則的精密解構:例如從美學(IAA)領域,到「構圖與設計(Composition & Design)」類別,深入到對「視覺平衡(Visual Balance)」這一微觀準則的量化;或從場景解析(ISTA)領域,到「幾何構成(Geometric Composition)」類別,細化到對「3D 體積(3D Volume)」隱含信息的提取。這種三級聯動的體系,確保了模型能夠從宏觀的「整體感知」跨越到微觀的「渲染精度」進行全方位、多維度的專家級評估。







      任務形式與數據流水線


      該基準支持視覺評分(Visual Rating, VR)視覺問答(Visual Question Answering, VQA)兩種互補的任務形式。



      為了確保數據質量,研究團隊設計了三階段自動化流水線:

      • 初始生成:利用先進多模態模型結合專業準則庫生成候選問答對。
      • 拒絕采樣:由異構判別模型對問題的有效性、答案的準確性及邏輯一致性進行五分制打分,剔除約 40% 的不合格樣本。
      • 人工精修:組織專業志愿者進行手動核驗,特別是對邊界案例進行修改,確保最終結果與人類專家感知高度對齊。



      UniPercept 模型:

      領域自適應與任務對齊強化學習


      為了使模型具備真正的感知能力,研究者采用兩階段框架對基礎多模態模型進行持續演進。

      領域自適應預訓練(Domain-Adaptive Pre-Training)

      研究團隊整合了約 80 萬個樣本的大規模語料庫,涵蓋文本描述、結構化標注和數值評分。通過這一階段,模型習得了跨領域的底層視覺特征,為其后續的精準判斷打下了相應的感知基礎。

      任務對齊強化學習(Task-Aligned RL for VR & VQA)

      這是提升模型感知一致性的關鍵。研究者采用了 GRPO 算法進行策略優化,并針對感知任務設計了特定的獎勵函數:

      • 視覺問答(VQA)任務:采用二元獎勵,鼓勵模型輸出準確的離散答案。
      • 視覺評分(VR)任務:創新性地設計了自適應高斯軟獎勵(Adaptive Gaussian Soft Reward)。該函數根據模型預測值與參考分數的偏差動態調整平滑系數。

      這種軟獎勵機制提供了更平滑的梯度,避免了傳統閾值獎勵導致的優化不連續性。此外,模型引入了評分 Token 策略,直接從預測概率分布中導出數值,大幅緩解了模型生成數字時的幻覺傾向。



      性能:

      全面超越現有頂尖模型


      研究團隊在 UniPercept-Bench 上評估了包括商用閉源模型系列、領先開源系列以及針對美學和質量優化的專用模型在內的 18 個模型,UniPercept 在其中取得了顯著優秀的表現。

      視覺評分(VR)表現

      在持續分數的回歸任務中,大多數通用模型在沒有針對性訓練的情況下表現較差。相比之下,UniPercept 在所有三個領域(美學、質量、結構)中均取得了最高的斯皮爾曼相關系數(SRCC)和皮爾遜相關系數(PLCC)。尤其是在 ISTA 領域,UniPercept 填補了現有模型對細節紋理判斷的空白。



      視覺問答(VQA)表現

      實驗顯示,即使是目前最頂尖的商業模型在處理精細感知問題時也顯得吃力:

      • 圖像美學評估(IAA)領域,UniPercept 的準確率超越了 GPT-4o 約 16 個百分點。
      • 圖像質量評估(IQA)領域,UniPercept 在識別特定物體上的細微損傷(如運動模糊、壓縮畸變)方面展現出極強的定位與判斷能力。
      • 圖像結構與紋理復雜度評估(ISTA)領域,模型能夠準確分辨不同材質的表面特性(如鏡面反射、亞光紋理),準確率突破 80%。







      應用:

      作為獎勵模型/評估指標


      UniPercept 展示了作為生成模型優化信號的巨大潛力。研究者將其作為獎勵模型,整合進文生圖模型的微調流水線中。UniPercept 主要從以下三個方面對生成模型進行優化:

      • 美學引導:顯著改善生成圖像的構圖平衡和光影和諧度。
      • 質量引導:增強圖像細節的銳度和清晰度,減少常見的偽影干擾。
      • 結構紋理引導:豐富了場景的復雜程度、結構的豐富度、物體的表面肌理,使畫面表現更豐富。

      不同獎勵信號有著不同的優化側重點,當三個維度的獎勵信號協同作用時,生成的圖像在視覺吸引力和技術保真度上均達到最優。





      此外,UniPercept 天然可以作為從美學、質量、紋理與結構三方面對于圖像進行評估的評估指標(Metrics),可以準確反映不同模型輸出圖像的各方面表現。



      生成圖像的全方位「感知檔案」

      UniPercept 還能為圖像生成全方位的「感知檔案」,不僅給出評分,還能從美學、質量、紋理與結構三個方面針對構圖、執行精度、損傷位置等具體維度給出詳細的文字解析與結構化輸出。



      結語


      UniPercept 的提出,是多模態大模型的研究重心正在從單純的語義識別,向更具挑戰性的「感知圖像」轉化的重要一環。通過建立統一的評價基準、高效的數據生產線以及新穎的任務對齊學習策略,UniPercept 為未來的視覺內容評價與可控生成提供了一個強大的底座。它不僅是研究感知的有力工具,更是構建「感知閉環」系統的重要一步。

      隨著感知級理解能力的不斷提升,人工智能將能夠像人類藝術家一樣,不僅能看懂畫面中的故事,更能體會并創造出具備極致美感與精湛質感的視覺作品。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      被解放軍戰機鎖定,F-16座艙里瘋狂亂叫,臺軍飛行員只想退役保命

      被解放軍戰機鎖定,F-16座艙里瘋狂亂叫,臺軍飛行員只想退役保命

      古事尋蹤記
      2026-01-09 07:15:51
      劉紀鵬教授:如果推行這個政策,大盤站穩5000點可期

      劉紀鵬教授:如果推行這個政策,大盤站穩5000點可期

      中中聊財經
      2026-01-09 18:28:47
      郁亮35年萬科生涯落幕

      郁亮35年萬科生涯落幕

      每日經濟新聞
      2026-01-08 23:13:05
      中國賺錢在美國花?老戲骨祖孫三代,在美奢華享樂過上人上人生活

      中國賺錢在美國花?老戲骨祖孫三代,在美奢華享樂過上人上人生活

      墨蘭史書
      2026-01-09 08:20:05
      武漢一小學老師公積金曝光,在武漢屬于什么水平!

      武漢一小學老師公積金曝光,在武漢屬于什么水平!

      阿離家居
      2026-01-07 13:04:42
      蘋果Apple Watch“房顫歷史”功能獲國家藥品監督管理局批準

      蘋果Apple Watch“房顫歷史”功能獲國家藥品監督管理局批準

      IT之家
      2026-01-09 10:25:06
      老用戶成“冤大頭”?新號29元100G 老號89元不夠用 3招破局不換號

      老用戶成“冤大頭”?新號29元100G 老號89元不夠用 3招破局不換號

      Thurman在昆明
      2026-01-03 15:59:21
      項立剛再次鼓吹戰爭之思:最可怕的是,邪惡靈魂裹上愛國外衣

      項立剛再次鼓吹戰爭之思:最可怕的是,邪惡靈魂裹上愛國外衣

      讀鬼筆記
      2026-01-06 19:42:20
      多哈冠軍賽八強爭奪戰,國乒11勝1負優勢巨大,陳熠迎來苦戰

      多哈冠軍賽八強爭奪戰,國乒11勝1負優勢巨大,陳熠迎來苦戰

      小鬼頭體育
      2026-01-09 05:22:13
      張學良煙酒不離手活 101 歲,趙四小姐曝:軟禁 55 年靠吃法續命

      張學良煙酒不離手活 101 歲,趙四小姐曝:軟禁 55 年靠吃法續命

      嘮叨說歷史
      2025-12-30 17:37:11
      事發上海地鐵!男子弄丟5萬元婚戒,找到時戴在別人手上摘不下來……

      事發上海地鐵!男子弄丟5萬元婚戒,找到時戴在別人手上摘不下來……

      環球網資訊
      2026-01-09 14:39:17
      成龍在人民日報撰文

      成龍在人民日報撰文

      新民周刊
      2026-01-08 18:58:40
      女人坐了28年牢,出獄去辦證,民警一查系統,當場愣了

      女人坐了28年牢,出獄去辦證,民警一查系統,當場愣了

      卡西莫多的故事
      2025-10-30 11:33:46
      66歲倪萍廬山落淚:身家過億難買兒媳,兒子拒婚背后隱情太扎心

      66歲倪萍廬山落淚:身家過億難買兒媳,兒子拒婚背后隱情太扎心

      聞識
      2026-01-09 14:52:01
      廣東4名干部被通報

      廣東4名干部被通報

      南粵女聲
      2026-01-09 11:36:02
      一覺醒來,伊朗采取極端措施了

      一覺醒來,伊朗采取極端措施了

      牛彈琴
      2026-01-09 07:41:40
      魯比奧稱聯合國無關緊要后,不到48小時,美國退出了66個國際組織

      魯比奧稱聯合國無關緊要后,不到48小時,美國退出了66個國際組織

      古史青云啊
      2026-01-09 19:39:48
      趙睿歇了,高詩巖也歇了,唯獨胡明軒不行?杜鋒,請你放過他吧

      趙睿歇了,高詩巖也歇了,唯獨胡明軒不行?杜鋒,請你放過他吧

      多特體育說
      2026-01-09 19:27:35
      中方考慮斷供稀土,日本不能接受!日媒:或對華斷供光刻膠光刻機

      中方考慮斷供稀土,日本不能接受!日媒:或對華斷供光刻膠光刻機

      單手搓核彈
      2026-01-09 10:12:43
      不裝了?當著聯合國的面美國大使公然宣稱:西半球就是我們的!

      不裝了?當著聯合國的面美國大使公然宣稱:西半球就是我們的!

      嫹筆牂牂
      2026-01-09 11:51:02
      2026-01-09 20:43:00
      機器之心Pro incentive-icons
      機器之心Pro
      專業的人工智能媒體
      12088文章數 142533關注度
      往期回顧 全部

      科技要聞

      市場偏愛MiniMax:開盤漲42%,市值超700億

      頭條要聞

      女子"出軌"已婚985高校博士后 看到其聊天記錄嚇傻了

      頭條要聞

      女子"出軌"已婚985高校博士后 看到其聊天記錄嚇傻了

      體育要聞

      金元時代最后的外援,來中國8年了

      娛樂要聞

      關曉彤鹿晗風波后露面 不受影響狀態佳

      財經要聞

      投資必看!瑞銀李萌給出3大核心配置建議

      汽車要聞

      助跑三年的奇瑞 接下來是加速還是起跳?

      態度原創

      家居
      健康
      數碼
      教育
      房產

      家居要聞

      木色留白 演繹現代自由

      這些新療法,讓化療不再那么痛苦

      數碼要聞

      HKC亮相CES 2026:1080Hz刷新率等前沿顯示技術引領風潮

      教育要聞

      直播預告!中小學英語數字化教學與實踐成果展評 | AI+教師發展公益行·惠州站

      房產要聞

      66萬方!4755套!三亞巨量房源正瘋狂砸出!

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 香蕉亚洲欧洲在线一区| 国产欧美日韩精品第二区| 夜夜躁很很躁日日躁麻豆| 538av| 韩国三级丰满少妇高潮| 蜜臀久久99精品久久久久久酒店 | 99精品视频在线观看| 亚洲中文字幕av在线| 国产精品538一区二区在线| 亚洲国产精品毛片av不卡在线| 国产午夜福利片无码视频| 亚洲精品成人无码AV在线| www.yw尤物| 国产美女久久久亚洲综合| 午夜免费啪视频在线无码| 丰满人妻一区二区三区视频54| 人成午夜免费视频在线观看| 丰满少妇人妻无码| 久久久久有精品国产麻豆| 亚洲人妻久久| 野花国产精品入口| 亚洲国产成人自拍| 91黑丝视频| 香蕉在线精品一区二区| 国产99久久久久久免费看| 国产精品流白浆在线观看| 动漫av网站免费观看| 亚洲∧v久久久无码精品| 无码国产成人午夜电影在线观看| 午夜精品福利亚洲国产| 久久99精品国产麻豆婷婷| 合水县| 国产乱老熟女乱老熟女视频| 日韩熟女精品一区二区三区| 人妻无码熟妇乱又伦精品视频| 成年午夜免费韩国做受视频| 国产精品乱码人妻一区二区三区| 国产精品伦子伦免费视频| 国产在线精品福利91香蕉| 国内情侣在线高清国语自产拍 | 久久国产精品老女人|