允中 發自 凹非寺
量子位 | 公眾號 QbitAI
AI生圖領域,又出了個“狠角色”。
今日,小紅書基礎模型FireRed-Image-Edit正式亮相。
看似“低調”,實則戰績驚人——其在處理復雜編輯指令、風格化轉換,及高精度文字編輯等多個核心指標上,展現出超強實力。
對比結果顯示,FireRed-Image-Edit憑借更精準的理解力、更強的ID保持度及高效的架構,在多項權威測試中脫穎而出,在ImgEdit、GEdit等多個榜單中取得了SOTA,達到業界領先水平。
![]()
△主流榜單和自建評測集上的指標對比
這種高效架構背后的技術底座,來自小紅書Super Intelligence Team在圖像生成與編輯領域的一次重要探索。
劃重點!目前該項目代碼、技術報告、demo網頁已開源,模型權重也即將在未來幾天開源。
![]()
△人工評估勝出率
硬核評測指標與全鏈路技術底座
FireRed-Image-Edit之所以能被稱為“狠角色”,不僅在于榜單上的驚艷表現,更源于小紅書團隊為其量身定制的一套“高難度考卷”與“進階版練功房”。
1、重新定義標準:RedEdit Bench
在AI生圖領域,現有的基準測試往往難以覆蓋用戶真實的復雜需求。為此,團隊推出了RedEdit Bench這一深度評測方案。
- 全場景覆蓋:包含15個子任務。除了常規的畫面增刪改外,該評測集還前瞻性地納入了人像美化、低畫質增強等高頻實戰場景。
- 真實嚴苛:對比實驗表明,相比ImgEdit和GEdit,該Bench對編輯模型通用能力的評估精度更高。
該Bench隨后會開源,以期為開源社區對圖像編輯模型的評估建立新維度的標準。
![]()
2、核心戰力來源:數據構造與三階段訓練
有了嚴苛的考卷,如何“培養”出高分考生?
FireRed-Image-Edit依靠的是一套極具效率的數據引擎與訓練邏輯
首先來看數據引擎方面,FireRed-Image-Edit構建了一套圖像編輯數據生產引擎,從“快速、可控、精準”出發,將復雜編輯需求拆解為可組合的子任務,并通過三條路徑規模化產出訓練對
- 指令控制的專家模型合成;
- 結構化控制(如分割/關鍵點/深度等)的專家模型合成;
- 模型無關的模板化合成(如3D/布局/文字)。
針對長尾編輯任務樣本稀缺問題,采用“檢查—補齊”的定向補數流程,由引擎快速生成針對性數據,并配合三層級去重、十余種質量清洗算子與嚴格一致性守門員,確保數據的指令遵循、視覺自然度與內容一致性
![]()
而在模型訓練方面,當前模型框架參考主流編輯模型框架,模型通過三階段訓練來完成能力的進階。
- 預訓練階段:通過多條件感知桶采樣來平衡不同的編輯任務,并通過隨機動態指令來提升模型的指令泛化理解能力,并通過前置的embedding抽取來提升訓練效率;
- 微調階段:通過高質量數據的引入,來提升模型表現;
- 強化學習階段:通過非對稱梯度優化來強化正樣本反饋,基于OCR獎勵的diffusionNFT來提升文字編輯準確性。
![]()
模型核心能力展示
FireRed-Image-Edit的強大,源于對“編輯”二字的深度理解。
并非簡單重繪,而是實現精準控制,其核心能力提升如下。
1、指令遵循一致性
指的是模型引入隨機指令對齊的機制,通過隨機打亂和動態重組prompt,來使模型能真正理解語義與圖像的對應關系,而非死記硬背。
- 請修正圖像中的錯誤。
示例1:
![]()
![]()
示例2:
![]()
![]()
2、文字編輯
FireRed-Image-Edit創新性地提出了Layout-Aware OCR-based Reward
在強化學習階段,團隊不僅懲罰錯別字,還懲罰字符的錯位、大小異常和布局崩壞。
這使得模型在進行海報修改、文字替換時,能更準確地進行編輯并保持原始文字風格。
示例1:
- 將海報上右下角的文字“ programme”修改為“program ongoing”,保持字體和風格一致。
![]()
![]()
示例2:
- 用參考圖的玩偶作為畫面主角,衣服上面印著“FireRed-Image-Edit”字樣,站在童話感花園草地中,周圍有精致小花和柔和建筑背景,整體風格溫暖夢幻,超清細節,商業級攝影質感。 小紅薯正對鏡頭,自信可愛地站立,身后是一塊黑板,用白色粉筆清晰寫著: “FireRed-Image-Edit三大絕活:文字藝術家:中英文字體排版專業穩定,視覺風格統一 時光修復師:老照片修復細節豐富,呈現自然真實造型設計師:智能換裝精準自然,多風格服飾一鍵切換”,文字為白色粉筆手寫體。 畫面光線柔和自然光,淺景深,背景輕微虛化,色彩明亮飽滿,高清8K,真實攝影風格,細節銳利,無噪點,無畸變。
![]()
![]()
3、創意與多圖生成
同時依賴于強大的模型架構能力,FireRed-Image-Edit支持了創造力場景生成和多參考圖生成的能力,支持風格遷移或多圖融合。
示例1:
- 模特穿上圖1服飾,版型寬松。搭配黑色、材質為氨綸、純色、緊身、長度至大腿中部的騎行短褲,再搭配金色圓環耳環。
![]()
![]()
![]()
示例2:
- 一瓶香水放居中,香水瓶放在水面上,透明方形瓶身搭配金色金屬瓶蓋,極簡而現代。晶瑩的水花如爆炸般環繞瓶身綻放開,無數水滴在空中定格,折射出夢幻的光彩。底部水波漣漪層層擴散,與飛濺的水花形成動靜交織的視覺張力。清涼活力與高端奢華并存,仿佛將夏日清泉的瞬息靈動永久封存。透過瓶身能看到香水背后的說明書。
![]()
![]()
示例3:
- 將這張圖變成游戲CG風格,極具藝術感,震撼人心,超高清。落葉飛濺,前景落葉虛化,動態模糊,背景動態虛化,陽光燦爛,藍天白云,光影交錯,仰拍特寫鏡頭,突出速度感和視覺沖擊力,強透視。
![]()
![]()
示例4:
- 將這張圖變成游戲CG風格,極具藝術感,震撼人心。
![]()
![]()
示例5:
- 設計一張A6折疊卡:打開時顯示圖片中的小屋。
![]()
![]()
示例6:
- 畫質修復,細節重現:除了通用編輯,實際應用中,用戶經常面臨照片模糊、低分辨率、曝光不足或畫質受損的問題。FireRed-Image-Edit將超分、去模糊、去噪及光影增強等底層視覺任務統一納入了指令微調的范疇。讓用戶可以一鍵畫質調整。修復并上色這張老照片,使其看起來像是用現代相機拍攝的。
![]()
![]()
示例7:
- 將這張模糊的圖像增強清晰度,使其極為清晰且高質量。
![]()
![]()
通過開源FireRed-Image-Edit,小紅書希望為社區提供一個高效、可控、高質量的基座。
后續將會進一步提升基礎模型在人像美化、一致性、文字上的編輯能力,并將在未來幾個月內持續開源更新版本和文生圖基座模型。
歡迎大家下載體驗,在GitHub上點亮Star!
GitHub:
https://github.com/FireRedTeam/FireRed-Image-Edit
技術報告:
https://github.com/FireRedTeam/FireRed-Image-Edit/blob/main/assets/FireRed_Image_Edit_1_0_Techinical_Report.pdf
體驗Demo:
https://huggingface.co/spaces/FireRedTeam/FireRed-Image-Edit-1.0
以下是小紅書Super Intelligence的團隊介紹:
![]()
*本文系量子位獲授權刊載,觀點僅為原作者所有。
一鍵三連「點贊」「轉發」「小心心」
歡迎在評論區留下你的想法!
科技前沿進展每日見
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.