網易首頁 > 網易號 > 正文申請入駐

這個春節P圖不求人！小紅書開源圖像編輯新SOTA

2026-02-12 20:02:10　來源: 量子位

湖南舉報

分享至

允中發自凹非寺
量子位 | 公眾號 QbitAI

AI生圖領域，又出了個“狠角色”。

今日，小紅書基礎模型FireRed-Image-Edit正式亮相。

看似“低調”，實則戰績驚人——其在處理復雜編輯指令、風格化轉換，及高精度文字編輯等多個核心指標上，展現出超強實力。

對比結果顯示，FireRed-Image-Edit憑借更精準的理解力、更強的ID保持度及高效的架構，在多項權威測試中脫穎而出，在ImgEdit、GEdit等多個榜單中取得了SOTA，達到業界領先水平。

△主流榜單和自建評測集上的指標對比

這種高效架構背后的技術底座，來自小紅書Super Intelligence Team在圖像生成與編輯領域的一次重要探索。

劃重點！目前該項目代碼、技術報告、demo網頁已開源，模型權重也即將在未來幾天開源。

△人工評估勝出率

硬核評測指標與全鏈路技術底座

FireRed-Image-Edit之所以能被稱為“狠角色”，不僅在于榜單上的驚艷表現，更源于小紅書團隊為其量身定制的一套“高難度考卷”與“進階版練功房”。

1、重新定義標準：RedEdit Bench

在AI生圖領域，現有的基準測試往往難以覆蓋用戶真實的復雜需求。為此，團隊推出了RedEdit Bench這一深度評測方案。

全場景覆蓋：包含15個子任務。除了常規的畫面增刪改外，該評測集還前瞻性地納入了人像美化、低畫質增強等高頻實戰場景。
真實嚴苛：對比實驗表明，相比ImgEdit和GEdit，該Bench對編輯模型通用能力的評估精度更高。

該Bench隨后會開源，以期為開源社區對圖像編輯模型的評估建立新維度的標準。

2、核心戰力來源：數據構造與三階段訓練

有了嚴苛的考卷，如何“培養”出高分考生？

FireRed-Image-Edit依靠的是一套極具效率的數據引擎與訓練邏輯

首先來看數據引擎方面，FireRed-Image-Edit構建了一套圖像編輯數據生產引擎，從“快速、可控、精準”出發，將復雜編輯需求拆解為可組合的子任務，并通過三條路徑規模化產出訓練對

指令控制的專家模型合成；
結構化控制（如分割/關鍵點/深度等）的專家模型合成；
模型無關的模板化合成（如3D/布局/文字）。

針對長尾編輯任務樣本稀缺問題，采用“檢查—補齊”的定向補數流程，由引擎快速生成針對性數據，并配合三層級去重、十余種質量清洗算子與嚴格一致性守門員，確保數據的指令遵循、視覺自然度與內容一致性

而在模型訓練方面，當前模型框架參考主流編輯模型框架，模型通過三階段訓練來完成能力的進階。

預訓練階段：通過多條件感知桶采樣來平衡不同的編輯任務，并通過隨機動態指令來提升模型的指令泛化理解能力，并通過前置的embedding抽取來提升訓練效率；
微調階段：通過高質量數據的引入，來提升模型表現；
強化學習階段：通過非對稱梯度優化來強化正樣本反饋，基于OCR獎勵的diffusionNFT來提升文字編輯準確性。

模型核心能力展示

FireRed-Image-Edit的強大，源于對“編輯”二字的深度理解。

并非簡單重繪，而是實現精準控制，其核心能力提升如下。

1、指令遵循一致性

指的是模型引入隨機指令對齊的機制，通過隨機打亂和動態重組prompt，來使模型能真正理解語義與圖像的對應關系，而非死記硬背。

請修正圖像中的錯誤。

示例1：

示例2：

2、文字編輯

FireRed-Image-Edit創新性地提出了Layout-Aware OCR-based Reward

在強化學習階段，團隊不僅懲罰錯別字，還懲罰字符的錯位、大小異常和布局崩壞。

這使得模型在進行海報修改、文字替換時，能更準確地進行編輯并保持原始文字風格。

示例1：

將海報上右下角的文字“ programme”修改為“program ongoing”，保持字體和風格一致。

示例2：

用參考圖的玩偶作為畫面主角，衣服上面印著“FireRed-Image-Edit”字樣，站在童話感花園草地中，周圍有精致小花和柔和建筑背景，整體風格溫暖夢幻，超清細節，商業級攝影質感。小紅薯正對鏡頭，自信可愛地站立，身后是一塊黑板，用白色粉筆清晰寫著： “FireRed-Image-Edit三大絕活：文字藝術家：中英文字體排版專業穩定，視覺風格統一時光修復師：老照片修復細節豐富，呈現自然真實造型設計師：智能換裝精準自然，多風格服飾一鍵切換”，文字為白色粉筆手寫體。畫面光線柔和自然光，淺景深，背景輕微虛化，色彩明亮飽滿，高清8K，真實攝影風格，細節銳利，無噪點，無畸變。

3、創意與多圖生成

同時依賴于強大的模型架構能力，FireRed-Image-Edit支持了創造力場景生成和多參考圖生成的能力，支持風格遷移或多圖融合。

示例1：

模特穿上圖1服飾，版型寬松。搭配黑色、材質為氨綸、純色、緊身、長度至大腿中部的騎行短褲，再搭配金色圓環耳環。

示例2：

一瓶香水放居中，香水瓶放在水面上，透明方形瓶身搭配金色金屬瓶蓋，極簡而現代。晶瑩的水花如爆炸般環繞瓶身綻放開，無數水滴在空中定格，折射出夢幻的光彩。底部水波漣漪層層擴散，與飛濺的水花形成動靜交織的視覺張力。清涼活力與高端奢華并存，仿佛將夏日清泉的瞬息靈動永久封存。透過瓶身能看到香水背后的說明書。

示例3：

將這張圖變成游戲CG風格，極具藝術感，震撼人心，超高清。落葉飛濺，前景落葉虛化，動態模糊，背景動態虛化，陽光燦爛，藍天白云，光影交錯，仰拍特寫鏡頭，突出速度感和視覺沖擊力，強透視。

示例4：

將這張圖變成游戲CG風格，極具藝術感，震撼人心。

示例5：

設計一張A6折疊卡：打開時顯示圖片中的小屋。

示例6：

畫質修復，細節重現：除了通用編輯，實際應用中，用戶經常面臨照片模糊、低分辨率、曝光不足或畫質受損的問題。FireRed-Image-Edit將超分、去模糊、去噪及光影增強等底層視覺任務統一納入了指令微調的范疇。讓用戶可以一鍵畫質調整。修復并上色這張老照片，使其看起來像是用現代相機拍攝的。

示例7：

將這張模糊的圖像增強清晰度，使其極為清晰且高質量。

通過開源FireRed-Image-Edit，小紅書希望為社區提供一個高效、可控、高質量的基座。

后續將會進一步提升基礎模型在人像美化、一致性、文字上的編輯能力，并將在未來幾個月內持續開源更新版本和文生圖基座模型。

歡迎大家下載體驗，在GitHub上點亮Star！

GitHub:
https://github.com/FireRedTeam/FireRed-Image-Edit
技術報告:
https://github.com/FireRedTeam/FireRed-Image-Edit/blob/main/assets/FireRed_Image_Edit_1_0_Techinical_Report.pdf
體驗Demo:
https://huggingface.co/spaces/FireRedTeam/FireRed-Image-Edit-1.0

以下是小紅書Super Intelligence的團隊介紹：

*本文系量子位獲授權刊載，觀點僅為原作者所有。

一鍵三連「點贊」「轉發」「小心心」

歡迎在評論區留下你的想法！

科技前沿進展每日見

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.