網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

小紅書(shū)圖像編輯新模型落地：大跨度更新背后的技術(shù)突圍與生態(tài)野心

2026-03-09 15:55:30　來(lái)源: 華爾街見(jiàn)聞官方

上海舉報(bào)

分享至

3月8日晚間，小紅書(shū)Super Intelligence團(tuán)隊(duì)悄然扔下了一枚技術(shù)深水炸彈。

距離1.0版本發(fā)布不足一個(gè)月，F(xiàn)ireRed-Image-Edit 1.1版本如約而至。官方用“史詩(shī)級(jí)更新”來(lái)形容此次升級(jí)，這在向來(lái)以社區(qū)和種草為標(biāo)簽的小紅書(shū)身上，顯得既突兀又合理。

突兀的是，在大眾認(rèn)知中，小紅書(shū)仍然是一個(gè)生活方式平臺(tái)；

合理的是，當(dāng)全球大模型競(jìng)賽進(jìn)入應(yīng)用深水區(qū)，擁有3億月活用戶的超級(jí)社區(qū)，必須掌握定義下一代內(nèi)容生產(chǎn)工具的話語(yǔ)權(quán)。

FireRed-1.1的發(fā)布，不僅是技術(shù)參數(shù)的迭代，更是一場(chǎng)關(guān)于“AI時(shí)代的圖像編輯應(yīng)該長(zhǎng)什么樣”的路線宣言。

01 進(jìn)階的新能力

要理解FireRed-1.1的含金量，首先要理解圖像編輯領(lǐng)域長(zhǎng)期存在的兩大難題：ID（身份）一致性與復(fù)雜語(yǔ)義融合。

過(guò)去的AI圖像編輯，經(jīng)常出現(xiàn)這樣的荒誕場(chǎng)景：用戶輸入“讓這個(gè)人穿上紅色連衣裙并站在海邊”，結(jié)果生成的人物要么五官變形，要么紅色連衣裙與海邊背景出現(xiàn)生硬的摳圖感。

這背后是模型對(duì)人的認(rèn)知斷裂和對(duì)空間關(guān)系的理解失靈。

FireRed-1.1的突破，恰恰瞄準(zhǔn)了這兩個(gè)命門。

在人像編輯方面，新版本顯著提升了人物身份一致性表現(xiàn)。

這意味著，無(wú)論是給照片中的模特?fù)Q裝、改變發(fā)型，還是添加復(fù)雜的妝容特效，模型能夠在復(fù)雜的編輯過(guò)程中緊緊鎖定主體的特征——顴骨的弧度、眼神光的角度、甚至嘴角上揚(yáng)的微妙紋路。

官方數(shù)據(jù)顯示，在處理涉及人像的復(fù)雜指令時(shí)，F(xiàn)ireRed-1.1能夠確保主體特征在像素級(jí)的擾動(dòng)下依然保持穩(wěn)定。這對(duì)于內(nèi)容創(chuàng)作者而言是致命的痛點(diǎn)：過(guò)去的AI修圖是換頭，現(xiàn)在的FireRed是精修。

更令人驚訝的是它的多線程處理能力。新版本增強(qiáng)了多元素融合能力，可在同一畫(huà)面中組合10個(gè)以上的視覺(jué)元素，并通過(guò)自動(dòng)裁剪與拼接機(jī)制完成圖像合成。

想象一下這樣的提示詞：“一位穿著法式復(fù)古襯衫的女生，坐在塞納河畔的咖啡館，桌上放著一杯拿鐵和一本打開(kāi)的《小王子》，背景里有埃菲爾鐵塔的剪影和飄落的梧桐葉。”這是一個(gè)包含人物、服裝、場(chǎng)景、物品、建筑、自然現(xiàn)象在內(nèi)的復(fù)雜指令。傳統(tǒng)的擴(kuò)散模型很容易在其中某個(gè)環(huán)節(jié)“擺爛”——要么鐵塔畫(huà)歪了，要么梧桐葉糊在了人臉上。

FireRed-1.1引入的Agent模塊正是為此而生。當(dāng)輸入超過(guò)三張參考圖或包含復(fù)雜元素時(shí)，系統(tǒng)會(huì)自動(dòng)執(zhí)行區(qū)域檢測(cè)、圖像裁剪和拼接，并根據(jù)新的圖像結(jié)構(gòu)重寫(xiě)編輯指令。它不再是機(jī)械地“拼圖”，而是在理解語(yǔ)義關(guān)系后的重構(gòu)。

此外，針對(duì)小紅書(shū)平臺(tái)最核心的兩種內(nèi)容形態(tài)——人像攝影與文字排版，F(xiàn)ireRed-1.1也做了專項(xiàng)優(yōu)化。

在人像美妝方面，模型新增了專業(yè)美顏修圖、膚色提亮以及創(chuàng)意妝容等多種編輯效果。這不僅僅是濾鏡的疊加，而是基于對(duì)臉部結(jié)構(gòu)的理解進(jìn)行的“光影重塑”。

同時(shí)，對(duì)文字樣式的理解能力也被強(qiáng)化，生成圖像中的排版和字體風(fēng)格能保持更高一致性。對(duì)于制作封面圖、海報(bào)的用戶來(lái)說(shuō)，這意味著字圖融合的違和感將被大幅消除。

如果說(shuō)算法能力決定了模型的上限，那么工程化能力則決定了它能否被大規(guī)模使用。

在評(píng)測(cè)方面，F(xiàn)ireRed-Image-Edit在ImgEdit、GEdit和REDEdit等多個(gè)圖像編輯基準(zhǔn)測(cè)試中取得了較高評(píng)分，團(tuán)隊(duì)表示在提示詞理解和視覺(jué)一致性方面獲得了人工評(píng)測(cè)的較高評(píng)價(jià)。

但真正讓行業(yè)關(guān)注的，是4.5秒這個(gè)數(shù)字。

FireRed-1.1將端到端的推理耗時(shí)縮短至約4.5秒，顯存需求降低至約30GB 。這意味著它不再是一個(gè)需要昂貴云端顯卡才能運(yùn)行的科學(xué)裝置，而是一個(gè)可以在消費(fèi)級(jí)顯卡上流暢運(yùn)行、甚至有望部署在邊緣端的工業(yè)級(jí)工具。

02 構(gòu)建完整生態(tài)

技術(shù)的亮眼并不能掩蓋一個(gè)現(xiàn)實(shí)：這條賽道上擠滿了對(duì)手。

在圖像生成與編輯領(lǐng)域，字節(jié)跳動(dòng)的豆包、阿里云的千問(wèn)以及眾多創(chuàng)業(yè)公司的產(chǎn)品早已跑馬圈地。以上功能也是豆包、千問(wèn)等模型主打的能力。

那么FireRed的競(jìng)爭(zhēng)力究竟在哪里？

答案可能是數(shù)據(jù)飛輪與場(chǎng)景閉環(huán)。

過(guò)去很長(zhǎng)一段時(shí)間，小紅書(shū)上的用戶在使用AI生成或編輯圖像內(nèi)容時(shí)，以豆包等外部工具為主。

這形成了一個(gè)尷尬的局面：小紅書(shū)是靈感策源地和內(nèi)容分發(fā)地，但最核心的創(chuàng)作環(huán)節(jié)卻發(fā)生在別處。用戶帶著在小紅書(shū)刷到的種草圖，跳轉(zhuǎn)到其他App生成，再帶回小紅書(shū)發(fā)布。

FireRed的使命，首先是守城。

當(dāng)平臺(tái)內(nèi)置的編輯能力足以媲美甚至超越外部工具時(shí)，用戶就無(wú)需跳轉(zhuǎn)。從“搜教程”到“去生成”再到“來(lái)發(fā)布”，全部在小紅書(shū)的閉環(huán)內(nèi)完成。這不僅能提升用戶體驗(yàn)的流暢度，更能將海量的創(chuàng)作行為數(shù)據(jù)沉淀在自有體系中，用于反哺推薦算法和模型訓(xùn)練。

更深層次的競(jìng)爭(zhēng)力在于審美對(duì)齊。

豆包和千問(wèn)是通用模型，追求的是泛用性和指令遵循的廣度。而FireRed從小紅書(shū)的土壤里長(zhǎng)出來(lái)，天然攜帶著社區(qū)審美的基因。

小紅書(shū)的內(nèi)容生態(tài)有其自身特色的視覺(jué)語(yǔ)言：一種“精致的真實(shí)感”——光線要通透，色調(diào)要柔和，構(gòu)圖要有呼吸感，細(xì)節(jié)要有生活氣息。FireRed在多元素融合、人像美妝、字體樣式上的優(yōu)化，顯然是沖著滿足這種小紅書(shū)美學(xué)去的。

當(dāng)通用模型還在努力理解什么是好看時(shí)，F(xiàn)ireRed已經(jīng)在學(xué)習(xí)小紅書(shū)上認(rèn)為什么是好看。這種基于社區(qū)調(diào)性的審美對(duì)齊，是任何外部通用模型難以復(fù)制的護(hù)城河。

此外，選擇開(kāi)源也是一步極具前瞻性的棋。在全球大模型競(jìng)爭(zhēng)步入應(yīng)用深水區(qū)的背景下，頭部平臺(tái)正試圖通過(guò)降低多模態(tài)技術(shù)門檻，構(gòu)建以內(nèi)容創(chuàng)作為核心的差異化AI競(jìng)爭(zhēng)力。

通過(guò)開(kāi)源，F(xiàn)ireRed有可能吸引大量開(kāi)發(fā)者和中小企業(yè)基于其框架開(kāi)發(fā)垂直應(yīng)用，從而在圖像編輯領(lǐng)域建立起小紅書(shū)標(biāo)準(zhǔn)。當(dāng)社區(qū)內(nèi)外圍繞FireRed形成了豐富的工具鏈和插件生態(tài)，后來(lái)者想要顛覆它的成本就會(huì)變得極高。

當(dāng)然，站在聚光燈下的FireRed并非高枕無(wú)憂。

挑戰(zhàn)之一在于用戶心智的爭(zhēng)奪。豆包、千問(wèn)等背靠大廠的產(chǎn)品已經(jīng)積累了龐大的用戶基礎(chǔ)和品牌認(rèn)知。讓用戶從“用豆包”轉(zhuǎn)向“用小紅書(shū)內(nèi)置的FireRed”，不僅需要技術(shù)過(guò)硬，還需要在交互體驗(yàn)和運(yùn)營(yíng)策略上進(jìn)行精心設(shè)計(jì)。

另外，在場(chǎng)景的泛化能力上，也具有一定的挑戰(zhàn)。

目前的FireRed強(qiáng)在圖像編輯，而圖像生成（文生圖）同樣是內(nèi)容創(chuàng)作的重要一環(huán)。團(tuán)隊(duì)已預(yù)告未來(lái)將發(fā)布新的文本生成圖像模型版本。

這意味著小紅書(shū)的多模態(tài)能力將拼上最后一塊版圖，但也意味著將直面Stable Diffusion、Midjourney等成熟生態(tài)的更激烈競(jìng)爭(zhēng)。

技術(shù)倫理與社區(qū)治理也是小紅書(shū)長(zhǎng)期關(guān)注的方向。

圖像編輯能力的增強(qiáng)，也意味著對(duì)虛假信息、AI換臉、版權(quán)侵權(quán)等風(fēng)險(xiǎn)的防控壓力增大。如何平衡創(chuàng)作自由與內(nèi)容安全，將是小紅書(shū)必須同步解決的命題。

值得注意的是，在發(fā)布FireRed-Image-Edit 1.1的同時(shí)，小紅書(shū)Super Intelligence團(tuán)隊(duì)在更早前已展示了在OCR領(lǐng)域的突破——僅2B參數(shù)的FireRed-OCR在文檔解析基準(zhǔn)測(cè)試中超越了GPT-5.2等超大模型。

這說(shuō)明小紅書(shū)的多模態(tài)布局并非單點(diǎn)突破，而是系統(tǒng)性的技術(shù)棧建設(shè)。

對(duì)于小紅書(shū)而言，F(xiàn)ireRed 1.1的發(fā)布不僅僅是一次產(chǎn)品更新，更是一次身份的拓展——它正在從內(nèi)容社區(qū)向內(nèi)容基礎(chǔ)設(shè)施提供商邁進(jìn)。

在這個(gè)AI重新定義創(chuàng)作的時(shí)代，掌握核心生成能力的平臺(tái)，才有可能在下一輪競(jìng)爭(zhēng)中掌握定義“美”的話語(yǔ)權(quán)。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.