![]()
3月8日晚間,小紅書(shū)Super Intelligence團(tuán)隊(duì)悄然扔下了一枚技術(shù)深水炸彈。
距離1.0版本發(fā)布不足一個(gè)月,F(xiàn)ireRed-Image-Edit 1.1版本如約而至。官方用“史詩(shī)級(jí)更新”來(lái)形容此次升級(jí),這在向來(lái)以社區(qū)和種草為標(biāo)簽的小紅書(shū)身上,顯得既突兀又合理。
突兀的是,在大眾認(rèn)知中,小紅書(shū)仍然是一個(gè)生活方式平臺(tái);
合理的是,當(dāng)全球大模型競(jìng)賽進(jìn)入應(yīng)用深水區(qū),擁有3億月活用戶的超級(jí)社區(qū),必須掌握定義下一代內(nèi)容生產(chǎn)工具的話語(yǔ)權(quán)。
FireRed-1.1的發(fā)布,不僅是技術(shù)參數(shù)的迭代,更是一場(chǎng)關(guān)于“AI時(shí)代的圖像編輯應(yīng)該長(zhǎng)什么樣”的路線宣言。
01 進(jìn)階的新能力
要理解FireRed-1.1的含金量,首先要理解圖像編輯領(lǐng)域長(zhǎng)期存在的兩大難題:ID(身份)一致性與復(fù)雜語(yǔ)義融合。
過(guò)去的AI圖像編輯,經(jīng)常出現(xiàn)這樣的荒誕場(chǎng)景:用戶輸入“讓這個(gè)人穿上紅色連衣裙并站在海邊”,結(jié)果生成的人物要么五官變形,要么紅色連衣裙與海邊背景出現(xiàn)生硬的摳圖感。
這背后是模型對(duì)人的認(rèn)知斷裂和對(duì)空間關(guān)系的理解失靈。
FireRed-1.1的突破,恰恰瞄準(zhǔn)了這兩個(gè)命門。
在人像編輯方面,新版本顯著提升了人物身份一致性表現(xiàn)。
這意味著,無(wú)論是給照片中的模特?fù)Q裝、改變發(fā)型,還是添加復(fù)雜的妝容特效,模型能夠在復(fù)雜的編輯過(guò)程中緊緊鎖定主體的特征——顴骨的弧度、眼神光的角度、甚至嘴角上揚(yáng)的微妙紋路。
官方數(shù)據(jù)顯示,在處理涉及人像的復(fù)雜指令時(shí),F(xiàn)ireRed-1.1能夠確保主體特征在像素級(jí)的擾動(dòng)下依然保持穩(wěn)定。這對(duì)于內(nèi)容創(chuàng)作者而言是致命的痛點(diǎn):過(guò)去的AI修圖是換頭,現(xiàn)在的FireRed是精修。
更令人驚訝的是它的多線程處理能力。新版本增強(qiáng)了多元素融合能力,可在同一畫(huà)面中組合10個(gè)以上的視覺(jué)元素,并通過(guò)自動(dòng)裁剪與拼接機(jī)制完成圖像合成。
想象一下這樣的提示詞:“一位穿著法式復(fù)古襯衫的女生,坐在塞納河畔的咖啡館,桌上放著一杯拿鐵和一本打開(kāi)的《小王子》,背景里有埃菲爾鐵塔的剪影和飄落的梧桐葉。”這是一個(gè)包含人物、服裝、場(chǎng)景、物品、建筑、自然現(xiàn)象在內(nèi)的復(fù)雜指令。傳統(tǒng)的擴(kuò)散模型很容易在其中某個(gè)環(huán)節(jié)“擺爛”——要么鐵塔畫(huà)歪了,要么梧桐葉糊在了人臉上。
FireRed-1.1引入的Agent模塊正是為此而生。當(dāng)輸入超過(guò)三張參考圖或包含復(fù)雜元素時(shí),系統(tǒng)會(huì)自動(dòng)執(zhí)行區(qū)域檢測(cè)、圖像裁剪和拼接,并根據(jù)新的圖像結(jié)構(gòu)重寫(xiě)編輯指令。它不再是機(jī)械地“拼圖”,而是在理解語(yǔ)義關(guān)系后的重構(gòu)。
此外,針對(duì)小紅書(shū)平臺(tái)最核心的兩種內(nèi)容形態(tài)——人像攝影與文字排版,F(xiàn)ireRed-1.1也做了專項(xiàng)優(yōu)化。
在人像美妝方面,模型新增了專業(yè)美顏修圖、膚色提亮以及創(chuàng)意妝容等多種編輯效果。這不僅僅是濾鏡的疊加,而是基于對(duì)臉部結(jié)構(gòu)的理解進(jìn)行的“光影重塑”。
同時(shí),對(duì)文字樣式的理解能力也被強(qiáng)化,生成圖像中的排版和字體風(fēng)格能保持更高一致性。對(duì)于制作封面圖、海報(bào)的用戶來(lái)說(shuō),這意味著字圖融合的違和感將被大幅消除。
如果說(shuō)算法能力決定了模型的上限,那么工程化能力則決定了它能否被大規(guī)模使用。
在評(píng)測(cè)方面,F(xiàn)ireRed-Image-Edit在ImgEdit、GEdit和REDEdit等多個(gè)圖像編輯基準(zhǔn)測(cè)試中取得了較高評(píng)分,團(tuán)隊(duì)表示在提示詞理解和視覺(jué)一致性方面獲得了人工評(píng)測(cè)的較高評(píng)價(jià)。
但真正讓行業(yè)關(guān)注的,是4.5秒這個(gè)數(shù)字。
FireRed-1.1將端到端的推理耗時(shí)縮短至約4.5秒,顯存需求降低至約30GB 。這意味著它不再是一個(gè)需要昂貴云端顯卡才能運(yùn)行的科學(xué)裝置,而是一個(gè)可以在消費(fèi)級(jí)顯卡上流暢運(yùn)行、甚至有望部署在邊緣端的工業(yè)級(jí)工具。
02 構(gòu)建完整生態(tài)
技術(shù)的亮眼并不能掩蓋一個(gè)現(xiàn)實(shí):這條賽道上擠滿了對(duì)手。
在圖像生成與編輯領(lǐng)域,字節(jié)跳動(dòng)的豆包、阿里云的千問(wèn)以及眾多創(chuàng)業(yè)公司的產(chǎn)品早已跑馬圈地。以上功能也是豆包、千問(wèn)等模型主打的能力。
那么FireRed的競(jìng)爭(zhēng)力究竟在哪里?
答案可能是數(shù)據(jù)飛輪與場(chǎng)景閉環(huán)。
過(guò)去很長(zhǎng)一段時(shí)間,小紅書(shū)上的用戶在使用AI生成或編輯圖像內(nèi)容時(shí),以豆包等外部工具為主。
這形成了一個(gè)尷尬的局面:小紅書(shū)是靈感策源地和內(nèi)容分發(fā)地,但最核心的創(chuàng)作環(huán)節(jié)卻發(fā)生在別處。用戶帶著在小紅書(shū)刷到的種草圖,跳轉(zhuǎn)到其他App生成,再帶回小紅書(shū)發(fā)布。
FireRed的使命,首先是守城。
當(dāng)平臺(tái)內(nèi)置的編輯能力足以媲美甚至超越外部工具時(shí),用戶就無(wú)需跳轉(zhuǎn)。從“搜教程”到“去生成”再到“來(lái)發(fā)布”,全部在小紅書(shū)的閉環(huán)內(nèi)完成。這不僅能提升用戶體驗(yàn)的流暢度,更能將海量的創(chuàng)作行為數(shù)據(jù)沉淀在自有體系中,用于反哺推薦算法和模型訓(xùn)練。
更深層次的競(jìng)爭(zhēng)力在于審美對(duì)齊。
豆包和千問(wèn)是通用模型,追求的是泛用性和指令遵循的廣度。而FireRed從小紅書(shū)的土壤里長(zhǎng)出來(lái),天然攜帶著社區(qū)審美的基因。
小紅書(shū)的內(nèi)容生態(tài)有其自身特色的視覺(jué)語(yǔ)言:一種“精致的真實(shí)感”——光線要通透,色調(diào)要柔和,構(gòu)圖要有呼吸感,細(xì)節(jié)要有生活氣息。FireRed在多元素融合、人像美妝、字體樣式上的優(yōu)化,顯然是沖著滿足這種小紅書(shū)美學(xué)去的。
當(dāng)通用模型還在努力理解什么是好看時(shí),F(xiàn)ireRed已經(jīng)在學(xué)習(xí)小紅書(shū)上認(rèn)為什么是好看。這種基于社區(qū)調(diào)性的審美對(duì)齊,是任何外部通用模型難以復(fù)制的護(hù)城河。
此外,選擇開(kāi)源也是一步極具前瞻性的棋。在全球大模型競(jìng)爭(zhēng)步入應(yīng)用深水區(qū)的背景下,頭部平臺(tái)正試圖通過(guò)降低多模態(tài)技術(shù)門檻,構(gòu)建以內(nèi)容創(chuàng)作為核心的差異化AI競(jìng)爭(zhēng)力。
通過(guò)開(kāi)源,F(xiàn)ireRed有可能吸引大量開(kāi)發(fā)者和中小企業(yè)基于其框架開(kāi)發(fā)垂直應(yīng)用,從而在圖像編輯領(lǐng)域建立起小紅書(shū)標(biāo)準(zhǔn)。當(dāng)社區(qū)內(nèi)外圍繞FireRed形成了豐富的工具鏈和插件生態(tài),后來(lái)者想要顛覆它的成本就會(huì)變得極高。
當(dāng)然,站在聚光燈下的FireRed并非高枕無(wú)憂。
挑戰(zhàn)之一在于用戶心智的爭(zhēng)奪。 豆包、千問(wèn)等背靠大廠的產(chǎn)品已經(jīng)積累了龐大的用戶基礎(chǔ)和品牌認(rèn)知。讓用戶從“用豆包”轉(zhuǎn)向“用小紅書(shū)內(nèi)置的FireRed”,不僅需要技術(shù)過(guò)硬,還需要在交互體驗(yàn)和運(yùn)營(yíng)策略上進(jìn)行精心設(shè)計(jì)。
另外,在場(chǎng)景的泛化能力上,也具有一定的挑戰(zhàn)。
目前的FireRed強(qiáng)在圖像編輯,而圖像生成(文生圖)同樣是內(nèi)容創(chuàng)作的重要一環(huán)。團(tuán)隊(duì)已預(yù)告未來(lái)將發(fā)布新的文本生成圖像模型版本。
這意味著小紅書(shū)的多模態(tài)能力將拼上最后一塊版圖,但也意味著將直面Stable Diffusion、Midjourney等成熟生態(tài)的更激烈競(jìng)爭(zhēng)。
技術(shù)倫理與社區(qū)治理也是小紅書(shū)長(zhǎng)期關(guān)注的方向。
圖像編輯能力的增強(qiáng),也意味著對(duì)虛假信息、AI換臉、版權(quán)侵權(quán)等風(fēng)險(xiǎn)的防控壓力增大。如何平衡創(chuàng)作自由與內(nèi)容安全,將是小紅書(shū)必須同步解決的命題。
值得注意的是,在發(fā)布FireRed-Image-Edit 1.1的同時(shí),小紅書(shū)Super Intelligence團(tuán)隊(duì)在更早前已展示了在OCR領(lǐng)域的突破——僅2B參數(shù)的FireRed-OCR在文檔解析基準(zhǔn)測(cè)試中超越了GPT-5.2等超大模型。
這說(shuō)明小紅書(shū)的多模態(tài)布局并非單點(diǎn)突破,而是系統(tǒng)性的技術(shù)棧建設(shè)。
對(duì)于小紅書(shū)而言,F(xiàn)ireRed 1.1的發(fā)布不僅僅是一次產(chǎn)品更新,更是一次身份的拓展——它正在從內(nèi)容社區(qū)向內(nèi)容基礎(chǔ)設(shè)施提供商邁進(jìn)。
在這個(gè)AI重新定義創(chuàng)作的時(shí)代,掌握核心生成能力的平臺(tái),才有可能在下一輪競(jìng)爭(zhēng)中掌握定義“美”的話語(yǔ)權(quán)。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.