4月9日消息,京東探索研究院近日正式開源了多模態(tài)AI模型JoyAI-Image-Edit。據(jù)了解,該模型集成了文生圖、圖像理解與指令編輯功能,其特點(diǎn)是引入了空間智能,旨在解決AI圖像編輯中物體變形、透視失真等空間一致性問題。
據(jù)悉,該模型采用統(tǒng)一架構(gòu),深度融合圖像生成與理解能力。其核心突破在于支持三類空間編輯操作:用戶可通過指令調(diào)整觀察視角、進(jìn)行虛擬“空間漫游”以生成連貫的多視角圖像序列,以及對場景中物體的位置、大小等空間關(guān)系進(jìn)行操控,并保持遮擋、光影合理。
在應(yīng)用層面,該模型為多個領(lǐng)域提供了新工具。例如,電商領(lǐng)域可基于單張商品圖生成多角度展示圖;在3D重建、建筑設(shè)計等領(lǐng)域,則可幫助用戶從有限圖片生成幾何一致的多視角圖像,用于三維展示或創(chuàng)意預(yù)覽。
目前,JoyAI-Image-Edit模型已在HuggingFace及Github平臺開源。(櫟行)
