![]()
這項(xiàng)由香港中文大學(xué)MMLab實(shí)驗(yàn)室的姜東志、張人瑞等研究團(tuán)隊(duì)開發(fā)的技術(shù)發(fā)表于2025年12月,論文編號(hào)為arXiv:2512.05112v1。有興趣深入了解的讀者可以通過該編號(hào)查詢完整論文。
當(dāng)我們?nèi)祟惍嫯嫊r(shí),通常會(huì)先畫一個(gè)粗糙的草圖,然后不斷修改完善,最終得到滿意的作品。但現(xiàn)在的AI繪畫系統(tǒng)卻像是閉著眼睛一次性畫完整幅畫,經(jīng)常會(huì)出現(xiàn)各種錯(cuò)誤,比如畫出橙色的蘋果卻說成是白色的,或者把左右位置搞反了。香港中文大學(xué)的研究團(tuán)隊(duì)想到一個(gè)絕妙的主意:為什么不讓AI也學(xué)會(huì)人類這種"先打草稿,再修改完善"的創(chuàng)作方式呢?
這個(gè)想法催生了一項(xiàng)名為DraCo(Draft-as-CoT)的突破性技術(shù)。DraCo的工作原理就像一位認(rèn)真的畫家:首先快速畫出一幅低分辨率的草圖,然后仔細(xì)觀察這幅草圖是否符合要求,發(fā)現(xiàn)問題后進(jìn)行針對(duì)性的修改,最終輸出高質(zhì)量的完整作品。這種方法不僅大大提高了AI繪畫的準(zhǔn)確性,還特別擅長創(chuàng)作那些在現(xiàn)實(shí)中很少見的奇特組合,比如白色的橙子或者紫色的椅子。
研究團(tuán)隊(duì)發(fā)現(xiàn),傳統(tǒng)的AI繪畫系統(tǒng)面臨兩個(gè)核心難題。第一個(gè)難題是規(guī)劃過于抽象。傳統(tǒng)系統(tǒng)只能通過文字來理解和規(guī)劃要畫的內(nèi)容,這就像讓一個(gè)從未見過汽車的人僅憑文字描述來畫汽車,結(jié)果往往差強(qiáng)人意。第二個(gè)難題是罕見組合的生成困難。由于訓(xùn)練數(shù)據(jù)中很少出現(xiàn)"白色的橙子"這樣的奇特組合,AI系統(tǒng)往往會(huì)固執(zhí)地畫出常見的橙色橙子,而忽視用戶的特殊要求。
一、技術(shù)原理:三步走的創(chuàng)作流程
DraCo的工作流程可以比作一個(gè)三階段的繪畫過程。在第一階段"草圖繪制"中,系統(tǒng)根據(jù)用戶的文字描述快速生成一幅384×384像素的低分辨率草圖。這個(gè)階段的重點(diǎn)不是細(xì)節(jié),而是確保基本的構(gòu)圖和主要元素都能體現(xiàn)出來,就像畫家先用鉛筆快速勾勒出大致輪廓。
第二階段是"草圖驗(yàn)證",這是DraCo最獨(dú)特的創(chuàng)新點(diǎn)。系統(tǒng)會(huì)像一位挑剔的藝術(shù)評(píng)論家一樣,仔細(xì)觀察自己畫的草圖,將其與原始要求進(jìn)行對(duì)比。如果發(fā)現(xiàn)草圖中的橙子是橙色的,但用戶要求的是白色,系統(tǒng)就會(huì)明確指出:"需要將橙子的顏色從橙色改為白色。"這個(gè)過程完全依靠系統(tǒng)自身的視覺理解能力,不需要外部的評(píng)判標(biāo)準(zhǔn)。
第三階段是"修正完善",系統(tǒng)根據(jù)第二階段的分析結(jié)果,對(duì)草圖進(jìn)行針對(duì)性的修改,同時(shí)將分辨率提升到1024×1024像素,生成最終的高質(zhì)量圖像。這個(gè)過程既保持了草圖中正確的部分,又精確修正了存在問題的地方,還增加了豐富的細(xì)節(jié)。
二、技術(shù)創(chuàng)新:專門的引導(dǎo)機(jī)制
為了讓這套三步流程更好地工作,研究團(tuán)隊(duì)開發(fā)了一種名為DraCo-CFG的專門引導(dǎo)機(jī)制。傳統(tǒng)的AI繪畫系統(tǒng)在生成圖像時(shí),通常只考慮用戶的文字描述這一個(gè)條件。但DraCo需要同時(shí)考慮多個(gè)條件:原始的文字描述、草圖的視覺信息,以及修改指令。
DraCo-CFG巧妙地將這些不同的條件分層處理。它設(shè)計(jì)了三種不同的生成模式:無條件生成(完全隨機(jī))、僅基于草圖的生成(保持草圖的基本結(jié)構(gòu))、以及完全條件生成(綜合考慮所有信息)。通過數(shù)學(xué)上的精確組合,系統(tǒng)能夠既保持草圖的正確部分,又根據(jù)修改指令進(jìn)行精準(zhǔn)調(diào)整。
這種設(shè)計(jì)的妙處在于避免了條件之間的相互干擾。就像調(diào)音臺(tái)上的不同頻道,每個(gè)條件都有自己獨(dú)立的"音量控制",技術(shù)人員可以根據(jù)需要調(diào)高某個(gè)條件的影響力,而不會(huì)意外地影響其他條件。
三、訓(xùn)練數(shù)據(jù):DraCo-240K數(shù)據(jù)集的構(gòu)建
為了讓AI學(xué)會(huì)這種草圖修改的能力,研究團(tuán)隊(duì)精心構(gòu)建了一個(gè)包含24萬個(gè)訓(xùn)練樣本的數(shù)據(jù)集,稱為DraCo-240K。這個(gè)數(shù)據(jù)集的建設(shè)過程就像開辦一所專門的"AI繪畫修改學(xué)校",需要提供大量的"修改前后對(duì)比案例"。
數(shù)據(jù)集涵蓋三大類修改能力。第一類是"一般修正",包括替換物體、改變背景、調(diào)整顏色等基本操作,就像教學(xué)生如何把畫中的蘋果改成梨,或者把藍(lán)天改成夕陽。第二類是"實(shí)例操控",專門訓(xùn)練系統(tǒng)處理同類物體的精確控制,比如畫面中有五只貓,用戶要求只保留三只,系統(tǒng)需要準(zhǔn)確識(shí)別并刪除指定的兩只。第三類是"布局重組",訓(xùn)練系統(tǒng)理解和調(diào)整物體之間的空間關(guān)系,比如將原本在左邊的椅子移到右邊。
數(shù)據(jù)集的制作過程高度自動(dòng)化。研究團(tuán)隊(duì)使用了多種AI工具的組合:利用強(qiáng)大的視覺模型來檢測和分割圖像中的物體,使用編輯模型來進(jìn)行精確的圖像修改,然后用語言模型來生成相應(yīng)的文字描述和修改指令。這種自動(dòng)化流程確保了數(shù)據(jù)集的規(guī)模和質(zhì)量,同時(shí)避免了人工標(biāo)注的巨大成本。
四、實(shí)驗(yàn)驗(yàn)證:顯著的性能提升
研究團(tuán)隊(duì)在多個(gè)權(quán)威測試平臺(tái)上驗(yàn)證了DraCo的效果,結(jié)果相當(dāng)令人興奮。在GenEval這個(gè)綜合性評(píng)測中,DraCo相比基礎(chǔ)模型取得了8%的顯著提升,達(dá)到了86%的整體準(zhǔn)確率。更重要的是,在最具挑戰(zhàn)性的"顏色屬性"任務(wù)中,DraCo的表現(xiàn)特別突出,準(zhǔn)確率達(dá)到76%,遠(yuǎn)超其他方法。
在專門測試罕見組合生成能力的ImagineBench上,DraCo同樣表現(xiàn)優(yōu)異,相比基礎(chǔ)模型提升了0.91分,相比純文本規(guī)劃方法提升了0.18分。這些數(shù)字背后代表的是AI在理解和生成非常規(guī)圖像內(nèi)容方面的重大進(jìn)步。
更有說服力的是定性分析結(jié)果。研究團(tuán)隊(duì)展示了大量的對(duì)比案例,DraCo生成的圖像不僅在視覺質(zhì)量上更加清晰細(xì)膩,在內(nèi)容準(zhǔn)確性方面也明顯優(yōu)于其他方法。特別是在處理復(fù)雜的空間關(guān)系、精確的物體計(jì)數(shù)、以及罕見的顏色組合時(shí),DraCo展現(xiàn)出了其他方法難以匹敵的優(yōu)勢。
五、技術(shù)細(xì)節(jié):關(guān)鍵設(shè)計(jì)選擇的智慧
研究過程中的一些技術(shù)細(xì)節(jié)選擇體現(xiàn)了團(tuán)隊(duì)的深思熟慮。比如草圖分辨率的選擇,團(tuán)隊(duì)測試了128×128、384×384和1024×1024三種分辨率。128×128太小,無法表達(dá)足夠的語義信息,系統(tǒng)連基本的物體都難以識(shí)別;1024×1024太大,不僅增加了計(jì)算負(fù)擔(dān),還失去了"草圖快速預(yù)覽"的初衷。384×384恰好平衡了表達(dá)能力和效率。
另一個(gè)關(guān)鍵選擇是在驗(yàn)證階段只使用視覺特征而不使用低級(jí)圖像特征。傳統(tǒng)的圖像編輯系統(tǒng)會(huì)保留所有的圖像細(xì)節(jié)信息,但DraCo deliberately選擇忽略這些細(xì)節(jié),專注于高層次的語義理解。這種設(shè)計(jì)讓系統(tǒng)能夠進(jìn)行更大膽的修改,不會(huì)被草圖中的小瑕疵所束縛。
訓(xùn)練過程中的數(shù)據(jù)組織也很有講究。系統(tǒng)不僅學(xué)習(xí)如何進(jìn)行修改,還學(xué)習(xí)什么時(shí)候不需要修改。當(dāng)草圖已經(jīng)完美匹配用戶要求時(shí),系統(tǒng)會(huì)明確說明"無需修改",然后直接進(jìn)行超分辨率處理。這種正負(fù)樣本的平衡訓(xùn)練讓系統(tǒng)學(xué)會(huì)了更準(zhǔn)確的判斷能力。
六、應(yīng)用前景:從實(shí)驗(yàn)室到現(xiàn)實(shí)世界
DraCo技術(shù)的意義遠(yuǎn)超純粹的技術(shù)突破,它為AI繪畫領(lǐng)域帶來了全新的思路。這種"計(jì)劃-驗(yàn)證-修正"的范式可能會(huì)成為未來AI創(chuàng)作系統(tǒng)的標(biāo)準(zhǔn)流程,不僅適用于圖像生成,也可能擴(kuò)展到視頻、3D模型等其他創(chuàng)作領(lǐng)域。
對(duì)于普通用戶而言,DraCo意味著AI繪畫工具將變得更加可靠和精確。用戶不再需要反復(fù)嘗試不同的描述來獲得滿意的結(jié)果,系統(tǒng)能夠更好地理解和實(shí)現(xiàn)用戶的創(chuàng)意想法,特別是那些獨(dú)特或非常規(guī)的創(chuàng)意。
從商業(yè)角度來看,這項(xiàng)技術(shù)有望推動(dòng)AI繪畫應(yīng)用在更多專業(yè)領(lǐng)域的普及,比如廣告設(shè)計(jì)、產(chǎn)品展示、教育插圖等。當(dāng)AI能夠可靠地生成用戶要求的精確內(nèi)容時(shí),它就能真正成為創(chuàng)作者的得力助手,而不僅僅是一個(gè)需要"運(yùn)氣"的創(chuàng)意工具。
研究團(tuán)隊(duì)也坦誠地指出了當(dāng)前技術(shù)的局限性。DraCo目前專門針對(duì)靜態(tài)圖像設(shè)計(jì),要擴(kuò)展到視頻或3D內(nèi)容還需要額外的技術(shù)發(fā)展。而且,雖然系統(tǒng)在大多數(shù)情況下表現(xiàn)優(yōu)秀,但在處理極其復(fù)雜或抽象的創(chuàng)作要求時(shí)仍有提升空間。
說到底,DraCo代表了AI繪畫技術(shù)發(fā)展的一個(gè)重要里程碑。它證明了讓AI模仿人類創(chuàng)作思維的可行性和有效性,也為這個(gè)快速發(fā)展的領(lǐng)域指明了新的方向。隨著技術(shù)的不斷完善,我們有理由期待AI創(chuàng)作工具能夠真正理解和實(shí)現(xiàn)人類的創(chuàng)意想法,成為每個(gè)人都能使用的強(qiáng)大創(chuàng)作伙伴。
Q&A
Q1:DraCo技術(shù)是如何工作的?
A:DraCo采用三步創(chuàng)作流程:先生成低分辨率草圖,然后分析草圖與要求的差異,最后進(jìn)行針對(duì)性修改并提升分辨率。這種方式模仿了人類畫家的創(chuàng)作過程,能夠更準(zhǔn)確地生成用戶想要的圖像。
Q2:DraCo相比傳統(tǒng)AI繪畫有什么優(yōu)勢?
A:DraCo在生成準(zhǔn)確性上有顯著提升,特別擅長創(chuàng)作罕見的顏色組合和處理復(fù)雜的空間關(guān)系。在權(quán)威測試中,它比基礎(chǔ)模型提升了8%的準(zhǔn)確率,在顏色屬性任務(wù)中表現(xiàn)尤為出色。
Q3:普通用戶什么時(shí)候能用上DraCo技術(shù)?
A:目前DraCo還處于研究階段,論文已于2025年12月發(fā)布。雖然研究團(tuán)隊(duì)在GitHub上提供了項(xiàng)目信息,但要成為普通用戶可以直接使用的商業(yè)產(chǎn)品還需要一段時(shí)間的開發(fā)和優(yōu)化。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.