網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

香港中文大學(xué)DraCo讓機(jī)器學(xué)會(huì)"打草稿再完善"的創(chuàng)作方式

2025-12-11 16:33:07　來源: 科技行者

北京舉報(bào)

分享至

這項(xiàng)由香港中文大學(xué)MMLab實(shí)驗(yàn)室的姜東志、張人瑞等研究團(tuán)隊(duì)開發(fā)的技術(shù)發(fā)表于2025年12月，論文編號(hào)為arXiv:2512.05112v1。有興趣深入了解的讀者可以通過該編號(hào)查詢完整論文。

當(dāng)我們?nèi)祟惍嫯嫊r(shí)，通常會(huì)先畫一個(gè)粗糙的草圖，然后不斷修改完善，最終得到滿意的作品。但現(xiàn)在的AI繪畫系統(tǒng)卻像是閉著眼睛一次性畫完整幅畫，經(jīng)常會(huì)出現(xiàn)各種錯(cuò)誤，比如畫出橙色的蘋果卻說成是白色的，或者把左右位置搞反了。香港中文大學(xué)的研究團(tuán)隊(duì)想到一個(gè)絕妙的主意：為什么不讓AI也學(xué)會(huì)人類這種"先打草稿，再修改完善"的創(chuàng)作方式呢？

這個(gè)想法催生了一項(xiàng)名為DraCo（Draft-as-CoT）的突破性技術(shù)。DraCo的工作原理就像一位認(rèn)真的畫家：首先快速畫出一幅低分辨率的草圖，然后仔細(xì)觀察這幅草圖是否符合要求，發(fā)現(xiàn)問題后進(jìn)行針對(duì)性的修改，最終輸出高質(zhì)量的完整作品。這種方法不僅大大提高了AI繪畫的準(zhǔn)確性，還特別擅長創(chuàng)作那些在現(xiàn)實(shí)中很少見的奇特組合，比如白色的橙子或者紫色的椅子。

研究團(tuán)隊(duì)發(fā)現(xiàn)，傳統(tǒng)的AI繪畫系統(tǒng)面臨兩個(gè)核心難題。第一個(gè)難題是規(guī)劃過于抽象。傳統(tǒng)系統(tǒng)只能通過文字來理解和規(guī)劃要畫的內(nèi)容，這就像讓一個(gè)從未見過汽車的人僅憑文字描述來畫汽車，結(jié)果往往差強(qiáng)人意。第二個(gè)難題是罕見組合的生成困難。由于訓(xùn)練數(shù)據(jù)中很少出現(xiàn)"白色的橙子"這樣的奇特組合，AI系統(tǒng)往往會(huì)固執(zhí)地畫出常見的橙色橙子，而忽視用戶的特殊要求。

一、技術(shù)原理：三步走的創(chuàng)作流程

DraCo的工作流程可以比作一個(gè)三階段的繪畫過程。在第一階段"草圖繪制"中，系統(tǒng)根據(jù)用戶的文字描述快速生成一幅384×384像素的低分辨率草圖。這個(gè)階段的重點(diǎn)不是細(xì)節(jié)，而是確保基本的構(gòu)圖和主要元素都能體現(xiàn)出來，就像畫家先用鉛筆快速勾勒出大致輪廓。

第二階段是"草圖驗(yàn)證"，這是DraCo最獨(dú)特的創(chuàng)新點(diǎn)。系統(tǒng)會(huì)像一位挑剔的藝術(shù)評(píng)論家一樣，仔細(xì)觀察自己畫的草圖，將其與原始要求進(jìn)行對(duì)比。如果發(fā)現(xiàn)草圖中的橙子是橙色的，但用戶要求的是白色，系統(tǒng)就會(huì)明確指出："需要將橙子的顏色從橙色改為白色。"這個(gè)過程完全依靠系統(tǒng)自身的視覺理解能力，不需要外部的評(píng)判標(biāo)準(zhǔn)。

第三階段是"修正完善"，系統(tǒng)根據(jù)第二階段的分析結(jié)果，對(duì)草圖進(jìn)行針對(duì)性的修改，同時(shí)將分辨率提升到1024×1024像素，生成最終的高質(zhì)量圖像。這個(gè)過程既保持了草圖中正確的部分，又精確修正了存在問題的地方，還增加了豐富的細(xì)節(jié)。

二、技術(shù)創(chuàng)新：專門的引導(dǎo)機(jī)制

為了讓這套三步流程更好地工作，研究團(tuán)隊(duì)開發(fā)了一種名為DraCo-CFG的專門引導(dǎo)機(jī)制。傳統(tǒng)的AI繪畫系統(tǒng)在生成圖像時(shí)，通常只考慮用戶的文字描述這一個(gè)條件。但DraCo需要同時(shí)考慮多個(gè)條件：原始的文字描述、草圖的視覺信息，以及修改指令。

DraCo-CFG巧妙地將這些不同的條件分層處理。它設(shè)計(jì)了三種不同的生成模式：無條件生成（完全隨機(jī)）、僅基于草圖的生成（保持草圖的基本結(jié)構(gòu)）、以及完全條件生成（綜合考慮所有信息）。通過數(shù)學(xué)上的精確組合，系統(tǒng)能夠既保持草圖的正確部分，又根據(jù)修改指令進(jìn)行精準(zhǔn)調(diào)整。

這種設(shè)計(jì)的妙處在于避免了條件之間的相互干擾。就像調(diào)音臺(tái)上的不同頻道，每個(gè)條件都有自己獨(dú)立的"音量控制"，技術(shù)人員可以根據(jù)需要調(diào)高某個(gè)條件的影響力，而不會(huì)意外地影響其他條件。

三、訓(xùn)練數(shù)據(jù)：DraCo-240K數(shù)據(jù)集的構(gòu)建

為了讓AI學(xué)會(huì)這種草圖修改的能力，研究團(tuán)隊(duì)精心構(gòu)建了一個(gè)包含24萬個(gè)訓(xùn)練樣本的數(shù)據(jù)集，稱為DraCo-240K。這個(gè)數(shù)據(jù)集的建設(shè)過程就像開辦一所專門的"AI繪畫修改學(xué)校"，需要提供大量的"修改前后對(duì)比案例"。

數(shù)據(jù)集涵蓋三大類修改能力。第一類是"一般修正"，包括替換物體、改變背景、調(diào)整顏色等基本操作，就像教學(xué)生如何把畫中的蘋果改成梨，或者把藍(lán)天改成夕陽。第二類是"實(shí)例操控"，專門訓(xùn)練系統(tǒng)處理同類物體的精確控制，比如畫面中有五只貓，用戶要求只保留三只，系統(tǒng)需要準(zhǔn)確識(shí)別并刪除指定的兩只。第三類是"布局重組"，訓(xùn)練系統(tǒng)理解和調(diào)整物體之間的空間關(guān)系，比如將原本在左邊的椅子移到右邊。

數(shù)據(jù)集的制作過程高度自動(dòng)化。研究團(tuán)隊(duì)使用了多種AI工具的組合：利用強(qiáng)大的視覺模型來檢測和分割圖像中的物體，使用編輯模型來進(jìn)行精確的圖像修改，然后用語言模型來生成相應(yīng)的文字描述和修改指令。這種自動(dòng)化流程確保了數(shù)據(jù)集的規(guī)模和質(zhì)量，同時(shí)避免了人工標(biāo)注的巨大成本。

四、實(shí)驗(yàn)驗(yàn)證：顯著的性能提升

研究團(tuán)隊(duì)在多個(gè)權(quán)威測試平臺(tái)上驗(yàn)證了DraCo的效果，結(jié)果相當(dāng)令人興奮。在GenEval這個(gè)綜合性評(píng)測中，DraCo相比基礎(chǔ)模型取得了8%的顯著提升，達(dá)到了86%的整體準(zhǔn)確率。更重要的是，在最具挑戰(zhàn)性的"顏色屬性"任務(wù)中，DraCo的表現(xiàn)特別突出，準(zhǔn)確率達(dá)到76%，遠(yuǎn)超其他方法。

在專門測試罕見組合生成能力的ImagineBench上，DraCo同樣表現(xiàn)優(yōu)異，相比基礎(chǔ)模型提升了0.91分，相比純文本規(guī)劃方法提升了0.18分。這些數(shù)字背后代表的是AI在理解和生成非常規(guī)圖像內(nèi)容方面的重大進(jìn)步。

更有說服力的是定性分析結(jié)果。研究團(tuán)隊(duì)展示了大量的對(duì)比案例，DraCo生成的圖像不僅在視覺質(zhì)量上更加清晰細(xì)膩，在內(nèi)容準(zhǔn)確性方面也明顯優(yōu)于其他方法。特別是在處理復(fù)雜的空間關(guān)系、精確的物體計(jì)數(shù)、以及罕見的顏色組合時(shí)，DraCo展現(xiàn)出了其他方法難以匹敵的優(yōu)勢。

五、技術(shù)細(xì)節(jié)：關(guān)鍵設(shè)計(jì)選擇的智慧

研究過程中的一些技術(shù)細(xì)節(jié)選擇體現(xiàn)了團(tuán)隊(duì)的深思熟慮。比如草圖分辨率的選擇，團(tuán)隊(duì)測試了128×128、384×384和1024×1024三種分辨率。128×128太小，無法表達(dá)足夠的語義信息，系統(tǒng)連基本的物體都難以識(shí)別；1024×1024太大，不僅增加了計(jì)算負(fù)擔(dān)，還失去了"草圖快速預(yù)覽"的初衷。384×384恰好平衡了表達(dá)能力和效率。

另一個(gè)關(guān)鍵選擇是在驗(yàn)證階段只使用視覺特征而不使用低級(jí)圖像特征。傳統(tǒng)的圖像編輯系統(tǒng)會(huì)保留所有的圖像細(xì)節(jié)信息，但DraCo deliberately選擇忽略這些細(xì)節(jié)，專注于高層次的語義理解。這種設(shè)計(jì)讓系統(tǒng)能夠進(jìn)行更大膽的修改，不會(huì)被草圖中的小瑕疵所束縛。

訓(xùn)練過程中的數(shù)據(jù)組織也很有講究。系統(tǒng)不僅學(xué)習(xí)如何進(jìn)行修改，還學(xué)習(xí)什么時(shí)候不需要修改。當(dāng)草圖已經(jīng)完美匹配用戶要求時(shí)，系統(tǒng)會(huì)明確說明"無需修改"，然后直接進(jìn)行超分辨率處理。這種正負(fù)樣本的平衡訓(xùn)練讓系統(tǒng)學(xué)會(huì)了更準(zhǔn)確的判斷能力。

六、應(yīng)用前景：從實(shí)驗(yàn)室到現(xiàn)實(shí)世界

DraCo技術(shù)的意義遠(yuǎn)超純粹的技術(shù)突破，它為AI繪畫領(lǐng)域帶來了全新的思路。這種"計(jì)劃-驗(yàn)證-修正"的范式可能會(huì)成為未來AI創(chuàng)作系統(tǒng)的標(biāo)準(zhǔn)流程，不僅適用于圖像生成，也可能擴(kuò)展到視頻、3D模型等其他創(chuàng)作領(lǐng)域。

對(duì)于普通用戶而言，DraCo意味著AI繪畫工具將變得更加可靠和精確。用戶不再需要反復(fù)嘗試不同的描述來獲得滿意的結(jié)果，系統(tǒng)能夠更好地理解和實(shí)現(xiàn)用戶的創(chuàng)意想法，特別是那些獨(dú)特或非常規(guī)的創(chuàng)意。

從商業(yè)角度來看，這項(xiàng)技術(shù)有望推動(dòng)AI繪畫應(yīng)用在更多專業(yè)領(lǐng)域的普及，比如廣告設(shè)計(jì)、產(chǎn)品展示、教育插圖等。當(dāng)AI能夠可靠地生成用戶要求的精確內(nèi)容時(shí)，它就能真正成為創(chuàng)作者的得力助手，而不僅僅是一個(gè)需要"運(yùn)氣"的創(chuàng)意工具。

研究團(tuán)隊(duì)也坦誠地指出了當(dāng)前技術(shù)的局限性。DraCo目前專門針對(duì)靜態(tài)圖像設(shè)計(jì)，要擴(kuò)展到視頻或3D內(nèi)容還需要額外的技術(shù)發(fā)展。而且，雖然系統(tǒng)在大多數(shù)情況下表現(xiàn)優(yōu)秀，但在處理極其復(fù)雜或抽象的創(chuàng)作要求時(shí)仍有提升空間。

說到底，DraCo代表了AI繪畫技術(shù)發(fā)展的一個(gè)重要里程碑。它證明了讓AI模仿人類創(chuàng)作思維的可行性和有效性，也為這個(gè)快速發(fā)展的領(lǐng)域指明了新的方向。隨著技術(shù)的不斷完善，我們有理由期待AI創(chuàng)作工具能夠真正理解和實(shí)現(xiàn)人類的創(chuàng)意想法，成為每個(gè)人都能使用的強(qiáng)大創(chuàng)作伙伴。

Q&A

Q1：DraCo技術(shù)是如何工作的？

A：DraCo采用三步創(chuàng)作流程：先生成低分辨率草圖，然后分析草圖與要求的差異，最后進(jìn)行針對(duì)性修改并提升分辨率。這種方式模仿了人類畫家的創(chuàng)作過程，能夠更準(zhǔn)確地生成用戶想要的圖像。

Q2：DraCo相比傳統(tǒng)AI繪畫有什么優(yōu)勢？

A：DraCo在生成準(zhǔn)確性上有顯著提升，特別擅長創(chuàng)作罕見的顏色組合和處理復(fù)雜的空間關(guān)系。在權(quán)威測試中，它比基礎(chǔ)模型提升了8%的準(zhǔn)確率，在顏色屬性任務(wù)中表現(xiàn)尤為出色。

Q3：普通用戶什么時(shí)候能用上DraCo技術(shù)？

A：目前DraCo還處于研究階段，論文已于2025年12月發(fā)布。雖然研究團(tuán)隊(duì)在GitHub上提供了項(xiàng)目信息，但要成為普通用戶可以直接使用的商業(yè)產(chǎn)品還需要一段時(shí)間的開發(fā)和優(yōu)化。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.