上一代Qwen的類似產品是Qwen-VL系列,就是Vision-Language,擁有看圖片和文字的能力,這次的模型后面加了一個o,變成了Qwen-VLo,我猜測是output的意思,也就是VLo = Vision-Language-Output。
這一點兒很容易理解,VL只能夠理解輸入,而VLo是可以輸出的,也就是圖片輸出功能。
![]()
這次的更新最大的亮點就在于這句話:
Qwen VLo 以一種漸進式生成方式,從左到右、從上到下逐步清晰地構建整幅圖片。
這種方式跟現在主流的圖片生成方式非常不同,比如stable diffusion,Midjourney這類型的工具,它們的生成機理是Diffusion,也就是擴散模型。
就是下面這種生成方式,模型不是從一張白紙開始,而是從一張完全被隨機噪點(像老電視的雪花屏)覆蓋的圖片開始。

然后把所有的噪點微調一下,然后讓圖像從“完全混亂”到“稍微有點兒形狀”最后到“成品”,這個過程會重復幾十上百次,每一步都會離最終作品近一步。

而Qwen VLo的生成方式明顯不同,仔細看,它是不是從左到右,從上到下,跟寫作文一樣的展現出來的?

換句話說,你有沒有覺得這個方法跟寫作文是類似的,一行行的寫,最終完成一個稿子,再想一下,這個生成邏輯是不是跟ChatGPT一樣的大模型非常的像,也是一行行寫出來的。
你再看這個生成過程,是不是覺得更像了?

因為這倆的生成邏輯非常的像。
我們先看AI(比如ChatGPT)是怎么寫一句話的。
當你讓它寫:“一只可愛的小貓在__”
它會先預測下一個最可能的詞,比如“睡覺”。它是怎么做到的?它會回頭看已經寫下的“一只可愛的小貓在”,然后根據這些信息,推斷出“睡覺”是合理的。接著,如果要繼續寫,它會看“一只可愛的小貓在睡覺”,再推斷下一個詞。
這個過程有幾個關鍵特點:
順序性:一個詞一個詞地往后寫,不能顛倒。
依賴性:后面寫的詞,嚴重依賴于前面已經寫好的所有詞。
這種“回頭看,再向前走一步”的機制,就叫做自回歸(Auto-Regressive)。“Auto”是“自己”的意思,“Regressive”是“回歸、追溯”的意思,合起來就是“(從)自己過去(的結果)來推斷未來”。
![]()
而Qwen VLo用的方法大概率就是這種,在畫圖上其實也可以用,實際上把一張圖片分割成小塊,再排列一下,其實就把2維->1維,就像下面這樣。
您可以想象把一張圖片切成很多個小方格(比如4x4像素的圖塊),就像一張馬賽克。
![]()
然后,模型把這些小方格按數字順序拉成一條長隊:1-2-3-4--16。
這樣,畫畫的任務就變成了像寫文章一樣,按順序“填寫”這一長串的小方格。
那么在Qwen VLo創作的時候,接到指令之后,比如“生成一張可愛的柴犬”。
生成第1格:它看著指令,思考:“這幅畫的左上角(第1格)應該是什么樣子的?” 也許是一點藍天背景。于是它生成了第1格。
![]()
生成第2格:現在,它回頭看指令和剛剛畫好的第1格,思考:“在這樣的指令和左上角這塊藍天的旁邊,第2格應該是什么?” 也許還是藍天。于是它生成了第2格。
![]()
持續進行:這個過程一直持續,直到最后一個小方格(右下角)被填滿。整幅圖像就像一幅十字繡,一針一線、一個格子一個格子地被繡了出來。
![]()
這就是Qwen VLo“逐步清晰地構建整幅圖片”的機理。它的每一步決策都基于指令和所有“歷史創作”,因此邏輯性很強,細節也更可控。
換句話說,它更可控,所以我覺得在未來的視頻生成中,它將會是主流。
![]()
當然這也是我的猜測,一切的技術細節要等Qwen VLo開源或者公布技術報告才能下定論。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.