<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      AI畫不出的左手,是因為我們給了它一個偏科的童年。

      0
      分享至

      昨天刷到了一條非常有意思的推特。

      是我關注的一個博主,Howie.Serious發的。

      他發了一個很有趣的點,就是即使是世界上現在最牛逼的NanoBananaPro,在世界知識如此屌爆的情況下,AI,還是沒有辦法生成左手寫字的圖片。


      這事特別有意思。

      我立馬用Gemini上的NanoBananPro試了下。

      果然翻車了,而且是非常穩定的翻車。


      我又直接用Lovart跑了十幾種張圖,只對了2次,其他的,全錯。


      我又去試了其他的大模型,包括chatgpt、seedream,grok,也在這個小小的提示詞上全軍覆沒。


      刷刷刷給我生成了一堆右手,讓我都有點混亂了,我那一瞬間都在懷疑是不是我自己分不清左右了。。。

      我又嘗試了一些進階版。

      比如,右手拿著蘋果左手寫字。

      這個已經非常明確了吧,我已經給他做限制了。

      還是會生成右手寫字左手拿蘋果的圖。。。


      GPT直接給我玩鬼畜了。


      甭管是誰,就算是蜘蛛俠來了也沒用,也得用右手。。。


      非常的倔強。。。

      在好奇之下,我又試了一些其他的case。

      比如,讓一個人左手拿著橘子右手拿著蘋果。


      翻車。

      穿個不同顏色的寫字,翻車。。。


      左手舉起魔法棒,翻車。


      左手拎著一只雞,右手拎著大高達,翻車。


      全都翻車,翻了個大車。

      至此,確實發現,AI完全分不清左右手和左右腳。

      但是,如果你讓他去純粹的畫空間關系,確實是沒啥問題。


      但只要一涉及到左手左腳,就直接原地爆炸。

      這個話題太有意思了。

      我非常好奇的想知道,到底是為什么?

      在DeepReasearch之后,還真找到了一個蠻有趣的可以解釋這個事的論文,叫《Skews in the Phenomenon Space Hinder Generalization in Text-to-Image Generation》,中文名翻譯過來是,現象空間的偏差,會阻礙文生圖模型的泛化。

      而這個影響的核心,其實就是偏見。

      跟我之前寫過的一篇很像。


      那篇文章,聊的是視覺模型,在理解的時候,分不清圖中的人有幾根手指。

      而這次,是在生成的時候,分不清左右。

      其實本質的邏輯都是相同的,就是因為數據集的偏見。

      這篇論文,大意就是一句話:

      AI之所以分不清左右,不是因為它邏輯不行,而是因為它的老師,也就是我們投喂給它的海量圖片數據,本身就存在巨大的壓倒性的偏見。

      他們做了一個實驗。

      干的第一件事,是把一張圖給拆解成filler和role兩種要素,你可以把它們理解為,主體和關系。

      拿貓追老鼠的圖來舉例,主體就是貓和老鼠,而關系就是,誰是追的那一方,誰是被追的那一方。

      確定好這兩種要素之后,他們找來了幾十個小圖標。


      兩兩圖標分為一組,規定好它們的主體和關系,用Unicode字符畫在 32×32 的小方塊里。

      所有的畫面,只干一件事:

      兩個東西,上下疊放。

      比如,把名為蛋糕和橡皮的小圖標放在同一張圖上,上面是蛋糕的圖標,下面是橡皮的圖標。

      然后附上一句話,這張圖是一個蛋糕在一個橡皮上面。

      以此類推,就有了一堆測試圖片加一堆文本。

      然后,他們又分了一些數據集。

      有些訓練集里,每個物體都當過上面的、也當過下面的。

      有些訓練集里,貓可能幾乎永遠在上面,狗也可能幾乎永遠在下面。

      還有些訓練集,更狠一點,某些物體從來沒當過上面,只當過下面。

      接著,他們把這些圖片和文字打包成數據集丟給模型去訓練,看它學了這些東西之后,能不能理解上下位置關系。

      按照我們對模型訓練的常規理解呢,這件事兒的關鍵在于,樣本量要夠大。

      只要數據規模夠大,智能就會自然長出來,對吧?

      但是他們的實驗數據發現,其實,完全不是這樣的。

      決定模型能不能舉一反三的,其實看的不是數據的數量,看的是,數據怎么分布。

      他們有定義了兩個指標,一個叫Completeness(完整性),就是每種東西,是否都至少在每個位置上出現過一次。

      舉個例子,圓在上、三角在下是一種組合,圓在下、三角在上是另一種組合,這兩種情況都要在數據里出現過,完整度才能算是及格。

      但只有完整度還不夠,還得看另一個指標,叫Balance(平衡性),對,就是跳舞里面的那個Balance。

      它其實指的就是,不同組合出現在數據中的具體比例。

      只有圓在上和三角在上這兩種情況,在數據里的分布情況大差不差時,平衡度才過關。

      反之,如果九張圖都是圓在上,只有一張圖是三角在上,對模型來說,就是平衡度極差、世界觀極度傾斜的情況了。

      這樣一來,模型就會天然的把圓在上這件事當成一個真理。

      只有當一個訓練集里,不同的排列組合都出現過,并且每種組合在上在下的情況都出現得差不多時,模型才會開竅:

      原來誰在上誰在下不是恒定的,是可以互攻的。

      哦說錯了,是可以互換的。。。

      那一刻,模型才是真正掌握了上下的位置關系,而不是死記硬背幾種固定搭配。


      右邊的表格里,兩個CPL代表完整度,也就是圓和三角在上的情況是不是都出現了,BLC代表平衡度,也就是圓和三角在上的情況分布是否均勻。

      左邊的縱軸是模型測試的準確性。

      你會發現,當完整度和平衡度都是百分百的時候,模型測試的正確率幾乎也是百分百,也就是藍色的散點。

      而當完整度和平衡度越來越差的時候,模型正確率也會不斷下跌,到了完整度和平衡度最低的灰色散點這里,準確率就沒上過百分之四十。

      論文后半段,他們還做了一個和現實世界更接近的實驗,用的是一個叫what’sup的基準數據集,里面都是自然圖片,專門用來描述兩個物體的位置關系。

      然后,在這個數據集里面抽取子集。

      有的子集完整度和平衡度都很高,有的相反。

      接著,他們讓模型去生成數據集里沒有的物品左右關系圖片。

      得到的結果非常穩定:

      視覺這邊的完整度和平衡度,一旦掉下去,測試集的準確率就一路跟著往下掉,有的組合甚至永遠突破不了50%。

      更經典的是最常見的一類錯誤:

      兩個物體都畫對了,但順序反了。

      你讓它畫盤子在罐頭左邊,它給你的圖看起來很協調,但仔細一看,變成了,可樂罐在盤子左邊。


      這個錯誤就非常符合我今天在左右手的case中測試出來的結果。。。

      所以現在可以給AI分不清左右這件事,初步給一個解釋:

      AI不是分不清左邊右邊,而是在它受過的童年教育里,現象空間本來就是偏的。

      就比如寫字這個案例,因為現實世界里,寫字的大部分人就是右撇子。

      圖像網站的標注里,“writing”“student writing notes”這些tag背后,也幾乎清一色是右手寫字。

      當一個模型在海量圖像上長大,它看到的寫字幾乎等價于右手寫字。

      所以當你說左手寫字的時候,它腦子里的激活模式是這樣的:

      “寫字?寫字這事我懂啊,寫字不就是等于一個人 + 一本本子 + 一只手拿筆嗎,啥玩意?你要左手寫字?你有毒吧,這個世界還有人用左手寫字?我就沒見過。”

      然后,啪的一下,給你畫了個右手寫字。

      其實有點像一個極端偏科的學生。

      他做了十萬道“2+3=5”這樣的題,但是從來沒見過“3+2=5”。

      所以,當你你問他“3+2等于幾”,他直接就宕機了。

      左手寫字,就是3+2那一側的世界。

      其他的失敗的case其實也差不多。

      當然,這也不怪AI,因為它的見識就是我們給的。

      如果訓練集里,左撇子的蹤跡本來就少,模型學不出來,是不是應該怪模型?

      還是我們,根本就沒把這個世界里那些少數者的現象,認真地采集進去?

      以前我做用戶研究的時候,其實最怕的,就是招樣本招得不均勻。

      比如你明明是個普適性的APP,但是只找一線城市上班族深度訪談,當然得不出老人怎么用你的APP的這個結果。

      只看IOS用戶的數據,當然也看不到千元安卓機上的使用體驗。

      只做所謂的可用性測試,不實地去做田野調研,就根本不可能看到用戶在真實場景中的那些小動作、小走神、小偷懶。

      AI一直在模仿的,其實就是我們自己的偏見。

      我們的大規模圖像語料,是過去幾十年的人類攝影習慣和文化習慣的快照。

      如果這個世界90%的人都是右撇子,攝影師拍照的時候又喜歡把筆、杯子、道具放在某個視角更舒服的位置,那模型看到的世界,就會是一塊巨大的統計偏差。

      如果用一句很正確的話來說。

      就是,我們根本沒給模型一個公平的童年。

      但反過來,我們如果看自己呢?

      好像,我們本身,也會被各種各樣的訓練集規訓。

      成功的概念是有房有車財務自由,人生的捷徑是考功上岸。

      我們和AI的區別只不過在于,AI是用幾百億張圖、幾萬億 token,迅速堆疊起來一個模型的失誤。

      而人類是用幾十年的生活和經驗積累,逐漸走到一條自己不那么想走的岔路上。

      人類和AI,現在好像,都無法看到自己認知以外的東西。

      如果說技術的發展會逼著AI公司們,去重新設計那個屬于AI的訓練集,增加它的完整度和平衡度,讓它泛化。

      那我們,是不是也可以,增加一下自己體驗的厚度?

      當我們對模型說,你不能永遠只會用右手寫字。

      你也得試試左手。

      那在我們的生活里,有沒有哪一些左手的可能性,其實一直都在,但我從來沒有看見過?

      我相信,肯定會有的。

      以上,既然看到這里了,如果覺得不錯,隨手點個贊、在看、轉發三連吧,如果想第一時間收到推送,也可以給我個星標?~謝謝你看我的文章,我們,下次再見。

      >/ 作者:卡茲克、水杉

      >/ 投稿或爆料,請聯系郵箱:wzglyay@virxact.com

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      巴頓孫子走進烏克蘭指揮中心:每一次擊殺都在大屏直播

      巴頓孫子走進烏克蘭指揮中心:每一次擊殺都在大屏直播

      桂系007
      2026-04-11 00:11:11
      全紅嬋報警第4天!200人暗群被起底,業內人士疑參與,網友怒了

      全紅嬋報警第4天!200人暗群被起底,業內人士疑參與,網友怒了

      子芫伴你成長
      2026-04-10 23:31:09
      太逗!1米60的張雪站女主播身邊多次踮腳 網友:他的形象足夠高大

      太逗!1米60的張雪站女主播身邊多次踮腳 網友:他的形象足夠高大

      風過鄉
      2026-04-11 08:15:29
      后悔了!曼聯棄將的真情告白:與阿莫林決裂是職業生涯最大的錯誤

      后悔了!曼聯棄將的真情告白:與阿莫林決裂是職業生涯最大的錯誤

      體壇鑒春秋
      2026-04-11 11:59:23
      兔子不吃窩邊草?小s正面回應許雅鈞爭議,已徹底放飛自我

      兔子不吃窩邊草?小s正面回應許雅鈞爭議,已徹底放飛自我

      孤城落日
      2026-04-11 11:42:35
      鄭麗文直言不諱:中國就是我們的國家,解放軍就是我們的堅強后盾

      鄭麗文直言不諱:中國就是我們的國家,解放軍就是我們的堅強后盾

      小熊看國際
      2026-04-10 12:29:18
      8點整,李亞鵬準時下播!帶著5萬人沖進張雪直播間,結果45秒結束

      8點整,李亞鵬準時下播!帶著5萬人沖進張雪直播間,結果45秒結束

      一盅情懷
      2026-04-11 09:08:25
      為什么張雪奪冠之后,摩托佬們轉頭批評錢江

      為什么張雪奪冠之后,摩托佬們轉頭批評錢江

      打得過就打跑
      2026-04-09 17:05:39
      美以稱伊導彈系統損毀過半但可修復

      美以稱伊導彈系統損毀過半但可修復

      界面新聞
      2026-04-11 09:23:19
      韓媒:一旦開戰,將對北京發起致命打擊,大連、青島都在列!

      韓媒:一旦開戰,將對北京發起致命打擊,大連、青島都在列!

      青煙小先生
      2026-04-11 09:46:04
      3-1進四強!溫瑞博瘋狂逆轉,送日本主力出局,王皓想換人來不及

      3-1進四強!溫瑞博瘋狂逆轉,送日本主力出局,王皓想換人來不及

      侃球熊弟
      2026-04-11 11:34:07
      減重30%,成本還更低!中國電動車掀起鎂代鋁浪潮:問界單車用鎂達20公斤級,零跑、長安急尋供應商??

      減重30%,成本還更低!中國電動車掀起鎂代鋁浪潮:問界單車用鎂達20公斤級,零跑、長安急尋供應商??

      每日經濟新聞
      2026-04-10 19:23:16
      北大碩士廖天野,29歲考上深圳公務員,因家庭矛盾咬爛父親肩膀!

      北大碩士廖天野,29歲考上深圳公務員,因家庭矛盾咬爛父親肩膀!

      金哥說新能源車
      2026-04-10 17:19:28
      鄭麗文想要的,大陸給得很爽快,隨行人員有驚喜,藍營一姐發話了

      鄭麗文想要的,大陸給得很爽快,隨行人員有驚喜,藍營一姐發話了

      共工之錨
      2026-04-10 19:34:21
      剛從日本回來,說點不中聽的:日本的真實面目,可能讓你很意外

      剛從日本回來,說點不中聽的:日本的真實面目,可能讓你很意外

      復轉這些年
      2026-04-01 09:17:19
      清華最難進的三個專業,錄取門檻到底有多高?

      清華最難進的三個專業,錄取門檻到底有多高?

      戶外阿毽
      2026-04-11 07:31:49
      重磅!萬科有救了?深圳出手了!

      重磅!萬科有救了?深圳出手了!

      阿離家居
      2026-04-11 08:30:11
      鎖定東部第二+大西洋冠軍!綠軍橫掃鵜鶘 29三分追平歷史紀錄

      鎖定東部第二+大西洋冠軍!綠軍橫掃鵜鶘 29三分追平歷史紀錄

      醉臥浮生
      2026-04-11 09:51:18
      單依純武漢演唱會造型狂野的不忍直視!腳上那雙鞋子起碼有20厘米

      單依純武漢演唱會造型狂野的不忍直視!腳上那雙鞋子起碼有20厘米

      小娛樂悠悠
      2026-04-11 11:07:54
      又打起來了!美國大使館遇襲,以色列本土被炸,巴基斯坦要發威了

      又打起來了!美國大使館遇襲,以色列本土被炸,巴基斯坦要發威了

      策略述
      2026-04-10 16:23:16
      2026-04-11 13:04:49
      數字生命卡茲克 incentive-icons
      數字生命卡茲克
      反復橫跳于不同的AI領域,努力分享一些很酷的AI干貨
      497文章數 616關注度
      往期回顧 全部

      科技要聞

      半夜被燃燒瓶砸醒,OpenAI CEO發文反思

      頭條要聞

      牛彈琴:伊朗很悲壯 向美國提高了"要價"

      頭條要聞

      牛彈琴:伊朗很悲壯 向美國提高了"要價"

      體育要聞

      換帥之后,他們從降級區沖到升級區

      娛樂要聞

      浪姐7淘汰 該走的沒走,不該走的走了

      財經要聞

      從日本翻身看:這次誰能扛住高油價?

      汽車要聞

      煥新極氪007/007GT上市 限時19.39萬起

      態度原創

      家居
      旅游
      房產
      藝術
      手機

      家居要聞

      復古風格 自然簡約

      旅游要聞

      外灘“絕世美景”!99%的人不知道,5樓免費露臺,3萬株杜鵑花正在盛放!入口在這里→

      房產要聞

      28條新規落地!好房子,終于有了“廣州標準”!

      藝術要聞

      17位當代青年畫家油畫欣賞

      手機要聞

      橙色版OPPO Find X9 Ultra手機渲染圖曝光

      無障礙瀏覽 進入關懷版