<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      劍橋大學:當視頻生成AI學會"思考",竟然比文字描述更聰明?

      0
      分享至


      想象一下,如果你要給朋友描述如何從迷宮中走出來,你會怎么做?大多數人會說"先往右走,再向上,然后左轉"。但如果你能直接畫一張圖,或者拍一段視頻來展示整個過程呢?哪種方式更清楚、更準確?這個看似簡單的問題,其實觸及了人工智能研究的一個核心難題。

      最近,由劍橋大學和哥本哈根大學人工智能中心聯合領導的研究團隊發表了一項突破性研究,探索了一個令人意外的發現:視頻生成模型不僅能創造華麗的視覺內容,更重要的是,它們竟然比傳統的文字描述方式更擅長進行復雜的視覺推理。這項研究發表于2026年的預印本論文中,標題為《Thinking in Frames: How Visual Context and Test-Time Scaling Empower Video Reasoning》,感興趣的讀者可以通過arXiv:2601.21037v1查找完整論文。

      研究團隊像偵探一樣,首先發現了一個重要線索:目前的大型語言模型雖然在文字推理方面表現出色,但在處理需要精確空間理解的任務時卻經常"卡殼"。比如說,當你要求這些模型描述如何精確地旋轉和擺放一個復雜的幾何圖形時,它們往往會給出模糊不清或者完全錯誤的指令。這就像讓一個只會用文字的人去指導別人完成一項精細的手工活動一樣困難。

      為了驗證他們的猜想,研究團隊設計了兩個截然不同的實驗場景。第一個場景叫做"迷宮導航",就像電子游戲中常見的情形:一個小角色需要在復雜的迷宮中找到從起點到終點的最短路徑,同時避免撞墻。這個任務考驗的是模型的邏輯推理能力和長期規劃能力。第二個場景更加有趣,叫做"七巧板拼圖",需要將七個不同形狀的彩色幾何塊精確地拼裝成指定的圖案。這個任務要求模型不僅要理解空間關系,還要保持每個圖形塊的幾何完整性。

      在迷宮導航實驗中,研究團隊就像設計游戲關卡一樣,創建了從簡單到復雜的各種迷宮。最簡單的是3×3的小迷宮,最復雜的則是8×8的大型迷宮。為了測試模型的適應性,他們還特意使用了訓練時從未見過的角色圖標。結果令人驚訝:視頻生成模型不僅能在熟悉的環境中表現出色,甚至在面對完全陌生的迷宮大小和角色外觀時,依然能夠找到正確的路徑。這就像一個從未去過某個城市的人,僅憑對導航原理的理解,就能在那里順利找到目的地。

      更有意思的是七巧板實驗。研究團隊設計了三種不同的難度等級。最簡單的"漸現模式"讓圖形塊逐漸出現在正確位置,就像拼圖的答案慢慢顯現。中等難度的"旋轉模式"要求模型先將圖形塊旋轉到正確角度,然后移動到合適位置。最困難的"平移模式"雖然圖形塊的方向已經正確,但需要精確計算每個塊應該放在哪里。

      實驗結果讓研究團隊興奮不已。視頻生成模型在處理這些視覺推理任務時,表現遠遠超過了傳統的文字描述方法。特別是在七巧板任務中,當傳統的大型語言模型還在努力用文字描述"將藍色三角形順時針旋轉45度,然后向右移動2.5厘米"時,視頻生成模型已經能夠直接展示整個拼裝過程,并且保持每個圖形塊的完整性和準確性。

      研究團隊還發現了兩個特別有趣的現象。首先是"視覺上下文的力量"。就像人們在做手工時需要參照圖樣一樣,當視頻生成模型能夠看到具體的視覺參考時,它們的表現會顯著提升。比如說,當模型能看到迷宮中角色的具體樣子,或者七巧板中每個圖形塊的顏色和形狀時,它們就能更好地保持這些視覺元素的一致性,避免在推理過程中出現"張冠李戴"的錯誤。

      更令人驚訝的是第二個發現:研究團隊觀察到了一種類似于人類"慢思考"的現象。當給視頻生成模型更長的"思考時間",也就是生成更多幀的視頻時,它們解決復雜問題的能力會顯著提升。這就像給學生更多時間來解答難題一樣,模型能夠通過更長的視覺推理過程來處理那些一開始看起來無法解決的復雜情況。

      在一些特別有趣的例子中,研究團隊甚至觀察到了模型的"自我糾錯"行為。當模型在迷宮中最初選擇了錯誤的路徑時,如果給它足夠的幀數,它會在視頻的后續部分"意識到"錯誤,然后退回并選擇正確的路徑。這種行為非常類似于人類在解決問題時的試錯過程,讓人不禁思考人工智能是否正在發展出類似人類的推理過程。

      當然,這項研究也揭示了一些限制。雖然視頻生成模型在邏輯推理方面表現出色,但在保持視覺細節的一致性方面仍有挑戰。特別是在七巧板任務中,當需要進行大幅度的圖形變換時,模型有時會在保持幾何形狀完整性方面出現困難。這就像一個人在快速移動物體時容易失手一樣,模型在處理劇烈的視覺變化時也會遇到技術瓶頸。

      研究團隊還測試了模型對于完全陌生環境的適應能力。他們讓在規則網格迷宮上訓練的模型去處理不規則形狀的迷宮。令人驚訝的是,模型不僅能夠適應這些全新的環境,甚至學會了在訓練時從未見過的對角線移動方式。這種舉一反三的能力表明,模型并不是簡單地記憶訓練數據,而是真正理解了導航的基本原理。

      這項研究的意義遠不止于技術層面的突破。它提出了一個重要問題:在人工智能的發展過程中,我們是否過分依賴了文字這種表達方式?人類在日常生活中大量使用視覺信息來理解世界和解決問題,但大多數人工智能系統卻主要基于文字處理。這項研究表明,視覺推理可能是人工智能發展的一個重要方向,特別是在需要精確空間理解的應用場景中。

      從實際應用的角度來看,這項研究可能會影響很多領域。在機器人技術中,視覺推理能力可以幫助機器人更好地理解和操作物理世界。在教育軟件中,視覺演示可能比文字說明更有效地幫助學生理解復雜概念。在游戲和娛樂行業,這種技術可以創造更智能、更自然的角色行為。

      研究團隊也坦誠地討論了當前技術的局限性。視頻生成模型雖然在某些方面表現出色,但它們的訓練成本較高,處理速度相對較慢,而且在處理某些類型的視覺變化時仍不夠穩定。這就像任何新技術在發展初期都會面臨的挑戰一樣,需要更多的研究和改進才能達到實用化的水平。

      更深層次地看,這項研究觸及了認知科學和人工智能交叉領域的一個核心問題:思維的本質是什么?當我們人類思考問題時,我們的大腦中是否也在進行類似的"視覺推理"過程?這項研究為我們理解人類認知提供了一個有趣的計算模型,也為開發更接近人類思維方式的人工智能系統指明了方向。

      說到底,這項研究告訴我們一個簡單而深刻的道理:有時候,一張圖勝過千言萬語,一段視頻勝過長篇大論。在人工智能快速發展的今天,我們或許應該重新思考如何讓機器更好地"看"這個世界,而不僅僅是"讀"這個世界。當機器學會用視覺的方式思考時,它們可能會變得更加智能,也更加貼近人類的認知方式。

      這項研究只是視覺推理領域的一個開端。隨著技術的不斷進步,我們可以期待看到更多能夠進行復雜視覺思考的人工智能系統。也許在不久的將來,當我們需要解釋復雜問題時,我們的AI助手不會給我們一大段文字,而是直接展示一個生動的視覺過程,讓我們能夠直觀地理解答案。這樣的未來既令人期待,也讓我們對人工智能的發展充滿好奇。

      Q&A

      Q1:視頻生成模型如何進行視覺推理?

      A:視頻生成模型通過生成連續的圖像幀來模擬推理過程,就像制作一部展示解決方案的動畫片。每一幀都代表推理的一個步驟,整個視頻序列就是完整的思考過程。這種方式比文字描述更直觀,能夠準確表達空間關系和幾何變換。

      Q2:為什么視頻推理比文字推理效果更好?

      A:文字在描述精確的空間位置、角度和連續動作時存在局限性,容易產生歧義或不夠準確。而視頻能夠直接展示物體的移動軌跡、旋轉過程和最終位置,避免了跨模態轉換的誤差。這就像用地圖導航比口頭描述路線更準確一樣。

      Q3:這項研究對普通人有什么實際意義?

      A:這項技術可能會改變我們與AI的交互方式。未來的AI助手可能會用視覺演示來回答復雜問題,比如通過動畫展示如何修理設備、如何進行體育動作,或者如何解決數學幾何問題。這會讓AI的解釋更直觀易懂,特別適合教育和培訓場景。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      馬斯克談Seedance 2.0:發展速度太快

      馬斯克談Seedance 2.0:發展速度太快

      財聯社
      2026-02-12 13:40:07
      鐘南山:會用證據讓全世界服氣

      鐘南山:會用證據讓全世界服氣

      第一財經資訊
      2026-02-12 18:13:00
      官方:U17亞洲杯中國隊分組出爐!

      官方:U17亞洲杯中國隊分組出爐!

      五星體育
      2026-02-12 17:32:54
      筱梅提前報喜:小寶貝迫不及待,奔赴新年與溫暖

      筱梅提前報喜:小寶貝迫不及待,奔赴新年與溫暖

      觀察鑒娛
      2026-02-12 11:53:34
      今晚賽事:2月12日晚21點39,中央電視臺CCTV5、CCTV5+直播節目表

      今晚賽事:2月12日晚21點39,中央電視臺CCTV5、CCTV5+直播節目表

      皮皮觀天下
      2026-02-12 12:50:12
      沒了!再見,楊瀚森,主帥正式攤牌:沒那么多時間給年輕人

      沒了!再見,楊瀚森,主帥正式攤牌:沒那么多時間給年輕人

      球童無忌
      2026-02-12 15:28:35
      美司法部提起訴狀,要求強制中國隨銳集團從收購的美國丘比特系統公司撤資

      美司法部提起訴狀,要求強制中國隨銳集團從收購的美國丘比特系統公司撤資

      俄羅斯衛星通訊社
      2026-02-12 15:07:34
      郭德綱沒想到,封箱演出這晚郭麒麟用9個字,讓德云社口碑翻盤了

      郭德綱沒想到,封箱演出這晚郭麒麟用9個字,讓德云社口碑翻盤了

      白面書誏
      2026-02-12 14:35:14
      中國已購買部分美國政府出售的委內瑞拉石油?外交部回應

      中國已購買部分美國政府出售的委內瑞拉石油?外交部回應

      北青網-北京青年報
      2026-02-12 19:44:01
      國際雪聯公開陰陽谷愛凌:無緣金牌是報應!遭投訴后只發郵件道歉

      國際雪聯公開陰陽谷愛凌:無緣金牌是報應!遭投訴后只發郵件道歉

      念洲
      2026-02-12 11:35:10
      中國人民銀行通告全國:2月1日起,人民幣現金收付新規正式施行

      中國人民銀行通告全國:2月1日起,人民幣現金收付新規正式施行

      縱擁千千晚星
      2026-02-12 17:01:18
      16GB+1TB!新機官宣:2月26日,正式全球首發!

      16GB+1TB!新機官宣:2月26日,正式全球首發!

      科技堡壘
      2026-02-12 12:24:27
      南丁格爾做了張“玫瑰圖”,結果把士兵的死亡率從42%降到2.2%

      南丁格爾做了張“玫瑰圖”,結果把士兵的死亡率從42%降到2.2%

      果殼
      2026-02-12 16:48:42
      影石公司年會送出5套房 員工:獲獎房者都是90后、無高管 背后是認可和期許

      影石公司年會送出5套房 員工:獲獎房者都是90后、無高管 背后是認可和期許

      紅星新聞
      2026-02-12 14:13:24
      鄭州“路虎大哥”開車撞倒持刀男子,被認定見義勇為,因歹徒家境普通未向其索賠;此前曾做多年公益捐贈十幾萬

      鄭州“路虎大哥”開車撞倒持刀男子,被認定見義勇為,因歹徒家境普通未向其索賠;此前曾做多年公益捐贈十幾萬

      大風新聞
      2026-02-11 21:09:26
      TCL Mini LED登頂全球,從618霸榜看中國品牌“價值戰”新范式

      TCL Mini LED登頂全球,從618霸榜看中國品牌“價值戰”新范式

      趣寫科技
      2025-06-23 20:33:24
      楊蘭蘭不認罪

      楊蘭蘭不認罪

      藍鉆故事
      2026-02-11 16:19:23
      但斌爆猛料:公司有研究員炒黃金期貨,90萬賺了10多億...

      但斌爆猛料:公司有研究員炒黃金期貨,90萬賺了10多億...

      金石隨筆
      2026-02-11 23:32:38
      教育部亮紅牌!這些專業的學生“畢業即失業”,985也在連夜撤銷

      教育部亮紅牌!這些專業的學生“畢業即失業”,985也在連夜撤銷

      離離言幾許
      2026-02-09 20:16:57
      全球最貴!10歲馬來西亞男孩100美元買下域名“AI.com”,33年后賣出7000萬美元

      全球最貴!10歲馬來西亞男孩100美元買下域名“AI.com”,33年后賣出7000萬美元

      臺州交通廣播
      2026-02-12 00:21:21
      2026-02-12 20:31:00
      科技行者 incentive-icons
      科技行者
      科技正在如何變革商業世界
      7245文章數 550關注度
      往期回顧 全部

      科技要聞

      10倍速的一夜:三大模型春節前的暗戰

      頭條要聞

      女子返鄉"打順風車卻打到大貨車"視頻爆火 當事人發聲

      頭條要聞

      女子返鄉"打順風車卻打到大貨車"視頻爆火 當事人發聲

      體育要聞

      31歲首次參加冬奧,10年前她是個水管工

      娛樂要聞

      體操運動員墜樓涉事教練被立案調查

      財經要聞

      “影子萬科”如何掘金萬科?

      汽車要聞

      開212 T01柴油版去穿越 連牧馬人都跟不上

      態度原創

      健康
      教育
      房產
      數碼
      手機

      轉頭就暈的耳石癥,能開車上班嗎?

      教育要聞

      “這不是導師,是親爹!”女博士吐槽被導師PUA,塊畢業卻傻眼了

      房產要聞

      999元開線上免稅店?海南爆出免稅大騙局,多人已被抓!

      數碼要聞

      AMD發布26.2.1可選顯卡驅動:新增支持《仁王3》等、修復游戲崩潰問題

      手機要聞

      逆勢獨漲!蘋果成1月中國手機市場唯一增長品牌 市占率近20%

      無障礙瀏覽 進入關懷版