4月21日消息,美國華盛頓大學團隊展示了一款名為 VueBuds 的新型原型耳機,在常規真無線耳機內嵌入微型攝像頭,并結合視覺語言模型(VLM),可以通過語音互動實時描述佩戴者視野中的畫面、識別物體并進行翻譯,被研究人員形容為“移動端、純語音版的反向圖片搜索”。
![]()
VueBuds 的原型基于索尼 WF-1000XM3 無線降噪耳機改造,在耳機外殼中嵌入米粒大小的黑白攝像頭,通過內置的視覺語言模型進行本地或低帶寬處理,用戶只需開口提問,就可以獲得對眼前場景的語音描述、物體名稱或文字內容的解釋與翻譯。研究團隊在人機交互領域重要會議 CHI 2026 上發表論文,詳細介紹了這一系統的設計和實驗結果。
項目負責人之一、華盛頓大學保羅·G·艾倫計算機科學與工程學院教授 Shyam Gollakota 表示,團隊在設計時充分吸取了Google眼鏡的教訓——后者因外形突兀、隱私爭議巨大,被公眾嘲諷為“Glassholes”,最終折戟。Gollakota 指出,相比眼鏡,很多人并不喜歡在臉上增加可見設備,而耳機在當下已經是高度普及、社會接受度極高的穿戴形態,因此將視覺功能“藏”進耳機,有望在可用性與隱私感受之間取得更好的平衡。
從硬件層面看,VueBuds 借助低分辨率黑白攝像頭和低帶寬傳輸,將功耗控制在 5 mW 以下,并在不使用時自動關閉以節省電量。研究人員稱,在一項包含 90 名用戶、17 個視覺問答任務的測試中,VueBuds 的回答質量可與內嵌攝像頭和大模型的 Ray-Ban Meta 智能眼鏡相媲美,顯示出將快速發展的視覺語言模型能力帶入耳機這一大眾設備形態的潛力。
演示視頻中,一名佩戴 VueBuds 的男子站在公寓廚房內,提出“請描述我面前的場景”這一請求,大約一秒后,耳機中傳來一位語氣輕松、模仿人類女聲的 AI 回答:“我看到一個廚房區域,有一扇窗戶帶來大量光線。臺面上有一些瓶子和一本書。窗戶有百葉簾,左側有一個水槽。”隨后,當他注視一張唱片封面并詢問專輯名稱時,系統很快識別出這是披頭士樂隊的《Abbey Road》專輯封面。
根據論文中披露的實驗數據,在 16 名參與者的測試中,VueBuds 在物體識別和翻譯任務上的正確率約為 83%,在識別書籍標題和作者等任務上正確率約為 93%。研究團隊舉例稱,將來用戶有望借助該系統閱讀尚未翻譯的韓國漫畫,或者在中餐館點“只有中文菜單上才有”的隱藏菜品,而不再受限于自身的語言能力。
針對常見疑問“耳機攝像頭位于臉部兩側,是否會被佩戴者自己的頭部遮擋視野”,研究人員解釋稱,VueBuds 借鑒了人類雙眼視差的原理,通過兩枚攝像頭的不同視角進行“立體視覺”融合,從而獲得對前方場景的理解能力。不過,受限于目前僅支持黑白畫面,VueBuds 無法回答與顏色相關的問題;導航和復雜場景下的高精度翻譯仍然需要更高分辨率的彩色攝像頭與更強算力支持。
電源和算力限制同樣意味著 VueBuds 目前無法連續、高帶寬地進行視頻流采集與處理,只適合以“拍照+問答”的間斷方式使用。盡管如此,研究團隊認為,其在能耗、體積和響應速度之間的平衡,已經足以證明這一形態作為“視覺智能平臺”的可行性,為未來耳機類設備的功能擴展提供了新方向。
與此同時,隱私與安全風險也成為繞不開的話題。文章指出,幾年前曾有公司提出“拍一張照就能識別陌生人姓名”的應用設想,當時網絡上流行的反諷回應是:“那樣的話,女性會因此而死亡。”VueBuds 在現階段僅提供有限的安全措施,例如耳機上小小的“工作指示燈”,但觀察者往往不會意識到一副耳機正在抓拍圖像,而結合音頻采集、藍牙連接和第三方人臉識別服務,這類設備一旦濫用,可能構成“低清仍致命”的嚴重隱私威脅。
文章指出,若監管部門能夠制定并執行有效規則,確保公共安全與個人隱私不受侵害,這類“會看”的耳機設備則有望為視障人士等群體帶來顯著的便利,極大提升其生活質量與出行、學習、娛樂等方面的自由度。華盛頓大學在官方新聞稿中強調,VueBuds 當前仍處于科研原型階段,但已展示出將視覺語言模型融入日常穿戴設備的前景,未來可能催生新一代“聽得見又看得見”的智能耳機產品形態。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.