作者|畢樂天
來源|AI先鋒官
如果你沒有時間看,沒關系,我制作了播客,在聽的過程你可以忙些自己的事情
你有沒有過這種經歷?
對著智能音箱喊了半天,
它卻一臉懵逼。
或者,
它只聽到了你的話,
卻對旁邊燒開的水壺、窗外的雷聲、甚至狗子的狂吠……
充耳不聞。
如果,你的AI不止能聽懂“人話”,
還能聽懂全世界的聲音呢?
別懷疑,
這一天已經來了。
小米剛剛開源了一個大模型,
MiDashengLM-7B。
名字不重要,
重要的是,它給所有智能設備,
裝上了一雙超凡的耳朵。
這正是小米“人車家全生態”構想的核心:
讓你的設備不再是被動地等你下命令,
而是主動地感知你周圍的世界。
![]()
獨門秘籍:憑啥這雙AI耳朵這么神?
一句話:它不只是“聽”,它在“理解”。
以前的語音助手:像個速記員
你手機里大部分的語音助手,
核心技術叫ASR(自動語音識別)。
你可以把它當成一個“法庭速記員”。
它的任務只有一個:
把你說的每個字,都變成文字。
旁邊有音樂?忽略。
有噪音?可能會識別錯。
至于你說話的語氣、開不開心……
它根本不懂。
小米的新玩法:像個電影導演
小米的MiDashengLM,不想只當個速記員。
它的目標,是成為一名“電影導演”。
它會給聽到的所有聲音,
寫一個內容豐富的“劇本”。
舉個栗子:
一段音頻里,有男人說話,還有車聲。
速記員(舊AI)只會寫:“一個男人在說話。”
導演(小米AI)會寫:
“一個男人正在用英語談論進城,伴隨著車輛行駛的聲音。”
再舉個栗子:
一段音頻里,有音樂和歡呼聲。
速記員(舊AI)只會寫:“有噪音和音樂。”
導演(小米AI)會寫:
“人群在歡呼鼓掌,背景是電子音樂,合成器營造出一種黑暗又充滿活力的氛圍。”
看到沒?
這就是差距。
它能理解聲音里的所有元素,
把它們串聯成一個完整的故事。
下面是視頻演示
這對“順風耳”,都有啥超能力?
它能干的事,多到你眼花。
? 語言大師
不只懂中英文,
印尼、泰國、越南話,照樣聽得懂。
? 聲音偵探
能同時聽見好幾種聲音。
“狗叫+汽車喇叭+下雨聲”?
小菜一碟。
音樂品鑒家
它能聽出樂器、風格,
甚至音樂想表達的情緒。
讀心神探
通過你的聲音,
猜出你的性別、口音,甚至心情。
超級知識王
你可以隨便問它關于聲音的問題。
比如:“剛才那段聲音里,有小孩子嗎?”
它會告訴你答案。
?? 金牌書記員
當然,把語音轉成文字這種基本功,
它也做得又快又好。
未來已來:你將在哪里遇到它?
這不是科幻片。
小米已經把這些能力,
用在了超過30個智能功能上。
在你的車里(比如小米SU7)
超級哨兵模式:車停在外面,它24小時聽著。一旦有砸玻璃、碰撞的聲音,立刻給你手機報警。
更懂你的導航:就算你開著音樂、開著窗,它也能在嘈雜中聽清你的指令。
隨行外教:上下班路上練外語?它能實時糾正你的發音。
![]()
在你的家里
全天候保安:能聽出煙霧報警、嬰兒哭聲、或者有人撬門的聲音,然后通知你。
隔空操作:拍拍手開燈,打個響指關電視,懶人福音。
貼心管家:它聽見廚房水開了,會主動問你:“水開了,要幫你關火嗎?”。
![]()
它還能……
幫視障朋友“聽”懂視頻里的畫面和氛圍。
幫直播平臺自動揪出不良聲音。
幫音樂App給你推薦更合口味的歌。
最關鍵的是,它跑得飛快,還很省資源。
這意味著,這些超能力可以直接在你的手機、汽車、音箱上運行,不需要一直連著網。
終極對決:它和別的AI比怎么樣?
不吹不黑,直接上數據。
小米把它和業界頂尖的幾個模型比了一圈,
在22個公開測試里,刷新了一大堆記錄。
有些地方,簡直是碾壓。
比如,在一個叫VGGSound的環境音識別測試里:
小米MiDashengLM,得分 52.11。
它的對手,得分 0.97。
![]()
![]()
![]()
![]()
![]()
你沒看錯,是五十多倍的差距。
當然,它也不是完美的。
它就像一個奧運十項全能冠軍。
在“聽懂所有聲音”這件事上,它是王者。
但如果只比“英文語音轉寫”這一個單項,
可能某個只練這個的“百米飛人”會稍微快一點點 。
但別忘了,
它不僅更“懂”,還更“快”。
響應速度比別人快4倍,處理能力強20倍。
這意味著,你用起來會更爽,幾乎沒延遲。
所以呢?這跟我們有啥關系?
簡單說三點:
你的設備,活了。
它們終于有了真正的“聽覺”,變得更智能、更主動 。
它跑得動,用得起。
超高的效率,讓這些強大的AI功能可以塞進你身邊的每個設備里 。
最牛的是:它免費!
小米把模型、代碼、數據,全部開源了。
這意味著,全世界的開發者都可以用它來創造更好玩、更有用的東西。
AI的未來,不會被幾家大公司壟斷 。
我們的設備,
先是學會了“看”(攝像頭),
然后學會了“讀”和“寫”(語言模型)。
現在,
小米讓它們,
真正學會了如何去“聽”。
這個世界,
馬上就要變得更有趣了。
想親自體驗一下?
交互式Demo
( https://huggingface.co/spaces/mispeech/MiDashengLM )
如果你是開發者:
GitHub項目主頁:
https://github.com/xiaomi-research/dasheng-lm
模型下載:
https://huggingface.co/mispeech/midashenglm-7b
掃碼邀請進群,我們帶你一起來玩轉ChatGPT、GPT-4、文心一言、通義千問、訊飛星火等AI大模型,順便學一些AI搞錢技能。
往期文章回顧
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.