![]()
![]()
01.對咱普通人有啥影響?
第一,這個技術(shù)方向上首個國產(chǎn)突破,
且是產(chǎn)品級。
產(chǎn)品做到和演示做到,
區(qū)別有多大,
不用多說。
產(chǎn)品級和模型級,
區(qū)別有多大,
不用多說。
眾所周知的原因,
OpenAI對我們不Open。
現(xiàn)在想用好AI,只得國產(chǎn)有。
國產(chǎn)AI突破了,
并不意味它就完美了。
作為硬核科技迷妹,
我不能尬吹國產(chǎn)遙遙領(lǐng)先,
同樣也不能說,
不用國產(chǎn)AI不是中國人。
第二,拉高語音嘮嗑水平。
一般來說,
人類和機器人聊天的技術(shù)水平變化,
都能感知到,
但是不多。
你若問我:
這個技術(shù)能給普通人什么好處?
我只能說體感上,
快是真快。
快是技術(shù)能力的直接表現(xiàn)之一。
理解強,要嘮很久才能確定。
對話快,嘮幾句就發(fā)現(xiàn)了。
可能有人會說,
沒感到有“提速”。
我只能反駁,
我能從軟件底層系統(tǒng)層面看到明顯提速了。
提速的時間范圍。
三個系統(tǒng)變成一個系統(tǒng)了,
一個系統(tǒng)一秒,
大致是從3秒降低到1秒。
高端科技,就是這么樸實無華。
02.對同賽道廠商啥影響?
技術(shù)突破后,沖擊力很大。
畢竟,底層系統(tǒng)變了,
不是功能按鈕變了。
重大更新,名副其實。
以前誰家敢吹機器人語音對話能力強,
過眼云煙。
也就是說,
很多廠商一覺睡醒,
戰(zhàn)火燒到枕頭了。
有新技術(shù)的快,
沒新技術(shù)的慢。
有新技術(shù)的當(dāng)下1秒,
以后迭代成幾分之一秒。
老技術(shù)一頓操作猛如虎,
一看3秒原地杵。
競爭,
如此殘酷。
如果不信,
那就打開手機里的訊飛星火APP,
手指點語音通話,讓超擬人說話,
你會發(fā)現(xiàn),
機器人回復(fù)時間(響應(yīng)時間)變得超快。
如果還想玩,
你使個壞,
瘋狂打斷,
一點禮貌都別講,
你又會發(fā)現(xiàn),
對話又快又機智。
拿起手機感受一下,
否則,我說什么都沒用。
我還問了星火APP,你這是啥設(shè)計?
它用女聲告訴我:
“我被設(shè)計成,
能連續(xù)處理和回應(yīng)信息流,
即使應(yīng)答被打斷,
也能從上次的狀態(tài)中繼續(xù)對話。”
另外,我補充一個產(chǎn)業(yè)視角。
任何不溫不火的技術(shù),
只要OpenAI帶個廣告,
立刻頂流,
多模態(tài)也不例外。
GPT-4o是美國2024年5月的技術(shù)。
那些想緊緊咬住OpenAI的廠商,
最好能盡快拿出成果。
如果拿不出來,
那就相當(dāng)于承認(rèn),
水平不行。
如果一直拿不出來,
那這個破星球,
待著就不痛快了。
為什么?
短短幾個月后,
國內(nèi)有極少數(shù)幾家公司突破這個技術(shù)了,
數(shù)量應(yīng)該不超過一只手,就能數(shù)清楚,
科大訊飛是其中一家。
那么問題來了,科大訊飛如何實現(xiàn)的?
03.到底是啥技術(shù)?
大旗不僅是GPT-4o扯起來的。
還一口氣帶火了三個方向:
圖片視頻語音。
既然文本(模態(tài))已經(jīng)是必選項,
知名成果是大語言模型,
那么,多模態(tài)的“多”字,
還可以有很多選擇,
選圖像,
選視頻,
選語音
選其他傳感器數(shù)據(jù),
多模態(tài)的每個方向都是一個戰(zhàn)略選擇,
當(dāng)然,土豪隨意,可選全部,
相信大家都看懂了,
想在哪一個方向上有所突破都不易。
選擇語音,或許就要做到:
語音輸入語音輸出,
它是一個完整的端到端過程。
這意味著,所有轉(zhuǎn)換在一個系統(tǒng)中完成,
也就是,“語音到語音端到端框架”。
我把這個術(shù)語講給一個抖音歷史博主的時候,
他皺了一下眉頭說,
能不能講中文?
技術(shù)名稱的確有點復(fù)雜。
分開看都認(rèn)識,
合在一起又不好懂。
![]()
語音到語音是指什么?
這個好理解,
就是你說人話,
機器人也對你說人話。
高質(zhì)量人話,不是智障說話,
本質(zhì)是輸入什么就輸出什么,
那些處理和轉(zhuǎn)換,發(fā)生在語音信號層面上。
這里有點晦澀,
那從軟件系統(tǒng)方面,可以這樣理解:
傳統(tǒng)老方法,
要三個系統(tǒng)(識別,理解,合成),
串連在一起,
缺一不可。
新方法僅用一個系統(tǒng)。
好比,上30層的高樓,
新方法一個垂直電梯直達了,
老方法
換乘三部電梯。
以一打三。
從結(jié)構(gòu)層面講,老方法時間上當(dāng)然快不起來
新方法用時短(時延低)。
當(dāng)然快。
04.短短幾個月就產(chǎn)品化了?
不吹不黑,
快肯定是有技術(shù)儲備。
十個恒大也不能一夜起高樓。
大約一年前,
我見到科大訊飛研究院院長劉聰,
特意問了多模態(tài)進展。
訊飛特色是在語音方向上有長期積累。
語音這種模態(tài)的進展當(dāng)然想聽他講。
聊下來,他告訴我重視,且布局。
具體不能說得太細。
有些問號,
需要耐心才能畫下句號。
看到結(jié)果,
我推測他們儲備了:
第一,大量語音模型對比學(xué)習(xí)方案。
第二,大量掩碼自監(jiān)督學(xué)習(xí)訓(xùn)練方案。
第三,足夠使用的“特色”數(shù)據(jù)。
并且,這次“極速超擬人”的發(fā)布。
我和研究院的高建清副院長,
以及幾位研究員聊了挺久。
我的推測得到了驗證。
“從模型到上APP,
雖然三到四個月,
但是技術(shù)儲備早就開始。
比如,很早以前,訊飛就著手表征預(yù)訓(xùn)練。”
他們對這類方法足夠熟悉,
對語音這種模態(tài)也足夠理解。
看到這里,
應(yīng)該不會再誤以為,
星火APP上,更新了一個小功能。
我甚至看到,有人批評訊飛,
躺在人工智能1.0的功勞簿上。
我再換個視角強調(diào),
為什么說“不小”呢?
那些日常接到的騷擾式推銷電話里的人聲,
還有高德APP導(dǎo)航用的各色語音包,
新老方法,
完全是兩碼事。
要是談技術(shù)晦澀,
那就赤裸裸地談錢,
新技術(shù)可能讓定制化語音包的成本打骨折。
可能不是在描述發(fā)不發(fā)生,
而是我不確定是一折還是兩折,
畢竟,我沒有財務(wù)成本的底稿。
除了語音,基礎(chǔ)大模型也很關(guān)鍵。
此處也不贅述了,
我引用一句高建清副院長對我說的原話:
“我們做的話,
一定是既有語音基礎(chǔ),
也有認(rèn)知大模型的基礎(chǔ)。
有這兩個基礎(chǔ),
我們肯定不會是從頭做。”
所以,他們?nèi)剿膫€月就做出來,
靠的不是走捷徑。
當(dāng)下,GPT-4o語音能力仍是期貨,
這話不是別人說的,就是我說的。
據(jù)說八月中旬是給一些阿爾法用戶開放了,
但是好像大家都還是用不了。
既然科大訊飛做到了,
那么就很有資格,來談他們的認(rèn)知。
朋友們,請深吸一口氣,
學(xué)霸專區(qū)到了。
05.獨家特供一:對齊與統(tǒng)一
以一打三的新方法,
總有點硬核技術(shù)含量,
“對齊”就是其中一個。
起猛了,
差點看成互聯(lián)網(wǎng)大廠黑話。
模態(tài)對齊旨在建立對不同模態(tài)的共同理解,
它通常將不同模態(tài)的語義空間進行對齊。
即在提取含義相近的不同模態(tài)數(shù)據(jù)的特征后,
得到相近的特征向量。
這兩句就寫得很專業(yè)了,
我承認(rèn),是書上抄來的。
書名是,
《多模態(tài)人工智能:
大模型核心原理與關(guān)鍵技術(shù)》。
理論是理論,
訊飛是實踐。
我總結(jié)一下,
三個舊系統(tǒng)不僅慢,
數(shù)據(jù)形式轉(zhuǎn)換還會難免丟失很多信息。
而換成現(xiàn)在一個新系統(tǒng),
信息始終以表征的形式傳遞,
能少損失很多信息。
對齊很關(guān)鍵,而對齊又通常是實現(xiàn)統(tǒng)一的一個前提步驟。
另一個,術(shù)語“統(tǒng)一”躍入眼簾。
又起猛了,秦始皇統(tǒng)一六國嗎?
字是那個字,
意思不一樣。
這確實是AI技術(shù)術(shù)語。
專業(yè)上,統(tǒng)一是通過共享的表示和架構(gòu),
來整合和處理不同模態(tài)的數(shù)據(jù),
從而實現(xiàn)多種能力。
比如模型可以看圖片,看電影。
你咳嗽兩聲,機器人也能聽懂。
問你需不需要醫(yī)療廣告。
扯遠了,
簡單說,既要又要,
既要會這個,又要會那個。
以前都是分開幾個語音模型來干的,
這種分開的語音模型,
門檻低,
開源多,
效果也就這樣了。
有了大語言模型之后,
效果上了個臺階。
語音模型加上大語言模型的能力,
這個進展互聯(lián)網(wǎng)大廠都積極跟進了。
用大上語言模型,
反正正確率都提升。
我來列幾個近期的:
字節(jié)跳動的兩個,
Seed-ASR和Seed-TTS。
名字前綴都一樣。
而阿里巴巴通義實驗室也有兩個,
SenseVoice和CosyVoice。
對不起,我又扯遠了,
這些都不是新方法,
這些和“語音到語音端到端”是兩碼事。
我只想告訴你,抵達新技術(shù),
沒有那么容易,
你把大語言模型搬過來能有一些用,
但也不是現(xiàn)階段的最好。
為什么?
因為沒有“統(tǒng)一”。
“”統(tǒng)一能干啥?
能解決原有缺陷。
你把語音轉(zhuǎn)成文字,
那些音調(diào)音色語氣情緒之類的信息都丟棄了。
一個“啊”的聲音,就可能有多個意思,
轉(zhuǎn)成文字,就一個啊字。
![]()
語音多模態(tài)模型在保留音調(diào)、音色、語氣和情緒等特征時,
面臨的問題是,
如何將以上這些信息統(tǒng)一到一起處理,
這真是一個好問題。
06.獨家特供二:解耦
先談解耦的產(chǎn)品形態(tài)是什么樣的?
拿能成本打骨折的高德語音包為例,
以前于謙語音包上架高德地圖,
郭德綱“隔空懟”,不推薦下載。
現(xiàn)在要是這個語音包用能解耦的技術(shù)來做,
會是什么樣的呢?
于謙還說同樣的話,燙同樣的頭,
語氣,音色都不變,
我改“語種”屬性,
于老師的話就變成了,英語,日語等語種。
而其他都不變。
“于謙為你導(dǎo)航,
關(guān)閉郭德綱模式”。
"Yu Qian is navigating for you,
turning off Guo Degang mode."
語音語調(diào)請讀者自行腦補。
估計郭德綱聽了,更不推薦下載。
![]()
當(dāng)然,這有賴于,
新技術(shù)是做到了能把“語種”屬性拆出來。
這是我的理解。
原理是,人們交流用說話的語言(語種表征),
內(nèi)容(內(nèi)容表征),
還會用節(jié)奏語調(diào)(韻律表征)
和說話者的聲音(音色表征),
來捕捉和傳遞語音中的全部信息。
俗稱,弦外之音,言外之意。
好的,幾句話把訊飛解耦語音表征講完了。
下課。
等一下,
如果你仍有強烈的求知欲,
我就往下講,
原理看似晦澀,其實一點也不簡單。
高建清副院長告訴我,
“語音里面,
哪些是說話的內(nèi)容,
哪些是說話人的音色,
哪些是韻律,
哪些是情感。
充分解耦出來,
再通過某種編碼的方式送到基礎(chǔ)大模型里。”
解耦異常重要。
究竟解耦了什么?
解耦了語音的屬性。
為什么這么做?
我認(rèn)為是為了更好地控制。
語音天然有很多屬性,
你想控制好,訊飛拿出的思路是解耦,
至于如何解耦,
解耦的程度,
怎么樣既分開,
下游任務(wù)又可以用得好。
屬性之間的微妙之處怎么把握。
那是人家的知識產(chǎn)權(quán)。
能理解到這一步的讀者,
應(yīng)該能看到科學(xué)家花了多少心思,
而我只能帶著大家到科大訊飛研究院的門口了,
至于實驗室里的秘密,
智者求知,取用有規(guī)。
總之,解耦做得好,后面的控制會做得更好。
方言,韻律,音色都可以分開精細化控制。
解耦還有一個優(yōu)點,
下游和產(chǎn)品特點關(guān)聯(lián)設(shè)計的時候,
連成本都能控制得更好。
這一點做到非常難,
但確實做到了。
07.獨家特供三:大神經(jīng)網(wǎng)絡(luò)
我有個問題,
這么硬核的思路中,哪個最關(guān)鍵?
作為一個學(xué)渣,我認(rèn)為都關(guān)鍵,
否則我也不會寫了好幾章。
而高建清副院長給我的答案是:
“在充分理解語音屬性的基礎(chǔ)上,
取舍和平衡是我們技術(shù)里面最關(guān)鍵的一部分。
算法,也許不是最關(guān)鍵的。”
他怕我沒有理解,
甚至他后面特意強調(diào)了第二遍。
我懷疑,他想把我教會。
而且我有證據(jù)。
既然新系統(tǒng)時間就是生命。
為了快,想盡一切辦法。
我們假設(shè)這個目標(biāo)時間是1秒。
真實的毫秒數(shù),
并不能透露。
反正,“快”既是技術(shù)能力的體現(xiàn),
又是用戶爽感的要求。
總結(jié)新方法的三個特點,
第一,該取舍就取舍。
要快的話,
有時候看重語音里面的情緒,
有時候更看重文本的這個情緒。
不同屬性表征之間取舍,
可以讓模型自己學(xué)。
你不能解耦就不能精確控制,
但是這還沒完,
難度還在于,模型怎么自學(xué)。
不得不感慨,
這確實是整個系統(tǒng)中的一大難點。
第二,該實時就實時。
語音經(jīng)過編碼器提取出來的語音表征,
這個過程是實時的。
要快的話,
實時對很多做語音算法小哥哥來說豪不陌生。
以現(xiàn)在AI產(chǎn)品的要求,
這個組件大多實時的
你講完再識別,
沒時間了。
第三,該打斷就打斷。
打斷能省時間,
但打斷要有水平。
意思表達完了才能打斷。
魯莽打斷,實在找抽。
高建清副院長的原話是:
“如果不打斷肯定這個系統(tǒng)就慢了。
所以打斷時機是非常關(guān)鍵的,
這個也是一個很難的一個問題。”
只有很好地處理打斷,
系統(tǒng)才能“反應(yīng)快速”,
機器人可以隨時打斷用戶,
用戶也可以隨時打斷機器人,
人機公平?jīng)]在烏托邦實現(xiàn),
在這里實現(xiàn)了。
“打斷背后到底是在解決一件什么事情?”
我向高院長提問。
他告訴我,這是一個理解的問題,
比如,人和人聊天,
什么時候該打斷,
基于你已經(jīng)表達完了的判斷,
他還告訴我:
“我們對此單獨設(shè)計,
并不只靠認(rèn)知大模型能力做到。
這是效果和響應(yīng)時間的一個平衡的問題。
任務(wù)的定義是,
判斷什么時候該打斷了。”
訊飛語音到語音端到端多模態(tài)整個系統(tǒng),
我們把它當(dāng)做一個大的神經(jīng)網(wǎng)絡(luò),
不同組件的工作過程是:
第一步,準(zhǔn)備。
需要語音經(jīng)過編碼器提前提取出來語音表征,
第二步,適配器。
適配器這個東西,
我管它叫“插座”,
如果你了解圖文多模態(tài)。
那就一點也不陌生了,
都有這個玩意。
這里適配器把語音表征跟文本表征去做語義對齊,
拉到一個空間上。
第三步,
全名叫做“訊飛語音屬性解耦表征訓(xùn)練”,
用到了對比學(xué)習(xí),掩碼預(yù)測等方法。
第四步,
把上一步訓(xùn)練得到的表征接入給大語言模型,
預(yù)測表征。簡單的做法還可以把大模型凍結(jié)住,
然而,訊飛怎么會用這種方法呢。
肯定是一起訓(xùn)練,效果才更好。
第五步,
再經(jīng)過語音解碼器解碼成語音。
講完了,我留下一道附(送)加(命)題,
![]()
技術(shù)很快(8月30日)上線訊飛星火APP,
模型的參數(shù)盡量地考慮了性價比,
畢竟,支撐全量產(chǎn)品。
訊飛判斷,端到端技術(shù),
以語音模態(tài)應(yīng)用場景更多,
更有用處。
這是他們做這個事情的出發(fā)點。
08.故事的最后
我想多談兩句算力,
AI離不開算力,
眾所周知的原因,
科大訊飛用不了美國的GPU。
有幸,他們向我談起了一些細節(jié),
在與華為聯(lián)合團隊的大背景下,
23年下半年聯(lián)合攻關(guān)團隊的規(guī)模很大,
很多華為的兄弟一線現(xiàn)場支持,
現(xiàn)在基礎(chǔ)大模型跑得很好,
目前算力集群訓(xùn)練能夠達到英偉達90%以上的性能。
困難像潮水,想把人的意志力打成砂礫。
語音特征和認(rèn)知特征不同,
是非常密集的信號,有很多獨特的難題,
適配過程非常困難。
如是,此次攻堅難度比上次更大,
僅是華為昇騰算子方面,
打磨出的語音模型算子的數(shù)量級大概是幾百個。
一場少見的酣暢的交流,
我也希望能把信息盡量保真地帶給讀者。
他們從始至終語速適中,
平和且堅定,
仿佛哪怕難題不斷在視野中出現(xiàn),
也時刻準(zhǔn)備好了,
總有下一個目標(biāo),
下一場戰(zhàn)斗。
(完)
![]()
![]()
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.