![]()
?商業與生活 文|朱曉培
校對|大道格
過去一年多,人工智能AI發展的速度超過任何歷史時期,特別是生成式人工智能(AIGC)帶來的新想象力,引人憧憬。
根據各地網信辦發布的公告,截至2024年7月30日,全國范圍內已有197個生成式人工智能服務通過網信辦備案。人們最關心的莫過于,這些大模型,到底會如何落地,又會給物理世界帶來什么樣的改變?
9月19-21日,2024云棲大會上,人們可以發現一些答案。特別是AI的前沿應用館里,因為匯聚了多家公司的AI應用成果,成為了做具人氣的展館。
在這個展館里,喜馬拉雅不大的展臺,格外引人矚目。與在其他展臺面前觀眾排隊等著體驗AI游戲不同,展臺上的一個二維碼,引得眾多觀眾掏出手機掃碼入群。這個叫做“珠峰AI音色數字克隆人”的群,是專門為了喜馬拉雅的珠峰AI音視頻創作平臺的VIP權限開通所用。
據現場的工作人員介紹,珠峰AI音視頻創作平臺,是通過珠峰AI音頻多模態大模型(簡稱“喜馬拉雅大模型”),結合喜馬拉雅獨有的全品類音色庫和數字人大模型,為創作人提供高品質的AIGC和數智人服務。
![]()
用戶獲得珠峰AI的VIP權限后,可以上傳一段15秒至1分鐘的露臉視頻,生成屬于自己的視頻數字人,然后上傳文案、選擇聲音,就可以創作自己的音視頻作品,還可以通過克隆音色制作音頻作品。這一功能,吸引了大量的創作者,19日下午,《商業與生活》去展臺參觀的時候,就已經開到了VIP3群。
“AI聲音要做到自然,其實是很難的,需要模仿人類的呼吸、停頓、語氣詞等,珠峰AI的效果很棒,讓人聽不出來是AI合成的,對于創作人來說,是不可多得的工具。”一位用戶評價說。
01
喜馬拉雅大模型?
首個備案音頻大模型亮相
2024云棲大會上,喜馬拉雅展示的大模型,是其自主研發的AI音頻生成大模型。
![]()
就在9月9日,喜馬拉雅音頻大模型與米哈游、閱文集團的筑夢島等文本大模型共同進入了上海網信辦發布的新一批上海市生成式大模型備案通過名單,成為全國首個通過網信辦生成式人工智能服務的音頻生成類大模型。
據《商業與生活》了解,喜馬拉雅音頻大模型也是全球首個第四代多情感演繹、超自然表達的音頻生成大模型。該模型是珠峰AI團隊基于自研文本音頻聯合建模的LLM框架,在同一空間向量表征下實現音頻與文本的聯合建模訓練。這種聯合建模的方法,充分賦予了音頻生成任務以強大的語義信息,并充分利用它們之間的內在聯系和互補信息,大幅度提高模型的性能和泛化能力,這也是第四代音頻大模型超越上一代的核心技術突破。
在訓練過程中,喜馬拉雅珠峰AI首先將音頻數據和文本數據分別進行預處理,將它們轉化為適合模型輸入的 token 形式。將音頻 token 和文本 token 映射到同一空間向量表征中,通過使用共享的嵌入層將音頻 token 和文本 token 映射到一個共同的高維向量空間中,從而使得模型能夠更好地理解和處理音頻和文本之間的關系。整體訓練流程包括預訓練(Pretraining)、有監督微調(SFT)、領域有監督微調(Domain SFT)、說話人有監督微調(Speaker SFT)、強化學習(RL)幾個主要流程。
![]()
通過這幾個流程的訓練,依托百萬小時的自有版權音頻數據進行訓練后,喜馬拉雅音頻大模型具備情感輸出、自然表達、語種互譯、超擬人、多情感、15s音色克隆能力和聲音轉換等技術能力,在音頻生成領域實現了多維度突破。
基于喜馬拉雅音頻大模型,可生成一系列情感豐富的有聲書作品:
擅長進行超擬人、副語言可控的語音生成,做到媲美真人的真實對話風格語音生成:
只需要使用15s以內音頻,即可快速克隆音色,超低成本個性化音色制作,可同時進行個性化音頻內容生成和變聲:
音頻prompt:
文生音克隆:
還支持跨語種的聲音合成,如單老的中英混讀:
此外,方言的合成也不在話下:
并且還能生成一些特色音,如助眠音的合成:
結合喜馬拉雅音頻大模型的快速聲音克隆能力,疊加珠峰AI團隊自研的單圖驅動口唇技術,使用一張圖和一段聲音,可快速生成趣味配音視頻,具備高自然度的語音和口唇對齊效果:
《商業與生活》在現場體驗了喜馬拉雅的AI文本驅動功能后,也深刻感覺,????? 對于創作者來說,如何讓AI成為自己的第二大腦,把創意更便捷、更迅速的落地,已經成為了一個重要的命題。???????
02
AI賦能內容創作者?
重塑內容生態
AI技術的飛速發展,正以前所未有的速度推動著內容創作行業的變革。有業內人士指出,眼下,AI將不僅僅是輔助工具,更可能會成為內容創作的主導力量。內容生產由傳統的“全人工生產”模式,轉向為“人工+AI Copilot”模式,極大的提升了內容生產的效率。
喜馬拉雅,也將AI相關業務,列為頭號任務,在戰略中明確表示,“繼續發展面向未來的技術,AI及大數據能力”。
在內容生態體系中,內容制作成本高昂一直是眾多內容平臺的一大癥結。從版權采買,到匹配創作者,再到漫長的制作周期,每一環都是人力和成本的堆積。
洞察到內容創作這一痛點的喜馬拉雅,選擇通過AI賦能創作者和平臺,便捷創作者的內容生產,形成像“AI制作人”一樣的人機協同。
![]()
有了AIGC的演繹能力,喜馬拉雅可以幫助創作者極大提升效率。過去平均生成一本書可能要幾十天或者一兩個月。現在可能一兩天,甚至十幾個小時就能完成。播客主瀟瀟使用喜馬拉雅智能創作工具“音剪”后說,過去需要100分鐘剪輯的音頻,現在不到10分鐘就可以處理完。可以節省出更多的時間,用來琢磨精品的內容。
有數據顯示,在喜馬拉雅,AI貫穿著有聲讀物的預錄制、錄制、后期等全過程,相比于人工創作的耗時,AI提效超過50倍;而由AI制作、人有限參與的精制作,相比于人工創作提效逾3倍。以宣傳物料為例,以往,真人主播在制作一張專輯,專輯封面圖、推廣物料等,如果外包給外部工作室的費用至少千元。但使用喜馬拉雅的AI工具,主播制作一張專輯在各環節需要的圖片,設計成本可以降到幾毛錢,且效率奇高,幾分鐘就能完成圖片生成。
除了將AI技術深入應用于PGC、PUGC、UGC的創作全流程,幫助創作者實現降本增效外,AIGC本身也開始成為喜馬拉雅的一大內容生產方式。數據顯示,截至2023年12月底,喜馬拉雅平臺上的AIGC內容達2.4億分鐘,占平臺音頻內容的6.6%。
此次云棲大會展示的珠峰AI創作服務平臺——珠峰AI音視頻創作平臺,就是依托通義文本大模型對文本內容語義的深度理解,打造珠峰AI音頻大模型,結合喜馬拉雅獨有的全品類音色庫和數字人大模型,為創作者提供高品質的AIGC音頻和數智人服務,建立了包含535種合成聲音組成的音色庫,以適配不同情景下展示人類的感受及情感。
最近爆火的有聲書《我的阿勒泰》,就是由喜馬拉雅音頻大模型生成的。更早些時候,喜馬拉雅的技術團隊,還利用運用AIGC技術還原了已故評書大師單田芳先生的獨特嗓音,并使用他的AI合成音來全新演繹其經典之作。
喜馬拉雅珠峰AI表示,音頻大模型能力已經在珠峰AI官網(zhufengai.ximalaya.com)上可以直接體驗使用了,用戶可以直接創作用戶自己的音頻內容。相信有了喜馬拉雅AI的助力,國內的內容生產者能夠更高效地創作出更多高質量、個性化的內容,滿足廣大聽眾的需求,推動整個內容產業的創新和發展。
03
AI in All
給喜馬拉雅帶來新的想象空間
作為音頻行業領頭羊企業,喜馬拉雅曾首創PUGC內容生產方式,并通過“PGC+PUGC+UGC”三位一體戰略,實現了從頭部專業生產內容到長尾用戶生產內容的音頻內容全方位覆蓋,打造出自己的“聲音宇宙”。
如今,AIGC的出現,為喜馬拉雅帶來了新的想象空間。
眾所周知,高質量的數據庫,是AI大模型落地的基石,是AI大模型進化的燃料。而喜馬拉雅擁有全面的音頻內容生態,包括體量龐大的音頻內容庫,以及數量眾多的音頻內容創作者。據公開數據顯示,截至2023年12月底,喜馬拉雅擁有約4.9億條音頻內容,總內容時長為36億分鐘。喜馬拉雅擁有的龐大的語音庫,讓喜馬拉雅大模型擁有了不斷演進的AI能力,這也是喜馬拉雅在AI時代的競爭優勢。
![]()
喜馬拉雅不僅在AI上擁有數據和技術上的優勢,而且,AI還在智能化廣告營銷中發揮更突出的作用,給喜馬拉雅帶來了更多的商業變現場景。比如,通過AIGC原生聲音流,實現“廣告即內容”。
此前,喜馬拉雅就聯合貴州茅臺推出了“單田芳AI聲音重現”春運公益活動。不久前,喜馬拉雅聯合慕思共同打造的“邀李白共啟AI穿越之旅”活動,在西安大明宮舉辦的“慕思奇妙夜之 AI 夢長安” 開館活動上,喜馬拉雅大模型技術助力慕思博物館館長與李白進行了一場跨越時空的對話,讓人仿佛置身于古代文人雅士的聚會之中。
隨著AI技術的不斷融入與創新應用,喜馬拉雅不僅改變了內容創作的邊界,也在商業化探索上開辟了新的廣闊天地。通過將AI技術與傳統文化、商業品牌深度融合,可以打造出一系列既富有文化底蘊又極具商業價值的活動,助力品牌策劃出更加精準有效的營銷活動,開啟全新的商業增長點。
在云棲大會會場,可以深刻感受到,AI技術正快速從實驗室走向實際應用,影響著各行各業的發展。在內容創作方面,AI與人類創作者之間的協作,已經在成為內容創作的大勢所趨。
而在上海張江的喜馬拉雅園區,隨處可見“AI in All”的標語。這家國內知名的音頻在線平臺,正在內部掀起一場全方位的 AI 變革,也打開了新的增長曲線。
—End—
更多關注:商業與生活,ID:xiaopeizhu8
內容同步:網易號、同花順、百家號、今日頭條、UC、雪球、企鵝號、一點資訊、知乎、搜狐等。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.