![]()
編輯|杜偉
2026 馬年注定迎來一個「AI 味」最濃的春節。
一個與眾不同的玩家進入我們的視線,它正是國內最有活人感的生活和消費社區 —— 小紅書,卷起了「感知力」。
小紅書圍繞著發布、評論、搜索、社交等高頻互動場景,開放了多種 AI 語音新玩法,包括語音發布、語音評論、語音問一問、語音私信拜年等。
這些新奇有趣的語音玩法,帶來的直觀效果是:用戶之間的溝通媒介不再只是圖文,而開始了「動嘴」模式。
語音回帖讓以往冷冰冰的評論區有了「滿滿的活人感」,涌進世界各地的語言、中國各地的方言,還有人秀起歌喉以及各式各樣的播音腔、磁性嗓、低音炮。
![]()
圖源:@牛角包大王 @別咬我兔耳朵
如果說語音評論增強了社交趣味性,這兩天正式上線的「語音問一問」則是社區搜索形態與功能的一次大變身。
它與傳統 AI 搜索最大的區別是將真人經驗與 AI 總結結合了起來,你搜索到的每一個答案,都是真實用戶的知識與經驗沉淀。
在小紅書里直接搜「語音問就有活人答案」進入活動頁面,便能開啟該功能。這個春節,年貨買什么、哪里好逛,開口問就行。

用戶還可以參與「語音問一問抽新春小紅盒、語音拜年、語音聯歡會」等特色迎春活動,互動起來更能感受到年味。
![]()
圖源:@甜甜圈
聲音,讓小紅書社區「活」起來
作為人類最自然的交流媒介,聲音的加入正在將小紅書改造成更有「聲」命力的社區。
先從語音評論說起,自開啟該功能內測以來,各路網友腦洞大開,有人秀自己的正宗法式發音:
![]()
圖源:@labalibi
聲源:@nagono
上海話讓人想到江南煙雨中的溫婉女子:
![]()
圖源:@基尼斯貝貝.
![]()
聲源:@琉璃
一些歌手已開始在評論區一展歌喉,如楊丞琳:
![]()
![]()
圖源&聲源:@楊丞琳
不同曲風的 K 歌接龍以及稀奇古怪的聲音模仿讓評論區充滿了歡樂:
![]()
圖源:@Han(天線短路寶寶)
![]()
聲源:@yearn
![]()
圖源:@兜兜有米
![]()
聲源:@灝-Mioarti
好玩之外,語音評論還可以很暖心。聽障人士向外界展示他們真實的聲音,這種人文關懷令人動容。
![]()
圖源:@聽障研究生~彤
![]()
聲源:@! ! !
上線即火爆的「語音問一問」功能,其 AI 增強搜索與問答能力讓體驗從手動翻閱一篇篇筆記進化到一問即得。
很多明星都參與了進來,比如曾參加過《歌手 2024》的美國男歌手 Adam Lambert 操著蹩腳的普通話發問「動口不動手」的含義,還請教了春節快樂的粵語表達。
![]()
我們也開口問了兩個問題,第一個是「北京春節有哪些年味濃的地方」,中間還進行了追問。在識別語音之后,AI 很快根據小紅書站內筆記生成結構化總結,還進行分門別類,比如經典年味地標、文藝小眾去處和老北京大集,最后還附上了出行小貼士。
![]()
接著問「臘月 23 小年的特殊含義以及南北方的差異」。從結果來看,AI 同樣調取站內筆記,將其中零散的信息重組轉化為一份結構嚴密的答案,清楚列出了南北方小年在日期、習俗、飲食、活動等方面的差異。
![]()
當你想挑一些「看起來比較貴重,但又不是真的很貴的禮物」時,出來的這份答案能否滿足你的要求呢?

全新的玩法「語音發布」也已經上線,不少明星用它來分享日常生活、發送祝福。
![]()
![]()
圖源&聲源:@王錚亮
從互動到搜索、再到筆記,AI 語音的全鏈路滲透,讓 2026 年春節的小紅書社區變成了「評論可發聲、搜索語音問」。
AI 語音落地,面臨多重關
在小紅書這樣用戶體量龐大的社區,AI 語音的順利落地需要解決好以下若干問題。
首先需要解決復雜場景下的音頻理解
小紅書的用戶分布極廣,存在大量地域方言、口音、不同年齡段或用戶群體的使用習慣(如耳語、中英夾雜等情況)。設備差異、背景聲音、嘈雜環境、語速同樣會影響識別的準確性。
除了語義內容,模型也需要感知用戶語音中的情緒、音色特點;音樂歌聲中的情緒、流派、風格;自然界的風聲、雨聲、海浪聲等環境音。
如果說聽懂是基礎,那么有溫度地回答是靈魂所在,也是實現自然交互的關鍵。這就要面臨第二大問題:如何讓音頻生成具備活人感
小紅書內容場景風格「千人千面」,要求模型根據場景靈活切換,拒絕一種腔調走天下。情緒表達要「連貫流暢」,不再是孤立地朗讀句子,而是能讀懂上下文的起承轉合;細節語氣也要精準拿捏,還原語言的「弦外之音」。
這就要求模型在充分消化理解用戶上下文的同時,還要具備相應的情緒感知能力。
最后,響應速度直接影響用戶實際體驗
如果語音交互處理流程很長,用戶說完后總要經歷幾秒鐘的「死寂」,系統才有反應。這種非實時性會將原本連貫的對話切得支離破碎,體驗十分生硬。
天然優勢之外,更有領先語音技術
對于小紅書而言,其打造多樣化 AI 語音能力具有天然優勢:
一是豐富內容形態,涵蓋圖文、筆記、視頻等多種形式,多元內容結構可以完美承載語音作為交互的中間媒介。二是相較于單純的短視頻平臺,在小紅書評論區插入語音不會導致體驗上的「打斷感」。三是小紅書的 AI 語音能力集成于主站核心場景,為技術提供了持續創新與優化的空間。
這些優勢使得小紅書成為 AI 語音落地的理想試煉場,但要達到如今的水平,更有堅實的技術支撐。
據了解,這些技術出自小紅書 Super Intelligence-AudioLab團隊,負責人為風龍。團隊核心布局了語音識別、語音合成、全雙工語音交互及 ALLinOne 基座模型、音樂理解生成四大方向,支撐起小紅書在各業務場域的應用探索。
在語音識別領域,自研FireRedASR大模型取得中文語音識別開源 SOTA 效果。近期,團隊也準備開源全鏈路 ASR 系統級解決方案 FireRedASR2S,包含靜音檢測、語種檢測、語音識別、標點集成等模塊。
- FireRedASR 項目地址:https://github.com/FireRedTeam/FireRedASR
- FireRedASR2S 項目地址:https://github.com/FireRedTeam/FireRedASR2S
在功能上,FireRedASR2 新支持 20 + 方言和口音,在中文普通話和方言公開的 24 個測試集上字錯率為 9.67%,相比之下,Doubao ASR 和 Qwen3-ASR-1.7B 的字錯率分別為 12.98%、10.12%。
另外,FireRedLID 語種檢測模型支持 100 + 語種和 20 + 中文方言,語種準確率達 97.18%,而 OpenAI Whisper 僅為 79.41%。FireRedVAD 支持 100 + 語種,在多語言語音 Fleurs 測試集上,它的 F1 分數為 97.57%,開源 Silero-VAD 為 95.95%。
![]()
FireRedASR2 不同版本與競品模型的平均字錯率對比。
在語音合成領域,同樣做到中文對話長語音合成 SOTA。自研FireRedTTS2大模型支持 3 分鐘以上長對話生成,在多輪對話場景中,其音色穩定性和自然度顯著優于多家競品,代表了目前開源模型的最高水平。
該模型引入的情緒感知能力是語音「活人感」得以實現的關鍵,當感知到用戶情緒低落時,語音中會自然地帶有安慰的語調,擺脫機械感。
更早之前的 FireRedTTS1/1S 主打單句生成與克隆,能夠精準還原參考音頻的特色,目前穩居該領域的開源第一梯隊。
- FireRedTTS1/1S 項目地址:https://github.com/FireRedTeam/FireRedTTS
- FireRedTTS2 項目地址:https://github.com/FireRedTeam/FireRedTTS2
FireRedTTS 系列模型與 OpenStoryline AI 視頻剪輯的結合,可以提供自然人感的語音生成能力。未來,團隊將持續擴展能力至播客、語音翻譯等多個場景。
![]()
表 3 為 FireRedTTS-2 在交互式對話場景微調后的情感控制準確率,表 4 為 zero-shot 播客生成的客觀與主觀評估。
對于全雙工語音交互及 ALLinOne 基座模型,團隊推出了業內首個開源、支持私有化部署的全雙工語音交互系統FireRedChat。
針對傳統 AI 反應慢、亂打斷的痛點,系統通過自研的 pVAD(辨別聲音)和語義判停 EoT(聽懂意思) 技術,精準判斷說話時機,端到端延遲低至 2 秒,反應又快又穩。其最大亮點是不依賴外部 API,即可實現一鍵本地部署。它讓 AI 不再是冷冰冰的機器,而是能共情、有溫度的伙伴。
FireRedChat 項目地址:https://github.com/FireRedTeam/FireRedChat
ALLinOne 基座模型實現語音、音效、音樂的統一編碼,完美打通泛音頻的理解與生成,帶來了音頻能力的涌現。同時通過支持多類型、深層次的標簽分析,為語音評論的音頻內容理解提供了堅實的基礎能力。據悉團隊將于今年上半年和業內分享開源模型。
在音樂理解與生成領域,自研的音樂理解與生成模型實現了對音樂的多尺度深層理解、創作意圖融合與靈活可控創作,將專業音樂創作的知識融入模型的理解 - 轉化 - 生成各階段,為從音樂愛好者到專業音樂人的不同用戶提供一體化音樂創作解決方案。
模型在音樂曲風、情感、場景、節拍律動等多個維度的理解能力和高品質生成能力已賦能小紅書音樂人創作,據悉同樣會在上半年和業內分享開源模型。
在拿到模型測試資格后,我們也小試了一下,生成的一分多鐘的音樂效果不錯:
正是有了以上沉淀,小紅書構筑起了一套覆蓋底層架構優化、高質量語音合成、情感化語音互動、智能語音問答的完整技術棧,通過語音主導的人性化表達和問搜協同,營造一個兼顧交互趣味性與情感溫度的社區生態。
除了語音,整個 Super Intelligence 團隊是小紅書面向未來內容形態與通用智能的重要技術引擎,其負責人為湯神,目標是構建業界領先的多模態基礎大模型體系,并形成可持續演進的通用智能能力。
團隊包括 Audio Lab、Vision Lab、Foundation Lab 等實驗室,在內容理解、視覺與多模態、圖像生成與編輯、語音理解與生成、Omni Model、特效渲染與影音體驗等方向長期對標行業 SOTA,同時強調模型能力在推薦、搜索、視頻 & 直播、電商、商業化廣告、國際化等復雜真實業務中的可用性與規模化落地。
過去兩年,湯神及其團隊先后主導了圖搜、內容理解、創作工具升級等重大項目,并負責語音 & 多模態 & 圖像生成與編輯等大模型。團隊在學術與產業兩端同步推進,累計發表了 40 余篇頂會與期刊論文,沉淀出 InstantID、StoryMaker、FireRedTTS、FireRedASR 等具有行業影響力的開源技術成果,成功孵化語音評論、文字大字報、長文、滿屏高清等多項站內爆款功能。
結語
小紅書的 AI 語音探索,一方面讓用戶愿意嘗試好玩的語音評論,可以提升社區活躍度;另一方面,語音搜索讓用戶獲取信息像聊天一樣簡單,尤其適用于不習慣或不方便打字的群體或場景。
這樣的實踐也驗證了:在追求技術高度之外,體驗深度同樣重要。就拿最近火熱的 Agent 來說,用戶看重的不單單是能力的強弱,也在意交互自然度、意圖理解程度和服務無感化。
或許,最后拼的是能否以直觀、親和、高效的路徑觸達用戶,讓 AI 接地氣,在更自然的交互中實現價值。
文中視頻、音頻鏈接:https://mp.weixin.qq.com/s/DV-JSNHiciR76m_OyoM5tg
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.