![]()
AI應用風向標(公眾號:ZhidxcomAI)
作者|江宇
編輯|漠影
智東西12月10日報道,今日,智譜正式發布并開源GLM-ASR系列語音識別模型,并同步上線了基于該模型打造的桌面端智譜AI輸入法“小凹”。
相比傳統語音輸入只能“把話變成字”,小凹在輸入框中即可完成翻譯、改寫、計算、規劃等指令操作。
我們在實際體驗中發現,小凹不僅能在實現相對穩定的語音轉寫,還能順著用戶的口語進行內容整理、風格轉換或直接完成小任務。
例如隨口報賬、算工資、安排旅行、甚至解一道數學證明題,它都能跟上。而對于碎碎念、自我修正和中英混說等復雜口語,小凹也能給出相應結果,但整體穩定性仍有提升空間。
與此同時,智譜此次還開源了1.5B參數量的端側模型GLM-ASR-Nano-2512,重點面向本地低延遲與隱私場景,在部分公開測試集上達到開源SOTA表現。
GLM-ASR-2512使用指南:https://docs.bigmodel.cn/cn/guide/models/sound-and-video/glm-asr-2512
體驗中心:https://bigmodel.cn/trialcenter/modeltrial/voice
接口文檔:https://docs.bigmodel.cn/api-reference/模型-api/語音轉文本
GLM-ASR-Nano-2512開源地址:
Hugging Face:https://huggingface.co/zai-org/GLM-ASR-Nano-2512
魔搭社區:https://www.modelscope.cn/models/ZhipuAI/GLM-ASR-Nano-2512
一、從云側到端側,語音識別被直接塞進輸入法
這次同步發布的GLM-ASR-2512是一款云端語音識別模型,支持實時語音轉文字,在多語種、多口音與復雜環境下進行過穩定性測試,其字符錯誤率(CER)僅為0.0717。
同時開源的GLM-ASR-Nano-2512則是一款約1.5B參數規模的端側模型,主打本地運行,在延遲和隱私層面更友好。它在開源語音識別方向已達到SOTA水平,在部分測試中甚至超過了若干閉源模型。
![]()
▲GLM-ASR-Nano與多款主流語音識別模型在多個公開數據集上的識別錯誤率對比
圍繞這套模型能力,智譜將語音識別直接嵌入桌面端輸入法中,使語音可以直接驅動翻譯、改寫、擴寫、情緒表達轉換與計算等一系列后續操作,用戶在輸入框中即可完成從語音到結果的完整流程,不需要再切換窗口,也不需要復制粘貼,光標在哪,說完就能直接替換。
二、語音不只轉文字,還能順著你的話去改、去算、去規劃
在實際體驗中,首次使用需要跳轉瀏覽器完成手機號登錄,并進行麥克風和“允許粘貼文字”基礎權限授權。
![]()
▲使用瀏覽器登錄以使用小凹語言服務
![]()
▲麥克風和“允許粘貼文字”基礎權限授權
完成授權后,輸入法會自動跳轉到一個體驗界面,主要用于語音調試和熟悉核心功能。隨后,進入輸入法主頁,整體界面分成“首頁”“詞典”和“人設”三個主要區域。
首頁更像是一個“使用儀表盤”,會把近期的語音輸入時長、生成文字數量以及按打字速度粗略計算的節省時間都展示出來,底部還會自動記錄用戶一天內的輸入內容,方便回看。
![]()
▲智譜AI輸入法主頁
“詞典”是一個用于維護專有名詞和口頭表達的小工具欄。它會自動學習用戶經常說的詞,但也允許用戶手動添加項目名、人名、行業術語等,避免轉寫時出現錯誤。
![]()
▲詞典頁面
再往下是“人設”頁面,可以說是輸入法里AI化最明顯的部分。這里不僅能看到多個預置的人設,如“默認風格”“自動翻譯”“命令行大神”“面對老板”“面對伴侶”“面對同事”等,每一個都帶著對應的表達語氣。同時也支持用戶自己新建人設,調整語氣、表達方式或行為偏好。點開任意人設,右側會顯示可編輯的描述區域。
![]()
▲人設頁面
進入正式體驗后,我先從最基礎、也是最貼近日常使用的場景開始試起。
看到案例里它能把說錯的日期和時間自動整理成最終確認的結果,我也順手用了一種接近真實口頭表達的方式來測試。

我像平時說話一樣隨口講:“呃呃我打算九點召開一個會議,嗯……算了,還是十一點吧。”
在多輪嘗試后,最終才得到的預期結果“我打算在十一點召開一個會議”。可見,它對口語中自我修正和停頓詞的自動處理,目前還談不上完全穩定。
![]()
在更為復雜的一輪測試中,我直接口語輸入了一整段中英文混雜的工作溝通內容:“這次Q3的marketing campaign involves our research team,leverage on他們新出的報告吧,然后費用的話charge Joanna部門,問一下他明天有沒有時間一起過一下budget,上周五你present的deck等會可以發我一下嗎?也cc一下Jennifer吧。”
![]()
在這一輪中英混說的測試中,系統雖然能基本還原語句結構,但英文部分的識別準確性一般,連續表達時容易出現偏差。
隨后我測試了人設表達功能,分別選擇了“面對老板”和“面對伴侶”,輸入同一條“抱歉,我臨時有事,下午去不了了”,兩種人設在語氣上整體差異并不大。
![]()
▲ “面對老板”這一人設的輸出結果
![]()
▲ “面對伴侶”這一人設的輸出結果
如果希望達到展示案例中的明顯風格切換效果,或仍需要在自定義人設中補充更明確的提示語。
![]()
▲人設功能的官方案例展示
而面對開發者,“命令行大神”這一人設則具備一定的實用性,我語音輸入“顯示當前所有python進程的進程號”后,系統功能直接給出標準命令結果。
![]()
▲ “命令行大神”這一人設的輸出結果
隨后我又連續語音提問“小凹,智譜AI輸入法的優勢在哪里”和“為什么語音輸入比鍵盤輸入更友好”,感覺更像是在輸入法里直接“召喚”了一個AI助手,答案不是彈窗形式出現,而是直接生成在光標位置,這兩次提問都能正常給出解釋性回復。
![]()
▲解釋性回答
此外,在選中文本后,說出“翻譯成英文”、“翻譯成日文”和“翻譯成四川話”,結果均可即時替換,光標所選即所改的模式在編輯過程中比較高效。
![]()
在更偏向生活類的小任務里,我先試了一個隨口報賬的場景:“嘿小凹,幫我記一下今天的賬單,我早上吃飯花了六塊五,中午快餐二十五,晚上看電影三十九,晚飯一百。”輸入法能把這些數字正確記錄下來,自動匯總結算。
![]()
▲記賬
隨后,我又試了試計算工資的場景:“嘿小凹,計算一下年薪有多少?月工資三十k,簽字費五萬,十萬期權分兩年發放。”系統能把這些條件拆開并算出一個明確的結果,用語音完成這種小型算式比預想中順滑。
![]()
▲算工資
再往后我測試了一個規劃任務,比如“嘿小凹,我想去上海玩兩天,從北京出發,幫我制定一個旅行計劃。”它也能給出一個結構化的行程建議。
![]()
▲行程規劃
此外,我還拋了一道數學證明題進去,系統不僅給了過程,還在聽到有歧義的部分時主動提示:“題目中的‘1+x分之x’我理解為‘1+x/x’。”這種在語音表達容易含糊時給出的額外說明,對純語音輸入來說還是挺關鍵的。
![]()
此外,在完成全部功能測試后,我又把“小凹”放進了真正的寫作流程中。這篇稿子里,約有90%的內容,是通過語音直接生成在輸入框里的,很多段落幾乎是“邊想邊說”就成型了。我也第一次明顯感覺到,輸入方式正在反過來影響寫作思路。
結語:輸入法很可能會成為AI下一個高頻入口
從這次整體體驗來看,小凹的變化在于它開始接管一部分原本需要人手完成的小任務:一句話可以記賬、算清一筆收入、改一句表達、順手做一個行程規劃。
輸入法這個原本最基礎、最熟悉的工具,正在被重新定義成一個“隨叫隨用”的AI入口。
更重要的是,這種變化發生在桌面端,AI能力能夠被直接嵌進日常最頻繁使用的輸入場景里,慢慢變成工作流的一部分。
當然,從碎碎念整理、中英混說到人設表達的穩定性來看,小凹仍然處在不斷打磨的過程中,但方向已經很清楚,AI已經開始更具體地參與到用戶每天的工作中。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.