網易首頁 > 網易號 > 正文申請入駐

AI輸入法已經進化到用“嘴”寫稿了，我用小凹“說”完了一整篇

2025-12-10 18:14:24　來源: 智東西

北京舉報

分享至

AI應用風向標（公眾號：ZhidxcomAI）
作者｜江宇
編輯｜漠影

智東西12月10日報道，今日，智譜正式發布并開源GLM-ASR系列語音識別模型，并同步上線了基于該模型打造的桌面端智譜AI輸入法“小凹”。

相比傳統語音輸入只能“把話變成字”，小凹在輸入框中即可完成翻譯、改寫、計算、規劃等指令操作。

我們在實際體驗中發現，小凹不僅能在實現相對穩定的語音轉寫，還能順著用戶的口語進行內容整理、風格轉換或直接完成小任務。

例如隨口報賬、算工資、安排旅行、甚至解一道數學證明題，它都能跟上。而對于碎碎念、自我修正和中英混說等復雜口語，小凹也能給出相應結果，但整體穩定性仍有提升空間。

與此同時，智譜此次還開源了1.5B參數量的端側模型GLM-ASR-Nano-2512，重點面向本地低延遲與隱私場景，在部分公開測試集上達到開源SOTA表現。

GLM-ASR-2512使用指南：https://docs.bigmodel.cn/cn/guide/models/sound-and-video/glm-asr-2512

體驗中心：https://bigmodel.cn/trialcenter/modeltrial/voice

接口文檔：https://docs.bigmodel.cn/api-reference/模型-api/語音轉文本

GLM-ASR-Nano-2512開源地址：

Hugging Face：https://huggingface.co/zai-org/GLM-ASR-Nano-2512

魔搭社區：https://www.modelscope.cn/models/ZhipuAI/GLM-ASR-Nano-2512

一、從云側到端側，語音識別被直接塞進輸入法

這次同步發布的GLM-ASR-2512是一款云端語音識別模型，支持實時語音轉文字，在多語種、多口音與復雜環境下進行過穩定性測試，其字符錯誤率（CER）僅為0.0717。

同時開源的GLM-ASR-Nano-2512則是一款約1.5B參數規模的端側模型，主打本地運行，在延遲和隱私層面更友好。它在開源語音識別方向已達到SOTA水平，在部分測試中甚至超過了若干閉源模型。

▲GLM-ASR-Nano與多款主流語音識別模型在多個公開數據集上的識別錯誤率對比

圍繞這套模型能力，智譜將語音識別直接嵌入桌面端輸入法中，使語音可以直接驅動翻譯、改寫、擴寫、情緒表達轉換與計算等一系列后續操作，用戶在輸入框中即可完成從語音到結果的完整流程，不需要再切換窗口，也不需要復制粘貼，光標在哪，說完就能直接替換。

二、語音不只轉文字，還能順著你的話去改、去算、去規劃

在實際體驗中，首次使用需要跳轉瀏覽器完成手機號登錄，并進行麥克風和“允許粘貼文字”基礎權限授權。

▲使用瀏覽器登錄以使用小凹語言服務

▲麥克風和“允許粘貼文字”基礎權限授權

完成授權后，輸入法會自動跳轉到一個體驗界面，主要用于語音調試和熟悉核心功能。隨后，進入輸入法主頁，整體界面分成“首頁”“詞典”和“人設”三個主要區域。

首頁更像是一個“使用儀表盤”，會把近期的語音輸入時長、生成文字數量以及按打字速度粗略計算的節省時間都展示出來，底部還會自動記錄用戶一天內的輸入內容，方便回看。

▲智譜AI輸入法主頁

“詞典”是一個用于維護專有名詞和口頭表達的小工具欄。它會自動學習用戶經常說的詞，但也允許用戶手動添加項目名、人名、行業術語等，避免轉寫時出現錯誤。

▲詞典頁面

再往下是“人設”頁面，可以說是輸入法里AI化最明顯的部分。這里不僅能看到多個預置的人設，如“默認風格”“自動翻譯”“命令行大神”“面對老板”“面對伴侶”“面對同事”等，每一個都帶著對應的表達語氣。同時也支持用戶自己新建人設，調整語氣、表達方式或行為偏好。點開任意人設，右側會顯示可編輯的描述區域。

▲人設頁面

進入正式體驗后，我先從最基礎、也是最貼近日常使用的場景開始試起。

看到案例里它能把說錯的日期和時間自動整理成最終確認的結果，我也順手用了一種接近真實口頭表達的方式來測試。

我像平時說話一樣隨口講：“呃呃我打算九點召開一個會議，嗯……算了，還是十一點吧。”

在多輪嘗試后，最終才得到的預期結果“我打算在十一點召開一個會議”。可見，它對口語中自我修正和停頓詞的自動處理，目前還談不上完全穩定。

在更為復雜的一輪測試中，我直接口語輸入了一整段中英文混雜的工作溝通內容：“這次Q3的marketing campaign involves our research team，leverage on他們新出的報告吧，然后費用的話charge Joanna部門，問一下他明天有沒有時間一起過一下budget，上周五你present的deck等會可以發我一下嗎？也cc一下Jennifer吧。”

在這一輪中英混說的測試中，系統雖然能基本還原語句結構，但英文部分的識別準確性一般，連續表達時容易出現偏差。

隨后我測試了人設表達功能，分別選擇了“面對老板”和“面對伴侶”，輸入同一條“抱歉，我臨時有事，下午去不了了”，兩種人設在語氣上整體差異并不大。

▲ “面對老板”這一人設的輸出結果

▲ “面對伴侶”這一人設的輸出結果

如果希望達到展示案例中的明顯風格切換效果，或仍需要在自定義人設中補充更明確的提示語。

▲人設功能的官方案例展示

而面對開發者，“命令行大神”這一人設則具備一定的實用性，我語音輸入“顯示當前所有python進程的進程號”后，系統功能直接給出標準命令結果。

▲ “命令行大神”這一人設的輸出結果

隨后我又連續語音提問“小凹，智譜AI輸入法的優勢在哪里”和“為什么語音輸入比鍵盤輸入更友好”，感覺更像是在輸入法里直接“召喚”了一個AI助手，答案不是彈窗形式出現，而是直接生成在光標位置，這兩次提問都能正常給出解釋性回復。

▲解釋性回答

此外，在選中文本后，說出“翻譯成英文”、“翻譯成日文”和“翻譯成四川話”，結果均可即時替換，光標所選即所改的模式在編輯過程中比較高效。

在更偏向生活類的小任務里，我先試了一個隨口報賬的場景：“嘿小凹，幫我記一下今天的賬單，我早上吃飯花了六塊五，中午快餐二十五，晚上看電影三十九，晚飯一百。”輸入法能把這些數字正確記錄下來，自動匯總結算。

▲記賬

隨后，我又試了試計算工資的場景：“嘿小凹，計算一下年薪有多少？月工資三十k，簽字費五萬，十萬期權分兩年發放。”系統能把這些條件拆開并算出一個明確的結果，用語音完成這種小型算式比預想中順滑。

▲算工資

再往后我測試了一個規劃任務，比如“嘿小凹，我想去上海玩兩天，從北京出發，幫我制定一個旅行計劃。”它也能給出一個結構化的行程建議。

▲行程規劃

此外，我還拋了一道數學證明題進去，系統不僅給了過程，還在聽到有歧義的部分時主動提示：“題目中的‘1+x分之x’我理解為‘1+x/x’。”這種在語音表達容易含糊時給出的額外說明，對純語音輸入來說還是挺關鍵的。

此外，在完成全部功能測試后，我又把“小凹”放進了真正的寫作流程中。這篇稿子里，約有90%的內容，是通過語音直接生成在輸入框里的，很多段落幾乎是“邊想邊說”就成型了。我也第一次明顯感覺到，輸入方式正在反過來影響寫作思路。

結語：輸入法很可能會成為AI下一個高頻入口

從這次整體體驗來看，小凹的變化在于它開始接管一部分原本需要人手完成的小任務：一句話可以記賬、算清一筆收入、改一句表達、順手做一個行程規劃。

輸入法這個原本最基礎、最熟悉的工具，正在被重新定義成一個“隨叫隨用”的AI入口。

更重要的是，這種變化發生在桌面端，AI能力能夠被直接嵌進日常最頻繁使用的輸入場景里，慢慢變成工作流的一部分。

當然，從碎碎念整理、中英混說到人設表達的穩定性來看，小凹仍然處在不斷打磨的過程中，但方向已經很清楚，AI已經開始更具體地參與到用戶每天的工作中。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.