![]()
新智元報道
編輯:定慧
【新智元導(dǎo)讀】Claude Code 正式上線語音模式:輸入 /voice,長按空格說話,松開即完成輸入。語音轉(zhuǎn)錄實(shí)時流入光標(biāo)位置,和鍵盤無縫切換,轉(zhuǎn)錄Token完全免費(fèi)。編程的下一個戰(zhàn)場不是模型智商,而是交互方式。
剛剛,Anthropic給Claude Code加了個語音模式。
![]()
![]()
以后寫代碼,用嘴說就行。

Claude Code是Anthropic出品的命令行AI編程工具。
以前你得打字跟它交流。現(xiàn)在不用了。
輸入/voice命令,開啟語音模式。長按空格鍵說話,松開完成輸入。
跟對講機(jī)一模一樣。

目前灰度測試階段,大約5%的用戶先嘗鮮,接下來幾周逐步放開。
如果你的賬戶有權(quán)限,打開Claude Code時歡迎界面會提示你。
語音模式這玩意兒牛在哪?
不是簡單的語音轉(zhuǎn)文字。
語音轉(zhuǎn)出來的文字,會直接在光標(biāo)位置實(shí)時流式輸出。
類似下面網(wǎng)友分享的這樣。

啥意思呢?你可以先手打一半提示詞,遇到復(fù)雜邏輯懶得打字了,長按空格切到語音,吐槽一通那段難以描述的邏輯,松手,再繼續(xù)打字。
無縫銜接。不覆蓋。不替換。
這才是關(guān)鍵——它不是替代鍵盤,是補(bǔ)充鍵盤。
想象一個場景:你在調(diào)一個詭異的bug,涉及三層回調(diào)嵌套加一個競態(tài)條件。
打字描述這玩意兒,光組織語言就得五分鐘。
但如果張嘴說?人類天生就擅長口頭描述混亂的場景。三十秒搞定。
還有一個大利好:語音轉(zhuǎn)錄的Token完全免費(fèi)。不計(jì)費(fèi)。不扣額度。想說多少說多少。
對面奧特曼什么反應(yīng)?
有意思的是,OpenAI的Codex幾乎在同一時間也加了類似功能。
Codex 0.105.0版本更新日志寫得明明白白——按住空格錄音,松開轉(zhuǎn)錄,文字直接輸入到終端界面。
![]()
用的是Wispr語音引擎,目前支持macOS和Windows,Linux還沒跟上。
而且這功能還需要手動開啟:
在配置文件里設(shè)置features.voice_transcription=true。
兩家?guī)缀跬瑫r出招。
這不是巧合,是共識。
編程工具的下一個戰(zhàn)場,不在模型有多聰明,而在交互有多自然。
社區(qū)怎么看?
開發(fā)者社區(qū)其實(shí)早就在自己搞了。
在官方語音模式之前,GitHub上就有一個叫Voice Mode的社區(qū)項(xiàng)目,通過MCP協(xié)議給Claude Code外掛了語音能力。
![]()
用Whisper做語音識別,用Kokoro做語音合成,甚至能離線跑。
還有各種第三方工具——AquaVoice、Superwhisper、Voicy——都在搶占語音寫代碼這個生態(tài)位。
![]()
有人用Talon Voice實(shí)現(xiàn)了全程免手操作,連終端的Ctrl+C都是用嘴說的。
而現(xiàn)在,官方直接下場了。
第三方工具顫抖了嗎?可能沒有。
因?yàn)楣俜降恼Z音模式更像一個入口級功能——它降低了門檻,讓更多人意識到原來寫代碼可以用嘴。
語音編程的體感到底怎么樣?
根據(jù)早期用戶的反饋,幾個場景特別好用:
Debug的時候
口頭描述bug比打字描述快太多了。
你說話時會自然帶出更多上下文——就是那個,登錄頁面,輸入帶加號的郵箱,它驗(yàn)證就報錯了——這種人類碎碎念的信息密度,打字時你絕對懶得寫。
架構(gòu)討論的時候
我想讓這個API用JWT做認(rèn)證,accesstoken十五分鐘過期,refreshtoken七天,再加一個刷新端點(diǎn)——說出來十秒鐘,打出來一分鐘。
不在電腦前的時候
吃東西、喝咖啡、手受傷了、得了腱鞘炎——這些場景下,語音輸入不是錦上添花,是剛需。
但也有短板。
變量名、URL、代碼片段,還是得靠打字。語音識別對camelCase、下劃線命名和各種縮寫的識別率仍然不夠穩(wěn)。
所以最佳實(shí)踐是:自然語言部分用嘴說,精確代碼部分用手打。
一個更大的信號
讓我們把視角拉遠(yuǎn)一點(diǎn)。
2024年,Cursor讓AI寫代碼成為主流,Tab一下是當(dāng)時的潮流。
2025年,Claude Code和Codex讓AI Agent自主編碼成為可能。
2026年,語音模式的加入,補(bǔ)上了人機(jī)交互的最后一塊拼圖。
編程正在經(jīng)歷一次輸入革命。
鍵盤不會消失,就像鼠標(biāo)沒有消失一樣。
但編程的主要瓶頸,已經(jīng)從寫代碼變成了表達(dá)意圖。
而表達(dá)意圖這件事,人類最原始、最高效的方式,就是說話。
人類說話的速度大約是每分鐘150詞,打字速度大約是40詞。
這中間3-4倍的差距,就是語音編程要吃掉的市場。
暢想一下:
再往前看幾步。
如果語音輸入足夠準(zhǔn)確,如果AI對代碼意圖的理解足夠深,那編程最終的形態(tài)可能是這樣的:
你坐在沙發(fā)上,對著電腦說:把用戶模塊的權(quán)限系統(tǒng)重構(gòu)一下,改成RBAC模型,別忘了寫測試。
AI自動讀代碼、理解架構(gòu)、寫實(shí)現(xiàn)、跑測試、提PR。
你審一眼diff,說一句LGTM,合并。
從寫代碼到說需求,從程序員到編程導(dǎo)演。
這一天比大多數(shù)人想的要近。
Claude Code的這個/voice命令,就是一個起點(diǎn)。
它可能還很粗糙,可能還有各種小毛病。
但方向錯不了——未來的編程,一定是多模態(tài)的。
鍵盤、語音、甚至手勢和眼動,所有人類自然的表達(dá)方式,都會成為編程的輸入通道。
到那時候回頭看今天,就像我們現(xiàn)在看二十年前的打孔卡片一樣。
會覺得很可愛。
寫代碼這件事,終于可以動口不動手了。
雖然動完口之后,你可能還是得動手改bug。
參考資料:
https://x.com/bcherny/status/2028629573722939789
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.