我之前看各種什么OpenAI、Google等等的發布會,還有各種線下的英語演講的時候,一直有一個痛點。
就是,我聽不懂。
大多數的發布會是直播,所以Youtube上也沒有原生字幕可以看,線下演講更是這樣,好一點的會務會給你準備同傳翻譯機或者搞個副屏,放AI字幕。
前幾天我去參加WAIC的論壇就有這個同傳翻譯機。
![]()
但是很多的時候,可能并沒有這么好的條件,就是啥也沒有,需要你自己聽。
雖然我不太應該這么理直氣壯,因為從小沒好好學英語,導致我英語很爛,這確實是我自己不努力造成的= =
但是吧,到現在,因為自己一直在玩AI的原因,最高質量的AI信息和資訊,還是來自于英文世界。
這些AI知識我必須要去學才行。
坦誠的講,雖然華裔面孔占據AI世界主流,但是主流語言還是英文。
這就導致我每次看發布會或者線下演講,都只能軟件開著字幕進行翻譯。
線上看發布會就像這樣。
![]()
線下我現在就是直接開個飛書妙記,去實時轉錄+翻譯。
![]()
其實已經很好用了,對吧,但是字幕類的我自己用的還是不爽,因為這代表著,你感受不到對方的情緒和狀態。
同時,你也沒辦法一心二用。
看發布會,你只能不斷的盯著字幕,干不了任何別的事情。
在會場上聽演講也是,最der的就是。
你低頭看翻譯,你就看不了嘉賓和PPT,你抬頭看嘉賓和PPT,你就聽不懂他在說什么。。。
線上看直播一樣也是這個道理。
這次WAIC現場里聽的英文演講,實在是讓我太痛苦了。
當時在現場,我就在想,有沒有什么方法,能手搓一個不需要我盯著看的AI同傳小產品,來解決我的這些痛點。
回北京以后,說干就干。
大概思路特別簡單,我做一個瀏覽器插件和一個小網頁,然后接一個AI同傳的API,就搞定了。
首先是同傳API。
我基本上把全網都找遍了。
發現做AI同傳大模型的也沒幾個。
訊飛、百度、豆包、騰訊、阿里、Gemini,好像就沒了。。。
最后我選了豆包,因為我自己的一些服務都在火山引擎上,字節家的更順,而且他們豆包同聲傳譯2.0是剛發的,效果也確實是目前最棒的。
![]()
端到端模型,延遲大概2~3秒,基本一句話說完,對應的翻譯就出來了。
整體翻譯質量也是OK的。
還有一個非常屌的能力,是可以在不采集聲音樣本的情況下復刻說話人的音色,而且就算是多個人一起對話, 每一個人都可以保持自己的原色來進行同傳,音色極其自然。
這個是傳統的所有的機器翻譯的模型所不具備的。
因為比如像現在OpenAI、Grok啥的發布會,每次都是好幾個人在現場,我其實是需要知道到底是誰說了啥的。
而借助豆包同 傳 2.0,這個問題被完美解決。
你也可以直接在這個地方體驗一下,可以免費用5分鐘,每天可以20次,也就是每天免費100分鐘的額度。
https://console.volcengine.com/ark/region:ark+cn-beijing/experience/voice?type=SI
![]()
而API這塊,價格也還OK。
實測下來,1分鐘大概消耗了1800左右的Token。
按照官方價格換算,大概就是一分鐘3毛錢,很便宜了。
模型有了,接下來,就是搓一個小瀏覽器插件和網頁,然后把模型的API接進去。
這個過程,我本來以為非常輕松,畢竟一個瀏覽器插件和網頁,這玩意vibe coding搞過N個了,沒啥難的的,幾個按鈕,一個設置,能有一個填模型Key的地方,不就完事了嗎。
在瀏覽器里直接抓取正在播放的視頻音頻,然后調用豆包同傳2.0的API,實時翻譯成中文,再播放出來。
聽起來完美,對不對?
但是,噩夢開始了。。。
我真的感覺到了,當時什么叫無知者無畏。
我一開始就卡在了第一步,怎么在瀏覽器插件里調用豆包同傳2.0模型的API?
要知道,這是同傳模型,不是普通的那種對話的大模型。
這個API用的是WebSocket協議,還需要在請求頭里加認證信息。。。
就是,你平時刷網頁,大多是“問一句答一句”,就像發個短信一樣,你發了個請求,“給我一個網頁”,服務器回了你,“好的,這是你要的頁面”。
之后呢?之后就各忙各的了。
如果你想要更新信息,那就得再發一次請求,再等一次回復。這就是普通的HTTP協議,簡單但效率一般。
但有時候,我們不想每次都問一下才有回應,我們想要的是實時互動,比如你跟朋友打電話,不需要每次想說話的時候再撥一次號碼。
WebSocket協議就是為這個場景而生的。它更像一通電話,一旦你接通了,雙方可以一直不停地實時說話,不用再掛掉重撥。
豆包這個API用的就是WebSocket協議,因為同聲傳譯這個場景,恰好需要你不斷地把音頻數據發送過去,服務器一邊接收一邊實時返回翻譯后的文字或音頻,你一邊說,它一邊翻譯,非常順暢。
而最大的問題,在于你的插件在瀏覽器環境里調用WebSocket時,要往請求頭里塞認證信息(比如API Key、Token什么的),但瀏覽器為了安全考慮,不允許插件隨便修改WebSocket的請求頭。
真的是磕了半天以后,才明白這個坑
瀏覽器插件的環境里,想要往WebSocket的請求頭里加認證信息,簡直是地獄級別的難度。
更要命的是,我去看了下官方的接口文檔,有Python、Java和Go的示例代碼,沒有JavaScript的版本。
我這種半吊子選手,就更是兩眼一抹黑。。。
![]()
折騰了兩天,各種StackOverflow、GitHub翻了個遍,發現這條路基本上是死路,實現起來非常麻煩。
行吧,只能換思路。。。
既然瀏覽器環境搞不定API,那搞個曲線救國的方案,瀏覽器插件負責抓音頻,然后把音頻數據發給一個本地的Python程序,讓這個程序去調用豆包API。
聽起來非常合理。
我這就下載了豆包官方的Python示例代碼,填了密鑰信息,在電腦上跑了一遍,確實能運行。但是看了代碼才發現,這玩意確實只是個示例,只能把一個本地的音頻文件翻譯成另一個語言,然后保存成文件。
不是我想要的實時處理。
更讓我頭疼的是,怎么從瀏覽器里把正在播放的Tab的音頻流,穩定地傳輸給本地Python程序?
這個技術難度,比我想象的要高太多了。延遲、音質損失、斷連...各種問題一堆堆的。
就在我快要放棄的時候,突然靈光一閃。
我為什么要這么復雜呢?
我直接搞個本地Python程序,然后用"音頻重定向"的方法,不就行了嗎?
這是一個我之前搞游戲直播的時候學到的方法。。。
音頻重定向,說人話,就是給你的電腦戴上一個虛擬的耳機。
平時你電腦上的聲音(比如看直播時的演講聲音、視頻里的聲音)都會通過系統默認的揚聲器或耳機直接放出來,你的耳朵聽到了,但你的程序卻抓不到。
現在呢,我們給電腦裝一個虛擬設備,就相當于再給它接一根虛擬的耳機線。
這根虛擬的耳機線它表面上看是個耳機,但實際上的作用是把你電腦里播放的所有聲音拷貝一份出來,送給另一個程序去處理。
于是,我在電腦上裝了一個叫VB-CABLE的虛擬音頻設備。
![]()
然后,當我在瀏覽器里看視頻的時候,我把瀏覽器的音頻輸出切換到這個虛擬揚聲器。
![]()
這樣,視頻的聲音就會進入這個虛擬設備,而我的真正的揚聲器是聽不到任何聲音的。
接下來,我用AI修改了一下剛剛下載的程序,實現把這個虛擬揚聲器當成麥克風來監聽。
![]()
這樣,Python程序就能精確地捕獲到瀏覽器播放的英文音頻了。
然后程序調用豆包的同傳模型2.0,把英文音頻實時翻譯成中文,再通過我的真正揚聲器播放出來。
整個流程就是:瀏覽器視頻 → 虛擬揚聲器 → Python程序 → 豆包API → 真揚聲器
流程清晰,邏輯簡單,沒有復雜的數據傳輸,也沒有瀏覽器環境的限制。
最關鍵的是,效果特別棒。
我聽不到任何英文原聲的干擾,只能聽到清晰的中文翻譯。就像真的有個同傳在我耳邊翻譯一樣。
為了方便使用,我還搞了個簡單的Web界面,可以啟停翻譯功能,還能實時看到API返回的原文和譯文。
![]()
![]()
第一次成功測試的時候,我激動得差點跳起來。
我打開了一個英文的AI發布會錄播,然后啟動我的程序。當那個陌生的英語聲音消失,取而代之的是流暢的中文翻譯時,我真的有種終于把這個破事給搞定了的成就感。
當你排除千難萬險,解決一個難題,把一個程序跑通的時候,那種爽感,就像你在打只狼,推一個卡了好幾天的BOSS,血條只剩一絲的時候手都在抖,打出最后那一下平A,BOSS倒地但你還站著的那一瞬間,大腦一片空白,隨即巨大的多巴胺如潮水般涌來。
這種爽感,帶著一點劫后余生的慶幸,一點自我突破的自豪,還有一點征服世界的豪邁,讓你忍不住想站起來仰天長嘯。
終于搞定了!
雖然只是一個同傳的小東西而已。
我終于可以一邊刷著播客,一邊聽著優雅的中文翻譯,不用再低頭看字幕了。
那種感覺,就像是給自己找了一個隨叫隨到的高級翻譯。
而且不止是一個人的音色,如果是5個人,那真的就可以0樣本復刻5個人的音色來給你翻譯,每一個人,都有自己的聲線,你只需要聽,就可以區分出所有的信息。
折騰了這么久,總算是把自己的這個痛點給解決了。
一個小白,能借助AI,徒手做出自己想要的東西,這感覺,還是很酷。
至于線下的場景,反而簡單很多了,因為就調用一下麥克風做傳輸就行。
我本來想自己開發一個H5網頁的,一想,豆包已經做了一個體驗版本的,有沒有手機版的?
就搜了一下。。。
發現,還真有。。。
![]()
點進去以后,免費體驗。
而且10分鐘上限。
![]()
線下完全就可以直接用了。
最后,我想表達一下我對于同傳這個行業,還有對譯員的觀點。
我是一個純粹的外行,我做這個小東西,完全不是為了要去挑戰或者取代那些真正專業的口譯同傳們。
會議現場,真正的譯員們在大會現場,在同傳和長交傳領域反復磨煉,才有那種舉重若輕、爐火純青的能力,這種水準,目前任何AI都難以企及。
但技術的意義從來不止于取代。
更重要的是,它讓那些像我一樣普通而平凡的人,因為AI的發展,讓我可以用低廉的價格,打破語言障礙,這是一個非常棒的事。
不再局限于語言的高墻,讓每個人都能在更平等、更自由的條件下,找到自己想要的答案。
AI本就是為我們每一個人服務的。
它也本身就是個性的。
任何我們覺得不滿意不爽的事情。
你都可以嘗試著,用AI再做一遍。
然后,你就會發現。
一個更廣闊的世界。
以上,既然看到這里了,如果覺得不錯,隨手點個贊、在看、轉發三連吧,如果想第一時間收到推送,也可以給我個星標?~謝謝你看我的文章,我們,下次再見。
>/ 作者:卡茲克、dongyi
>/ 投稿或爆料,請聯系郵箱:wzglyay@virxact.com
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.