從端到端語音到超級智能體,FlashLabs以前沿研究回應Agent時代的一次反共識下注。
Open Claw的爆火,讓AI Agent第一次被推向了真實的工程環境。
這一次,Agent不再只是Demo、插件或對話式工具,而是開始嘗試進入企業內部,承擔持續、復雜、可被驗證的工作任務。但幾乎與此同時,一個現實問題也被清晰地暴露出來:當Agent走向長期運行的真實工作流,它所面臨的挑戰,遠不止是提示詞或工具調用,而是部署成本、交互效率,以及底層模型是否適合“常駐運行”。
這也迫使行業直面一個更底層、卻遲早必須回答的問題——
如果Agent的目標是成為可靠的數字員工,它是否還應該繼續建立在上一代模型與交互假設之上?
在這一階段,行業事實上已經形成了一種隱含共識:Agent的問題,應當通過更快的產品迭代來解決。
更復雜的Prompt、更精細的流程編排和更豐富的工具調用,成為多數團隊默認的前進方向。
但在FlashLabs看來,這種路徑回避了一個更根本的問題:如果底層模型本身并不適合長期運行與實時協作,那么再精巧的產品設計,也只是在放大系統的結構性上限。
多數團隊選擇在既有模型能力之上加速產品化,盡快跑通應用與商業閉環;而也有少數人選擇了一條更慢、風險更高的路徑——回到前沿research和模型層本身,重新審視Agent的基礎假設。
FlashLabs,正是后者。
01
把Agent當成“數字員工”,而不是工具
在FlashLabs看來,AI Agent不應只是被動執行指令的工具,而應更接近一個被賦予目標、能夠自主拆解并持續推進工作的“數字員工”。
這一判斷并非源于短期的技術趨勢判斷,而是來自創始人石一對真實組織運作方式的長期觀察。在其近期的采訪中,他反復強調一個觀點:當下中小企業面臨的核心挑戰,已經不再是單點降本,而是在組織規模受限的前提下,如何持續放大關鍵崗位的產出能力。
在這樣的現實背景下,如果AI只是完成被人類拆解好的任務步驟,它的能力上限是清晰可見的;而如果Agent能夠理解OKR與KPI,并圍繞目標主動拆解、執行與迭代,它才有可能真正成為組織能力的一部分。
“現在市面上很多Agent,本質上仍然是被動式的。”石一在交流中指出,“它們完成的是用戶已經想清楚、拆解好的任務。但如果把Agent當成員工,它就不應該只響應指令,而是應該圍繞目標,主動推進事情發生。”
在他看來,對Agent能力的過度保守,本質上是一種對技術潛力的低估。如果技術已經具備逼近“數字員工”的可能性,那么延遲這種能力的實現,并不會讓組織更安全,只會讓效率損失長期固化。
![]()
02
SuperAgent:為長期運行而設計的Agent
這一判斷,直接塑造了FlashLabs核心產品SuperAgent的設計方向。
從功能定位上看,SuperAgent是一款以持續完成復雜任務為目標的企業級AI Agent,面向銷售、市場與運營等真實崗位場景。但與多數Agent不同的是,SuperAgent從一開始就被假設為一個可以長期運行的系統,而不是一次性任務執行器。
在機制層面,SuperAgent不再將用戶輸入視為單次指令,而是首先進行意圖理解,將其判斷為一個可能包含多個階段的復合目標。隨后,系統會自動進入任務規劃流程,對整體目標進行多步驟拆解,并在執行過程中持續維護上下文狀態,從而避免早期Agent產品中常見的“任務半途而廢”。
主動性是SuperAgent的另一核心特征。當目標存在歧義或關鍵條件不明確時,它會像真實同事一樣向用戶發起確認,而不是基于假設繼續推進;在任務完成后,它也會主動提出下一步建議,而不是簡單結束對話。
整個任務拆解、規劃、搜索與執行的過程,都會對用戶保持可見。這種設計,讓SuperAgent從“指令執行器”升級為更接近組織協作者的角色。
在部署方式上,SuperAgent選擇了云端化、開箱即用的路徑。這在一定程度上也是對行業現實的直接回應:當Agent的使用與部署成本過高,其價值往往難以在真實業務場景中持續驗證。
在實際使用中,SuperAgent已在多個崗位場景中完成能力驗證:
在銷售與增長場景中,它可承擔線索發現、數據補全、管道分析與自主跟進;在內容與展示場景中,覆蓋從研究、結構規劃到PPT生成的完整流程;在GTM與運營層面,則支持數據清洗、客戶畫像構建、市場劃分與趨勢分析等。
03
如果Agent要上崗,語音不能停留在上一代架構
在FlashLabs對SuperAgent的整體設計中,語音被視為一種不可回避的交互形態。
石一認為,如果Agent真正要嵌入真實工作流,就不能只停留在文本層面,尤其是在客服、銷售、支持等以實時溝通為核心的崗位中,語音本身就是天然的工作接口。
但在語音方向上,行業主流仍然選擇“快路徑”:通過ASR語音識別、LLM文本大模型與TTS語音合成的級聯式架構,優先推動產品落地。這種方案在工程成熟度與上線效率上具有明顯優勢,也是當前大多數語音AI產品的實現方式。
FlashLabs卻做出了一個反共識的選擇:
他們沒有圍繞現有模型進行封裝,而是回到模型層本身,嘗試重新定義語音交互的基礎架構。
在團隊看來,級聯式架構的問題并非“尚未優化到位”,而是其設計假設本身并不適合實時、長期的人機協作場景。當語音在系統入口被強制還原為文本時,情感、語氣、停頓等副語言信息不可避免地被丟失;而多模型串聯運行,也帶來了難以壓縮的累積延遲。
04
Chroma:為Agent時代設計的端到端語音模型
基于這一判斷,FlashLabs團隊花費約一年時間,自研打造了端到端語音模型Chroma。
Chroma能夠在同一模型體系內完成語音理解、語義推理與語音生成,避免了傳統級聯式方案中因中間文本轉換導致的信息損失與多段延遲。其采用的交錯調度策略,使模型能夠在實時流式對話中同時處理語音與文本標記,實現亞秒級的端到端響應。
在實際測試中,這種設計帶來了幾個顯著優勢:
首先,模型能夠直接感知并表達語音中的副語言信息,如情緒、語調與停頓;其次,只需幾秒鐘參考音頻即可實現高保真的個性化語音克隆,并在多輪對話中保持一致;更重要的是,在真實對話場景中,Chroma的端到端延遲顯著低于傳統級聯系統,使語音交互更接近自然交流節奏。
從這個角度看,Chroma并非“更快的語音模型”,而是為Agent長期運行與實時協作而設計的新一代語音基礎設施。
![]()
05
開源,是Frontier Research的工作方式
對FlashLabs來說,做到這一層,并不意味著研究階段的結束,反而意味著一個更明確的判斷:
如果Agent被視為一項前沿研究問題,而不是封閉產品,那么它的核心能力就不應只存在于公司內部。
在團隊內部,Chroma從一開始就被當作一種“可被檢驗的研究假設”,而不是某個產品模塊。模型是否成立,不取決于單一業務場景的表現,而取決于它在更復雜、更開放環境中的適應能力。
在發布Chroma時,FlashLabs與Huggingface以及Github平臺同步開放了模型權重與推理代碼。
在石一看來,當研究對象本身尚未定型時,封閉往往會過早固化假設。
而對于Agent與端到端語音模型這樣的前沿方向而言,真正需要被驗證的并非某一項指標,而是整個架構是否具備可擴展性與長期成立的可能。
“如果你相信這是一個frontier research問題,那么它就不應該只在一個團隊、一個數據分布下被驗證。”石一表示,“開源不是為了證明我們已經做對了什么,而是為了更快發現我們還沒想清楚的部分。”
模型開源后,Chroma在社區的下載量迅速超過一萬次。相比性能跑分,開發者討論的焦點更多集中在端到端語音路徑本身:
- 這種架構是否更適合實時交互?
- 是否具備長期運行的穩定性?
- 是否能成為Agent的通用語音基礎設施?
在FlashLabs看來,這些來自真實使用環境的反饋,本身就是frontier research的一部分。
也正因如此,FlashLabs并未將Chroma的開源視為一次性發布行為。
在團隊規劃中,開源本身是一項長期工程,而不是階段性事件。
隨著Chroma向2.0版本迭代,FlashLabs計劃持續開放模型能力、訓練思路與部分數據構建方法,并準備向開源社區發起語音數據集共建計劃,以更系統的方式推進端到端語音模型的研究進程。
![]()
06
一次押注長期上限的選擇
從SuperAgent到Chroma,可以看到FlashLabs在公司戰略與產品層面的共同取向:
相比短期變現,更優先押注決定長期上限的基礎能力。
石一將自己定位為“原生有效加速主義者”——相信技術進步本身具備長期價值,應該在前沿能力上持續推進,而不是過早被既有商業或其他形態所約束。
在Agent仍未形成統一范式的階段,技術路線、產品形態與商業模式仍在快速分化。有人選擇圍繞現有能力加速落地,也有人選擇承擔更高不確定性,去驗證下一代基礎假設是否成立。
FlashLabs的選擇,是在Agent尚未定型之前,盡量把決定未來上限的能力先做出來。
這意味著更慢的回報周期,也意味著在范式真正成形時,擁有更大的主動權。
在一場可能持續十年以上的技術演進中,站在定義能力邊界的一側,或許比順應當下趨勢更重要。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.