![]()
你有沒有想過,監控生產環境這件事可能徹底變了?工程師們每天被淹沒在成千上萬的告警和數據流中,疲于應對各種突發事件。傳統的可觀測性工具正在變成昂貴的噪音生成器,而不是真正能幫助解決問題的合作伙伴。但如果告訴你,有一個平臺不僅能監控你的系統,還能主動發現問題、診斷根因、甚至自動修復,你會怎么想?
這不是科幻場景,而是剛剛獲得1.1億美元B輪融資、估值達到10億美元的 Dash0 正在實現的現實。這家由 Balderton Capital 領投的初創公司,正在用 AI agent 徹底改變軟件運維的方式。當硅谷資本圈還在討論 AI 將如何顛覆各個行業時,Dash0 已經用實際行動證明:在生產環境運維這個領域,AI agent 不是未來,而是當下。
![]()
我深入研究了 Dash0 的融資公告、創始人訪談和產品架構后,發現這家公司的故事遠比表面上看起來更有意思。它不僅僅是又一個拿到大額融資的初創公司,而是代表了整個可觀測性行業正在經歷的根本性轉變。從被動監控到主動管理,從人工診斷到自主修復,從專有標準到開放協議,這些轉變正在重新定義我們如何構建和運維現代軟件系統。
PS:我的出海新書已經上架了,我特意申請了公眾號讀者專屬的優惠鏈接,可以享受半價折扣,歡迎感興趣的朋友購買。
同時我還特地建立了實名制的讀者群,我會在群里定期解答一些問題和開展線上線下活動,歡迎購書的朋友實名制入群,大家一塊交流,共同出海!
傳統可觀測性工具為什么失效了
我在軟件行業工作多年,親眼見證了可觀測性工具的演進。早期的監控工具很簡單,就是設置一些閾值告警,CPU 使用率超過 80% 就發個郵件通知。但隨著架構變得越來越復雜,從單體應用到微服務,從虛擬機到容器,從傳統數據中心到云原生環境,監控系統產生的數據量呈指數級增長。
Dash0 的 CEO Mirko Novakovic 在接受采訪時說了一句話,我覺得特別精準:"我們的工作是在干草堆里找針。如果干草堆變得更大,并不會讓找針變得更容易。如果你還要為這些干草付錢,那就更不合理了。"這句話道出了當前可觀測性工具面臨的核心困境:數據越來越多,但洞察力卻沒有同步提升,反而成本不斷攀升。
我觀察到的另一個問題是,傳統可觀測性廠商的商業模式本身就有問題。它們按數據量收費,你發送的日志、指標和追蹤數據越多,賬單就越高。這就造成了一個悖論:為了控制成本,工程團隊不得不限制數據采集,但這又意味著可能錯過關鍵信息。我聽說過不少公司因為可觀測性工具的成本失控,每年要支付數百萬美元的賬單,但實際上大部分數據從未被真正利用過。
![]()
更嚴重的是告警疲勞問題。現代應用可能運行著成百上千個微服務,每個服務都在產生告警。當系統出現問題時,工程師可能同時收到幾十甚至上百個告警通知。哪個是根本原因?哪些只是連鎖反應?人類根本無法在短時間內處理如此海量的信息。結果就是工程師要么忽略大部分告警,要么疲于奔命卻抓不住重點。
我認為,這些問題的根源在于:傳統可觀測性工具是為儀表盤和人工響應設計的,它們假設有人會盯著屏幕看圖表,分析趨勢,手動排查問題。但在 AI 時代,當代碼生成速度加快、部署頻率提高、系統復雜度暴增時,這種模式已經完全不適用了。我們需要的不是更多數據和更漂亮的儀表盤,而是能夠自主理解問題并采取行動的智能系統。
Agent0:從監控到自主運維的跨越
Dash0 的核心創新在于它的 Agent0 平臺,這是一個由專門化 AI agent 組成的系統,能夠將原始的可觀測性數據轉化為自主行動。注意,我說的是"自主行動",不僅僅是"發現問題"或"提供建議"。
Agent0 包含多種類型的 AI agent,每一種都專注于解決特定的運維場景。AI SRE agent 可以找到生產問題的根本原因,并提供清晰的修復指導。可觀測性繁瑣工作 agent 能夠自動創建儀表盤、告警和 SLO,并隨著系統變化保持更新。遷移 agent 可以自動幫助團隊從昂貴的傳統廠商遷移出來。成本優化 agent 持續優化基礎設施支出。安全 agent 實時檢測和響應異常。部署 agent 驗證發布、控制推出過程,并在問題變成事故之前緩解回滾風險。
我特別欣賞 Dash0 允許客戶在其開放平臺上構建和部署自定義 agent 的做法。這創造了一個復合層的運營智能,可以根據每個公司獨特的生產環境進行定制。這種開放性非常重要,因為沒有兩家公司的技術棧和運維需求是完全相同的。通過提供構建自定義 agent 的能力,Dash0 讓每個客戶都能將其平臺打造成最適合自己的工具。
![]()
在我看來,Agent0 代表了可觀測性行業的一個關鍵轉折點:從被動監控到主動管理的轉變。傳統工具只會告訴你"有問題了",但 Agent0 會告訴你"問題出在哪里,為什么會出現,以及如何修復"。更進一步,它可以在某些情況下自動執行修復操作,完全不需要人工介入。
這種能力在當今的軟件開發環境中尤其重要。Mirko 在訪談中提到了一個讓我印象深刻的例子:他們的 CTO 最近創建了一個包含 3 萬行代碼的 PR(拉取請求)。這些代碼大部分是由 AI 編碼 agent 生成的。現在想象一下,當這 3 萬行代碼被推送到生產環境后會發生什么?人類幾乎不可能完整審查這么多代碼,也無法預測所有潛在問題。這就是 Dash0 的 agent 發揮作用的地方:它們會監控新代碼的行為,快速識別是否存在問題,必要時可以自動回滾或逐步推出功能。
我覺得這揭示了一個更深層的趨勢:當 AI 開始大規模生成代碼時,我們也需要 AI 來監控和管理這些代碼。人類的認知能力是有限的,但 AI agent 可以處理的數據量和速度遠超人類。這不是要取代工程師,而是讓工程師能夠專注于更高價值的工作,而不是被淹沒在告警和日志中。
OpenTelemetry:為什么開放標準如此重要
如果你關注可觀測性領域,你會注意到 Dash0 反復強調一點:它是"原生構建在 OpenTelemetry 之上"的。這不是什么營銷噱頭,而是一個戰略性的技術決策,也是 Dash0 能夠快速成長并獲得市場認可的關鍵原因之一。
OpenTelemetry 是一個開源標準,用于收集和組織應用程序的遙測數據。在 OpenTelemetry 出現之前,可觀測性市場被專有格式主導。你選擇了 Datadog,就要使用 Datadog 的 agent 和數據格式;你選擇了 Dynatrace,就要用 Dynatrace 的方式。這種鎖定非常強,因為一旦你的整個監控體系建立在某個廠商的專有格式上,遷移成本就會極高。
![]()
Mirko 在訪談中解釋了 OpenTelemetry 的起源。這個標準最初是由 Google 等公司推動的,核心動機不是為了消除廠商鎖定,而是為了解決云平臺提供遙測數據的問題。當你使用 AWS 或 Google Cloud 時,這些平臺需要提供關于你應用運行狀況的數據。但它們不可能支持市面上所有可觀測性廠商的專有格式。所以需要一個標準化的格式,讓數據能夠在不同工具之間流動。
我認為 OpenTelemetry 的價值遠不止于此。它實際上改變了可觀測性市場的權力結構。數據不再屬于廠商,而是屬于客戶。你可以用同一套 OpenTelemetry 數據對接不同的分析工具,可以輕松切換供應商,也可以同時使用多個工具來滿足不同需求。這種靈活性對企業客戶來說極具吸引力。
但 Dash0 利用 OpenTelemetry 的方式更加聰明。Mirko 提到了一個我之前沒有意識到的重要點:大語言模型已經在 OpenTelemetry 上訓練過了。因為 OpenTelemetry 是開源的、公開的、有完整文檔的標準,所有這些信息都已經被納入了 LLM 的訓練數據中。這意味著當你把 OpenTelemetry 格式的追蹤數據輸入到 Claude 或 ChatGPT 時,模型能夠直接理解這些數據的含義和上下文。
這就是為什么 Dash0 能夠如此快速地在其平臺上集成 AI 能力。它們不需要訓練模型去理解專有數據格式,不需要建立復雜的數據轉換層,因為底層數據已經是 LLM 能夠理解的標準格式了。從某種意義上說,選擇 OpenTelemetry 作為基礎,讓 Dash0 在 AI 集成方面占據了先發優勢。
另一個重要的技術優勢是上下文管理。Mirko 強調 Dash0 從第一天起就專注于保持數據的上下文完整性。什么意思呢?當你的應用出現性能問題時,你需要關聯多種類型的數據:日志告訴你發生了什么,追蹤數據告訴你代碼如何在系統中流動,指標告訴你資源使用情況。但你不需要所有服務器的 CPU 使用率,你只需要運行問題代碼的那臺服務器的數據。這就是上下文。
我發現很多可觀測性工具在這方面做得很糟糕。它們會給你海量數據,但缺乏上下文關聯,你需要手動拼湊線索。而 Dash0 的架構確保所有數據都帶著完整的上下文,這對 AI agent 來說至關重要。LLM 的上下文窗口是有限的,你不能把所有數據都塞給它。你必須提供正確的、帶有正確上下文的數據,AI 才能做出有意義的分析和建議。
一個連續創業者的成功密碼
我覺得 Dash0 的故事不能不提創始人 Mirko Novakovic 的背景。這不是他第一次創業,也不是他第一次做可觀測性公司。2015 年,他創立了 Instana,同樣是一家可觀測性公司,專注于微服務監控。經過 5 年發展,Instana 在 2020 年被 IBM 以 5 億美元收購。
從 Mirko 的訪談中,我看到了一個成功連續創業者應有的特質:謙遜、學習能力強、對市場變化保持敏感。他說賣掉 Instana 之后,他對妻子說再也不會做創業公司了,絕對不會再做可觀測性。然后他去度假、做天使投資。但兩年半后,當 Accel 請他幫忙做一家可觀測性公司的盡職調查時,他重新燃起了激情。
我特別喜歡他描述的那個場景:他和妻子喝著紅酒,跟她講 OpenTelemetry 這個新標準有多么令人興奮。他妻子可能已經被他煩得不行了,就說:"那你就去做吧。"就在那天晚上,Mirko 拿出信用卡,在美國注冊了 Dash0 公司。
![]()
從 Instana 到 Dash0,Mirko 帶來了寶貴的經驗教訓。他說 Instana 從第一天起就是純企業銷售模式,當公司規模達到 2000 萬到 3000 萬美元年收入時,他們發現很難建立足夠的銷售管道。通過 SDR(銷售開發代表)進行外呼的企業銷售太昂貴、太費力了。
所以這次他改變了策略,構建了一個適合 PLG(產品驅動增長)的產品。用戶可以自助注冊、試用產品、輸入信用卡進行小額購買,然后逐步擴大使用規模。這種自下而上的增長模式更符合當今開發者的工作方式。20 年前,購買決策可能是由 CTO 或基礎設施副總裁做出的,銷售代表可以通過牛排晚宴搞定一筆交易。但現在完全不同了,決策權在開發者和技術團隊手中。
Mirko 說現在的高管會告訴銷售:"我不做決定,讓我的開發團隊去評估。"這種管理風格是好的,但它徹底改變了銷售方式。開發者不想和銷售人員交談,他們想自己找到產品、測試它、看看是否有價值,然后才愿意進行更深入的對話。
我認為這種洞察非常重要。很多創業者會堅持某種特定的商業模式或銷售策略,即使市場已經變化了。但 Mirko 展現出了強大的適應能力。他從第一次創業中學到了什么有效、什么無效,然后在第二次創業時做出了相應調整。這種學習和進化能力,正是優秀創業者的標志。
另一個有趣的細節是團隊構成。Dash0 有一支由來自微軟和 Google 的資深 AI 工程師組成的團隊。首席 AI 官 Anirudh Badam 在微軟西雅圖總部有超過十年的 AI/ML 經驗,創始 AI 工程師 Vijay Sagar 在 Google 硅谷辦公室開發機器學習模型十年。這樣的技術團隊配置,對于構建 Agent0 這樣復雜的 AI 系統是必不可少的。
快速增長的秘訣和市場機會
Dash0 的增長速度讓人印象深刻。公司成立于 2023 年,僅僅五個月前完成了 A 輪融資,現在就宣布了 B 輪。在這期間,他們的銷售數字比計劃高出了 5 倍,突破了 1000 萬美元的年度經常性收入(ARR),并計劃在 2026 年實現 10 倍增長。目前擁有超過 600 家付費客戶,包括 Zalando、Taco Bell 和 The Telegraph 這樣的全球品牌。
我覺得這種快速增長背后有幾個關鍵因素。第一是市場時機。Mirko 說他在可觀測性領域有 26 年經驗,當他創立 Dash0 時,其實并不確定能增長得這么快。這是一個競爭激烈的紅海市場,有一些大型玩家占據主導地位。但事實證明,市場已經"壞掉"了。客戶產生大量數據,但要為這些數據支付高昂費用,而數據量的增加并不意味著更好的洞察力。
![]()
第二是差異化的定價模式。Dash0 幫助客戶減少數據量,基于數據流經平臺的總量收費,而不是像 Datadog 那樣為不同類型的數據分別計費。Mirko 說這種簡化的計費方式給了他們相對于競爭對手的優勢。客戶知道自己要付多少錢,不會因為賬單意外飆升而感到沮喪。
第三是 150% 的凈收入留存率(NRR)。這是一個非常健康的指標,說明現有客戶不僅在續約,還在大幅增加使用量。他們添加更多數據、更多功能,并在 Dash0 和 OpenTelemetry 基礎上整合他們的平臺。Mirko 提到,幾乎每個登錄 Dash0 的用戶都在使用 Agent0,用 AI 來理解數據。這種高參與度是產品真正有價值的標志。
第四是 PLG 策略的成功執行。Dash0 每周通過 PLG 獲得 15 到 20 個新客戶,這些客戶可能是小型創業公司,也可能是大型企業內的團隊在測試產品。這種持續的客戶流入為銷售團隊提供了大量線索。有時一個團隊會在大公司內部使用 Dash0,然后銷售團隊可以介入,看看是否能將使用范圍擴展到整個公司。
我認為 Dash0 正在抓住一個巨大的市場機會:幫助企業擺脫傳統廠商的高成本和復雜性。投資人 Ross Mason 說:"我們從第一天起就看著 Dash0 以罕見的精確度執行。加大對這個團隊的投資不是一個困難的決定,而是一個顯而易見的選擇。從被動可觀測性到自主生產運營的轉變,是這個十年中最重要的基礎設施轉型之一,而 Dash0 正在引領它。"
這輪融資的用途也很清晰。最大的投資將用于深化 Agent0 平臺,擴展自主 agent 庫,加速核心工程路線圖,并向在 Dash0 基礎設施上構建自己 agent 的客戶開放平臺。大量資金將用于激進的市場拓展,主要聚焦美國市場,那里企業工程團隊的需求最強,取代 Datadog 和 Grafana 等現有廠商的機會最直接。公司還將進行針對性的戰略收購,涉及 LLM 和 agent 可觀測性、AI SRE 和 AI 安全領域,加速那些原本需要多年才能有機增長出來的能力。
AI 正在改變一切,包括可觀測性
在訪談中,Mirko 多次提到 AI 正在以難以置信的速度改變整個行業。他坦言,很難制定清晰的 6 個月戰略,更不用說 5 到 10 年的規劃了。變化速度太快了。
他舉了一個讓我印象深刻的例子:如果你在 6 個月前問他關于編碼 agent 的問題,他不會預料到今天他們 90% 以上的代碼是由 agent 生成的。但現在這就是現實。編碼 agent 正在生成大部分代碼,這改變了可觀測性的使用方式。
想想這意味著什么。傳統上,可觀測性是用來監控人類開發者編寫的代碼。但現在,agent 在編寫代碼,這些代碼可能包含數萬行,幾乎不可能完整審查。你只能把它推送到生產環境,然后依靠可觀測性平臺來快速識別問題。Dash0 的 agent 會檢測新的代碼變更,調查它是否正常工作,如果有問題可以自動回滾,或者逐步增加流量來驗證新功能。
我覺得這揭示了一個更深層次的趨勢:AI 生成的代碼需要 AI 來監控和管理。這不是巧合,而是必然。當代碼生成速度遠超人類理解速度時,我們需要同樣快速的 AI 系統來確保這些代碼在生產環境中正常運行。可觀測性在 AI 時代不再只是"看看系統運行得怎么樣",而是成為一種保險策略,確保高頻部署的大量 AI 生成代碼不會引發災難。
Mirko 還提到,AI 正在改變產品開發的方方面面。他們使用 Claude(Anthropic 的大語言模型)來分析 OpenTelemetry 數據,因為 Claude 已經在這個開源標準上訓練過了。當你把 OpenTelemetry 追蹤數據粘貼到 Claude 或 ChatGPT 時,模型能夠理解它是什么,因為它是一個公開的、有完整文檔的標準,包括語義約定和開源的代碼插樁 agent。
我認為 Dash0 在 AI 時代的成功不是偶然的。他們的架構恰好適合這個新世界,雖然在 2023 年創立時并沒有預見到所有這些變化。但當市場轉向 AI 驅動的開發和運維時,Dash0 已經做好了準備。他們擁有正確的數據格式(OpenTelemetry)、正確的架構(上下文化的數據)和正確的心態(擁抱 AI)。
對未來的思考:數據才是護城河
在最近的市場動蕩中,投資者開始重新評估哪里才有真正的競爭優勢。很多軟件公司因為擔心 AI 會讓它們變得過時而股價大跌。在這種背景下,Dash0 的融資成功顯得格外有意義。
Mirko 在采訪中說了一句話,我覺得特別關鍵:"對我們來說,護城河是數據。"他舉例說,對于像 Zalando 這樣的客戶,他們捕獲的請求數量達到數萬億級別。目前的大語言模型,即使是像 Anthropic 的 Claude 這樣先進的模型,也還無法攝入 Dash0 能夠處理的數據量。
我認為這個觀點非常深刻。在 AI 時代,很多人擔心軟件會被商品化,因為 AI 可以快速生成代碼。但 Dash0 的價值不在于代碼本身,而在于它能夠處理、關聯和理解海量生產數據的能力。這些數據是獨特的、特定于每個客戶的,包含了關于系統如何運行、用戶如何交互、問題如何發生的深層知識。
這些數據加上 AI agent 的處理能力,形成了一個難以復制的競爭優勢。你不能簡單地拿一個通用的 LLM 來替代 Dash0,因為 LLM 需要正確的數據、正確的上下文和正確的領域知識才能做出有意義的分析。而 Dash0 正是在構建這樣一個完整的系統:OpenTelemetry 標準的數據采集、智能的數據關聯和上下文管理、專門化的 AI agent 來處理不同的運維場景。
展望未來,我相信我們會看到更多這樣的趨勢:不是用 AI 取代軟件,而是用 AI 增強軟件,使其能夠處理以前人類無法處理的復雜性和規模。Dash0 不是在取代 SRE(網站可靠性工程師),而是在增強他們的能力,讓他們能夠管理比以前復雜得多的系統。
我也很欣賞 Dash0 對開放標準的堅持。在一個很多公司試圖通過專有技術鎖定客戶的時代,Dash0 選擇了相反的路徑:基于開放標準構建,讓客戶擁有自己的數據,提供靈活性而不是鎖定。這種理念不僅在道德上是正確的,在商業上也是明智的。因為它降低了客戶采用的風險,建立了長期的信任關系。
Balderton Capital 的合伙人 Rana Yared 說:"Dash0 構建了每個 AI 驅動公司都將依賴的基礎設施層。Mirko 和團隊結合了深厚的技術信譽和真正差異化的方法。我們相信 Dash0 將定義生產運營的下一個時代。"我完全同意這個判斷。隨著越來越多的公司采用 AI 來開發軟件,他們也需要 AI 來運維軟件。Dash0 正是在構建這個關鍵的基礎設施。
從 Dash0 的故事中,我看到了幾個關鍵教訓:堅持開放標準、擁抱快速變化、從失敗中學習、專注于真正的客戶價值、建立強大的技術團隊。這些原則在任何行業、任何時代都適用,但在 AI 時代顯得尤為重要。因為當技術變化如此之快時,只有那些能夠快速學習和適應的公司才能生存并繁榮。
Dash0 的 1.1 億美元融資不僅僅是另一個融資新聞,它標志著可觀測性行業進入了一個新紀元。從被動監控到主動管理,從人工排查到 AI 自主修復,從專有格式到開放標準,這些轉變正在重塑我們如何構建和運營現代軟件系統。我相信,幾年后回頭看,我們會意識到這是一個轉折點。
結尾
也歡迎大家留言討論,分享你的觀點!
覺得內容不錯的朋友能夠幫忙右下角點個贊,分享一下。您的每次分享,都是在激勵我不斷產出更好的內容。
歡迎關注深思圈,一起探索更大的世界。
- END -
兩個“特別坑”的AI產品創業方向,你知道嗎
![]()
速度將成為AI時代唯一的護城河
![]()
a16z重磅預測:Vibe coding贏者通吃?錯了,垂直專業化才是未來
![]()
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.