
作者|邊雪冬
編輯|李忠良
策劃|AICon 全球人工智能開發(fā)與應(yīng)用大會(huì)
在 AI 技術(shù)快速發(fā)展的浪潮下,企業(yè)如何在有限資源下提升效率、保障質(zhì)量,并推動(dòng)智能化運(yùn)維成為行業(yè)關(guān)注的核心議題。InfoQ 榮幸邀請(qǐng)到了騰訊音樂 / 運(yùn)維開發(fā)組組長邊雪冬,他在 AICon 全球人工智能開發(fā)與應(yīng)用大會(huì)·深圳站上分享了《AIOps 驅(qū)動(dòng)下的 TME 騰訊音樂智能運(yùn)維新范式》。
在本次分享中,他結(jié)合了騰訊音樂的實(shí)踐經(jīng)驗(yàn),介紹團(tuán)隊(duì)如何通過 AI 優(yōu)化告警、提升根因分析效率、構(gòu)建專家?guī)欤⒄雇?AIOps 在智能問答、自動(dòng)化執(zhí)行與算法升級(jí)等方向上的演進(jìn)路徑,為業(yè)界提供思考與借鑒。
12 月 19~20 日的AICon 北京站將錨定行業(yè)前沿,聚焦大模型訓(xùn)練與推理、AI Agent、研發(fā)新范式與組織革新,邀您共同深入探討:如何構(gòu)建起可信賴、可規(guī)模化、可商業(yè)化的 Agentic 操作系統(tǒng),讓 AI 真正成為企業(yè)降本增效、突破增長天花板的核心引擎。
詳細(xì)日程見:
https://aicon.infoq.cn/202512/beijing/schedule
以下是演講實(shí)錄(經(jīng) InfoQ 進(jìn)行不改變?cè)獾木庉嬚恚?/blockquote>在騰訊音樂(TME)體系下,我們擁有多款面向不同用戶群體的應(yīng)用,包括全民 K 歌、QQ 音樂、酷狗和酷我。為了支撐這些業(yè)務(wù)的穩(wěn)定、高效運(yùn)行,背后有大量的開發(fā)團(tuán)隊(duì)在協(xié)同工作。而我們團(tuán)隊(duì)主要負(fù)責(zé)底層的基礎(chǔ)保障能力建設(shè),例如微服務(wù)體系、可觀測(cè)性體系,以及 DevOps 和 K8s 平臺(tái)的統(tǒng)一支撐。
隨著 AI 時(shí)代的快速發(fā)展,公司也在不斷推動(dòng)我們?cè)跇I(yè)務(wù)中探索更多基于 AI 的創(chuàng)新玩法,為用戶帶來更優(yōu)質(zhì)的產(chǎn)品體驗(yàn)。與此同時(shí),我們?cè)趦?nèi)部也積極嘗試將 AI 與現(xiàn)有的基礎(chǔ)技術(shù)體系進(jìn)行結(jié)合,既服務(wù)業(yè)務(wù)創(chuàng)新,也反哺工程體系升級(jí)。
基于這樣的背景,主要圍繞兩個(gè)方面展開:
第一,是關(guān)于 AI 時(shí)代的一些思考——在基礎(chǔ)領(lǐng)域,我們?nèi)绾胃咝У嘏c AI 結(jié)合,并確保內(nèi)部 ROI 能夠保持正向發(fā)展,避免為了“用 AI 而用 AI”的無意義擴(kuò)張。畢竟,人力和資源都是有限的,我們必須在合適的場景中找到真正具備價(jià)值、能夠落地的突破點(diǎn);第二,是圍繞這些場景的實(shí)踐探索——分享我們?cè)趯?shí)際應(yīng)用中的一些效果和經(jīng)驗(yàn)。
整體來看,我們對(duì) AI 的探索,仍然是基于傳統(tǒng)的三要素:質(zhì)量、效率和成本。核心問題在于:如何利用 AI 在其中一個(gè)或多個(gè)維度上產(chǎn)生實(shí)實(shí)在在的價(jià)值,形成對(duì)整體體系的助力。
在具體實(shí)踐中,我們主要從感知、決策和執(zhí)行三個(gè)層面來推進(jìn)落地,希望通過這三個(gè)環(huán)節(jié)的聯(lián)動(dòng),真正發(fā)揮 AI 的能力,釋放出可量化的效果。圍繞這一目標(biāo),我們也對(duì)當(dāng)前整體業(yè)務(wù)的基礎(chǔ)架構(gòu)進(jìn)行了系統(tǒng)性的梳理。
在整體的基礎(chǔ)架構(gòu)中,首先是 DevOps,這可以說是最必要、也最底層的一環(huán)。從 CI(持續(xù)集成)、到 CD(持續(xù)交付 / 部署),再到 CO(持續(xù)運(yùn)營),形成一套完整的閉環(huán)能力。我們的目標(biāo)非常明確:讓研發(fā)同學(xué)盡可能專注于寫代碼,其他流程盡量交由平臺(tái)和標(biāo)準(zhǔn)化機(jī)制來完成;
其次是 SRE 體系。在這套體系中,我們觀察到,很多問題其實(shí)都源自于上線過程中的變更,因此核心之一就是:如何確保變更的有效性和可控性。同時(shí),我們也在持續(xù)構(gòu)建和完善 SLA 體系,以此來保障業(yè)務(wù)質(zhì)量。
從故障發(fā)現(xiàn)、到根因排查、再到最終解決,通過提升響應(yīng)效率和處理效率,來實(shí)現(xiàn)整體業(yè)務(wù)質(zhì)量的提升;
最后是云原生體系。它為我們提供了一套更加穩(wěn)固、彈性的基礎(chǔ)底座。借助云的能力,我們希望將過去一些自建的、相對(duì)不規(guī)范的部分逐步標(biāo)準(zhǔn)化,并把這些規(guī)范和能力貫穿到各個(gè)環(huán)節(jié)之中,從而在整體上進(jìn)一步提升系統(tǒng)的穩(wěn)定性和質(zhì)量。
AIOps 三大“未來式”應(yīng)用
“聽”出問題的“音樂雷達(dá)”
我們率先將 SLA 體系與 AI 相結(jié)合,因?yàn)?SLA 對(duì)業(yè)務(wù)質(zhì)量的保障始終是最高優(yōu)先級(jí)。
我借助 AI 生成了一張圖,用來展示十年前我們工作的現(xiàn)狀:當(dāng)時(shí)每人每月平均需要處理約 3,000 個(gè)電話告警,折合下來每天超過 100 個(gè),幾乎每 10 分鐘就會(huì)有一次告警來電。許多同事不得不一手拿著手機(jī)、一手操作鼠標(biāo),長期處于“救火”狀態(tài),AI 也將這一場景形象化為消防員。
在歷史最初的業(yè)務(wù)架構(gòu)中,各類監(jiān)控?cái)?shù)據(jù)量極為龐大。例如,Web 層就有四種不同的監(jiān)控方式。但哪種監(jiān)控更有效?這些監(jiān)控點(diǎn)大多是開發(fā)和運(yùn)維同事在一次次“救火”過程中不斷補(bǔ)充出來的,最終形成了一個(gè)龐雜的體系。
為此,我們首先著力提升監(jiān)控?cái)?shù)據(jù)的有效性,確保在正確的時(shí)間觸發(fā)告警,避免誤告。我們引入了 3-Sigma 算法,將告警波動(dòng)轉(zhuǎn)換為波動(dòng)幅度,并以幅度深度為依據(jù)生成整體告警。過去的告警依賴各業(yè)務(wù)自行設(shè)定閾值,例如 98% 觸發(fā)告警,但 95% 或 99% 是否需要告警并無統(tǒng)一標(biāo)準(zhǔn),往往還摻雜失敗趨勢(shì)。
我們也引入了同比和環(huán)比等指標(biāo),生成相對(duì)基準(zhǔn)值,并結(jié)合波動(dòng)幅度和深度來判定是否需要觸發(fā)告警。在此基礎(chǔ)上,我們進(jìn)一步制定策略:當(dāng)波動(dòng)幅度達(dá)到一定深度時(shí),能夠更快地幫助業(yè)務(wù)發(fā)現(xiàn)問題;當(dāng)波動(dòng)恢復(fù)平穩(wěn)并持續(xù)一段時(shí)間時(shí),則判定業(yè)務(wù)已恢復(fù)正常;若處于抖動(dòng)期,則將深度重置為 0,再重新判斷是否需要告警。
通過這一算法的底層支撐,我們已將用戶接收到的月度告警電話數(shù)從 3,000 余次減少至 200 余次,大幅降低了告警負(fù)擔(dān)。
自愈式運(yùn)營: 系統(tǒng)自己“調(diào)準(zhǔn)音”
接下來面臨的問題是告警種類過于繁多。舉例來說,某次業(yè)務(wù)發(fā)生成功率下降的告警,同時(shí)運(yùn)維側(cè)又收到內(nèi)存上升的告警,那么如何將二者關(guān)聯(lián)起來并找到真正的根因?在大模型應(yīng)用的初期,我們基于 AI 構(gòu)建了一套分析的工作流(workflow)。
當(dāng)數(shù)據(jù)進(jìn)入后,首先由 AI 進(jìn)行問題分析與反饋,隨后調(diào)用相關(guān)插件并完成重寫;在此基礎(chǔ)上,再結(jié)合內(nèi)部知識(shí)庫與文檔進(jìn)行檢索與構(gòu)造,并通過大模型補(bǔ)充信息,最終生成問答建議與問題定位。圍繞這一流程,我們還開發(fā)了多種工具,例如容量檢測(cè),以及微服務(wù)中的熔斷、限流、染色等能力。
自去年起,我們開始嘗試使用 Dify 來簡化這一工作流。借助 Dify,我們可以在 workflow 中靈活選擇 Hugging Face 上的主流模型,并結(jié)合已有的知識(shí)庫開展定向翻譯。
例如,針對(duì)種類繁多的業(yè)務(wù)返回碼,我們能夠自動(dòng)完成統(tǒng)一翻譯。同時(shí),利用其閑聊能力,我們構(gòu)建了運(yùn)維機(jī)器人,幫助業(yè)務(wù)同學(xué)更快速地解決問題。最后,再結(jié)合 DeepSeek 的深度思考,生成最終的解決方案,用于回復(fù)用戶或輔助完成告警分析。
在單條告警分析思路的基礎(chǔ)上,我們逐步向外擴(kuò)展,覆蓋了基礎(chǔ)類與業(yè)務(wù)類的全部場景。目前,從業(yè)務(wù)日志采集、組件發(fā)布到變更等各個(gè)環(huán)節(jié),均已經(jīng)整合進(jìn) AIOps 體系。
在鏈路分析方面,我們結(jié)合 Trace、Metric 與 Log 三要素,同時(shí)利用業(yè)務(wù)上報(bào)的主調(diào)與被調(diào)關(guān)系,構(gòu)建關(guān)系網(wǎng)絡(luò),實(shí)現(xiàn)鏈路的全景分析。
最終,我們通過鏈路分析實(shí)現(xiàn)了上下游的擴(kuò)展,對(duì)請(qǐng)求量、耗時(shí)、聚集以及變更情況進(jìn)行可視化呈現(xiàn)。
在這套體系下,我們對(duì)告警的處理已經(jīng)更加高效。舉個(gè)例子,當(dāng)時(shí)線上出現(xiàn)了高低異常的情況,分析器識(shí)別出這是由部分內(nèi)存異常引起的業(yè)務(wù)問題,并進(jìn)一步定位到具體涉及的 IP,以及各個(gè) IP 上的異常增長情況。對(duì)于單條告警(比如 CPU 告警),我們會(huì)統(tǒng)一采集所有設(shè)備的快照,再通過快照分析,更準(zhǔn)確地發(fā)現(xiàn)和還原業(yè)務(wù)問題。
在另一個(gè)案例中,我們首先發(fā)現(xiàn)了業(yè)務(wù)告警,隨后結(jié)合代碼倉庫中的 AICR 能力進(jìn)行分析。AICR 能夠聚合每次提交的 commit 信息,識(shí)別出修改和刪除的代碼位置,并檢查其中是否存在潛在隱患。
例如,在某次提交中,就在最后一行代碼里發(fā)現(xiàn)了邊界問題,可能導(dǎo)致線上故障。一旦問題發(fā)生,AI 能夠快速給出綜合性的結(jié)論,顯著縮短問題定位的時(shí)間。
基于這一整套體系,我們對(duì)所有告警進(jìn)行了整體分類,并由 AI 自動(dòng)打標(biāo)。結(jié)果顯示:業(yè)務(wù)邏輯錯(cuò)誤約占 40%,IP 聚集問題約占 20%。有了這樣的分類依據(jù),我們就可以制定更具針對(duì)性的處理策略。
例如,在容器化或 CVM 場景下,對(duì)于這類問題可以直接采取自愈措施:當(dāng)告警出現(xiàn)時(shí),自動(dòng)剔除異常路由,或者銷毀并重建容器,從而實(shí)現(xiàn)快速恢復(fù),避免故障范圍進(jìn)一步擴(kuò)散。
同時(shí),我們還需要重點(diǎn)推進(jìn)專家?guī)斓慕ㄔO(shè)。目前,約 40% 的告警屬于業(yè)務(wù)邏輯錯(cuò)誤,另有約 16% 屬于未知原因,這兩類問題合計(jì)占比已經(jīng)超過一半,其背后的核心原因在于專家?guī)斓姆e累仍然不足。
生產(chǎn)環(huán)境中的服務(wù)數(shù)量非常龐大,僅 QQ 音樂的生產(chǎn)服務(wù)就超過一萬個(gè),如何對(duì)這些服務(wù)進(jìn)行標(biāo)準(zhǔn)化治理,依然是一項(xiàng)非常重要且長期的課題。
此外,每次故障的復(fù)盤報(bào)告也至關(guān)重要。只有通過持續(xù)復(fù)盤并將報(bào)告進(jìn)行標(biāo)準(zhǔn)化,AI 才能真正“理解”故障產(chǎn)生的根因。基于這些沉淀,AI 才可以在下一次類似問題出現(xiàn)時(shí)提供有效參考,輔助完成定位和分析。
因此,我們優(yōu)先推進(jìn)的是業(yè)務(wù)體系的標(biāo)準(zhǔn)化建設(shè),尤其是返回碼的規(guī)范。在返回碼處理上,首先需要明確其類型:是成功、失敗,還是邏輯失敗。其中,邏輯失敗是指不影響整體服務(wù)質(zhì)量,且具備兜底保障的情況。
其次,要為返回碼建立統(tǒng)一的命名規(guī)則和處理建議。當(dāng)某一返回碼出現(xiàn)時(shí),AI 能夠識(shí)別其含義,并給出對(duì)應(yīng)的處理方式。通過這一過程,我們也在逐步完善專家?guī)斓慕ㄔO(shè)。
個(gè)性化運(yùn)維:為不同業(yè)務(wù)“定制樂譜”
除了基礎(chǔ)告警和通用類告警外,我們還涉及更多定制化的告警類型,例如海外的 JOOX 平臺(tái)告警、各業(yè)務(wù)線定制化告警、會(huì)員收入告警等。如何讓模型理解這些告警的含義,并能夠給出整體的解決思路,是我們當(dāng)前重點(diǎn)關(guān)注的問題。
這里的核心依然是數(shù)據(jù),AI 與數(shù)據(jù)始終是緊密相連的。目前,我們已經(jīng)構(gòu)建了一套完整的數(shù)據(jù)銀行體系:從數(shù)據(jù)上報(bào)、Flink 處理,到源數(shù)據(jù)入庫,再到結(jié)合 OLAP 數(shù)據(jù)庫生成結(jié)果。
運(yùn)營數(shù)據(jù)可以由運(yùn)營或 BI 同學(xué)通過 SuperSet、Chart BI 進(jìn)行回收和分析;開發(fā)同學(xué)則可以通過 Grafana 進(jìn)行定制化配置。同時(shí),我們將基礎(chǔ)數(shù)據(jù)與自定義數(shù)據(jù)統(tǒng)一采集,最終在 AIOps 體系中與監(jiān)控告警打通,形成整體的根因分析能力。
例如,當(dāng)我們?cè)?JOOX 音樂平臺(tái)收到告警后,首先通過總結(jié)分析發(fā)現(xiàn),某一版本的 APP 在某個(gè)城市的特定運(yùn)營商處出現(xiàn)了大規(guī)模失敗。進(jìn)一步由 AI 分析并定位到具體的運(yùn)營商 IP,從而反推問題是否源于接入點(diǎn)覆蓋不足。
如果確實(shí)存在覆蓋不足,我們會(huì)及時(shí)完善接入點(diǎn)的布局。在海外場景下,如果問題出在當(dāng)?shù)剡\(yùn)營商本身的網(wǎng)絡(luò)連接,我們會(huì)下沉到當(dāng)?shù)貥I(yè)務(wù),與運(yùn)營商協(xié)同解決,確保中間通路順暢,提升用戶體驗(yàn)。
同時(shí),對(duì)于業(yè)務(wù)自定義上報(bào)的告警,我們也引入了波動(dòng)幅度算法進(jìn)行智能分析,并結(jié)合 AI 快速判斷數(shù)據(jù)在處理過程中的異常情況。當(dāng)上報(bào)數(shù)據(jù)中包含關(guān)鍵指標(biāo)時(shí),還會(huì)與基礎(chǔ)指標(biāo)進(jìn)行關(guān)聯(lián)分析。
例如,在流量、報(bào)文量或內(nèi)存上升時(shí),進(jìn)一步分析是否導(dǎo)致了 CPU 異常,并追蹤到具體進(jìn)程及其原因,從而形成完整的數(shù)據(jù)治理閉環(huán)。
AIOps 總結(jié)與探索
當(dāng)前,我們已基于 AI 對(duì) SLA 體系進(jìn)行了全面保障,下一步重點(diǎn)在以下幾個(gè)方面:
第一,智能問答。通過問答機(jī)制提升協(xié)作效率,將“人找人”的模式轉(zhuǎn)變?yōu)椤叭苏?AI,AI 找人”的模式,實(shí)現(xiàn)更高效的銜接;
第二,自動(dòng)化執(zhí)行。AI 在分析中能夠給出明確結(jié)論,我們計(jì)劃基于這些結(jié)論驅(qū)動(dòng) SDK 自動(dòng)化操作。針對(duì)幻覺問題,我們的思路是為 AI 提供明確結(jié)果和充足數(shù)據(jù),禁止發(fā)散,讓其輸出針對(duì)性結(jié)論,再由系統(tǒng)據(jù)此執(zhí)行具體動(dòng)作;
第三,算法升級(jí)。目前的波動(dòng)幅度算法僅依賴當(dāng)前數(shù)值進(jìn)行告警判斷,未來將結(jié)合業(yè)務(wù)特性進(jìn)一步優(yōu)化。例如在音樂場景中,節(jié)假日或演唱會(huì)直播等活動(dòng)會(huì)引起帶寬與業(yè)務(wù)量的顯著增長,需要通過 3-SIGMA 與特征提取算法結(jié)合,提升告警的準(zhǔn)確性與有效性;
最后,集團(tuán)戰(zhàn)略是一體兩翼,從內(nèi)容線到平臺(tái)線深度融合。同樣,我們?cè)诮ㄔO(shè) AIOps 體系也采用“一體兩翼”的戰(zhàn)略:以云原生和智能分析為基礎(chǔ),打造更先進(jìn)、更智能的體系,讓 AI 在其中發(fā)揮更高價(jià)值。
AI 重塑組織的浪潮已至,Agentic 企業(yè)時(shí)代正式開啟!當(dāng) AI 不再是單純的輔助工具,而是深度融入業(yè)務(wù)核心、驅(qū)動(dòng)組織形態(tài)與運(yùn)作邏輯全面革新的核心力量。
把握行業(yè)變革關(guān)鍵節(jié)點(diǎn),12 月 19 日 - 20 日,AICon 全球人工智能開發(fā)與應(yīng)用大會(huì)(北京站) 即將重磅啟幕!本屆大會(huì)精準(zhǔn)錨定行業(yè)前沿,聚焦大模型訓(xùn)練與推理、AI Agent、研發(fā)新范式與組織革新,邀您共同深入探討:如何構(gòu)建起可信賴、可規(guī)模化、可商業(yè)化的 Agentic 操作系統(tǒng),讓 AI 真正成為企業(yè)降本增效、突破增長天花板的核心引擎。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.