<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      不再為告警“救火”:AIOps 如何重塑騰訊音樂的智能運維體系

      0
      分享至


      作者|邊雪冬

      編輯|李忠良

      策劃|AICon 全球人工智能開發與應用大會

      在 AI 技術快速發展的浪潮下,企業如何在有限資源下提升效率、保障質量,并推動智能化運維成為行業關注的核心議題。InfoQ 榮幸邀請到了騰訊音樂 / 運維開發組組長邊雪冬,他在 AICon 全球人工智能開發與應用大會·深圳站上分享了《AIOps 驅動下的 TME 騰訊音樂智能運維新范式》。

      在本次分享中,他結合了騰訊音樂的實踐經驗,介紹團隊如何通過 AI 優化告警、提升根因分析效率、構建專家庫,并展望 AIOps 在智能問答、自動化執行與算法升級等方向上的演進路徑,為業界提供思考與借鑒。

      12 月 19~20 日的AICon 北京站將錨定行業前沿,聚焦大模型訓練與推理、AI Agent、研發新范式與組織革新,邀您共同深入探討:如何構建起可信賴、可規模化、可商業化的 Agentic 操作系統,讓 AI 真正成為企業降本增效、突破增長天花板的核心引擎。

      詳細日程見:

      https://aicon.infoq.cn/202512/beijing/schedule

      以下是演講實錄(經 InfoQ 進行不改變原意的編輯整理)。

      在騰訊音樂(TME)體系下,我們擁有多款面向不同用戶群體的應用,包括全民 K 歌、QQ 音樂、酷狗和酷我。為了支撐這些業務的穩定、高效運行,背后有大量的開發團隊在協同工作。而我們團隊主要負責底層的基礎保障能力建設,例如微服務體系、可觀測性體系,以及 DevOps 和 K8s 平臺的統一支撐。

      隨著 AI 時代的快速發展,公司也在不斷推動我們在業務中探索更多基于 AI 的創新玩法,為用戶帶來更優質的產品體驗。與此同時,我們在內部也積極嘗試將 AI 與現有的基礎技術體系進行結合,既服務業務創新,也反哺工程體系升級。

      基于這樣的背景,主要圍繞兩個方面展開:

      第一,是關于 AI 時代的一些思考——在基礎領域,我們如何更高效地與 AI 結合,并確保內部 ROI 能夠保持正向發展,避免為了“用 AI 而用 AI”的無意義擴張。畢竟,人力和資源都是有限的,我們必須在合適的場景中找到真正具備價值、能夠落地的突破點;第二,是圍繞這些場景的實踐探索——分享我們在實際應用中的一些效果和經驗。

      整體來看,我們對 AI 的探索,仍然是基于傳統的三要素:質量、效率和成本。核心問題在于:如何利用 AI 在其中一個或多個維度上產生實實在在的價值,形成對整體體系的助力。

      在具體實踐中,我們主要從感知、決策和執行三個層面來推進落地,希望通過這三個環節的聯動,真正發揮 AI 的能力,釋放出可量化的效果。圍繞這一目標,我們也對當前整體業務的基礎架構進行了系統性的梳理。


      在整體的基礎架構中,首先是 DevOps,這可以說是最必要、也最底層的一環。從 CI(持續集成)、到 CD(持續交付 / 部署),再到 CO(持續運營),形成一套完整的閉環能力。我們的目標非常明確:讓研發同學盡可能專注于寫代碼,其他流程盡量交由平臺和標準化機制來完成;

      其次是 SRE 體系。在這套體系中,我們觀察到,很多問題其實都源自于上線過程中的變更,因此核心之一就是:如何確保變更的有效性和可控性。同時,我們也在持續構建和完善 SLA 體系,以此來保障業務質量。

      從故障發現、到根因排查、再到最終解決,通過提升響應效率和處理效率,來實現整體業務質量的提升;

      最后是云原生體系。它為我們提供了一套更加穩固、彈性的基礎底座。借助云的能力,我們希望將過去一些自建的、相對不規范的部分逐步標準化,并把這些規范和能力貫穿到各個環節之中,從而在整體上進一步提升系統的穩定性和質量。

      AIOps 三大“未來式”應用

      “聽”出問題的“音樂雷達”


      我們率先將 SLA 體系與 AI 相結合,因為 SLA 對業務質量的保障始終是最高優先級。

      我借助 AI 生成了一張圖,用來展示十年前我們工作的現狀:當時每人每月平均需要處理約 3,000 個電話告警,折合下來每天超過 100 個,幾乎每 10 分鐘就會有一次告警來電。許多同事不得不一手拿著手機、一手操作鼠標,長期處于“救火”狀態,AI 也將這一場景形象化為消防員。

      在歷史最初的業務架構中,各類監控數據量極為龐大。例如,Web 層就有四種不同的監控方式。但哪種監控更有效?這些監控點大多是開發和運維同事在一次次“救火”過程中不斷補充出來的,最終形成了一個龐雜的體系。


      為此,我們首先著力提升監控數據的有效性,確保在正確的時間觸發告警,避免誤告。我們引入了 3-Sigma 算法,將告警波動轉換為波動幅度,并以幅度深度為依據生成整體告警。過去的告警依賴各業務自行設定閾值,例如 98% 觸發告警,但 95% 或 99% 是否需要告警并無統一標準,往往還摻雜失敗趨勢。

      我們也引入了同比和環比等指標,生成相對基準值,并結合波動幅度和深度來判定是否需要觸發告警。在此基礎上,我們進一步制定策略:當波動幅度達到一定深度時,能夠更快地幫助業務發現問題;當波動恢復平穩并持續一段時間時,則判定業務已恢復正常;若處于抖動期,則將深度重置為 0,再重新判斷是否需要告警。

      通過這一算法的底層支撐,我們已將用戶接收到的月度告警電話數從 3,000 余次減少至 200 余次,大幅降低了告警負擔。

      自愈式運營: 系統自己“調準音”


      接下來面臨的問題是告警種類過于繁多。舉例來說,某次業務發生成功率下降的告警,同時運維側又收到內存上升的告警,那么如何將二者關聯起來并找到真正的根因?在大模型應用的初期,我們基于 AI 構建了一套分析的工作流(workflow)。

      當數據進入后,首先由 AI 進行問題分析與反饋,隨后調用相關插件并完成重寫;在此基礎上,再結合內部知識庫與文檔進行檢索與構造,并通過大模型補充信息,最終生成問答建議與問題定位。圍繞這一流程,我們還開發了多種工具,例如容量檢測,以及微服務中的熔斷、限流、染色等能力。

      自去年起,我們開始嘗試使用 Dify 來簡化這一工作流。借助 Dify,我們可以在 workflow 中靈活選擇 Hugging Face 上的主流模型,并結合已有的知識庫開展定向翻譯。

      例如,針對種類繁多的業務返回碼,我們能夠自動完成統一翻譯。同時,利用其閑聊能力,我們構建了運維機器人,幫助業務同學更快速地解決問題。最后,再結合 DeepSeek 的深度思考,生成最終的解決方案,用于回復用戶或輔助完成告警分析。

      在單條告警分析思路的基礎上,我們逐步向外擴展,覆蓋了基礎類與業務類的全部場景。目前,從業務日志采集、組件發布到變更等各個環節,均已經整合進 AIOps 體系。

      在鏈路分析方面,我們結合 Trace、Metric 與 Log 三要素,同時利用業務上報的主調與被調關系,構建關系網絡,實現鏈路的全景分析。

      最終,我們通過鏈路分析實現了上下游的擴展,對請求量、耗時、聚集以及變更情況進行可視化呈現。

      在這套體系下,我們對告警的處理已經更加高效。舉個例子,當時線上出現了高低異常的情況,分析器識別出這是由部分內存異常引起的業務問題,并進一步定位到具體涉及的 IP,以及各個 IP 上的異常增長情況。對于單條告警(比如 CPU 告警),我們會統一采集所有設備的快照,再通過快照分析,更準確地發現和還原業務問題。


      在另一個案例中,我們首先發現了業務告警,隨后結合代碼倉庫中的 AICR 能力進行分析。AICR 能夠聚合每次提交的 commit 信息,識別出修改和刪除的代碼位置,并檢查其中是否存在潛在隱患。

      例如,在某次提交中,就在最后一行代碼里發現了邊界問題,可能導致線上故障。一旦問題發生,AI 能夠快速給出綜合性的結論,顯著縮短問題定位的時間。

      基于這一整套體系,我們對所有告警進行了整體分類,并由 AI 自動打標。結果顯示:業務邏輯錯誤約占 40%,IP 聚集問題約占 20%。有了這樣的分類依據,我們就可以制定更具針對性的處理策略。

      例如,在容器化或 CVM 場景下,對于這類問題可以直接采取自愈措施:當告警出現時,自動剔除異常路由,或者銷毀并重建容器,從而實現快速恢復,避免故障范圍進一步擴散。


      同時,我們還需要重點推進專家庫的建設。目前,約 40% 的告警屬于業務邏輯錯誤,另有約 16% 屬于未知原因,這兩類問題合計占比已經超過一半,其背后的核心原因在于專家庫的積累仍然不足。

      生產環境中的服務數量非常龐大,僅 QQ 音樂的生產服務就超過一萬個,如何對這些服務進行標準化治理,依然是一項非常重要且長期的課題。

      此外,每次故障的復盤報告也至關重要。只有通過持續復盤并將報告進行標準化,AI 才能真正“理解”故障產生的根因。基于這些沉淀,AI 才可以在下一次類似問題出現時提供有效參考,輔助完成定位和分析。

      因此,我們優先推進的是業務體系的標準化建設,尤其是返回碼的規范。在返回碼處理上,首先需要明確其類型:是成功、失敗,還是邏輯失敗。其中,邏輯失敗是指不影響整體服務質量,且具備兜底保障的情況。

      其次,要為返回碼建立統一的命名規則和處理建議。當某一返回碼出現時,AI 能夠識別其含義,并給出對應的處理方式。通過這一過程,我們也在逐步完善專家庫的建設。

      個性化運維:為不同業務“定制樂譜”

      除了基礎告警和通用類告警外,我們還涉及更多定制化的告警類型,例如海外的 JOOX 平臺告警、各業務線定制化告警、會員收入告警等。如何讓模型理解這些告警的含義,并能夠給出整體的解決思路,是我們當前重點關注的問題。


      這里的核心依然是數據,AI 與數據始終是緊密相連的。目前,我們已經構建了一套完整的數據銀行體系:從數據上報、Flink 處理,到源數據入庫,再到結合 OLAP 數據庫生成結果。

      運營數據可以由運營或 BI 同學通過 SuperSet、Chart BI 進行回收和分析;開發同學則可以通過 Grafana 進行定制化配置。同時,我們將基礎數據與自定義數據統一采集,最終在 AIOps 體系中與監控告警打通,形成整體的根因分析能力。

      例如,當我們在 JOOX 音樂平臺收到告警后,首先通過總結分析發現,某一版本的 APP 在某個城市的特定運營商處出現了大規模失敗。進一步由 AI 分析并定位到具體的運營商 IP,從而反推問題是否源于接入點覆蓋不足。

      如果確實存在覆蓋不足,我們會及時完善接入點的布局。在海外場景下,如果問題出在當地運營商本身的網絡連接,我們會下沉到當地業務,與運營商協同解決,確保中間通路順暢,提升用戶體驗。

      同時,對于業務自定義上報的告警,我們也引入了波動幅度算法進行智能分析,并結合 AI 快速判斷數據在處理過程中的異常情況。當上報數據中包含關鍵指標時,還會與基礎指標進行關聯分析。

      例如,在流量、報文量或內存上升時,進一步分析是否導致了 CPU 異常,并追蹤到具體進程及其原因,從而形成完整的數據治理閉環。

      AIOps 總結與探索

      當前,我們已基于 AI 對 SLA 體系進行了全面保障,下一步重點在以下幾個方面:


      第一,智能問答。通過問答機制提升協作效率,將“人找人”的模式轉變為“人找 AI,AI 找人”的模式,實現更高效的銜接;

      第二,自動化執行。AI 在分析中能夠給出明確結論,我們計劃基于這些結論驅動 SDK 自動化操作。針對幻覺問題,我們的思路是為 AI 提供明確結果和充足數據,禁止發散,讓其輸出針對性結論,再由系統據此執行具體動作;

      第三,算法升級。目前的波動幅度算法僅依賴當前數值進行告警判斷,未來將結合業務特性進一步優化。例如在音樂場景中,節假日或演唱會直播等活動會引起帶寬與業務量的顯著增長,需要通過 3-SIGMA 與特征提取算法結合,提升告警的準確性與有效性;

      最后,集團戰略是一體兩翼,從內容線到平臺線深度融合。同樣,我們在建設 AIOps 體系也采用“一體兩翼”的戰略:以云原生和智能分析為基礎,打造更先進、更智能的體系,讓 AI 在其中發揮更高價值。

      AI 重塑組織的浪潮已至,Agentic 企業時代正式開啟!當 AI 不再是單純的輔助工具,而是深度融入業務核心、驅動組織形態與運作邏輯全面革新的核心力量。

      把握行業變革關鍵節點,12 月 19 日 - 20 日,AICon 全球人工智能開發與應用大會(北京站) 即將重磅啟幕!本屆大會精準錨定行業前沿,聚焦大模型訓練與推理、AI Agent、研發新范式與組織革新,邀您共同深入探討:如何構建起可信賴、可規模化、可商業化的 Agentic 操作系統,讓 AI 真正成為企業降本增效、突破增長天花板的核心引擎。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      估值2億元別墅6673萬元起拍沒人要,該別墅系“中科創系”案件涉案資產

      估值2億元別墅6673萬元起拍沒人要,該別墅系“中科創系”案件涉案資產

      極目新聞
      2025-12-25 19:54:36
      震驚!網傳廣東某醫院因業績下滑,全員工資6折發,不低于2450元

      震驚!網傳廣東某醫院因業績下滑,全員工資6折發,不低于2450元

      火山詩話
      2025-12-25 18:04:47
      日本首相高市早苗:將通過推動工資、消費和企業利潤的良性循環 實現財政可持續性

      日本首相高市早苗:將通過推動工資、消費和企業利潤的良性循環 實現財政可持續性

      財聯社
      2025-12-25 13:00:06
      南博事件再升級:上層震怒,多次婉轉向龐家討要藏品,被逐一披露

      南博事件再升級:上層震怒,多次婉轉向龐家討要藏品,被逐一披露

      筆墨V
      2025-12-25 20:36:19
      官媒對劉強東的稱呼變了,3字之差釋放強烈信號,雷軍真沒說錯

      官媒對劉強東的稱呼變了,3字之差釋放強烈信號,雷軍真沒說錯

      風月得自難尋
      2025-12-25 08:12:20
      福建福安一老人疑與城管隊員起爭執被推倒后離世?警方通報

      福建福安一老人疑與城管隊員起爭執被推倒后離世?警方通報

      界面新聞
      2025-12-25 20:31:48
      養老院里的性與愛

      養老院里的性與愛

      一條
      2022-11-13 09:11:08
      大陸公安局正式向全球通告:懸賞25萬元追捕兩名臺灣籍犯罪嫌疑人

      大陸公安局正式向全球通告:懸賞25萬元追捕兩名臺灣籍犯罪嫌疑人

      科技處長
      2025-12-24 14:51:42
      央視主持人李文靜近況曝光,不戴假發好漂亮,如今51歲無兒無女

      央視主持人李文靜近況曝光,不戴假發好漂亮,如今51歲無兒無女

      180視角
      2025-12-25 14:03:54
      江蘇4家村鎮銀行獲批解散,全國已有100多家!

      江蘇4家村鎮銀行獲批解散,全國已有100多家!

      深水財經社
      2025-12-24 10:44:19
      “孩子都腺樣體了,還吃烤腸呢?”廉價早餐,暴露家長的認知低下

      “孩子都腺樣體了,還吃烤腸呢?”廉價早餐,暴露家長的認知低下

      妍妍教育日記
      2025-12-25 19:02:14
      菲律賓主動給中方發邀請,不到72小時通告全球:雙方聯手做成大事

      菲律賓主動給中方發邀請,不到72小時通告全球:雙方聯手做成大事

      書紀文譚
      2025-12-25 15:20:18
      系好安全帶!美國經濟學家預測:2026年將出現“史上最嚴重的市場崩盤”!已持續近17年的市場泡沫將會破裂,導致股市下跌90%

      系好安全帶!美國經濟學家預測:2026年將出現“史上最嚴重的市場崩盤”!已持續近17年的市場泡沫將會破裂,導致股市下跌90%

      和訊網
      2025-12-25 16:45:04
      碾壓徐杰趙睿,CBA第一后衛橫空出世,喊話中國男籃渴望加入

      碾壓徐杰趙睿,CBA第一后衛橫空出世,喊話中國男籃渴望加入

      宗介說體育
      2025-12-25 15:36:49
      姜昆在加州豪宅唱紅歌過圣誕,被嘲國內賺錢國外花,郭德綱說對了

      姜昆在加州豪宅唱紅歌過圣誕,被嘲國內賺錢國外花,郭德綱說對了

      振華觀史
      2025-12-25 19:56:03
      瘋了?朱孝天舉報五月天勾結黃牛洗錢、假唱?還曝F4合體背后隱情

      瘋了?朱孝天舉報五月天勾結黃牛洗錢、假唱?還曝F4合體背后隱情

      烏娛子醬
      2025-12-25 14:32:18
      為什么龐家敢硬剛南京博物館,龐家的底蘊你想不到

      為什么龐家敢硬剛南京博物館,龐家的底蘊你想不到

      鶴羽說個事
      2025-12-25 11:39:22
      利潤縮水68億!昔日全球第四車企被曝將停產,又一巨頭撐不住了?

      利潤縮水68億!昔日全球第四車企被曝將停產,又一巨頭撐不住了?

      品牌觀察官
      2025-12-23 22:49:13
      首批中國游客赴俄遭“天價宰殺”落地即“失聯”支付系統全面失靈

      首批中國游客赴俄遭“天價宰殺”落地即“失聯”支付系統全面失靈

      深度報
      2025-12-23 22:47:10
      蔡英文發文悼北捷案傷亡民眾,鄭麗文諷:高聲量讓賴清德芒刺在背

      蔡英文發文悼北捷案傷亡民眾,鄭麗文諷:高聲量讓賴清德芒刺在背

      海峽導報社
      2025-12-25 15:24:04
      2025-12-26 01:20:49
      InfoQ incentive-icons
      InfoQ
      有內容的技術社區媒體
      11870文章數 51653關注度
      往期回顧 全部

      科技要聞

      小米17Ultra發布,徠卡2億像素 ,6999元起

      頭條要聞

      韓國"最毒"財閥千金被捕 韓國人稱"經過她身邊就會死"

      頭條要聞

      韓國"最毒"財閥千金被捕 韓國人稱"經過她身邊就會死"

      體育要聞

      約基奇有多喜歡馬?

      娛樂要聞

      朱孝天把阿信好意當球踢!

      財經要聞

      新規來了,年化超24%的小貸被即刻叫停

      汽車要聞

      速來!智界在上海西岸準備了年末潮流盛典

      態度原創

      教育
      游戲
      時尚
      公開課
      軍事航空

      教育要聞

      雞娃的盡頭是街道辦?!東西海朝等5區公示錄取名單及生源校!

      逆水寒頂流主播沉迷倩女!三界的魅力藏不住了

      冬季穿衣別顯得太臃腫!大衣收腰、搭配圍巾,有質感又高級

      公開課

      李玫瑾:為什么性格比能力更重要?

      軍事要聞

      澤連斯基版“和平計劃”透露哪些信息

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 粗了大了 整进去好爽视频| 中文无码日韩欧| 伊人久久大香线蕉精品,亚洲国产一成人久久精品,久久99精品久久久久久三级,亚 | 无码字幕中文| 白嫩少妇丰满一区二区| 久久精品国产精品亚洲色婷婷| 久久精品中文闷骚内射| AV探花| 欧美大胆老熟妇乱子伦视频| 国产日韩久久免费影院| 少妇被粗大猛进进出出| 亚洲人人色| 日本视频一两二两三区| 蜜臀av在线播放一区二区三区| 繁昌县| 亚洲日韩在线中文字幕| 91在线观看| 亚洲欧美一区二区三区在线| 日韩无码综合| 丝袜一级A片| 亚洲欧美一区二区成人片| 少妇人妻真实偷人精品视频| 国产亚洲精品??码| 亚洲国产精品VA在线看黑人| 一区二区三区av天堂| 99热久久这里只有精品| 亚洲欧美日韩愉拍自拍| 一区二区三区导航 | 上海旅游集散中心网上订票| 久久a级片| 国产精品亚洲А∨天堂免下载 | 黑人巨大超大另类videos| 正在播放国产【乱子】| 国产看黄网站又黄又爽又色| 国产成人免费一区二区三区| 欧美国产综合欧美视频| 自拍亚洲一区欧美另类| 国产精品国产三级国产专播| 亚洲国产成人精品无色码| 泌阳县| 日本A网|