上周在波士頓召開的Splunk Conf25大會上,Splunk及其母公司思科(Cisco)推出了思科數據經緯(Data Fabric),這是一種新的架構,旨在將機器數據轉化為人工智能的“可用燃料”。
![]()
該系統基于Splunk平臺,旨在使企業更容易、更低成本地收集、管理和分析來自服務器、網絡、應用程序和邊緣設備的巨大機器數據流。如果得到有效利用,這些數據流可以成為從訓練自定義AI模型到編排代理工作流程的所有內容的原料。
![]()
公司高管將這一發布視為Splunk發展的下一步。思科總裁兼首席產品官Jeetu Patel稱機器數據是一座“金礦”,傳統上對于人工智能來說,激活機器數據過于繁瑣和昂貴。Patel表示,新結構將Splunk在云數據分析中的原始角色擴展到了人工智能時代,為企業提供了一種使用自己的專有機器數據構建模型的方法。
分解功能
在發布時,思科和Splunk概述了數據結構的幾個新組件,展示了該架構在實踐中的工作方式。發布會上強調的功能包括:
時間序列基礎模型(TSFM):支持高級模式分析和時態分析。對時間序列數據進行推理,實現高級異常檢測、預測和思科數據結構中的自動根本原因分析。它推動主動運營,加速事件響應,并將機器數據轉化為可操作的情報信息。
統一、智能的數據基礎:無縫地跨邊緣、云和內部部署,包括SecOps、ITOps、DevOps和NetOps,轉化為實時、可操作的見解同時優化成本和效率。
無邊界實時搜索和分析:無論數據位于何處,都可以立即搜索和分析數據,跨Amazon S3、Apache Iceberg、Delta Lake(帶Spark)、Snowflake以及Microsoft Azure,同時智能地將數據路由到最合適的存儲或分析引擎用于工作負載。
推動人工智能創新:Splunk Machine Data Lake等獨特功能將提供為模型訓練和企業分析提供持久的、人工智能就緒的基礎。連同Splunk AI Toolkit和MCP服務器,這些創新有助于將機器數據轉化為先進人工智能能力的燃料來源。
全周期AI原生:在數據生命周期的每個階段(從輸入到輸出)提供內置AI以及對自我修復操作的持續監控——推動前所未有的生產力,敏捷性和創新性。
靈活、開放的架構:適應任何具有開放標準、即插即用的環境。
集成和自助服務工具:廣泛推動創新。
![]()
Splunk高級副總裁兼平臺總經理Mangesh Pimpalkare稱:“思科Data Fabric的戰略愿景最終是幫助企業為人工智能時代提供統一的運營解決方案。”這意味著統一企業如何應對跨安全、IT、DevOps和網絡團隊的運營挑戰。Pimpalkhare說,這些工作幾乎不可能用傳統的儀表板和查詢來管理。企業的復雜性,以及人工智能工具和機器數據的激增,使得解決問題變得被動和緩慢。Data Fabric背后的愿景是翻轉該模型,使用在機器數據上訓練的人工智能及早發現問題,并協助人類操作員更快地解決問題。
他解釋說,這與早期Splunk架構的不同之處在于,它是人工智能優先,而不是人類優先。之前的迭代側重于通過減少查詢數量或將其翻譯成自然語言來提高人類工作流程的效率。相比之下,Data Fabric設想的人工智能代理可以主動監控企業系統,根據每個行業或組織的獨特模式進行微調,并能夠在異常成為問題之前檢測到異常。這就是思科在談論“激活”機器數據時的意思:從被動的信息存儲轉向數據持續訓練實時監控和響應模型的系統。
這種方法的核心是Splunk機器數據湖。與將所有內容整合到一個物理存儲庫中的傳統數據湖不同,這是一個分布式數據湖,對機器數據進行編目和連接。其中一些數據可能存儲在Splunk或Cisco中,但其中大部分存儲在客戶存儲庫或Snowflake和ServiceNow等系統中。通過聯合查詢并跨這些來源構建知識圖譜,Splunk旨在讓人類操作員和人工智能代理能夠按需匯集所需的數據。
啟用此功能的是Splunk模型上下文協議(MCP)服務器,Pimpalkare將其描述為Splunk功能的自然語言接口。與過去的API非常相似,MCP為外部代理和應用程序調用Splunk函數提供了一種標準化的方法。這不僅為Splunk自己的代理AI產品提供了動力,還允許外部AI系統使用自然語言提示訪問Splunk平臺。
展望未來,Pimpalkhare認為Data Fabric將朝著三個重要方向發展。首先,采用Apache Iceberg等開放標準和接口對于整個行業的互操作性至關重要。其次,他預計特定領域模型將興起,而不是巨大的通用基礎模型。最后,他強調了客戶微調的必要性:雖然Data Fabric提供了工具包,但企業需要根據其在金融、零售和媒體等領域的獨特需求進行調整。
對于Pimpalkare來說,Data Fabric本身是思科和Splunk本周發布的最令人興奮的產品。他說:“如果我們把所有的精力都集中在一件事上,那就是Data Fabric,因為它為所有可觀察性用例、所有安全用例驅動了平臺效應,并創造了一個自然的飛輪。”
![]()
時間序列數據的基礎模型
思科數據結構最有趣的功能之一是它的時間序列基礎模型。機器數據通常以時間序列的形式出現,每分鐘或每秒收集一次指標,有時跨越數月或數年。構建一個基礎模型來解釋這些序列具有重要意義,因為它允許人工智能捕捉復雜系統的節奏和相關性,就像大型語言模型捕捉人類文本的結構一樣。
盡管LLM已經席卷了世界,但它們并不總是每個用例的答案。機器數據需要一種不同的方法。LLM可以回答與IT相關的問題,因為他們已經接受了來自互聯網的日志式數據的訓練,但他們缺乏IT和安全基礎設施系統隨時間推移的內在模式或真實行為。 “這就是為什么我們認為,對我們來說,有一個真正的領域特定模型來理解這些不同系統是如何工作的,尤其是這些系統是如何協同工作的,這一點很重要。”
將于今年晚些時候發布的時間序列基礎模型旨在捕捉這些內在模式,重點關注系統和時間之間的相關性。該模型不是預測句子中的下一個單詞,而是學習預測一系列系統讀數中的下個點。通過將大量時間序列數據分解為可管理的片段,該模型生成了捕獲底層模式的嵌入。正如GPT預測最有可能的下一個令牌一樣,Splunk的模型學習預測下一段運營數據。
但處理時間序列會帶來獨特的問題。在人類語言中,相同的單詞和規則不斷重復出現。與人類語言不同,機器數據既具有高度的重復性,又具有高度的不穩定性。在模型正式發布之前很謹慎,沒有透露太多關于模型架構的細節,但概述了團隊在構建模型時面臨的挑戰范圍。LLM通常在維基百科和書籍等相對穩定和定義明確的數據上進行訓練,但機器數據沒有規范的參考集。系統指標因工作負載而異,模式也在不斷變化。“機器一直在發明新的模式”,這使得確定時間序列數據的“語言”變得更加困難。例如,在溫度傳感器上訓練的模型將看到一組與在網絡流量上訓練的模式截然不同的模式,在不產生不穩定預測的情況下調和這種多樣性可能很困難。
另一個障礙是缺乏標記的數據集。語言模型可以利用精心策劃的知識來源,但時間序列模型必須篩選數十億個未標記的原始信號。多樣性和規模的挑戰要求團隊仔細考慮數據準備,以及哪種架構最適合這些問題。
核心方法是分層:“這幾乎就像一個分層模型,你學習一些局部結構,然后你學習這些局部結構中的一些可以拼接在一起得到更大的結構,然后逐漸引入這種粒度和規模。這就是我們將一個相當復雜的問題分解為更容易學習和處理的方法。”
盡管如此,這一過程在很大程度上依賴于數據工程。在訓練開始之前,必須清理和組織原始機器數據,這是一項資源密集型和必不可少的工作。這一經歷突顯了為什么思科Data Fabric是人工智能全景中的關鍵部分。如果Splunk自己的人工智能團隊不得不如此深入地投資于為其基礎模型準備數據,那么試圖在自己的專有數據上訓練模型的企業將面臨同樣的障礙。通過在數據結構中嵌入聯合、過濾和結構工具,思科旨在為客戶提供管理這些挑戰的工具,而無需重新發明輪子。Splunk計劃在今年晚些時候發布其方法論,并將基礎模型納入AI工具包,以便客戶可以將相同的技術應用于自己的機器數據。
![]()
Splunk作為人工智能的戰略支柱
在概述了Data Fabric背后的技術愿景后,公司高管轉向了更大的圖景:Splunk如何融入公司的未來戰略,以及自收購以來發生了什么變化。
思科于2024年3月正式收購Splunk。當時,思科總裁兼首席產品官Jeetu Patel曾承諾不會“搞砸”Splunk,以回應客戶對公司可能因新所有權而改變的擔憂。在一次新聞發布會上,Patel解釋了自收購Splunk以來,思科如何重塑其內部結構,以更好地滿足人工智能的需求。今年早些時候,該公司圍繞三個優先事項重組了團隊——人工智能就緒的數據、面向未來的工作場所和數字彈性——并將其產品工作整合到一個組織中。他說,目標是消除團隊之間的低效,確保數據和決策在整個公司內快速流動,使思科和Splunk能夠“以啟動速度、大規模地發展”。
在簡報會上,Patel重申了公司對Splunk的承諾,并指出其技術有可能重新定義人工智能為市場增值的方式。
他說:“Splunk對思科的未來具有極其重要的戰略意義。我們將堅定確保通過Splunk加快創新速度。”“你應該期待我們有更高水平的創新。我們所做的一切都將以人工智能為先,我們要解決的問題是確保人工智能成為機器數據的準備。”
![]()
與Ai時代前沿合作,將大門向更多普通用戶敞開!無論你是對新技術充滿好奇心的愛好者,還是希望提升自己技能的職場人士,這里都有適合你的課程和資源。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.