統整痛點催生解決方案　問題排查囊括前中後

2019-10-07

余采霏

身處數位化時代，轉型已成為多數企業的策略目標，不少企業從IT基礎架構著手，從傳統架構逐漸轉向動態的混合雲環境。然而，隨著架構日益複雜，IT維運管理的重要性也與日俱增，如果管理不善，將可能造成服務品質惡化、需求回應遲鈍或是IT營運成本增加，最終將影響到企業總體的營運表現。

如果把IT應用、服務以及基礎架構比喻成一級方程式賽車，就不難想像為何IT維運如此重要，在真實的賽程中，隨時都有可能突發意外狀況，如果不能快速且智慧地處理，將可能帶來嚴重的影響，甚至無法收拾。同理，IT應用、服務以及基礎架構也是如此，一旦發生預料之外的情況，若不能立即採取應對措施，找出問題的根本原因，代價可能也會極為高昂。AIOps的出現正好用來補強傳統維運的不足之處，在現代化的IT架構之外，企業需要更主動、更敏捷的維運平台來主動發掘問題，提早預測與防範。

專為大中華區市場設計

早在2017年，IBM便意識到IT維運挑戰，推出IBM Services Platform with Watson，主要是運用Watson來建立認知服務平台，能夠協助企業自動化地修復問題、分析內容，並且提出問題解決的建議。不過，由於在大中華區SaaS模式較難被企業接受，因此IBM特別設計On-Premise方案，稱之為AIOps維運平台，其主要包含了大數據的基礎架構以及IBM研究院依據企業痛點所開發出來的演算法，目前提供時序資料分析（TS Data Analytics）、文字資料分析（Textual Data Analytics）、拓樸資料分析（Graph Data Analysis）以及事件資料分析（Event Data Analytics）。值得留意的是，這項服務雖然部署於企業內部環境，但採用訂閱模式計費，而非買斷。

囊括事前、事中與事後

IBM全球資訊科技服務事業部資訊系統規劃顧問林倩全解釋，AIOps維運平台可囊括事前、事中與事後的維運問題。事前，指的是在事情發生之前就先行解決，例如容量預測就是一個典型的應用場景。現今企業內部雖然有許多監控系統，但往往各自為政，很難落實預警，AIOps維運平台由於能夠收攏日誌、事件／告警、監控資訊以及Ticket，匯整在資料湖中，因而能夠對資料全盤分析，企業便能藉此針對系統進行容量預測，瞭解未來系統成長的狀況，以準備好未來的規劃，確保資源供應。

而事中則有多種不同的應用情境，例如事件壓縮或是根本原因的查找。以事件壓縮為例，企業內部已有許多監控機制，當系統出現異常時，就會收到事件告警通知，然而在這其中，有許多是無效的告警，若是能把這些雜訊消除，只突顯出有意義的通知，對維運成效就會有很大的幫助。事件資料分析透過演算法能過濾掉一些不重要或是與問題本質沒有關係的事件，讓企業專注在真正重要的事件。通常事件的壓縮比可從10:1至30:1不等。

而根因查找主要是用來減少問題盤查的時間。過往，維運人員需要花費很長的時間進行問題盤查，由於問題可能有許多種不同的類型，因此IBM提供了基於日誌的分析以及基於拓樸的分析，來協助企業縮短問題盤查的時間。他解釋，企業的應用服務往往是由許多不同的組件或功能組成，這中間可能涉及了很多個節點，拓樸資料分析的用意即是從錯綜複雜的脈絡中，協助企業定位問題發生機率最高的節點，如此一來，便能從該節點著手，進而減少解決問題的時間。

IBM全球資訊科技服務事業部資訊系統規劃顧問林倩全指出，企業普遍發現在排查問題的時間上都拖得很長，願意導入的企業多半面臨著系統非常不穩定、經常出狀況的挑戰，亟需更進一步的工具來協助解決。

事後的應用場景主要是服務台的應用。不少企業針對系統問題或是使用者問題，都會有匯報、追蹤、處理、報告等一連串的處理流程與機制，這些資料都是企業寶庫，透過分析這些Ticket內容，就能快速地與新問題進行匹配，如果是類似的問題出現，就能盡速且正確地派工。若是該問題已經有參考解決方案，也能轉化成自動化，減少人為的介入。目標是把一些經常發生或是用戶會重複提報的問題，用自動化的方式解決，如此就可以完全不用人員介入。

看重根因查找與預測能力

近幾年，IT大廠大力擁抱開源軟體，IBM也不例外。AIOps維運平台亦大量採用開源碼技術，舉例而言，前端包含日誌、事件／告警、監控資訊以及Ticket等資料收攏後進入到認知型資料渠道（Data Pipeline），然後依據資料屬性的不同以及即時性與否的要求將資料分派到不同的渠道去處理（Kafka），包含進行資料儲存與檢索（ELK）、資料預處理、即時模型推論（Spark）以及資料快取（Redis）等等，並將各種結構化、半結構化型態資料儲存在資料湖內不同的資料庫中，以做為模型訓練與更新之用。

例如，包含處理器、記憶體、IOPS或是使用率等與時序相關的資料就會收攏到InfluxDB，拓樸的圖形就會存放到Neo4j圖形資料庫等等，連同訓練的模型，包裝成對應的分析API提供服務，形成通用服務分析層。最終使用者有感的各式應用場景包含異常檢測、動態圖譜、根因推薦、容量預測與事件壓縮等，即是透過Orchestration層來進行協作調度通用分析層API，並以視覺化的儀表板呈現或整合至企業既有維運平台之中。

林倩全認為，IBM採用的開源技術並不特別，業界也相當常見，關鍵其實在於AIOps維運平台匯集了IBM的專家們對於問題的理解，以及研究院基於這些理解所開發出來的方案，而這才是IBM的智慧結晶。「台灣企業對AIOps感興趣的原因之一，也是因為根因查找，反而於事後的方案不太感興趣。」他提到，「企業普遍發現在排查問題的時間上都拖得很長，願意導入的企業多半面臨著系統非常不穩定、經常出狀況的挑戰，他們希望能夠有更進一步的工具來協助解決。」

而另一項企業深感興趣的原因則是預測，「不過，台灣企業普遍對維運資料的保留並不是很完整，從企業角度來看，就算沒有維運資料，也不會造成立即且明顯的影響。但如果沒有對維運資料進行妥善的保存並且建立更完善的機制，就很難運用機器學習，在過往的經驗中，不乏必須要重新打底資料收集機制的企業，原因便在於此。」林倩全強調，未來的技術會讓整個系統的粒度越來越小，這也將使得讓企業在維運以及問題排查上愈來愈困難，隨著新技術的演進與發展，AIOps可以為企業帶來更好的效益，估計未來的需求度很可能會愈來愈高。

【專題報導】：發揮AIOps潛力　推動維運革命