Cognitive Assistant for Data Science Resilient Systems QRadar Advisor IBM Watson Cognitive Trusteer X-Force Bluemix BigFix 認知運算 CADS

機器學習建立知識庫精準快速判別攻擊威脅

2017-04-17

洪羿漣

隨著資訊科技持續發展前進，今日企業已可運用認知運算（Cognitive Computing）的自主學習能力，創造具備理解、推論、解答的人工智慧新應用。IBM Watson正在全球各種不同領域中開始落實，例如醫療、氣象、銀行、實體與虛擬機器人等應用，透過機器學習、自然語言處理、語意分析等相關技術，讓機器得以理解巨量資料內容，經學習轉化為知識後變身成助手。

在相當仰仗專業人力的資安領域，人工智慧與機器學習也已成為廠商競相用於輔助判別異常事件的關鍵技術。台灣IBM資訊安全事業部協理金天威指出，IBM Watson主要是從2016年開始學習資安領域相關知識，經過一年的訓練與測試，目前全球已有超過50家IBM QRadar SIEM客戶開始使用最新推出的QRadar Advisor with Watson，協助提升資安事件判定的準確率與洞察力。

此外，認知技術還進一步擴展到IBM近期推出的端點管理方案BigFix，除了基於X-Force威脅情報平台來執行惡意軟體偵測，BigFix模組也內建了先前併購取得的Trusteer技術，專門提供惡意軟體、釣魚網站等偵查，執行即時偵測、回報資訊；同時搭配IBM去年從Resilient Systems併購而來的資安事件回應技術，協助企業建立完整的事件回應處理程序。

擴增蒐集資料範疇豐富學習轉換為智慧

金天威引述IBM內部研究調查報告指出，現階段的企業資安環境，威脅手法變換速度相當快，壓低了告警的精準度；同時由於欠缺資安人力，須面對的資安相關知識卻持續增加，造成資安人才的需求與實際供給現況有相當大的落差，對此，IBM運用Watson學習能力建立人工智慧系統，得以對日常資安防禦工作提供智慧化的協助。

他進一步指出，全球資安現況亟待解決的問題，首先是情報不夠豐富，畢竟資安攻擊已無國界之分，需要有能力蒐集來自全球所產生的情報，輔助分析與預測異常行為，但市場上解決方案大多無法全面蒐集所有範疇的資訊；其次是發生資安攻擊事件時，往往難以快速地進行事件分析與回應。

▲ IBM Watson應用於資安領域，擴展資料蒐集範疇，運用機器學習演算法與自然語言處理，持續不斷建立知識庫。

目前資安防禦體系大多會蒐集Log執行事件分析，搭配網路封包解析，來掌握用戶行為、設備配置狀態、系統登入與登出等狀況。實際上，僅蒐集Log資訊與解析流量仍舊不夠，金天威認為，資安領域的巨量情資範疇，應該包含政府部門、研究機關等單位所發布的安全研究報告，或是透過部落格發表的安全事件通報，甚至是透過新聞揭露的消息，諸如此類來自公開網路環境即可取得的資料，其實都是經驗累積，通常未被納入蒐集。其中一項因素，即在於彙集的資料量若過於龐大，恐難以存放、管理，如今即可借助Bluemix雲端平台提供的Watson認知運算，從全球蒐集取得的結構與非結構化龐大資料量中學習轉化為智慧，協助資安人員有效率地處理資安問題。

機器學習持續自動化調整運算模型準確度

針對網路資安威脅，Watson已建立一套持續學習與自動化運行的程序，從IBM X-Force既有的龐大資料庫，以及網路上取得的非結構化資料，包含全球發生的攻擊行為、事後處理方式等公開訊息，再經由過濾機制與機器學習技術把非必要的資料篩除，之後基於統計資訊與關聯萃取（SIRE）安全模型，以自然語言處理（NLP）方式學習各種安全內容，持續不斷地訓練並擴大知識庫。其實IBM在人工智慧與機器學習領域發展已有相當長的時間，最知名的莫過於1997年打敗棋王的深藍（Deep Blue）超級電腦，以及2011年參加美國益智搶答電視節目，在第三輪賽事中打敗兩位冠軍的Watson超級電腦，實際展現人工智慧系統的潛力。

但機器學習技術究竟如何實作？IBM軟體事業處資深資訊工程師張寅建說明，過去學習、分析、預測的方式，主要是以事前定義特徵值為基礎，運用決策樹模型演算執行判斷；如今則是由機器從龐大資料中自行辨識，經過領域專家訓練演算模型後，再匯入新資料時，即可主動學習累積知識。

整個過程其實複雜度相當高，需要具備充足的資料量，選用演算法或訓練模型，之後經過測試確認後，部署到應用程式進行評分，再持續改善。且必須由資料庫管理者或開發者、資料科學家、實際業務部門，在不同階段中各司其職。通常最欠缺的是資料科學家，須具備統計、數學、領域知識，目前人才相當少，卻是訓練正確性模型不可或缺的關鍵。

經過訓練調校過後的模型，必須由開發者先行了解資料科學家的邏輯，並撰寫程式部署到應用程式運行。萬一資料科學家察覺失真而進行調整，開發者還要再依據調整後的邏輯部署到應用系統，如此運行一段期間後才得以精準的執行預測分析。張寅建進一步說明，因此IBM Watson把機器學習轉化成為持續性回饋的系統，運用CADS（Cognitive Assistant for Data Science）輔助自動化執行訓練與調整模型，主要是依據資料內容為模型評分，提供資料科學家選擇採用的參考依據。

Watson輔助威脅分析縮短事件回應時間

Watson應用於資安領域就如同培養一名專家，從不同管道取得的資料，經過理解、分析、學習的過程，不斷地訓練累積成為知識庫。企業不僅可基於QRadar資安防禦系統，協助執行弱點偵查、資安事件比對與分析，並且在事件發生時提供告警，或在事後進行稽核調查。亦可進一步透過QRadar Advisor接取Watson知識庫，來輔助資安管理專家有效率地找到問題的解答，或及早發現潛在威脅。

畢竟現階段多數資安專家仍舊是以人工分析威脅資料，如今則可運用Watson提供的服務，從巨量資料中萃取的知識庫搜尋，藉此幫資安專家縮短所需耗用的時間。「IBM近兩年來培養資安專家系統，從去年年底開始，陸續在企業端環境中進行驗證測試，包含機器學習、自然語言回應等功能，得到的結果是，威脅探查速度較人工調查提高60倍，可能3到5分鐘即可完成，甚至找出人工調查無法察覺的潛在漏洞。」金天威強調。