splunk 正則表達式 資料分析 巨量資料

輕鬆面對Big Data快速掌握即時商機 用Splunk面對巨量資料

2011-10-03
資訊產業所製造出來的資料訊息量,由於成倍數暴增,已成了另一種災難。如何處理這些巨量資料,將是企業未來的一大挑戰。本文將以Splunk來因應,接收消化各種資訊,並藉由運用其獨特的「正則表達式」來進行搜尋、呈現及警告的動作。
新興技術和網路活動帶來的巨量資料(Big Data),資料的世界正進行一場撲天蓋地的改革。為了更強的競爭力,企業開始試圖掌握更多數位世界的資料,但由於現代商業活動的快速和IT服務的複雜,讓資料產出就像火山爆發一樣24小時不眠不休地噴發,首當其衝的IT部門則須銜命完成轉譯資料、篩選資料與保存資料。

但透過這種方法最後得到的,其實只有原先資料的一小部分,更多的資料不是被忽視,就是根本沒有利用。妥善運用Big Data找到更大的商機,就成了企業主現階段關切的目標。

資料收集與分析所面臨的挑戰

傳統的轉譯資料、篩選資料與保存資料只能得到資料的冰山一角,原因在於機器產生的資料沒有一定的格式,而依照發生的時間,在不同的系統或服務上留下軌跡(Time-series),內容也時常改變,要精確取得這些資料十分困難,導致大部分企業的注意力都只能放在那些已經成功擷取下來的資料上。

然而,有意改革的企業想把眼光放得更遠,因為龐大的商機就藏在這平時無法擷取的資料中,例如網頁點擊資料、行動電話基地台的定位資訊,或是虛擬服務的事件紀錄。這些資料能提供非常實用的營運情報,讓企業得以深入分析客戶使用行為、線上服務安全風險性、資源消耗的高峰時間、鑽漏洞詐騙行為,以及顧客消費經驗等。

▲何謂Big Data?

其實,想利用這些資料還有一些實務面的挑戰:
1. 資料是由許多不同的系統或服務產生;要跨越多個訊息來源才能探查這些資訊,最後找出關聯,這是個複雜的過程。
2. 機器產生的IT資料通常是非結構化的,很難融入預先定義、又結構完整的資料庫架構。
3. 時間是個關鍵,資料不斷產生和累積,數量非常龐大,要快速鎖定正確情報變得十分困難。
4. 這些情報必須即時取得,才能展現價值。

▲Big Data在哪裡?

多數的企業主並不會意識到Big Data的挑戰有多難,只知道Big Data若得到完善的處理分析,可以帶來下列的好處:

.提高營運效能。
.增加營收。
.開創新藍海– –市場白地。

▲業主心裡想的Big Data。

但對於IT人員來說,資料的收集和分析卻是一場惡夢。如果有一套系統可以不必預先正規化,並可自動分類提供多個關鍵字搜尋結果,又能即時呈現報表給企業主或是企劃人員,對於IT人員來說,就是Big Data的最佳解決方案。

Splunk為Big Data提供解決良方

以「3G行動上網數據分析」為例,每天幾T的資料量,又因上網行為的不同,造成接收的資訊格式多到難以預測。例如,智慧型手機的Apps使用和下載行為,或由網路封包得到的資訊格式就多到數不清。

這時便可利用Splunk「不須事先規劃欄位型態、定義資料長度,支援分散式部署」的特性,來接收大量各式不同的資訊,既快速、即時又簡單。

▲使用Splunk,接收、分類、呈現一次完成。

接收消化各種資訊

只要是文字檔(Text File),不論是網路設備、作業系統、應用系統,或是資料庫吐出的訊息,Splunk都可加以消化。由於Splunk核心是一個搜尋引擎,當訊息一旦被接收,Splunk便可立即進行索引與分析。 範例數據來源,是由SGSN到GGSN中間所取得的3G行動上網資訊。雖然每秒收到的資訊都差異很大,但不影響Splunk的接收及索引效率。

▲3G行動上網資訊。

搜尋、呈現和警告

搜尋及呈現皆在Splunk執行。Splunk在分類資料時,可以運用「正則表達式」來作為分類的依據。誠如範例所示,在不同的檔案中,皆有IP位置,其他如Skype、MSN、Facebook、YouTube、Watch等等。若同時下多個關鍵字搜尋,呈現的資料也會愈來愈精準,再結合原來的客戶資料,就變成商業分析資料。在3G行動上網的分析中,可以做的分析,如VoIP和原時段行動電話通話費分析,提供精算部門制定更有利公司又符合市場需求的收費方案。

▲顯示使用頻寬。


▲分析儀表板。


▲產生分析報表。


▲警告功能可針對網路頻寬進行流量監控。

Splunk的警告功能,可針對網路頻寬做流量監控。以Mail和呼叫簡訊系統Scripts,強化行動上網品質監測,強化行動用戶的忠誠度。

結語

在世界各國,已有許多行業開始重視Big Data的分析運用,除了本文範例中以某電信業者運用Splunk做行動上網行為分析外,還有網路業者運用Splunk來進行網站使用行為分析,以及醫院做系統、設備全面監控與營運分析等。

為了Big Data規劃關聯式資料庫困難、ETL速度慢而傷腦筋嗎?快把資料改放上Splunk吧!

其他相關網站
Splunk中文版網站:
http://zh-hant.splunk.com/
免費下載試用:
http://zh-hant.splunk.com/download?r=header
更多的成功案例:
http://www.splunk.com/view/SP-CAAABB2
更多解決方案:
http://www.splunk.com/solutions
各領域專家的知識寶庫:
http://www.splunk.com/?s
軟體開發者專區:
http://www.splunk.com/base/Community

<本文作者為精誠資訊協銷代理事業部技術顧問,專長在醫療應用系統研發>


追蹤我們Featrue us

本站使用cookie及相關技術分析來改善使用者體驗。瞭解更多

我知道了!