大數據資料探勘必備技能 R語言日見火紅

不論資訊科技演進如何顛覆IT的樣貌,從大型主機(Mainframe)、主從式(Client-Server)架構,發展至今的第三平台(Third Platform),雲端運算、行動化、社交網路、大數據(Big Data)分析等應用模式,「資料」始終是支持企業營運的核心命脈。

關聯式資料庫整合R實作

以實作面來看,常見的作法是建置R伺服器,把檔案與資料庫中的表單全數載入,才執行後續的統計與探勘。R得以透過JDBC介接資料庫系統,取得所需的資料表。當然,資料庫亦必須提供介接指令,讓R得以預先載入Library,例如在R伺服器上建立Oracle工具包,只要依據操作指引,輸入指令即可連線到資料庫系統。

黃久安指出,R的特性是記憶體內運算(In-memory),藉此加快處理速度,但檔案與資料表的大小則因此受限。「資料採礦大多是基於迴歸演算法,反覆地執行相同步驟,在記憶體內運行速度確實可顯著提升。因此R伺服器的規格配置相當關鍵,記憶體要夠大,否則無法執行過多的計算。但即便擴充到最大,可承載的資料量也有上限。」

為協助排除R伺服器運行過程會遇到檔案大小的限制,Oracle提出另一種作法,可直接在R的環境中輸入指令,將載入資料表的動作轉變為指定開啟,接下來的統計、資料探勘語法,只要Oracle資料庫得以辨識,即可直接在系統中運算執行,而不是交給R伺服器。基於資料庫系統的高規格硬體配置運行,才不致出現效能瓶頸。況且Oracle資料庫引擎可支援同時幾百萬筆資料的行為,記憶體若不夠用,搭配磁碟機的I/O即可,檔案再大皆可運行。

此外,Oracle資料庫也有針對Hadoop環境建立預存程序,讓用戶直接在R環境呼叫執行。「畢竟Hadoop為分散式作業系統,欲執行統計或探勘,必須改寫成HDFS格式才可運行。Oracle已預先撰寫約十?多種預存程序,讓企業用戶以授權方式選用。」黃久安說。

R語言躍升為資料分析要角

近年來本土產業相當看重大數據協助的創新營運,但是台灣微軟資深產品行銷協理邱敏珍實際接觸客戶的經驗,發現各行各業雖然都認同大數據的重要性,卻往往不知道該如何把資料轉換成有價值的資訊。自去年開始,企業端的應用才逐漸出現較清晰的輪廓。

對企業而言,大數據資料分析的目的較著重在預測。邱敏珍認為,其實大數據的關鍵價值,並非經由分析過後的資訊掌握歷史軌跡、比較現況的差異,更重要的是預測未來資料模型,並且設計對應的方案。如此概念下,落實在不同產業,即產生出各種應用情境,比如說金融業,藉此估算壽險的組合方案,針對平均壽命拉長、未婚率逐年攀升的現況,推出新的長期照護保險;或是投資部門,需要預估房價,選定地點擬定投資規畫。

「過去企業推展大數據應用,普遍會面臨亟需資料科學家協助,市場人才卻短缺的狀況。但是自從去年在客戶端推動SQL Server 2016新版本的概念驗證時,發現金融業中的精算部門員工,其實已經相當接近資料科學家的雛形,因為精算師相當清楚需要的數據,並且過去在學時期,教授大多是以R語言為基礎指導決策樹、類神經網路等預測模型,因此也懂得運用R來執行日常工作。」邱敏珍說。

商業版資料庫之所以增添對於R的支援,主要即是看重大學科系中,過去較冷門的科系,近年來變得相當熱門,錄取分數也大幅拉高。「其實R在台灣已累積許多人才,除了學校課堂上學習以外,亦有台灣R社群(Taiwan R User Group)持續推廣,成立至今已四年,微軟在收購取得Revolution R技術後接觸該社群,發現自主參與者相當多,且每個星期一固定聚會,分享實際應用R的經驗。」

邱敏珍認為,擅長運用R的人才以終端用戶居多,思維邏輯、實作等方面,與既有的資料庫管理師(DBA)不盡相同,但不代表彼此會相互取代。傳統DBA還是必須熟悉SQL語法的專業,畢竟公司內部營運資訊系統仍舊以關聯式資料庫為主。當然,若DBA同時懂得R語言,可發揮的領域將更為廣泛。如今SQL Server 2016引擎中即內建R服務,經啟用後,DBA即可透過熟悉的Transact-SQL(T-SQL)呼叫R Script執行預測模型為資料評分,或直接回傳R所繪製的視覺化圖形,以Reporting Services報表工具來呈現。


追蹤我們Featrue us

本站使用cookie及相關技術分析來改善使用者體驗。瞭解更多

我知道了!