Data Fabric DataOps Data Catalog metadata ETL Data Warehouse Data Lake

分散式資料虛實整合治理 自助分析數據同步市場脈動

Data Fabric貫串多雲 掌握量化指標更即時

2022-09-06
在數位轉型時代,資料已成為企業創新與維持競爭優勢不可或缺的燃料,藉由科學化分析數據來提高敏捷性,以及時回應瞬息萬變的市場需求。隨著疫情加速物聯網等新興數位應用模式盛行,混合/多雲、邊緣運算成為現代化IT架構的樣貌,營運相關資料呈現指數級增長且分散,使得資料治理(Data Governance)成為各產業共同需面對的課題。

對此,全球IT領域興起採取Data Fabric架構設計的資料管理模式,其技術涵蓋資料目錄(Data Catalog)、Metadata管理與分析、擷取資料管道(Pipeline)、編排(Orchestration)等,確保資料消費者(Data Consumer)可在正確的時間、以簡易的方法取得正確的資料。搭配DataOps方法論輔助落實,便可建立自動化與協同作業環境,提高人員、流程、技術的敏捷性,在符合法規的前提下,增進第一線員工業務洞察力,採取行動以提高營運效率、創造價值。

整合員工、流程與技術建構最佳協作

Data Fabric架構之所以得到企業青睞,台灣IBM客戶成功副總經理胡育銘觀察,主要因素在於現代化應用部署環境以雲端為優先已成趨勢,再加上資料量成長速度增長超過預期,企業IT勢必得具備彈性擴充機制才有能力因應,傳統地端部署的資料管理架構已逐漸失去效益。

過去十年,企業IT為了實現資料統一管理,針對既有的ERP(企業資源規劃)、MRP(物料需求規劃)、CRM(客戶關係管理)、供應鏈系統等原本就部署在資料中心的特定功能應用系統,將其後端的關聯式資料庫利用ETL(Extract-Transform-Load)工具存放到線上資料分析處理(OLAP)的資料倉儲(Data Warehouse)系統中。

至於非結構化資料,則是建置Hadoop系統執行蒐集與彙整大數據(Big Data)或資料湖(Data Lake)。但隨著雲端平台的工作負載數量增加,再加上人工智慧(AI)應用日漸普及,將需要更豐富的資料來實作,否則若缺乏完善資訊架構,人工智慧應用產出的數據恐大幅失準。

胡育銘說明,如今Data Fabric架構可說是進化的第一步,藉由引進DataOps方法論,整合員工、流程與技術以達成最佳協作,讓所有執行資料相關工作者,例如資料分析師、資料科學家、資料工程師、IT人員,都能利用自動化的力量,解決資料存取、準備、整合,以及獲取資料相關操作效率不彰的問題。

應用場景多元推動資料管理再進化

過去因應商業需求建置的應用遵循三層式(呈現層、應用程式層、資料層)架構,演進到數位化世代反而形成資料孤島(Data Silos)。

對此HPE慧與科技技術規劃處副總經理范欽輝認為,最顯而易見的原因是以往並無資料分享需求,另一項重點則在於法規限制。企業若無法滿足法規要求的安全性,例如檔案加解密、存取控管、可供稽核的記錄等機制,甚至依據存取者身份提供明碼欄位資料的動態資料遮罩(Dynamic Data Masking)機制,便不敢輕易將資料彙整到共用平台。

資料管理方式從資料倉儲、大數據、資料湖,演進到Data Fabric,這麼多名詞或許讓人感到困惑,實際上這四種技術的目的是為了解決不同的問題,無法相互取代。范欽輝說明,當前企業關鍵應用系統仍仰賴資料倉儲輔助日常營運商業決策,在既有的工作流程中執行,保證準確、穩定的資料處理,缺點是較難以應付變動性。

隨著資料量快速增長,市場上開始出現大數據技術,以卸載並降低資料倉儲的高成本負擔,同時保存更多類型的非結構化資料,進而能運用機器學習演算模型運行分析,輔助營運決策與挖掘更多有價值的資訊。演進至今,機器學習與人工智慧已然成為顯學,為確保最終訓練完成的模型準確度,餵入的大數據須經過清理與篩選,保障資料品質。在此之前,不論任何來源的資料都得先行收容到單一平台,也就是資料湖,以彈性地擴充來存放營運產生的資料。例如HPE GreenLake雲端服務,為內部部署與邊緣運算環境提供「即服務(as-a-Service)」的擴充模式。

數位化應用場景與日俱增,在自駕車、機器人、擴增實境(AR)╱虛擬實境(VR)等對於網路傳輸延遲性、資料傳輸頻率要求較高的應用場景中,邊緣運算成為當前共通的部署模式,以便即時地運算處理與分析資料,但也使得資料分散存放在各個邊緣環境,因而催生出Data Fabric擴展資料擷取能力,輔助探索與商業分析之用。

利用抽象層串連異質平台資料

因應資料分散化的趨勢,Data Fabric從底層技術架構翻新,採用一個抽象層將資料予以虛擬化(Data Virtualization),讓儲存方式無須變更,即可輕易地取用相關資料,打破資料孤島的現況。對最終用戶而言,只要專注在取用資料輔助提升營運收入,無須理解資料究竟存在放在何處,抽象層可自動對應到相對應的資料庫欄位、文件內容。

胡育銘說明,資料虛擬化運行技術其實並不複雜。約莫十多年前,IBM DB2資料庫就已推出資料聯邦(Federation)功能,讓企業建構虛擬資料庫,例如事先指定IBM DB2資料表Mapping到Oracle資料庫的資料表,對終端用戶而言,只要透過DB2資料庫呼叫即可存取各個不同資料庫的數值與內容。

現代化應用系統轉型為雲端原生,過去單體式結構無法符合現代化需求,逐漸拆解或改以微服務為主流開發應用服務,並部署在公有雲平台環境運行,聯邦式功能也隨之演進到Data Fabric架構實作資料虛擬化,且除了雲端應用服務,亦可涵蓋企業資料中心既有的關鍵應用系統。 「以前建構資料倉儲、資料市集,甚至提供自助服務機制,主要是為了降低成本開支,讓資料得以集中化控管來設計分析邏輯。未來新的商業模式驅動下,可望做到『投入資本支出是為了賺更多錢』,提供更完善的自助服務分析機制,讓第一線員工(LOB)不再仰賴IT部門,有能力自行操作產出所需的報表。」胡育銘說。

Data Fabric受到關注的重要因素之一,亦包含讓第一線員工得以自行產製分析報表,以過去的商業智慧(BI)技術為基礎再納入人工智慧能力來實現,朝向資料民主化的目標邁進。胡育銘說明,所謂「資料民主化」用意在於讓各部門員工自助取用資料,過去無法針對資料屬性設定更多細節,藉由Data Fabric架構,讓資料擁有者可指定開放閱覽的對象,依循事前定義的控制政策與涉及敏感內容則自動增添遮罩等機制,確保符合規範。目前各家業者都正積極協助企業運用Data Fabric架構落實資料民主化,特別是存放在異質技術平台的資料,須在不影響儲存方式的前提下達到集中化控管的目的,才可讓資料創造出更多商業價值。


追蹤我們Featrue us

本站使用cookie及相關技術分析來改善使用者體驗。瞭解更多

我知道了!