Data Fabric貫串多雲　掌握量化指標更即時

2022-09-06

洪羿漣

在數位轉型時代，資料已成為企業創新與維持競爭優勢不可或缺的燃料，藉由科學化分析數據來提高敏捷性，以及時回應瞬息萬變的市場需求。隨著疫情加速物聯網等新興數位應用模式盛行，混合／多雲、邊緣運算成為現代化IT架構的樣貌，營運相關資料呈現指數級增長且分散，使得資料治理（Data Governance）成為各產業共同需面對的課題。

對此，全球IT領域興起採取Data Fabric架構設計的資料管理模式，其技術涵蓋資料目錄（Data Catalog）、Metadata管理與分析、擷取資料管道（Pipeline）、編排（Orchestration）等，確保資料消費者（Data Consumer）可在正確的時間、以簡易的方法取得正確的資料。搭配DataOps方法論輔助落實，便可建立自動化與協同作業環境，提高人員、流程、技術的敏捷性，在符合法規的前提下，增進第一線員工業務洞察力，採取行動以提高營運效率、創造價值。

整合員工、流程與技術建構最佳協作

Data Fabric架構之所以得到企業青睞，台灣IBM客戶成功副總經理胡育銘觀察，主要因素在於現代化應用部署環境以雲端為優先已成趨勢，再加上資料量成長速度增長超過預期，企業IT勢必得具備彈性擴充機制才有能力因應，傳統地端部署的資料管理架構已逐漸失去效益。

過去十年，企業IT為了實現資料統一管理，針對既有的ERP（企業資源規劃）、MRP（物料需求規劃）、CRM（客戶關係管理）、供應鏈系統等原本就部署在資料中心的特定功能應用系統，將其後端的關聯式資料庫利用ETL（Extract-Transform-Load）工具存放到線上資料分析處理（OLAP）的資料倉儲（Data Warehouse）系統中。

至於非結構化資料，則是建置Hadoop系統執行蒐集與彙整大數據（Big Data）或資料湖（Data Lake）。但隨著雲端平台的工作負載數量增加，再加上人工智慧（AI）應用日漸普及，將需要更豐富的資料來實作，否則若缺乏完善資訊架構，人工智慧應用產出的數據恐大幅失準。

胡育銘說明，如今Data Fabric架構可說是進化的第一步，藉由引進DataOps方法論，整合員工、流程與技術以達成最佳協作，讓所有執行資料相關工作者，例如資料分析師、資料科學家、資料工程師、IT人員，都能利用自動化的力量，解決資料存取、準備、整合，以及獲取資料相關操作效率不彰的問題。

應用場景多元推動資料管理再進化

過去因應商業需求建置的應用遵循三層式（呈現層、應用程式層、資料層）架構，演進到數位化世代反而形成資料孤島（Data Silos）。

對此HPE慧與科技技術規劃處副總經理范欽輝認為，最顯而易見的原因是以往並無資料分享需求，另一項重點則在於法規限制。企業若無法滿足法規要求的安全性，例如檔案加解密、存取控管、可供稽核的記錄等機制，甚至依據存取者身份提供明碼欄位資料的動態資料遮罩（Dynamic Data Masking）機制，便不敢輕易將資料彙整到共用平台。

資料管理方式從資料倉儲、大數據、資料湖，演進到Data Fabric，這麼多名詞或許讓人感到困惑，實際上這四種技術的目的是為了解決不同的問題，無法相互取代。范欽輝說明，當前企業關鍵應用系統仍仰賴資料倉儲輔助日常營運商業決策，在既有的工作流程中執行，保證準確、穩定的資料處理，缺點是較難以應付變動性。

隨著資料量快速增長，市場上開始出現大數據技術，以卸載並降低資料倉儲的高成本負擔，同時保存更多類型的非結構化資料，進而能運用機器學習演算模型運行分析，輔助營運決策與挖掘更多有價值的資訊。演進至今，機器學習與人工智慧已然成為顯學，為確保最終訓練完成的模型準確度，餵入的大數據須經過清理與篩選，保障資料品質。在此之前，不論任何來源的資料都得先行收容到單一平台，也就是資料湖，以彈性地擴充來存放營運產生的資料。例如HPE GreenLake雲端服務，為內部部署與邊緣運算環境提供「即服務（as-a-Service）」的擴充模式。

數位化應用場景與日俱增，在自駕車、機器人、擴增實境（AR）╱虛擬實境（VR）等對於網路傳輸延遲性、資料傳輸頻率要求較高的應用場景中，邊緣運算成為當前共通的部署模式，以便即時地運算處理與分析資料，但也使得資料分散存放在各個邊緣環境，因而催生出Data Fabric擴展資料擷取能力，輔助探索與商業分析之用。

利用抽象層串連異質平台資料

因應資料分散化的趨勢，Data Fabric從底層技術架構翻新，採用一個抽象層將資料予以虛擬化（Data Virtualization），讓儲存方式無須變更，即可輕易地取用相關資料，打破資料孤島的現況。對最終用戶而言，只要專注在取用資料輔助提升營運收入，無須理解資料究竟存在放在何處，抽象層可自動對應到相對應的資料庫欄位、文件內容。

胡育銘說明，資料虛擬化運行技術其實並不複雜。約莫十多年前，IBM DB2資料庫就已推出資料聯邦（Federation）功能，讓企業建構虛擬資料庫，例如事先指定IBM DB2資料表Mapping到Oracle資料庫的資料表，對終端用戶而言，只要透過DB2資料庫呼叫即可存取各個不同資料庫的數值與內容。

現代化應用系統轉型為雲端原生，過去單體式結構無法符合現代化需求，逐漸拆解或改以微服務為主流開發應用服務，並部署在公有雲平台環境運行，聯邦式功能也隨之演進到Data Fabric架構實作資料虛擬化，且除了雲端應用服務，亦可涵蓋企業資料中心既有的關鍵應用系統。「以前建構資料倉儲、資料市集，甚至提供自助服務機制，主要是為了降低成本開支，讓資料得以集中化控管來設計分析邏輯。未來新的商業模式驅動下，可望做到『投入資本支出是為了賺更多錢』，提供更完善的自助服務分析機制，讓第一線員工（LOB）不再仰賴IT部門，有能力自行操作產出所需的報表。」胡育銘說。

Data Fabric受到關注的重要因素之一，亦包含讓第一線員工得以自行產製分析報表，以過去的商業智慧（BI）技術為基礎再納入人工智慧能力來實現，朝向資料民主化的目標邁進。胡育銘說明，所謂「資料民主化」用意在於讓各部門員工自助取用資料，過去無法針對資料屬性設定更多細節，藉由Data Fabric架構，讓資料擁有者可指定開放閱覽的對象，依循事前定義的控制政策與涉及敏感內容則自動增添遮罩等機制，確保符合規範。目前各家業者都正積極協助企業運用Data Fabric架構落實資料民主化，特別是存放在異質技術平台的資料，須在不影響儲存方式的前提下達到集中化控管的目的，才可讓資料創造出更多商業價值。