Metadata資料虛擬層　AutoAI降分析建模門檻

2022-08-30

洪羿漣

產業數位化應用推動混合雲／多雲、人工智慧（AI）、物聯網與邊緣運算逐漸成為主流運行架構，產生的資料數量呈現指數成長，使得資料管理與治理複雜度變高，IBM Cloud Pak for Data雲原生平台建立的Data Fabric架構，協助企業在不搬移資料的前提下實作控管與蒐集分析，正可發揮效益，基於多雲資料存取與整合（AutoSQL）、智慧型知識型錄（AutoCatalog）、通用的資料隱私與安全（AutoPrivacy）、簡化AI開發（AutoAI）四大功能，讓異質環境的資料相互串連，確保資料隱私與安全性，更重要的是讓各種職能的資料需求者可運用資料分析建模，增進洞察力創造商業價值。

台灣IBM客戶成功副總經理胡育銘指出，根據IBM定義，Data Fabric架構為人工智慧與自動化的實踐，讓各種管道的資料建立端到端連接。實作的技術之一為資料虛擬化，較傳統ETL（擷取、轉換、載入）工具的不同，主要是整合Metadata（中繼資料）建構的虛擬層，讓既有應用系統後端的資料庫、資料倉儲、資料湖（Data Lake）、大數據平台等，皆得以由虛擬層取用，無須改變檔案存放的位置。

實現資料民主化目標

從資料處理技術演進來看，過去建立資料系統提升維運效率、資料倉儲與商業智慧（BI）分析已奠定基礎，隨著資料量成長，運用開源技術框架實現的資料湖，以統一儲存結構、非結構與半結構化檔案，有助於建立機器學習模型來解答各式問題。如今的資料目錄（Data Catalog）機制已可藉由Metadata檢索存放於資料湖的資產，搭配商業智慧工具整合人工智慧應用，可讓更多第一線員工，依據職務需求自行產製分析報表來解決問題，藉此實現資料民主化的目標。

胡育銘觀察，國際調研機構Gartner自2018年提出Data Fabric架構，實際上與IBM Cloud Pak for Data技術發展理念不謀而合。他說明，Gartner定義Data Fabric的設計是種彈性的資料管理，強調使用資料管道、服務和語意，可以跨多個資料區域，進而利用Metadata、知識圖譜、語意、機器學習來強化整合。

Data Fabric架構方法論包含六個層次，第一是管理層，負責治理與確保安全性；第二是擷取層，多管道的資料來源得以介接串連；第三是處理層，讓需求者可取得有意義的資料；第四是編排層，運用ETL工具或設定Mapping方式，讓資料保留在原地，執行轉換、整合與清理。第五是探索層，透過資料虛擬化技術，無須搬移資料即可找到，例如業務人員在操作介面上輸入「成本」的關鍵字，即可列出儲存在各個不同儲存媒體或雲端平台上的相關資料表。第六是存取層，確保存取資料者擁有正確的權限，符合當地法規規範。

他認為，Gartner定義的知識圖譜，等同於IBM設計的資料目錄，亦即將業務性術語與技術性Metadata內容相互關聯。前述舉例以「成本」為關鍵字執行搜尋，透過關聯性探索相關資料，包含資料庫欄位、非結構化檔案，相互串連自動繪製成圖。此技術可說是自助服務得以發揮效益的主要因素，讓第一線員工無須學習IT技術即可找到想要的資料。

五個使用Data Fabric 架構的角色

就目前來看，需要用到Data Fabric架構的角色，胡育銘說明，首先是系統維運者，須確定運行效能與穩定度。其次是商業分析團隊，也就是第一線員工，只要輸入關鍵字，即可取得資料。第三是資料科學家，運用系統平台建議的模型，取用原始資料執行訓練。第四是資料管家，負責描述與分類不同格式資料，較偏重由IT人員擔任。第五是資料治理、分析控管團隊，須同時懂Metadata與營運業務模式。

「IBM顧問團隊大多時間投入在資料治理，協助企業建立如同圖書館的目錄系統，必須懂得商業領域慣用的術語、IT技術等跨領域知識，為後續應用奠定基礎。」胡育銘說。

IBM Cloud Pak for Data正可提供前述五種角色在單一平台操作執行。從最終使用者的角度，解構（De-compose）使用資料、建構、編排應用的流程，擁有資料的使用者（個人／團隊）發布原始檔案，可在資料目錄分享、宣傳、通知，讓其他人取用。方式是在資料儲存庫（Data Repository）執行註冊，胡育銘舉例，底層的資料湖，被視為資料目錄中描述的單一有組織的資料集合，可讓使用者發掘、探索。若資訊擁有者未開放直接存取資料，亦可透過副本機制取用。一旦開通了資料使用權，則可探索資料沙盒（Sandbox）中的資訊並建構商業洞察力，無須再開立需求單、等待IT準備環境才得以執行，藉此可大幅縮短時程。

資料科學家運用IBM Cloud Pak for Data建構完成具有商業用途的分析模型，則可以將其部署到系統，以便定期提供商業洞察相關數據。例如產生客戶分群、使用者流失、貢獻度等數據，讓最終使用者有效率地提取資料，把時間專注在可產生商業價值的分析。

AutoAI加速醫學研究進展

IBM Cloud Pak for Data雲原生平台初期設計的理念，目的是讓DataOps藉由單一平台、基於相同語言溝通，提升協同工作的效益。胡育銘指出，實際上，整合到單一平台並非容易的事，IBM旗下擁有超過十種異質專業領域的技術，2019年全數轉化成為微服務架構，整合在IBM Cloud Pak for Data底層由Red Hat Openshift建構的Kubernetes環境。企業導入部署時，依序安裝Openshift、Cloud Pak for Data，即可啟動需要採用的服務，例如商業智慧、ETL、人工智慧等應用。

台灣IBM客戶成功副總經理胡育銘指出，未來新的商業模式驅動下，資料統一控管平台不再以降低成本開支為核心思維，將轉向投入資本支出增進營收的角度，利用現代化機器學習與深度學習演算模型輔助來實踐。

以實際應用案例來看，IBM近期發布台北榮總已在糖尿病、腎臟病、心臟病、耳科疾病等多項醫學研究中使用IBM Cloud Pak for Data內建的AutoAI功能來簡化AI開發。胡育銘說明，過去研究病理分析、疾病預防，須由助理先行蒐集大數據、選用模型，光是資料處理、資料分析，至少得花費三個月以上時間，藉由AutoAI輔助，大幅縮短為一到兩週內即可完成。

台北榮總資訊室朱原嘉博士指出，在資料蒐集、模型開發測試及驗證預測模型三階段運用AutoAI，可輔助研究者辨識重要數據的特徵、縮短資料清洗與資料萃取的時間。透過低程式碼（Low-Code）或無程式碼（No-Code）的AutoAI功能，讓機器學習自行建立並訓練多樣化模型、找出冠軍模型，節省可行性分析與嘗試錯誤的時間。並可自動生成Python程式，幫助研究者持續優化模型與重現研究結果，加速醫學研究進展。