MLOps協同平台　加速模型建構與部署

2022-09-02

洪羿漣

隨著人工智慧／機器學習（AI/ML）日漸普及，IT市場上開始出現資料驅動的應用程式（Data-Driven Application），幫助資料科學家、演算模型開發工程師等角色協同合作，讓資料展現更多價值。為協助企業解決資料處理的難題，讓第一線員工也可操作運用資料分析，Google Cloud持續發展雲端服務，提供BigLake實作整合資料倉儲與資料湖、統一商業智慧（BI）平台，以及Vertex AI平台讓資料科學家、IT人員、開發人員等領域專家，得以協同合作執行MLOps程序。

Google Cloud台灣技術副總林書平指出，眾所周知，Google專注於建構服務，用以協助簡化「資料轉換成價值」的操作，Google Cloud生態系匯集廣告、影音、雲端服務等異質領域，研發團隊更是具備資料工程、資料科學、資料分析等新興技術人才，把困難的技術轉化為直覺易懂的介面，讓第一線員工靈活運用，實現資料驅動創新。

資料量成長倍增推動技術再進化

林書平從近兩年實際接觸客戶的經驗中發現，台灣企業在資料驅動的創新方面，普遍面臨三大挑戰，首先是過去幾十年來，資料量體成長飛快，且不同來源的異質型態或格式檔案，批次處理已無法滿足應用場景需求，須做到即時拋轉以便運行分析。此外，資料儲存位置已不限於自家資料中心，更多資料產生自分散於不同地區的雲端運算環境，企業IT難以沿用熟悉的方式彙整與管理資料。

其次是不同角色使用者與資料互動、處理的模式迥異。Google開源的TensorFlow機器學習框架與近來相當熱門的PyTorch深度學習框架，牽涉到不同程式語言，例如資料科學家慣用SQL語法運行查詢與分析，但在資料工程的工作流程中，卻更偏好建置在Apache Spark環境，以Java、C#程式語言開發。

第三個挑戰是處理資料的方法，例如物聯網應用模式的個人健康檢測，蒐集心跳、血壓、血氧等串流資料，每秒產生的資料量過大，不適合儲存到資料倉儲，通常得在當下先進行評估，判斷是否為重要的即時資料才決定儲存。

「為了協助解決前述的挑戰，Google Cloud對生態系進行整合，範疇涵蓋關聯式與非關聯式資料庫、針對資料流執行ETL、進入資料倉儲（BigQuery）等，底層則基於Data Fabric建構資料統一治理、建立模型的服務，讓前端用戶可依據需求開發應用，例如採用Vertex AI簡化人工智慧演算模型開發程序，或是運用商業智慧工具，以視覺化呈現分析數據。」林書平說。

BigLake建構「湖倉一體」環境

日前Google Cloud最新發布BigLake，發展理念是提供「湖倉一體」服務，用以降低管理的複雜度。BigLake基於BigQuery設計儲存引擎，可直接套用資料表、資料列、資料欄層級的安全性政策。以往相同的資料須搬移到異質技術環境才可應用，通常得由人力操作執行，BigLake即可省去搬移程序。

林書平說明，從整體架構來看，BigLake是運用API建構儲存層，增進存取控管安全等級。不論運行的是Spark、Presto、TensorFlow等查詢資料機制，藉由BigQuery Access扮演中介API，可讓異質系統採以統一方式執行呼叫。

BigLake底層的儲存環境結合各種類型非結構化檔案、分析完成的Metadata，同時包括BigQuery特有的Capacitor格式，抑或是檔案存放在Google Cloud Storage、AWS S3、Azure Data Lake等公有雲物件儲存環境，皆可透過BigLake API，負責資料讀取、寫入的轉譯，經過開源陣營Dataproc OSS Connector等連接器跨平台溝通。

舉例，資料若存放在AWS S3，運行在AWS平台的BigQuery Omni透過BigLake Connector溝通，可同時分析資料存放在Google Cloud Storage或S3。對於分析系統的執行程序來說，都是對應到相同的SQL陳述式，由API來轉接異質平台的讀取、寫入等動作，讓異質格式的檔案予以整合，產生統一的結果。

除了前述推出BigLake目的是讓使用者更容易地儲存、取用、分析各式的資料，Google也正式發布Live Migration，幫助從Apache HBase遷移到Cloud Bigtable，讓企業既有地端的資料遷移到雲端。Schema Translation Tool協助在Bigtable新增並即時地同步資料，透過無伺服器雲端原生實作異動資料擷取（Change Data Capture）來實踐，藉此可讓資料庫無須停機完成遷移，可達到HBase資料異動發生時，即時擷取到Cloud Bigtable。

「對於企業IT而言資料遷移茲事體大，過程中往往不希望停機。即使是資料量相當龐大，亦可透過Live Migration提供的Replication機制讓HBase與Cloud Bigtable保持同步；或者是運用快照工具，把副本匯入Cloud Bigtable同樣可行。」林書平說。

Vertex AI平台實作MLOps程序

資料工程完成後，下一步是讓各種角色的員工可取用，產製儀表板或報表來監控數據。Google Cloud日前發布統一商業智慧平台，整合Google Sheets與Looker兩大元素，讓員工可採以熟悉的Google Sheets操作介面，運用分析數據來輔助決策。

此外，Looker亦整合了Data Studio，意味著第一線員工無須撰寫程式語言，即可自行透過拖拉方式建立報表或儀表板。林書平指出，當前這類自助服務式商業智慧分析的挑戰，通常是缺少資料治理的標準，例如某團隊依據專案任務在報表呈現上定義的欄位，對於另一個團隊代表的意義可能不盡相同，若欠缺標準化的資料治理模型管理，自主服務產生的商業智慧報表恐無法精準判讀。此時，Looker除了本身具備可視化工具以外，更關鍵的是可先行協助制定基礎的資料治理模型，讓不同團隊拖拉自創報表時，能以標準欄位名稱取得資料。

Google Cloud台灣技術副總林書平指出，隨著資料量快速增長，各式來源管道蒐集資料的格式與屬性皆有差異，凸顯出資料工程的重要性，藉以為商業智慧分析奠定可信任的基礎。

針對資料科學家、IT人員、開發人員等技術專家，Google Cloud提供Vertex AI機器學習平台，協同合作執行MLOps程序。林書平說明，機器學習演算模型的旅程，從執行資料預處理與探索、新增資料集（Dataset）、訓練模型、評估、版本比較與調校，持續地循環直到確定為最佳版本，開始部署到線上應用環境發揮價值。上述整個過程即為MLOps程序，不僅開發人員須協同IT人員組成DevOps團隊，機器學習模型的開發與後續維運，也得協同IT人員組成MLOps團隊，借助Vertex AI Workbench整合不同資料服務，統一操作介面亦可支援SQL語法執行查詢。

在MLOps過程中的評估階段，須透過調校參數來確認最佳配置，每個參數都會產生新的模型，得具備版本控管以免誤配置。Vertex AI Model Registry即可協助組織控管不同模型版本，以及各自對應的Metadata與調整的參數，同時可在機器學習模型上線後，監控準確度、效能狀態等指標。