分散式資料治理打底　驅動企業商業模式創新

2022-09-01

洪羿漣

各產業競相推動數位化應用，每天連帶產生的龐大資料量，卻少有企業成功用於轉化為競爭優勢。AWS近來積極推動企業朝向資料驅動型邁進，利用雲端服務為基礎，引導客戶建立以資料驅動為戰略的管理文化。

AWS台灣暨香港專業解決方案架構師經理楊仲豪實際接觸的經驗發現，台灣企業在數位轉型過程中，多以優化工具為先，而非制度為先。欲建構資料驅動型企業，確實必須借助機器學習與人工智慧的力量來達成，但是在此之前，應優先進行辨識資料、訂定資料策略、建立快速規模化導入的能力，在雲端打造統一的資料管理基礎制度，才能讓新興技術發揮效益，提供營運業務更多拓展商機的脈絡，逐步實現以資料驅動企業創新。

跨部門協同合作解讀數據意義

從全球統計數據來看轉型成資料驅動型企業的益處，楊仲豪引述Forbes（富比士）調查報告指出，成為資料驅動型組織可讓企業增加20%的營收，同時減少30%的成本開支。同時，隨著機器學習不斷地深入到各式應用場景，IDC（國際數據資訊）預估，2023年人工智慧系統的支出將達到979億美元，相較2019年的375億美元增長2.5倍。

除此之外，在實驗階段的人工智慧產品Prototype（原型）將加速轉向實踐，Gartner預估到2024年有75%的企業從試點轉向實際營運。

資料驅動型企業發展過程中，在工作流程、人員、技能方面皆有不同挑戰。建立機器學習演算模型需要經過大數據訓練，問題是各種不同功能性的單體式應用系統皆搭配專屬資料庫獨立運行，本就呈現資料孤島狀況，加上雲端原生應用已成為當前開發主流，使得產生與存放資料的位置更加分散，以及面對國際間的GDPR等資料保護法規增多所限制，一方面需要提高機器學習演算分析準確度，同時得確認資料的安全性，因此須藉資料治理來奠定資料運用的基礎。

隨著資料量指數型成長，機器學習演算模型從實驗階段轉向實踐，但大量部署後卻發現資料處理能力不足，限制了實踐的成果。楊仲豪說明，部署後快速地蒐集即時活動資料、持續不斷的調整精準度，需要資料分析者與具備領域知識的員工協同合作，共同解讀與推理數據的正確性，如此才可讓機器學習的價值完整發揮。

四大指導方針邁向資料驅動型企業

客戶遍布全球的AWS，從實際接觸經驗歸納出四大指導方針，楊仲豪指出，亦即塑造資料驅動型企業文化、設計以敏捷為目標的組織架構、長遠思考與建構良好機制、融合大數據與機器學習並注重有效率的執行。

首先是塑造資料驅動型企業文化。諮詢公司NewVantage Partners發布2021年大數據執行調查（Big Data Executive Survey），92%領導者認為最難的是建立資料驅動的文化。楊仲豪認為，文化塑成的核心要素包含：參與、賦能、教育、消除障礙。參與方面，需要董事會高階主管參與，用數字引導決策。其次是賦能，第一線員工須把資料分享給產品研發單位，讓資料容易取得使用，根據資料鼓勵自由的採取行動。教育方面則是累積資料分析經驗為核心技能，運用相同的術語，讓不同職責的員工精準解讀績效指標。消除障礙，意即打破資料孤島，把資料視為組織資產，整合到日常工作流程，並透過文化持續地溝通來達成。

其次是設計以敏捷為目標的組織架構。組織變革茲事體大，各部門既有的管理規則已運行多年，欲改變難度相當高，因此AWS建議打造數據市集（Data Market），由一個經營市場的團隊建立平台，以簡化上架流程，並且經常舉辦推廣活動，讓每個員工都理解如何運用平台來分享數據與挖掘到的知識。

第三是長遠思考與建構良好機制，用以奠定資料驅動型企業的願景，得從定義衡量指標、為賦能建立治理規則、確保資料品質來著手。最後是融合大數據與機器學習並注重有效率的執行，則需要基於統一融合的治理執行實作。

改以視覺化方式執行資料探索

企業應用系統的資料型態，不僅只有傳統的資料庫、非結構化檔案，人工智慧結合物聯網（AIoT）應用場景變多，例如穿戴式裝置、車聯網等，須即時地蒐集、彙整、運算分析，得仰仗大數據與機器學習技術實作，才有機會做異常檢測、貼標籤以精準辨識身份別、從資料中挖掘潛在客戶，進而增進推薦與搜索機制，更重要的是排列時間序，方能掌握市場動向，並且調整因應對策。

AWS台灣暨香港專業解決方案架構師經理楊仲豪提醒，機器學習演算模型，一定要攜手領域專家共同建構，才有能力判斷演算模型推理結果能否適用於實際應用場域。

大數據資料支援實作機器學習技術，演算法模型產生的數據，再回饋用以改善時間序列預測。整個過程，必須以資料治理為基礎，把資料予以分類，才可清楚掌握到資料工作流程。建立資料共用規則、存取許可權控管、減少重複工作，以便於開發及流程編排不受資料孤島限制。楊仲豪強調，機器學習演算模型，一定要攜手領域專家共同建構，才有能力判斷演算模型推理結果能否適用於實際應用場域。

以實際應用案例說明，專案目的是增進消費者個人化行銷，市場營運者需要蒐集穿戴裝置產生的資料了解用戶行為、喜好，達到精準行銷，進一步介接電商平台的訂單系統促進消費。該如何滿足資料許可權要求，同時實現多資料來源的資料探索與蒐集？楊仲豪說明，可運用Amazon Athena資料聯合查詢機制，介接Amazon EMR商品訂單、Amazon Aurora商品資料、Amazon DynamoDB會員系統、Amazon Redshift營運資料，跨關聯式資料庫、非結構資料、物件儲存、大數據系統或自訂資料來源，實現聯合查詢與加工，不論資料來源管道為地端或雲端，皆可執行資料的即時探索以及複雜的機器學習。

Amazon Lake Formation統一了許可權的控管，許可權的控管精細度直達儲存格層級，亦能統一控管S3資料湖存取權限，同時可整合大數據、機器學習服務，跨帳號共用資料表數據。此外，基於雲端平台建構的商業智慧（BI）服務Amazon QuickSight，已深度整合SageMaker機器學習模型預測能力，若第一線業務人員只是想要驗證想法的可行性，便可藉由Amazon Glue DataBrew服務，無須撰寫程式碼，以視覺化方式執行資料探索和加工，輔助建構機器學習模型，降低進入門檻，讓前線員工增進市場洞察力。