跨越AI多雲架構限制　Data Hub打好資料體質

2020-11-03

余采霏

隨著雲端以及AI技術的演進，人工智慧的IT架構早已跳脫單純的私有雲、公有雲，甚至已經從混合雲走到了多雲環境。除了資料的互動性外，微服務架構也扮演重要角色，因為容器技術能夠讓應用服務運行在任何的環境之中，讓企業能夠依據成本、安全性、Templates的適用性或是資料多寡的考量來決定應用服務適合的環境。

日益嚴峻的營運壓力正在驅使企業加速數位轉型，同時也帶動人工智慧（AI）市場需求攀升，根據ResearchAndMarkets預估，到了2025年，全球AI市場規模將上看3,909億美元，其中，亞太地區將可望超過北美，成為主要的區域市場。Pure Storage大中華區技術總監何與暉觀察，台灣包含醫療領域、零售業、金融服務業以及國防軍事等領域的動能都相對強勁，尤其是在醫療領域，AI不僅僅是用於預測，甚至用來追蹤、控制以及分析病毒的傳播方式。

AI助力智慧醫療基礎架構回歸資料價值

近期，Pure Storage完成了兩起AI應用相關的醫療案例。一則是用來加速舟狀骨骨折判斷，尤其人類在步入中年後，舟狀骨骨折發生機率會隨著年齡增長而提高，但該症狀在初期很難查覺，使得醫生往往需要花上許多時間來加以判斷。因此長庚紀念醫院的AI核心實驗室導入四套DGX-1系統，搭配Pure Storage以FlashBlade為資料核心的AIRI架構，作為龐大醫療資料運算的基礎設備，並且運用CLARA實現醫療影像分析來判斷舟狀骨骨折。透過AI技術，除了可以加速檢測外，也能縮短醫生判斷時間。

另一個案例則位於加拿大麥克馬斯特大學的麥卡瑟實驗室（McArthur Lab）。該實驗室主要是針對超級病菌的基因構成進行研究，其中也包括導致COVID-19傳染病的SARS-CoV 2病毒，實驗室人員將活體的COVID-19病原基因定序之後，再交給藥廠進行其他分析，以加速藥物研發腳步。該實驗室目前擁有30名研究人員，而且還與位於實驗室外，來自於世界各地的許多夥伴與同事共同進行合作研究，由於從一個病患培養出超級病毒，就必須花上3個小時，還要分析其基因組成，相當耗時。

因此，研究人員需要使用大量資料，並且同時迅速展開分析工作，但問題在於，過往這些資料大多分散儲存在各個地方。麥卡瑟實驗室決定採用Pure Storage FlashBlade方案來加速資料分析的速度，並且讓總體分析速度提升了24倍。過去一個檢驗需要花上兩天的時間，現今只需要2到3小時即可完成，當檢驗的速度愈快，對病患也就愈有利。尤其，COVID-19已奪走全球百萬人以上的生命，唯有更快地產生結果，才有機會挽救更多人的生命。

「這兩個案例看似都在著眼運用AI解決醫療問題，但背後其實與基礎架構息息相關。如何收集資料、運用工具，並且加以分析，最終把結果回歸到醫療身上。」何與暉認為，在AI的應用場景中，如何存放以及有效地利用資料、如何透過基礎架構加速分析或取得洞察都非常關鍵。

多雲架構更重資料透通管理

隨著雲端以及AI技術的演進，人工智慧的IT架構早已跳脫單純的私有雲、公有雲，甚至已經從混合雲走到了多雲環境。企業可能為了因應法規或政策要求而在內部自建AI基礎架構，但資料經去識別化後，基於成本考量，可能會優先選擇公有雲提供的AI工具，先在雲端建立測試環境，進行概念驗證。又或者選擇把AI推論與模型訓練分別部署在兩朵不同的公有雲上。

「在這種情況下，資料的互通性就非常重要。舉例而言，當企業在AWS上完成模型訓練，接下來的推論卻要在GCP上運作時，如何讓兩邊的資料能夠溝通，是企業在設計多雲架構的初期就必須設想好的策略環節。」他接著說明，除此之外，是否具備自動化機制也很重要。倘若所有的流程與動作都需要人力或由IT人員自行設計與管控，維護與管理就會變成龐大的負擔，多雲架構也會失去其意義，最好的作法是設計自動化機制，如此一來，才能做到資料的透通與管理。

「另外，微服務架構在多雲架構中也會扮演重要角色，因為容器技術能夠讓應用服務運行在任何環境之中，而且使用者不會有任何的察覺。因此，企業能夠依據成本、安全性、Templates的適用性或是資料多寡的考量來決定應用服務適合的環境。」何與暉提到，微服務的好處是可以運行在地端或是雲端，企業都不會受到綁定，而且只要定義好公有雲端的資料流，就可以透過微服務將資料一起帶過去。「Pure Storage近期併購了Portworx，其強項就是實現容器資料帶著走的願景。」

資料孤島成關卡Data Hub更利取得資訊

根據IDC去年調查，全球已經使用AI解決方案的組織中，有25%的企業回覆他們的失敗率高達五成，而缺乏熟練的員工以及不切實際的期望被認為是失敗的主要原因。何與暉坦言，確實側面聽到不少企業期待AI專案可以達到100分的效益，但是除了歸究於AI技術或演算法之外，極大部份的原因是企業的資料系統尚未為 AI做好準備，尤其對於一般的企業來說，資料分散在各個部門當中，形成資料孤島並且無法整合應用，也就導致資料無法發揮效用。建議企業應該為了AI應該先擁有（建置）一個Data Hub，並且透過一些技術或是分類方法將資料連結在一起，讓現代分析工具或是開發人員可以更輕鬆地取用這些資料，達到更好的數據利用，也可以大幅減少數據查找或是使用前重新整理所需的時間。

Pure Storage大中華區技術總監何與暉認為，在AI的應用場景中，如何存放以及有效地利用資料、如何透過基礎架構加速分析或取得洞察都非常關鍵。

儘管資料已成為21世紀的新黑金，但只有能夠被挖掘、洞察並且成為行動的資料，才是有價值的資料，否則對於企業來說，再多的資料可能也只是垃圾。資料湖的好處是可以讓企業先行進行資料清洗，確定資料真的有用後才儲存到Data Hub中。何與暉強調，「這是Data Hub可以發揮效用的地方，當架構成熟時，企業可以同時具備多個Data Hub，而成熟的企業也可以依照明確的資料治理計畫，決定資料的儲存方式以及地點，進而讓不同的部門可以按照需求取得自己所需要的資料。」特別是在多雲架構下，一旦策略或定義錯誤，很可能會形成雲端孤島或AI孤島，最簡單的方法就是把所有的資料先集中起來，當企業要轉換分析工具時，直接回到資料湖就可以取用。如同麥卡瑟實驗室案例，當時他們在轉換新的應用程式後，發現沒有辦法在最短的時間內做出最準確的判斷，原因就在於資料量不夠，後來Pure Storage協助他們把所有資料都集中化起來，才有辦法在最快的時間點回饋所需的資訊。