人工智慧 AI AIoT 演算法 CI/CD RPA 混合雲 DevOps 多雲 資料互通 資料清洗 邊緣 AI晶片 數位轉型 物聯網 機器學習

數據須有效存放利用 透過基礎架構加速分析取得洞察

跨越AI多雲架構限制 Data Hub打好資料體質

2020-11-03
隨著雲端以及AI技術的演進,人工智慧的IT架構早已跳脫單純的私有雲、公有雲,甚至已經從混合雲走到了多雲環境。除了資料的互動性外,微服務架構也扮演重要角色,因為容器技術能夠讓應用服務運行在任何的環境之中,讓企業能夠依據成本、安全性、Templates的適用性或是資料多寡的考量來決定應用服務適合的環境。

 

日益嚴峻的營運壓力正在驅使企業加速數位轉型,同時也帶動人工智慧(AI)市場需求攀升,根據ResearchAndMarkets預估,到了2025年,全球AI市場規模將上看3,909億美元,其中,亞太地區將可望超過北美,成為主要的區域市場。Pure Storage大中華區技術總監何與暉觀察,台灣包含醫療領域、零售業、金融服務業以及國防軍事等領域的動能都相對強勁,尤其是在醫療領域,AI不僅僅是用於預測,甚至用來追蹤、控制以及分析病毒的傳播方式。

AI助力智慧醫療基礎架構回歸資料價值

近期,Pure Storage完成了兩起AI應用相關的醫療案例。一則是用來加速舟狀骨骨折判斷,尤其人類在步入中年後,舟狀骨骨折發生機率會隨著年齡增長而提高,但該症狀在初期很難查覺,使得醫生往往需要花上許多時間來加以判斷。因此長庚紀念醫院的AI核心實驗室導入四套DGX-1系統,搭配Pure Storage以FlashBlade為資料核心的AIRI架構,作為龐大醫療資料運算的基礎設備,並且運用CLARA實現醫療影像分析來判斷舟狀骨骨折。透過AI技術,除了可以加速檢測外,也能縮短醫生判斷時間。

另一個案例則位於加拿大麥克馬斯特大學的麥卡瑟實驗室(McArthur Lab)。該實驗室主要是針對超級病菌的基因構成進行研究,其中也包括導致COVID-19傳染病的SARS-CoV 2病毒,實驗室人員將活體的COVID-19病原基因定序之後,再交給藥廠進行其他分析,以加速藥物研發腳步。該實驗室目前擁有30名研究人員,而且還與位於實驗室外,來自於世界各地的許多夥伴與同事共同進行合作研究,由於從一個病患培養出超級病毒,就必須花上3個小時,還要分析其基因組成,相當耗時。

因此,研究人員需要使用大量資料,並且同時迅速展開分析工作,但問題在於,過往這些資料大多分散儲存在各個地方。麥卡瑟實驗室決定採用Pure Storage FlashBlade方案來加速資料分析的速度,並且讓總體分析速度提升了24倍。過去一個檢驗需要花上兩天的時間,現今只需要2到3小時即可完成,當檢驗的速度愈快,對病患也就愈有利。尤其,COVID-19已奪走全球百萬人以上的生命,唯有更快地產生結果,才有機會挽救更多人的生命。

「這兩個案例看似都在著眼運用AI解決醫療問題,但背後其實與基礎架構息息相關。如何收集資料、運用工具,並且加以分析,最終把結果回歸到醫療身上。」何與暉認為,在AI的應用場景中,如何存放以及有效地利用資料、如何透過基礎架構加速分析或取得洞察都非常關鍵。

多雲架構更重資料透通管理

隨著雲端以及AI技術的演進,人工智慧的IT架構早已跳脫單純的私有雲、公有雲,甚至已經從混合雲走到了多雲環境。企業可能為了因應法規或政策要求而在內部自建AI基礎架構,但資料經去識別化後,基於成本考量,可能會優先選擇公有雲提供的AI工具,先在雲端建立測試環境,進行概念驗證。又或者選擇把AI推論與模型訓練分別部署在兩朵不同的公有雲上。

「在這種情況下,資料的互通性就非常重要。舉例而言,當企業在AWS上完成模型訓練,接下來的推論卻要在GCP上運作時,如何讓兩邊的資料能夠溝通,是企業在設計多雲架構的初期就必須設想好的策略環節。」他接著說明,除此之外,是否具備自動化機制也很重要。倘若所有的流程與動作都需要人力或由IT人員自行設計與管控,維護與管理就會變成龐大的負擔,多雲架構也會失去其意義,最好的作法是設計自動化機制,如此一來,才能做到資料的透通與管理。

「另外,微服務架構在多雲架構中也會扮演重要角色,因為容器技術能夠讓應用服務運行在任何環境之中,而且使用者不會有任何的察覺。因此,企業能夠依據成本、安全性、Templates的適用性或是資料多寡的考量來決定應用服務適合的環境。」何與暉提到,微服務的好處是可以運行在地端或是雲端,企業都不會受到綁定,而且只要定義好公有雲端的資料流,就可以透過微服務將資料一起帶過去。「Pure Storage近期併購了Portworx,其強項就是實現容器資料帶著走的願景。」

資料孤島成關卡Data Hub更利取得資訊

根據IDC去年調查,全球已經使用AI解決方案的組織中,有25%的企業回覆他們的失敗率高達五成,而缺乏熟練的員工以及不切實際的期望被認為是失敗的主要原因。何與暉坦言,確實側面聽到不少企業期待AI專案可以達到100分的效益,但是除了歸究於AI技術或演算法之外,極大部份的原因是企業的資料系統尚未為 AI做好準備,尤其對於一般的企業來說,資料分散在各個部門當中,形成資料孤島並且無法整合應用,也就導致資料無法發揮效用。建議企業應該為了AI應該先擁有(建置)一個Data Hub,並且透過一些技術或是分類方法將資料連結在一起,讓現代分析工具或是開發人員可以更輕鬆地取用這些資料,達到更好的數據利用,也可以大幅減少數據查找或是使用前重新整理所需的時間。

Pure Storage大中華區技術總監何與暉認為,在AI的應用場景中,如何存放以及有效地利用資料、如何透過基礎架構加速分析或取得洞察都非常關鍵。

儘管資料已成為21世紀的新黑金,但只有能夠被挖掘、洞察並且成為行動的資料,才是有價值的資料,否則對於企業來說,再多的資料可能也只是垃圾。資料湖的好處是可以讓企業先行進行資料清洗,確定資料真的有用後才儲存到Data Hub中。何與暉強調,「這是Data Hub可以發揮效用的地方,當架構成熟時,企業可以同時具備多個Data Hub,而成熟的企業也可以依照明確的資料治理計畫,決定資料的儲存方式以及地點,進而讓不同的部門可以按照需求取得自己所需要的資料。」特別是在多雲架構下,一旦策略或定義錯誤,很可能會形成雲端孤島或AI孤島,最簡單的方法就是把所有的資料先集中起來,當企業要轉換分析工具時,直接回到資料湖就可以取用。如同麥卡瑟實驗室案例,當時他們在轉換新的應用程式後,發現沒有辦法在最短的時間內做出最準確的判斷,原因就在於資料量不夠,後來Pure Storage協助他們把所有資料都集中化起來,才有辦法在最快的時間點回饋所需的資訊。

 


追蹤我們Featrue us

本站使用cookie及相關技術分析來改善使用者體驗。瞭解更多

我知道了!