人工智慧 AI AI基礎架構 機器學習 ML 軟體框架

運算與儲存須同步考量 軟硬搭配更快產生價值

降低AI導入時間曲線 完整功能框架加速旅程

2019-06-05
身處數位經濟時代,人工智慧(AI)正以前所未有的速度竄起,每一家企業都對AI深深著迷,並且試圖成為這場革命的參與者。然而,AI本身面臨著許多問題,多數企業在導入AI的過程中,多半會關心資料與應用,卻往往忽略了AI導入時間過於冗長的問題。

 

身處數位經濟時代,在大量生成且多元的資料中萃取資料價值,已經成為企業贏得競爭力的關鍵。這其中,人工智慧(AI)正以前所未有的速度竄起,每一家企業都對AI深深著迷,並且試圖成為這場革命的參與者。然而,AI本身面臨著許多問題,資料的正確性與可用性判讀、人才與技能議題等等,但除此之外,導入AI所需的時間曲線也是關卡所在。

「問題就出在基礎架構。」台灣IBM大中華區系統與硬體事業群技術顧問劉泰興指出,多數企業在導入AI的過程中,多半會關心資料與應用,然而卻往往忽略了AI導入時間過於冗長的問題,事實上,好的基礎架構框架可以加速AI旅程。他提到,台灣企業AI應用大多還只是在初步階段,尚未大規模採用。由於在導入初期,資料來源可能源自於本地或來自於各個地方,分析的需求也沒有那麼明確,因此企業多半的作法可能會先採購幾台AI伺服器小試身手,先從小專案開始執行,等模型夠成熟,也很穩定,才有會進入下一階段,大量部署到雲端。

「但是AI並不單單只有硬體基礎架構的考量,而是要從『Architecture』的角度進行思考。」他提到,AI需要基礎架構來支撐,但是這個基礎架構並不僅有硬體,而應該是一個具有完整功能的框架,在硬體之外,還能透過軟體結合硬體的特性進行優化,讓執行的速度更快,而且更快產生有價值的成果。另外,基礎架構的開放性也很重要,如此才能享用開放式創新,而不必被封閉式的方案綁定。

動態資源調整更彈性

為了協助企業更快進入AI旅程,IBM推出AI專用基礎架構-IBM Power System Accelerated Compute Server(AC922),這款設備除了搭載專為AI量身打造的POWER 9處理器外,還支援NVLink 2.0、PCIe 4.0、CAPI 2.0等傳輸介面,相較於一般PCIe 3.0的系統,能達到9.5倍(150GB/s)尖峰I/O傳輸速度。同時也是一款符合OpenCAPI架構的伺服器。

劉泰興解釋,IBM Power System AC922具有一些獨特的軟硬體設計,由於其採用的是NVLink 2.0架構,不只是GPU與GPU之間能透過NVLink高速互連,CPU與GPU之間也能透過NVLink來進行高度傳輸,因此能夠更加速執行的速度。而且還可讓應用程式將系統記憶體做為GPU記憶體充分利用,「在醫療產業的AI應用中,經常要將X光片或是影像資料進行訓練,過往這些資料只能跑在GPU自帶的記憶體上,但容量極為有限,以前的作法是將影像切割變小後再進行訓練,但是這與醫生原有的判斷行為相悖,對此IBM在TensorFlow、Caffe上提供Large Model Support(LMS),這項功能可在GPU的記憶體容量不足時,讓應用程式將系統記憶體做為GPU記憶體充分利用,如此便能解決過去解決不了的問題,加速深度學習。」

其他細節的部份還包含支援多租戶,可彈性調整多GPU執行資源,他提到,有些AI專案需要分散式運算多節點同時執行,IBM也提供軟體來加以實現,而且還能因應專案要求動態資源調整,「假設A專案需要4台伺服器的資源,但企業現有新增了B專案,而且較為緊急,這時就可以從A專案中分出2台伺服器的資源來執行B專案,或是原本專案因應需求而需要再加4台伺服器的資源時,都可以進行動態調整。開源方案雖然能夠做到分散式訓練,但卻沒有辦法動態調整,這便是差異之處。」

用資料湖杜絕儲存孤島

另外,在儲存方面,如何取得、移動、管理與保護資料也是基礎架構中必須加以考量的關鍵,如果沒有提供統一管理整體資料的流程管線,可能會導致無法適時獲取資料,形成儲存孤島而影響到AI專案的進行,而且資料若是在不同階段都必須以副本形式處理,不僅造成浪費,管理與保護也是一大難題。

劉泰興觀察,企業對AI雖然有諸多關注,但很多企業並不知道AI可以做些什麼,大部份的情況是做中學。公司成立了一個計畫,開始採購GPU伺服器,然後思考公司內部現有的資料可以學習哪些模型,資料複製後在A演算法訓練,然後再儲存到另一個空間,就基礎架構的角度來看,將形成很多儲存孤島,而且也會導致資源浪費。當企業有很多的副本,管理就會變得混亂且複雜,另外,資料遷移本身也需要花費許多的成本與時間。

這也是為何在完整的架構中,IBM會建議以資料湖的概念為基礎,將所有資料的收集、分析、訓練與推論,全都在一個儲存池中完成。企業可以依照需求存放在快閃儲存、物件儲存或是磁帶中。這個架構還可以因應將來的混合雲架構,透過IBM混合雲機制,將資料階層儲存到雲端上。

他強調,部署AI很簡單,只要有台伺服器,採購GPU加速卡,就能執行簡單的AI專案,但真正管用的AI應該要有更完整的架構,原因在於,AI基礎架構很難有正確的評估。雖然IBM能提供一些AI參考架構的建議,但是光是認清手上握有多少資料量,就少有企業能給出答案,這也讓AI專案未來的發展情況很難掌握,「這也是為什麼一開始的基礎架構很重要,如果原來的架構就是孤島,擴充完後只會造成更多的孤島。」

培養人才加速進程

隨著人工智慧日益成熟,AI應用正逐漸落地,例如影像識別在金融業已有普遍應用,甚至應用到貸款、防詐欺、精準行銷等層面上,以金融保險為例,要不要貸款,貸多少?會不會違約?過去的作法是運用數值分析,現在則可以透過機器學習與深度學習來判斷,而且收集的資料量愈多,精確度就會更高。而在製造業則常見自動光學辨識系統(AOI)來檢測良率,或是運用人工智慧來進行流程優化。另外在國外也有將AI應用於生產設備定期維護的案例,透過累積大量資料進行分析與判斷,提供維修預測,而不再像以往只能行禮如儀,每年定期保養完全憑經驗。

台灣IBM大中華區系統與硬體事業群技術顧問劉泰興指出,AI需要基礎架構來支撐,但是這個基礎架構應該是一個具有完整功能的框架,在硬體之外,還能透過軟體結合硬體的特性進行優化,讓執行的速度更快,而且更快產生有價值的成果。

劉泰興提到,現今台灣企業的另一難題是找不到懂領域知識同時又懂資料分析的人才,因此不少企業從內部培養,讓已經投入在做流程改善或資料分析的員工學習AI領域,相對會容易一些。

 


追蹤我們Featrue us

本站使用cookie及相關技術分析來改善使用者體驗。瞭解更多

我知道了!