降低AI導入時間曲線　完整功能框架加速旅程

2019-06-05

余采霏

身處數位經濟時代，人工智慧（AI）正以前所未有的速度竄起，每一家企業都對AI深深著迷，並且試圖成為這場革命的參與者。然而，AI本身面臨著許多問題，多數企業在導入AI的過程中，多半會關心資料與應用，卻往往忽略了AI導入時間過於冗長的問題。

身處數位經濟時代，在大量生成且多元的資料中萃取資料價值，已經成為企業贏得競爭力的關鍵。這其中，人工智慧（AI）正以前所未有的速度竄起，每一家企業都對AI深深著迷，並且試圖成為這場革命的參與者。然而，AI本身面臨著許多問題，資料的正確性與可用性判讀、人才與技能議題等等，但除此之外，導入AI所需的時間曲線也是關卡所在。

「問題就出在基礎架構。」台灣IBM大中華區系統與硬體事業群技術顧問劉泰興指出，多數企業在導入AI的過程中，多半會關心資料與應用，然而卻往往忽略了AI導入時間過於冗長的問題，事實上，好的基礎架構框架可以加速AI旅程。他提到，台灣企業AI應用大多還只是在初步階段，尚未大規模採用。由於在導入初期，資料來源可能源自於本地或來自於各個地方，分析的需求也沒有那麼明確，因此企業多半的作法可能會先採購幾台AI伺服器小試身手，先從小專案開始執行，等模型夠成熟，也很穩定，才有會進入下一階段，大量部署到雲端。

「但是AI並不單單只有硬體基礎架構的考量，而是要從『Architecture』的角度進行思考。」他提到，AI需要基礎架構來支撐，但是這個基礎架構並不僅有硬體，而應該是一個具有完整功能的框架，在硬體之外，還能透過軟體結合硬體的特性進行優化，讓執行的速度更快，而且更快產生有價值的成果。另外，基礎架構的開放性也很重要，如此才能享用開放式創新，而不必被封閉式的方案綁定。

動態資源調整更彈性

為了協助企業更快進入AI旅程，IBM推出AI專用基礎架構－IBM Power System Accelerated Compute Server（AC922），這款設備除了搭載專為AI量身打造的POWER 9處理器外，還支援NVLink 2.0、PCIe 4.0、CAPI 2.0等傳輸介面，相較於一般PCIe 3.0的系統，能達到9.5倍（150GB/s）尖峰I/O傳輸速度。同時也是一款符合OpenCAPI架構的伺服器。

劉泰興解釋，IBM Power System AC922具有一些獨特的軟硬體設計，由於其採用的是NVLink 2.0架構，不只是GPU與GPU之間能透過NVLink高速互連，CPU與GPU之間也能透過NVLink來進行高度傳輸，因此能夠更加速執行的速度。而且還可讓應用程式將系統記憶體做為GPU記憶體充分利用，「在醫療產業的AI應用中，經常要將X光片或是影像資料進行訓練，過往這些資料只能跑在GPU自帶的記憶體上，但容量極為有限，以前的作法是將影像切割變小後再進行訓練，但是這與醫生原有的判斷行為相悖，對此IBM在TensorFlow、Caffe上提供Large Model Support（LMS），這項功能可在GPU的記憶體容量不足時，讓應用程式將系統記憶體做為GPU記憶體充分利用，如此便能解決過去解決不了的問題，加速深度學習。」

其他細節的部份還包含支援多租戶，可彈性調整多GPU執行資源，他提到，有些AI專案需要分散式運算多節點同時執行，IBM也提供軟體來加以實現，而且還能因應專案要求動態資源調整，「假設A專案需要4台伺服器的資源，但企業現有新增了B專案，而且較為緊急，這時就可以從A專案中分出2台伺服器的資源來執行B專案，或是原本專案因應需求而需要再加4台伺服器的資源時，都可以進行動態調整。開源方案雖然能夠做到分散式訓練，但卻沒有辦法動態調整，這便是差異之處。」

用資料湖杜絕儲存孤島

另外，在儲存方面，如何取得、移動、管理與保護資料也是基礎架構中必須加以考量的關鍵，如果沒有提供統一管理整體資料的流程管線，可能會導致無法適時獲取資料，形成儲存孤島而影響到AI專案的進行，而且資料若是在不同階段都必須以副本形式處理，不僅造成浪費，管理與保護也是一大難題。

劉泰興觀察，企業對AI雖然有諸多關注，但很多企業並不知道AI可以做些什麼，大部份的情況是做中學。公司成立了一個計畫，開始採購GPU伺服器，然後思考公司內部現有的資料可以學習哪些模型，資料複製後在A演算法訓練，然後再儲存到另一個空間，就基礎架構的角度來看，將形成很多儲存孤島，而且也會導致資源浪費。當企業有很多的副本，管理就會變得混亂且複雜，另外，資料遷移本身也需要花費許多的成本與時間。

這也是為何在完整的架構中，IBM會建議以資料湖的概念為基礎，將所有資料的收集、分析、訓練與推論，全都在一個儲存池中完成。企業可以依照需求存放在快閃儲存、物件儲存或是磁帶中。這個架構還可以因應將來的混合雲架構，透過IBM混合雲機制，將資料階層儲存到雲端上。

他強調，部署AI很簡單，只要有台伺服器，採購GPU加速卡，就能執行簡單的AI專案，但真正管用的AI應該要有更完整的架構，原因在於，AI基礎架構很難有正確的評估。雖然IBM能提供一些AI參考架構的建議，但是光是認清手上握有多少資料量，就少有企業能給出答案，這也讓AI專案未來的發展情況很難掌握，「這也是為什麼一開始的基礎架構很重要，如果原來的架構就是孤島，擴充完後只會造成更多的孤島。」

培養人才加速進程

隨著人工智慧日益成熟，AI應用正逐漸落地，例如影像識別在金融業已有普遍應用，甚至應用到貸款、防詐欺、精準行銷等層面上，以金融保險為例，要不要貸款，貸多少？會不會違約？過去的作法是運用數值分析，現在則可以透過機器學習與深度學習來判斷，而且收集的資料量愈多，精確度就會更高。而在製造業則常見自動光學辨識系統（AOI）來檢測良率，或是運用人工智慧來進行流程優化。另外在國外也有將AI應用於生產設備定期維護的案例，透過累積大量資料進行分析與判斷，提供維修預測，而不再像以往只能行禮如儀，每年定期保養完全憑經驗。