IBM Cluster 1350 大型叢集運算系統 計算平台

大型叢集運算系統 自動監控機制簡介

2012-06-06
隨著半導體科技的進步,大型叢集運算系統也應運而生。國家高速網路與計算中心(簡稱國網中心)在2006年便開始規劃建置的新一代高速計算平台,並於2007年9月1日正式上線供國網中心計算用戶使用。
國家高速網路與計算中心的IBM Cluster 1350系統,擁有512個計算節點,採用Intel Woodcrest 3.0GHz雙核心處理器,共2,048個計算核心(Core),總運算速度達到24.6 TFLOPS(理論值Rpeak為24.6 TFLOPS,實際值Rmax為19.91 TFLOPS)。

建置完成後,隨即登上第29屆Top500全球超級電腦排行榜第35名。這是台灣首度站上全球排行前35強,在亞洲國家中實力超越中國(排名43)與南韓(排名53),僅次於第14名的日本東京工業大學。

面對這麼龐大的叢集運算系統,建置一套適合的監控系統,也是相當重要的課題。適當的監控系統,不僅能減少人力的耗用,降低營運成本,也能事先偵測到系統元件故障狀況並及時修復,避免系統服務中斷或使用者資料損失,提高使用者對本中心的滿意度。

背景說明

IBM Cluster 1350驗收後的第三週,Force 10 Switch風扇散熱模組突然故障,造成252台計算節點斷線,同時半數的儲存節點也脫離叢集系統,導致IBM GPFS(General Parallel File System)檔案系統停止服務。由於應用軟體及使用者資料均存放於GPFS檔案系統上,以致整套系統無法使用,再加上當時台灣庫房缺料,雖緊急向國外調貨,但仍花了4天才讓系統恢復正常運作。

一個小小的風扇散熱模組,竟讓這麼大的系統停擺4天。所幸當時還在計算環境建置及測試階段,尚未正式開放使用。經過這次事件後,深刻體會到監控系統的重要。其實風扇散熱模組發生故障時,曾經發出告警訊息,只是當時相關人員並不熟悉網路設備管理操作,所以才會錯失處理先機。

系統架構與單點失效風險評估

在介紹IBM Cluster 1350的監控機制前,先說明一下整體系統架構及單點失效(Single Point Of Failure,SPOF)風險,以作為監控機制建置之參考。IBM Cluster 1350主要由三個子系統模組構成,包括「計算、管理及工作排程子系統」、「訊息交換網路(包含乙太網路與高速InfiniBand網路)子系統」、「儲存子系統(含光纖儲存網路)」。

主要系統架構採用集中式乙太網路,將計算、管理、工作排程及儲存系統節點連接在同一個乙太網路區域內。這種架構具有訊息交換迅速、管理便利與穩定的特性。使用者工作計算時所產生的大量運算資料,則藉由高速InfiniBand網路在各計算節點間快速傳遞。


▲IBM cluster 1350系統架構。

系統架構的原始設計是以高可用性、高安全性與高效能性三大目標進行規劃,設計原則為當各子系統部分零件發生故障時仍可讓系統持續運作,確保服務不中斷,避免單點失效狀況發生。這裡所謂「單點失效」是指某個零件故障時會造成整個系統無法正常運作,那麼這個零件就是整個系統中的Single Points Of Failure。以下為各子系統之備援設計與單點失效風險評估。

計算、管理及工作排程子系統風險評估

以下分別以計算子系統單點失效風險評估和管理子系統單點失效風險評估等等三項進行說明。

計算子系統單點失效風險評估
計算子系統包含512台IBM x3550伺服器,主要提供計算服務。任何計算節點因內部元件故障導致當機,並不會造成整個系統無法正常運作,因此單點失效風險低。

管理子系統單點失效風險評估
管理子系統包含2台IBM x3650伺服器,作為CSM(Cluster System Management)管理節點。CSM管理節點當機並不會造成整個系統無法運作,因此單點失效風險低,而且短暫的當機對正在執行工作也不會有任影響。不過,整個系統的管理工作都是透這個子系統在負責,為降低整體系統在管理面單點失效風險,備援機制規劃如下:

‧ 2台CSM管理節點,建立彼此備援機制
‧ 準備On-site及廠商台南辦公室備品

工作排程子系統單點失效風險評估
IBM Cluster 1350是採用IBM LoadLeveler軟體來控管使用者工作的執行。工作排程系統包含3台IBM x3650伺服器,其中irish1為中央管理中心(Central Manager),集中分析各節點送回的資源使用狀態,再依使用者執行工作資源需求(如CPU、Memory、使用時間等)分配排定程式執行順序及管理計算節點的執行狀態。irish2及irish3則為登入節點,使用者則透過這兩台主機進行程式的修改與編譯以及工作的派送與查詢,所以此子系統可謂是使用者與整套系統聯繫的窗口。為避免整體系統在運作時使用者工作及資源管理面臨單點失效風險,備援機制規劃如下:

‧ 2台LoadLeveler管理節點(irish1、irish2),彼此相互備援
‧ 2台登入節點(irish2、irish3),彼此相互備援
‧ 準備On-site及廠商台南辦公室備品
‧ 透過CSM集中管理訊息主動通知系統情況


追蹤我們Featrue us

本站使用cookie及相關技術分析來改善使用者體驗。瞭解更多

我知道了!