備援機房 資訊機房 第二機房 備援機制 營運持續 機房 天災

落實定期動員演練 確保災備措施成功關鍵

2013-07-26
隨著業務競爭以及服務型態的改變,關鍵系統營運不中斷已經成為企業必要的作為。異地備援機房提供一個穩定且可靠的環境,支撐備援系統運作,降低企業應用服務中斷的風險。
然而,要讓異地備援機房在關鍵時刻真正發揮作用,並不是拿TIA-942的設計規範照表操課,將機電設施和整套IT基礎設備搬進去安置到位之後,事情就會自動化實現。這中間還需要來自於技術面與維運面的措施規劃。

技術面包括能不能遠端連線、資料如何同步複製、萬一中斷時該如何處置、由誰來啟動備援機制、網路設定如何切換等等,這些都是確保資料一致性與正確性的必要作為。而維運面則得考量當災害發生時,備援中心有沒有足夠的人力與團隊可以支援,另外機房設施的定期巡檢也是固定必須執行的功課。

台達電子關鍵基礎架構事業部資料中心產品經理林士基解釋,機電設施經過一定時間之後,就會有老舊汰換的需求,如果置之不理,就等同沒有備援機制。「異地備援機房可能因為人員鮮少出入而有蛇、老鼠這類的異物跑入,另外電池、電容等消耗品也要定期檢測才會知道有沒有老化現象,定期保養的主要目的就是排除這類風險,確保機房順暢運轉。」


▲機電設施經過一定時間之後,就會有老舊汰換的需求,異地備援機房需定期保養,才能確保機房順暢運轉。(圖片來源:台達電子)

不僅規劃SOP 更要MOP與EOP

這一切俱足之後,企業還要把焦點放在管理以及演練上。宏碁?電子化服務事業群副總經理吳乙南指出,任何企業都可能遇上天災人禍,當這些突如其來的意外發生時,事前的準備、事中的緊急應變措施以及事後的處置與巡檢都應該被妥善地考量,因此企業對於異地備援機房訂定了哪些管理流程或程序,也是非常重要的環節。

▲Emerson應用工程經理陳仲倉提醒,就算企業租賃IDC機房來達到異地備援的目的,也應該向IDC業者要求察看組織架構、備援計畫。
Emerson應用工程經理陳仲倉也認同這項看法。他提到,面對突發的意外事件,企業多半都會想到訂定應變策略,例如立即將受影響的關鍵系統切換到異地備援機房重啟服務。但是當事件發生時,該如何動用人力、由誰分配工作、資源如何靈活運用,往往就不是立即應變可以設想得到的,這需要一份完善的決策與規劃。「以往企業最多只留意標準作業程序(Standard Operating Procedure,SOP),現在則要將維護作業程序(Maintenance Operation Procedure,MOP)以及緊急作業程序(Emergency Operating Procedure,EOP)也同時納入管理機制中。」

他特別提醒,就算企業租賃IDC機房來達到異地備援的目的,也應該向IDC業者要求察看組織架構、備援計畫。「當IDC機房發生意外事故時,IDC業者會如何處理?附近有無消防隊、多久可以到達、停電後可支撐多久等等,這些計畫與流程都應該確認。然後將IDC業者的SOP、MOP、EOP與企業內部的SOP、MOP、EOP相互搭配,以確保企業停機演練時,不會與IDC業者的行程有所衝突。」

演練!演練!演練!

「異地備援機房建立之後,企業該如何確立機房的可靠運作,以達到營運服務不中斷的目標?」關於這一點,所有的專家們異口同聲地說,只有勤於演練,才能熟悉流程,以便在真正關鍵時刻,成功重啟服務完成交付任務。一般來說,多半建議企業一年至少做到兩次演練。

吳乙南分享客戶經驗,他指出,部分銀行單位甚至一年舉行四次演練,二次無預警告知,二次真的啟動IT。尤其是無預警演練特別緊張,因為只有資訊長與銀行單位負責人知道何時舉行。一般來說都是選定一個假日,然後打電話動員,直接到龍潭的渴望園區集合以測試速度與時間。「執行演練真的很辛苦,但為了預防萬一,再辛苦的演練也必須執行,否則企業訂下系統恢復時間為2小時的目標,人員都到不了,自然也談不上設備重啟。」

▲IBM全球資訊科技專業服務部協理高脩哲提到,真正備援成功的關鍵因素就是不斷的演練,藉由勤奮的演練來發現問題。
IBM全球資訊科技專業服務部協理高脩哲也分享,企業有不少演練都是找來IT相關人員實際按馬表計算時間,包括多短的時間內人員可到達異地備援機房現場、多少IT人員參與,實際動員率為何、系統能不能在規定的時間內順利重啟等等,然而其實這還是不夠的,最好邀請業務相關主管來參與桌上演練。

他指出,在他的經驗中,應用服務能否承受中斷並不是IT人員說了算,有時候甚至會發生初始調查規劃時,認同可以中斷一小時的服務,當災害真正發生時,業務單位主管卻又急得跳腳,要求必須優先回復該系統運作,導致整個流程受到嚴重打亂與拖累。

「要避免這種情況發生,最好的作法是邀請業務單位參與模擬的桌面演練。」高脩哲指出,只要在會議室內,講定此次要演練的命題,說明確切可能發生的情況,例如海纜斷線,對外網路無法連線,需要中斷30分鐘才能恢復,業務同仁完全無法使用電子郵件接受訂單。諸如此類的描述,業務單位主管才能真正坐下來思考能不能承受業務中斷,而不是憑空判斷與評估,如此一來,才能擬定合宜的計畫與作業程序。

他最後強調,真正備援成功的關鍵因素就是不斷的演練,藉由勤奮的演練來發現問題。「許多IT人員因為擔心演練不成功,因此把控制變因設計得更為單純簡單。但是不成功的演練才是好的演練,藉由每次不一樣的情境,想像不同的命題,設法克服可能遭遇的問題。唯有全盤審視流程或程序有哪些缺失,才能找出鍊條的最弱環節,要找出可能發生的疏漏,就必須藉由不同情境的演練來達成,不要怕被發現有問題,如此才能一次比一次更好。」


追蹤我們Featrue us

本站使用cookie及相關技術分析來改善使用者體驗。瞭解更多

我知道了!