Intel Xeon E7 v2 NEC Express 5800 NEC RAS

自動偵測容錯預防故障 著重RAS穩定更可靠

2014-09-02
現今許多關鍵任務以及虛擬化環境對於運算力以及記憶體資源都相對吃重,但也同時面臨不能中斷的挑戰,為了達到RAS要求,NEC投入相當多的心力。此外,也在面板上多加了POST(Power-On Self-Test),目的就是為了讓管理人員可以在第一時間就掌握系統狀態。
企業資料量急劇增長,基礎架構的重要性也跟著攀升。今日的IT基礎架構,除了要能支援愈來愈多元且大量的資料之外,同時也要有能力快速地執行任務。而在此同時,IT基礎架構還必須具備穩定與可靠度,以因應企業需求。

台灣NEC公司IT網路平台暨Display解決方案事業群專案協理張大偉指出,RAS(Reliability、Availability與Serviceability)是NEC Express 580/A2040b在整體設計上最為著重的部分。「為了達到RAS要求,NEC投入相當多的心力。此外,也在面板上多加了POST(Power-On Self-Test),目的就是為了讓管理人員可以在第一時間就掌握系統狀態。」

NEC Express 5800/A2040b同樣是基於Xeon E7 v2處理器共通的規格,可搭載Intel Xeon E7-4800 v2與E7-8800 v2系列處理器,最高可支援到8顆2.5吋SAS或SSD硬碟。記憶體數量則為64個Memory DIMM,另外還可提供16個PCIe插槽。


▲CPU Core Predictive Failure Analysis(PFA)and De-allocation這項技術可深入到處理器核心,當系統自動偵測到其中一個核心出現故障時,會自動把核心關閉(disable),而將設定用來備用的核心取代這個故障的核心。(資料來源:NEC)

他提到,「如果只看這些規格數字,大抵上在多數的同等級伺服器內都可做到,但是NEC更強調企業等級RAS要求。包括CPU Core Predictive Failure Analysis(PFA)and De-allocation、Dynamic Memory Page De-allocation以及MCA Recovery等功能,現今都已應用到NEC Express 5800/A2040b中。」

不同於以往伺服器針對單顆處理器故障而設計的保護機制,在CPU Core PFA and De-allocation這項技術中,則是深入到處理器核心,當系統自動偵測到其中一個核心出現故障時,會自動把核心關閉(disable),而將設定用來備用的核心取代這個故障的核心。張大偉提到,由於是自動偵測,因此在伺服器真正發生故障之前,就可以以備用的核心來取代有異常的核心,真正做到預防的措施。

「同樣地,針對Memory也深入到Memory Page中的每一個bit。」他解釋,記憶體是一個連續性的空間,遇到故障時避開不用是常見的作法,但若單一記憶體DIMM中有多個空間壞掉時,資料儲存過程中就不連續,進而導致效能降低。Dynamic Memory Page De-allocation可以有效改善這個問題,但是須配合Memory Mirror才能做到。


追蹤我們Featrue us

本站使用cookie及相關技術分析來改善使用者體驗。瞭解更多

我知道了!