超融合基礎架構 災難還原 PCBR 備份 虛擬主機

無須額外添購備份軟體 PC主控台故障也能立即還原

善用Nutanix內建PCBR 快速備份還原Prism Central

2025-06-09
本文將透過深入剖析和實戰演練,讓管理人員除了能夠理解Nutanix內建的PCBR備份和還原機制外,並且實際操作PCBR持續備份機制,以及模擬PC主控台發生災難後立即進行還原,讓企業組織無須額外的備份軟體,就能輕鬆地將PC主控台進行備份和還原。

在Nutanix超融合基礎架構中,Prism Central(PC)主要擔任集中式主控台的角色,針對Nutanix超融合叢集中資源管理和調度的工作任務。此外,當小型企業或組織部署Nutanix超融合叢集時,由於運作規模不大,或許可以在不使用PC主控台情況下,僅依靠Nutanix超融合叢集中預設的Prism Element(PE),即可完成大部分的維護管理工作任務,如圖1所示。

圖1  Prism Central(PC)和Prism Element(PE)運作架構管理示意圖。 (圖片來源:What is Prism Central? | Nutanix Community)

然而,中大型企業或組織由於各項營運服務和專案不斷增強,勢必會部署多個Nutanix超融合叢集,此時便需要部署PC主控台,以便同時管理和調度多個Nutanix超融合叢集資源。

因此,在本文中,將說明及實作演練如何依靠內建的Prism Central Backup and Restore(PCBR)機制,針對PC主控台進行備份和還原的動作。

值得注意的是,在Nutanix官方文件中有特別提醒,企業組織應使用內建的PCBR機制進行PC主控台的備份還原作業,不支援使用第三方備份軟體,例如HYCU、Veeam等等,或是採用Nutanix Protection Domains機制,來試圖備份或還原PC主控台,不然將會導致PC主控台在還原後,出現資料不一致的錯誤或無法正確還原的情況。

PC主控台災難復原情境

事實上,一旦PC主控台遭遇災難或故障損壞時,Nutanix超融合叢集中,VM虛擬主機或容器及微服務等等營運工作負載,皆不受影響能夠繼續正常運作,然而失去PC主控台後,管理人員便會立即面臨無法即時管理和調度多個Nutanix超融合叢集資源的困境。

在災難情境方面,有各式各樣的情況會產生災難,例如企業組織遭受惡意攻擊、安全漏洞未即時更新遭遇攻擊、網路環境發生故障、電力供應發生故障、自然災難導致資料中心受損等等,這些災難發生時都有可能導致PC主控台故障,如圖2所示。

圖2  PC主控台遭受不同層級的災難導致故障的情況示意圖。 (圖片來源:Prism Central Resilience | Nutanix / tech center)

針對PC主控台高可用性方面,支援兩種不同的解決方案,分別是「水平擴充PC」(Scale-Out Prism Central)和「PC VM HA高可用性」(Prism Central VM hosting node High Availability)。在水平擴充PC主控台方案中,簡單來說,就是將PC主控台的VM虛擬主機,由原本單台VM虛擬主機運作的方式,水平擴充成「3台」PC主控台VM虛擬主機規模,如圖3所示。

圖3  單台PC主控台和水平擴充成三台PC主控台架構示意圖。 (圖片來源:Prism Central Architecture | Nutanix Prism Solutions Documentation)

一旦水平擴充PC主控台架構成形後,當其中一台PC主控台VM虛擬主機,在遭遇災難事件而受損無法運作時,系統將會自動在叢集中其他仍然存活的AHV成員節點中,自動重新產生一台PC主控台VM虛擬主機。

此外,如果企業在一開始部署PC主控台時,即便選擇單台PC主控台運作規模,管理人員在後續的PC主控台操作介面中,如圖4所示,也可以很容易進行水平擴充的工作任務,依序點選「Infrastructure > Settings > Prism Central Management > Scale Out PC」,在彈出的Scale Out PC視窗中,填入第二台和第三台PC主控台VM虛擬主機名稱和IP位址後,按下〔Expand〕鈕,系統便會自動進行PC主控台水平擴充工作任務。

圖4  將單台PC主控台運作規模水平擴充成三台PC主控台操作示意圖。 (圖片來源:Expanding (Scale Out) Prism Central | Prism Central Infrastructure Guide)

另一項PC VM HA高可用性方案,一旦PC主控台所處底層的AHV節點主機,發生嚴重災難事件而無法運作時,系統將會把受影響的PC主控台,在叢集中自動挑選一台仍然存活的AHV成員節點主機,自動將PC主控台VM虛擬主機重新啟動,如圖5所示。

圖5  Nutanix VM High Availability高可用性機制運作架構示意圖。 (圖片來源:Virtual Machine High Availability | Nutanix Solutions Documentation)

除了上述PC主控台高可用性機制之外,企業組織還可以搭配PCBR備份和還原機制,以便遭遇重大災難事件時(例如自然災難導致資料中心停擺),便能透過PCBR備份和還原機制,快速地在另一個備援資料中心內,將PC主控台快速地還原之後繼續運作。

PCBR備份和還原機制

在Nutanix內建的Prism Central Backup and Restore(PCBR)機制中,備份機制支援兩種方式,分別是「持續備份」(Continuous Backup)和「時間點備份」(Point-in-Time Backup)。

在持續備份機制方面,管理人員可以針對PC主控台VM虛擬主機,執行持續備份的工作任務,最多指定至3個Nutanix叢集當成備份目的地,可以達到RPO為30分鐘而RTO為90分鐘的目標,這樣的備份等級對於企業和組織來說,能夠在最短時間內快速進行災難回復作業,讓PC主控台重新上線服務。

而在時間點備份機制方面,可以為PC主控台VM虛擬主機,建立多個不同時間點的備份作業,達到RPO為2小時而RTO為90分鐘的目標,並且支援將備份資料儲存至公有雲AWS S3儲存體當中,以及擴充支援至最多30天的還原點來回復PC主控台。

PCBR備份複寫機制

在Nutanix超融合叢集運作架構中,在Prism Element(PE)和Prism Central(PC)中,皆有一個名稱為Insights Data Fabric(IDF)的資料庫,用於儲存組態設定以及基礎架構中,每個系統運作元件和服務的效能和狀態資訊,如圖6所示。

圖6  在Nutanix超融合叢集運作架構中,PC和PE都有IDF資料庫。

因此,當管理人員為PC主控台組態設定PCBR備份機制後,系統便會自動將PC主控台的IDF資料庫備份資料,每隔30分鐘便透過連接埠Port 9440,定期複寫至指定的Nutanix超融合叢集中PE IDF資料庫內,並且最多選擇三個Nutanix超融合叢集為備份目的地,如圖7所示。

圖7  PCBR備份作業啟動後,系統將自動複寫PC IDF資料庫至PE IDF資料庫。

在這樣的運作情境下,由於PC主控台VM虛擬主機運作於Cluster 1的Nutanix超融合叢集中,當Cluster 1超融合叢集因為發生重大災難事件,導致整個Nutanix超融合叢集無法運作時,連帶也造成PC主控台失效無法正常運作,此時可以透過PE管理介面,在Cluster 2或Cluster 3超融合叢集中還原PC主控台,如圖8所示。

圖8  Cluster 1及PC主控台發生災難,還原至Cluster 3超融合叢集中。

當PC主控台順利還原至Cluster 3超融合叢集中,當PC主控台正常運作,並且PCBR備份機制開始複寫備份資料時,便會同樣透過連接埠Port 9440,定期複寫至指定的Nutanix超融合叢集中PE IDF資料庫內,如圖9所示。

圖9  還原後的PC主控台,繼續定期複寫至其他PE IDF資料庫。

值得注意的是,如果後續Cluster 1超融合叢集修復錯誤重新上線後,管理人員應該確保,在Cluster 1超融合叢集中的PC主控台虛擬主機,保持關機狀態或將其刪除,否則舊有的PC主控台再度上線後,可能導致還原後的PC主控台資料混亂,甚至發生錯誤。

實戰PCBR備份還原

在開始實作PCBR備份和還原機制之前,必須先了解相關運作環境需求和限制,以避免執行備份和還原工作任務期間,因運作環境不符合需求而出現未預期的錯誤。確保Nutanix超融合叢集和PC主控台符合下列環境需求和限制:

‧一旦企業組織準備將PC主控台備份儲存於公有雲AWS S3儲存體時,採用的PC主控台版本至少要2024.1或更新版本,並且必須組態設定AWS S3儲存體生命週期和儲存策略。

‧PC主控台採用持續備份機制時,支援所有的PC主控台版本。

‧採用持續備份方式備份PC主控台時,運作的Nutanix超融合叢集至少要採用AOS 6.5.3.1或更新版本,因為PC主控台進行還原作業時,只能在AOS 6.5.3.1或更新版本的Nutanix超融合叢集復原。

‧PC主控台必須組態設定NTP對時機制,以便同步PC主控台和已註冊Nutanix超融合叢集之間的時間,如果未組態設定NTP對時機制,有可能因為時間不同步,導致備份資料不一致而發生錯誤。

‧儲存PC主控台備份資料的註冊Nutanix超融合叢集,必須採用AOS 6.0或更新版本。

‧採用時間點方式備份PC主控台時,運作的Nutanix超融合叢集至少要採用AOS 6.8或更新版本。因為PC主控台進行還原作業時,只能在AOS 6.8或更新版本的Nutanix超融合叢集中進行復原。

執行PCBR持續備份

如同上述運作環境需求和限制,管理人員登入PC主控台操作介面,在點選登入管理者帳號和About Nutanix選項後,即可查看目前採用的PC主控台版本,如圖10所示,本文實作環境採用最新釋出的PC主控台2024.3.1版本。

圖10  查看實作PCBR備份還原機制的PC主控台版本。

確認PC主控台版本符合條件後,依序點選「Cloud Infrastructure > Infrastructure > Prism Central Settings > Prism Central Management」,在此頁面中可以看到有關PC主控台各項資訊,並在下方區塊中,如圖11所示,可以看到Prism Central Backup and Restore準備組態設定PCBR備份還原機制,並選擇採用持續備份或時間點備份。

圖11  準備組態設定PCBR備份還原機制。

採用持續備份機制時,在Continuous Backup頁籤中,按下〔Protect Now〕鈕,達成RPO為30分鐘和RTO為90分鐘的備份還原策略。值得注意的是,採用持續備份機制時,一旦PC主控台發生災難事件必須執行還原作業時,管理人員只能採用距離目前時間最近的一份備份資料進行還原。

採用時間點備份機制的話,在Point-in-Time Backup頁籤中按下〔Protect Now〕鈕,達成RPO為2小時和RTO為90分鐘的備份還原策略,並且在執行PC主控台還原作業時,可以選擇可用的備份點進行還原作業。

當按下〔Protect Now〕鈕,在彈出的Protect Prism Central視窗中,系統再次提醒管理人員,執行備份工作任務中,哪些項目會執行備份,而哪些項目不會執行備份,例如VM Template、Catalog等等,確認無誤後,按下〔Continue〕鈕繼續下個備份流程。

在持續備份流程中,將會出現已經註冊的Nutanix超融合叢集清單,屆時這些被勾選的Nutanix超融合叢集將會儲存PC主控台的備份資料,可以視備份需求進行勾選,並且系統提示最多僅能勾選「3個」Nutanix超融合叢集,在本文實作環境中僅備份至單一Nutanix超融合叢集,勾選後按下〔Proceed〕鈕即可,如圖12所示。

圖12  勾選屆時儲存PC主控台備份的目的地Nutanix超融合叢集。

當按下〔Proceed〕鈕時,系統會自動把PC主控台中備份標的,立即同步至剛才所勾選的目的地Nutanix超融合叢集中,並且運作狀態將顯示為「正在同步」(Sync in Progress)。值得注意的是,建立第一次備份作業,至少需要30分鐘時間,如圖13所示,倘若採用時間點備份的話,則至少需要15分鐘時間。

圖13  系統開始自動備份並同步至選定的Nutanix超融合叢集中。

當執行完成第一次PC主控台的完整備份之後,系統每隔30分鐘,如圖14所示,便會自動地與所勾選的目的地Nutanix超融合叢集,再次同步並備份這段期間PC主控台異動的資料,倘若採用時間點備份機制,則系統會每隔2小時,自動同步並備份至公有雲AWS S3儲存體。

圖14  持續備份完整同步後,每隔30分鐘再次自動同步備份資料。

以本文實作環境來說,一開始僅將PC主控台備份至一個目的地Nutanix超融合叢集,如果後續因為專案增加或規模擴大,建立更多Nutanix超融合叢集,可以點選Add Backup,選擇將PC主控台備份同步至其他目的地Nutanix超融合叢集,當然最多僅能勾選三個目的地Nutanix超融合叢集,如圖15所示。

圖15  持續備份支援最多備份至三個目的地Nutanix超融合叢集。

又或者,企業組織因為汰舊換新或其他因素,Nutanix超融合叢集數量減少時,也可以隨時點選在目的地Nutanix超融合叢集後的Remove,並在彈出視窗中填入Remove文字,確認移除備份目的地Nutanix超融合叢集後,按下〔Remove〕鈕,即可中斷備份同步作業,如圖16所示。

圖16  中斷並移除指定目的地Nutanix超融合叢集備份同步作業。

一鍵還原PC主控台

在還原PC主控台方面,一旦使用PCBR機制備份PC主控台後,還原時能夠將PC主控台還原至AHV或ESXi叢集。此外,採用持續備份機制時,PC主控台僅能還原至已註冊的Nutanix超融合叢集,而採用時間點備份機制的話,PC主控台可以還原至已註冊和未註冊的Nutanix超融合叢集。

必須注意的是,當PC主控台還原工作任務完成後,管理人員將會發現無法立即登入和使用PC主控台,原因在於系統在PC主控台還原後,必須執行更換憑證、重新啟動IAM和Flow Virtual Networking等等基礎架構微服務,建議等待10分鐘後,待PC主控台穩定執行後,才能登入及開始使用PC主控台。

在災難復原情境中,模擬PC主控台已經無法使用,必須登入Prism Element(PE)操作介面中,並且切換至「Settings > VM > Table」,點選PC主控台VM虛擬主機,在右鍵選單中選擇「Power Off Actions > Power Off > Submit」,直接強制將PC主控台VM虛擬主機斷電。

由於已經將PC主控台VM虛擬主機斷電,切換回PE儀表板介面中,查看PE與PC主控台的連線狀態,確保連線狀態已經從剛才的Connected,變更為Disconnected中斷連線的狀態,如圖17所示,否則稍後準備執行還原作業的時候,將因為與PC主控台持續連線中,導致無法選擇持續備份的還原選項。

圖17  確保PE與PC主控台中斷連線以便進行還原作業。

依序點選「Settings > Data Resiliency > Restore Prism Central」,在還原選項中,Restore Prism Central from Prism Element選項,便是適用於持續備份的方式進行還原作業,如圖18所示,而Restore any Prism Central from S3 compatible object storage選項,則是適用於時間點備份,從公有雲AWS S3儲存體進行還原作業,選擇還原方式後按下〔Restore Now〕鈕。

圖18  持續備份方式進行PC主控台還原作業。

在系統彈出的Restore Prism Central視窗中,再次提醒管理人員,除了超過90天的Calm、Catalog、VM Templates和Metrics之外,其他PC主控台所有相關組態設定將會還原,並且系統會自動部署一台新的PC主控台,以便取代舊有已經損壞的PC主控台,確認執行還原作業,按下〔Continue〕鈕。

首先,在1. Source頁面中,在Select Backup區塊內,由於執行持續備份,所以系統將自動採用距離目前時間點最新的一份備份資料,確認後按下〔Next〕鈕。在2. Installation頁面中,顯示原本PC主控台運作在哪個Nutanix超融合叢集中,並且顯示即將還原的PC主控台版本,如圖19所示。

圖19  顯示即將還原的PC主控台版本。

在3. Configuration頁面中,顯示即將還原PC主控台的網路組態,包括使用的網段、遮罩、預設閘道、DNS名稱解析伺服器、NTP時間校對伺服器、Container儲存資源、PC主控台IP位址等等,確認無誤之後按下〔Next〕鈕。

在4. Microservices頁面中,顯示PC主控台的內部微服務使用的網域名稱,以及虛擬網路組態設定,原則上無須變更採用預設值即可。在5. Summary頁面中,則再次檢查PC主控台還原資訊是否正確無誤,確認後按下〔Restore〕鈕立即進行還原工作任務,如圖20所示。

圖20  準備執行PC主控台還原工作任務。

原則上,PC主控台還原工作任務,在PC主控台執行個體方面,大約在60分鐘至90分鐘之內還原完成,而PC主控台組態設定資料,大約需要60分鐘至120分鐘還原完畢,當然具體的還原時間,取決於PC主控台運作規模以及組態設定資料量而定,可以在Task視窗中,查看PC主控台的還原進度,如圖21所示。此外,PC主控台還原完成後,需要額外約30分鐘到40分鐘後,才能正確顯示其他VM虛擬主機效能資訊。

圖21  查看PC主控台還原進度。

在還原PC主控台期間,管理人員應考慮下列相關事項,以避免還原後的PC主控台無法順利運作,或還原後發生非預期的錯誤:

‧一旦執行PC主控台還原作業後,倘若舊有的PC主控台VM虛擬主機還處於可用狀態的話,確保舊有PC主控台處於關機狀態或將其刪除,否則舊有PC主控台一旦重新上線,有可能會導致還原後的PC主控台資料發生錯亂或資料損壞。

‧如果還原PC主控台的工作任務失敗,請連絡Nutanix技術支援,而不要再度開啟已經受損的舊有PC主控台,以避免災難事件擴大後更難以處理。

‧採用時間點備份機制時,在還原PC主控台後,建議更改預設憑證,在Prism Central Management頁面中更改S3 Bucket儲存體的預設憑證。

‧在舊有PC主控台中,若有組態設定HTTP Proxy Server或FQDN時,還原PC主控台後應重新組態設定,確保新的PC主控台能夠正確使用,並且重新套用HTTP Proxy Server或FQDN組態設定。

‧在舊有PC主控台中,若有仍在執行的計畫中復原工作任務(RPJ)時,那麼請依照Nutanix KB-10962知識庫文章內容(https://portal.nutanix.com/page/documents/kbs/details?targetId=kA00e000000LTCaCAO),將所有卡在運作狀態中的復原工作任務終止,以便進行還原PC主控台的工作任務。

‧倘若在舊有PC主控台中有啟用加密機制,應先執行「data-at-rest-encryption backup-software-encryption-keys」指令,備份加密金鑰的Secret Keys並另行存放,然後,在還原PC主控台之後執行「mantle_recovery_util」指令,還原加密金鑰的Secret Keys至新的PC主控台。

‧若是在舊有PC主控台中使用LCM Dark Site更新機制,在還原PC主控台之後,請參考Nutanix KB-17966知識庫文章內容(https://portal.nutanix.com/page/documents/kbs/details?targetId=kA0VO0000005jNt0AI)。

在本文實作環境中,花費1小時48分順利重新部署PC主控台,並成功還原PC主控台組態設定,如圖22所示。

圖22  成功透過內建PCBR機制還原PC主控台。

值得注意的是,在嘗試登入還原後的PC主控台時,管理人員將無法使用密碼登入,改為採用PC主控台預設管理密碼「Nutanix/4u」登入,就像初始部署PC主控台一樣,成功登入後便會立即請管理人員變更密碼。

<本文作者:王偉任,Microsoft MVP及VMware vExpert。早期主要研究Linux/FreeBSD各項整合應用,目前則專注於Microsoft及VMware虛擬化技術及混合雲運作架構,部落格weithenn.org。>


追蹤我們Featrue us

本站使用cookie及相關技術分析來改善使用者體驗。瞭解更多

我知道了!