企業無須額外採購第三方備份軟體,IT管理人員只要利用vCenter管理平台內建的備份還原機制,便可以順利完成排程備份和還原等工作任務,並且在發生災難事件時快速還原至正常運作狀態,本文將實戰演練詳細示範其中的設定步驟。

隨著企業和組織歷經數位轉型變革過程,營運服務也從過去實體主機工作負載轉換為虛擬化基礎架構,改為運作在VM虛擬主機當中,或是將營運應用程式容器化,甚至建構在容器化基礎之上的Serverless架構。

在VMware vSphere虛擬化架構中,無論是管理VM虛擬主機和容器等工作負載,或是組態設定vSS標準虛擬網路、vDS分佈式虛擬網路、vSphere vMotion線上遷移工作負載、vSphere HA高可用性機制、vSAN HCI超融合環境等等,管理人員都可以透過vCenter Server集中式管理平台,達成有效管理和組態設定的工作任務。

雖然vCenter Server管理平台發生故障事件而停止運作時,並不會影響到線上運作的VM虛擬主機和容器等工作負載,並且vSphere HA高可用性機制仍持續運作中。然而,一旦vCenter Server管理平台發生故障並停止服務後,管理人員便無法有效管理vSphere虛擬化架構,無論是組態設定或是進階的vMotion線上遷移工作負載等等工作任務,都將因為vCenter Server管理平台故障而停擺。

因此,官方持續為vCenter Server打造各種新功能或增強功能,目的就是提升vCenter Server管理平台的SLA等級。例如,針對vCenter Server臭蟲修正、版本更新、版本升級所造成的停機時間,便透過vCenter Reduced Downtime Upgrade(RDU)新功能,讓vCenter管理平台在執行安全性更新或版本升級時,能夠將停機時間最大化縮短,在最新的vSphere 8 Update 3版本中,甚至能將版本更新或升級作業程序的停機時間限縮在5分鐘之內,如圖1所示。

圖1 vCenter Reduced Downtime Upgrade(RDU)機制說明示意圖。 (圖片來源:What’s New in VMware vSphere 8 Update 3? | VMware Cloud Foundation(VCF)Blog)

此外,一旦vCenter Server遭遇重大災難事件導致故障無法服務時,雖然可以透過先前完成的備份立即進行還原作業,但是仍有可能因為時間差的關係,導致還原後的vSphere基礎架構產生環境混亂的問題。舉例來說,管理人員設定「每天凌晨2點」為vCenter執行排程備份,但是vCenter在下午4點發生災難事件,即便立即為vCenter執行還原的工作任務,但是從凌晨2點到下午4點這段期間,整個vSphere基礎架構中仍有許多事件和各項工作負載的統計資料已經寫入到vCenter資料庫中,因此復原後的vCenter管理平台將會遺失這段期間的事件和工作負載統計資料。

對此,在新版vSphere 8版本中,推出「分散式鍵值儲放區」(Distributed Key-Value Store,DKVS)機制,如圖2所示。簡單來說,當vCenter管理平台發生災難時,這段期間發生的各項事件和工作負載統計資料,也將會儲存在vSpehre叢集中所屬的ESXi節點主機內。

圖2 Enhanced Recovery of vCenter運作架構示意圖。 (圖片來源:What's New in vSphere 8? | Lifecycle Management – Enhanced Recovery of vCenter | Vmware)

一旦vCenter管理平台完成還原作業重新上線後,會與vSphere叢集中所屬的ESXi節點主機進行通訊,將災難發生至還原作業期間的事件和工作負載統計資料取回,讓vCenter管理平台能夠迅速恢復正常運作,並取得vSphere叢集和ESXi節點主機的最新資訊。

決定備份和還原方式

雖然市場上已經有許多備份軟體廠商推出針對vCenter備份還原的產品,但是對於IT預算不多的小型企業和組織來說,即便只是備份軟體授權的費用,都讓原本就不足的IT預算雪上加霜。因此,本文中將剖析和實戰演練,透過vCenter內建的備份和還原機制,針對vCenter進行排程定期備份的工作任務,並模擬演練故障損壞事件發生時,如何透過平時的排程備份立即進行還原,讓vCenter管理平台能在最短時間內恢復正常運作。

vCenter支援兩種備份機制,第一種為「映像檔方式」(Image-Based),針對整台vCenter虛擬主機進行備份,市場上的備份軟體便是採用這種備份方式。第二種是「檔案方式」(File-Based),將vCenter管理平台中組態設定備份後,當災難發生時進行還原作業,本文的實戰便是採用此方式。

值得注意的是,倘若企業組織有為vCenter管理平台建立「增強型鏈接模式」(Enhanced Linked Mode,ELM)運作環境的話,那麼建議管理人員應採用檔案方式進行備份,而非使用映像檔方式備份。

其主要原因在於,增強型鏈接模式運作環境中,多台vCenter同時運作並互相同步及複製資料,但採用映像檔方式備份時會針對vCenter進行即時快照,一旦還原後可能會發生還原後的vCenter狀態與其他vCenter之間不同,導致SSO Domain Data發生衝突,因此建議在ELM運作環境中應採用本文實戰演練的檔案方式進行備份和還原作業。

主動備份vCenter管理平台

在開始執行自動化排程備份之前,建議先嘗試主動備份一次,確保備份工作任務能夠順利執行並完成。事實上,雖然是內建的備份機制,但是官方仍不斷增強其功能,舉例來說,在過去舊版vSphere 6.5時,備份和還原機制僅支援FTPS、HTTPS、SCP通訊協定,到了vSphere 6.7U2版本時,則額外新增支援SFTP、NFSv3、SMBv2通訊協定。

值得注意的是,採用FTPS通訊協定時僅支援Explicit模式,採用HTTPS通訊協定時必須在網頁伺服器上啟用WebDAV功能。此外,透過HTTP Proxy傳輸備份資料時,則僅支援採用FTPS和HTTPS通訊協定。

在本文中,將採用SMB通訊協定進行主機備份的工作任務。首先,在提供SMB通訊協定的備份伺服器中,已經建立名稱為「vCenter_Backup」的資料夾,以便屆時存放vCenter備份資料,並開啟資料夾分享及權限設定,確保稍後主動備份vCenter的工作任務能夠順利完成。

前置作業完成之後,登入vCenter Server Management(Port 5480)管理介面,登入後依序點選「Backup > Activity > Backup Now」,在彈出的Backup Now視窗中,於Backup location欄位中填入SMB通訊協定搭配剛才準備的備份資料夾路徑,本文實作環境為「smb://backup.lab.weithenn.org/vCenter_Backup」。在Backup server credentials欄位,則填入儲存備份檔案的「Backup_Admin」管理帳號和密碼,確認無誤後按下〔START〕鈕,系統便立即進行單次主動備份任務,如圖3所示。

圖3 鍵入備份伺服器中存放備份的資料夾路徑及管理者資訊。

主機備份後的檔案大小及花費時間,與vCenter管理平台的運作狀態、事件、工作項目、組態設定等等有關,備份任務會在剛才指定的備份資料夾中,依序建立vCenter的FQDN資料夾,以及vCenter版本和備份日期及時間子資料夾,如圖4所示。

圖4 執行主動備份vCenter管理平台工作任務。

排程備份vCenter管理平台

相對於單次執行的主動備份,對於企業組織來說,組態設定排程時間,讓系統能夠自動定期備份vCenter Server管理平台,才是有效的備份解決方案。必須注意的是,目前系統內建的排程備份機制僅支援組態設定一個排程,尚未支援組態設定多個排程同時執行。

在登入vCenter Management管理介面後,依序點選「Backup > Backup Schedule > Configure」。將彈出排程備份視窗,在Backup location欄位填入通訊協定SMB,以及備份伺服器的FQDN和備份資料夾路徑。接著,在Backup server credentials欄位內填入具備備份資料夾寫入權限的使用者帳號和密碼。

在Schedule下拉式選單中,有Daily、Weekly、Custom等選項可供選擇,其中Custom是指選擇每週的某幾天進行備份作業,在本文中組態設定每天凌晨2點進行備份作業,而Encrypt backup欄位,倘若管理人員希望為備份檔案進行加密時,鍵入兩次加密密碼即可。在Number of backups to retain欄位中,選擇「Retain all backups」項目時,系統將會保留所有的備份檔案,若選擇「Retain last backups」項目,則是設定要保留的備份檔案份數,本文實作環境選擇保留最近14天的備份檔案,確認無誤後按下〔Create〕鈕,就完成了排程備份設定,如圖5所示。

圖5 組態設定排程自動備份機制。

一旦排程備份機制設定完成,在Backup Schedule區塊內就會顯示剛才的組態設定內容。當組態設定的排程時間到達後,系統便會觸發並自動執行排程備份的工作任務,屆時在下方的Activity區塊,也可以看到備份任務的執行結果。

備份vDS分佈式虛擬交換器

在中大型的企業組織中,由於vSphere叢集中ESXi節點主機數量較多,通常會部署「分佈式虛擬交換器」(vSphere Distributed Switch,vDS),那麼建議應該也要將vDS分佈式虛擬交換器組態設定匯出,以便後續需要時可以匯入或還原vDS組態設定,否則有可能在還原vCenter管理平台之後,遭遇vDS分佈式虛擬交換器組態設定遺失的問題,詳細資訊可參考VMware KB 2034602知識庫文章內容。

在vCenter管理介面中,依序點選「Inventory > Networking > Distributed Switch >Actions > Settings > Export Configuration」項目,在彈出的Export Configuration視窗中有兩種匯出選項可供選擇,若採用「Distributed switch and all port groups」選項時,將會匯出vDS分佈式虛擬交換器以及所有Port Groups組態設定,而採用「Distributed switch only」選項的話,則僅會匯出vDS分佈式虛擬交換器的組態設定。至於下方描述區塊,可依管理人員需求進行填寫,確認無誤後按下〔OK〕鈕即可,如圖6所示。

圖6 備份vDS分佈式虛擬交換器和所有Port Groups組態設定。

此時,瀏覽器將會自動下載名稱為「backup.zip」的壓縮檔案,內容便是選擇匯出vDS分佈式虛擬交換器組態設定項目。後續,管理人員便能依據需求,進行「匯入」或「還原」vDS分佈式虛擬交換器組態設定的動作。

備份vCHA高可用性環境

事實上,以檔案方式備份vCenter管理平台的機制,目前尚未完整支援vCHA(vCenter High Availability)高可用性運作環境,如圖7所示,但是仍然能夠針對vCenter進行備份的工作任務,並且在vCHA叢集架構發生重大災難事件時快速還原及重建。

圖7 vCHA(vCenter High Availability)高可用性環境運作架構示意圖。 (圖片來源:Availability of vCenter Server | vCenter HA | Vmware)

簡單來說,當企業為vCenter管理平台建立vCHA高可用性機制運作環境,執行備份工作任務時,系統僅會備份vCenter主要節點(Active Node),而不會備份被動節點(Passive Node)和見證節點(Witness Node)。

因此,當vCHA高可用性運作環境發生災難事件時,管理人員必須在執行還原工作任務之前,先將vCHA高可用性環境整個關閉,包括主動節點和被動節點以及見證節點。當還原工作任務執行完畢,vCenter管理平台會處於單機運作環境,屆時再透過GUI圖形介面重新部署vCHA高可用性環境即可,相關詳細資訊請參考VMware KB 60229、KB 2147014、KB 2147038、KB 2147046知識庫文章內容。

還原vCenter Server

雖然已經組態設定排程時間定期備份,仍建議應該定期確認備份檔案是否能夠順利執行還原任務,順便在演練過程中建構和撰寫SOP文件,一旦災難事件真正發生時,需要快速執行還原任務時便不會手忙腳亂。值得注意的是,還原任務為驗證還原檔案是否有效時,管理人員可以在還原任務執行時,將vCenter主機的虛擬網路線拔除,即可避免與現有運作中的vCenter管理平台發生IP位址衝突的情況。

vCenter管理平台還原程序共分為兩個階段,如圖8所示,第一個階段會部署一台新的vCenter Server虛擬主機,第二個階段則是透過先前備份資料,將組態設定和相關資料傳輸至新部署的vCenter虛擬主機中。在執行還原任務時有一個主要限制,當vCenter主機採用哪個版本的ISO映像檔安裝,就必須使用該版本的ISO映像檔執行還原任務才行,例如採用vCenter 8.0 U2安裝和部署,便需要使用vCenter 8.0 U2的ISO映像檔來執行整個還原工作任務才行。

圖8 vCenter管理平台還原任務工作流程示意圖。 (圖片來源:Restore vCenter Server from a File-Based Backup (vmware.com))

事實上,整個vCenter的還原工作任務,與部署vCenter管理平台類似,掛載vCenter ISO映像檔後,執行「vcsa-ui-installer/win32/installer.exe」檔案,在彈出的精靈對話視窗中點選「Restore」項目,以便進入還原工作流程。

在Restore – Stage 1 : Deploy vCenter Server還原工作流程中,前兩個步驟為簡介和使用者授權條款,在3. Enter Backup details畫面中,於Location欄位中填入先前儲存備份檔的路徑,以及可存取備份檔路徑權限的使用者帳號和密碼。值得注意的是,備份檔路徑必須包含「backup-metadata.json」的路徑,本文實作環境填入的備份路徑為「smb://backup.lab.weithenn.org/vCenter_Backup/vCenter/sn_vcenter8.lab.weithenn.org/S_8.0.2.00100_20240817-180007_」,如圖9所示。

圖9 填入備份檔案存放路徑和具備存取權限的使用者帳號及密碼。

在4. Review backup information頁面中,系統會再次檢查鍵入的備份檔案存放路徑是否正確,如果鍵入的路徑不正確,或backup-metadata.json檔案已損毀的話,在這個步驟中將會出現錯誤訊息並停止還原程序。

在5. vCenter Server deployment target頁面中,鍵入要將新的vCenter虛擬主機部署至哪一台ESXi主機中,本文實作環境為「mgmt-esxi.lab.weithenn.org」,並鍵入具備管理權限的使用者帳號和密碼,如圖10所示。

圖10 指定還原後的vCenter要部署在哪台ESXi主機中。

在6. Set up target vCenter Server VM頁面中,則鍵入新部署的vCenter虛擬主機名稱,本文實作為「vCenter8」,以及組態設定root管理員帳號密碼。值得注意的是,倘若故障損壞的vCenter仍處於Power On開機狀態時,應將其Power Off並修改vCenter虛擬主機名稱。例如,本文實作環境將原有vCenter虛擬主機名稱修改為「vCenter8-retired」,否則系統在進行檢查作業時,將會發現vCenter虛擬主機名稱已經存在而停止還原程序,如圖11所示。

圖11 新部署的vCenter虛擬主機名稱和原有vCenter名稱相同發生衝突。

在7. Select deployment size頁面中,可以視需求選擇不同的vCenter部署規模。如果一開始部署vCenter時選錯規模,或是隨著時間演進不斷擴大,導致原有vCenter部署規模不足以因應時,也可以在備份後執行還原作業,並在此步驟中重新選擇部署較大的vCenter規模,本文實作採用「Small」規模,如圖12所示。

圖12 選擇vCenter主機的部署規模大小。

在8. Select datastore頁面中,選擇放置vCenter虛擬主機的儲存資源。值得注意的是,若不勾選「Enable Thin Disk Mode」選項時,那麼新部署的vCenter虛擬硬碟格式將會採用「Thick」模式進行部署,須確保儲存資源空間足夠才行。舉例來說,本文實作環境選擇「Small」規模大小時,儲存空間至少要大於「694GB」才行。

在9. Configure network settings,鍵入vCenter虛擬主機網路組態。首先,在Network欄位的部分,會顯示vSS及vDS虛擬網路Port Group,但是在vDS分佈式虛擬網路交換器的部分,下拉選單中僅會顯示「暫時綁定」(Ephemeral binding)的Port Group,一般常用「靜態綁定」(Static binding)的Port Group並不支援,有關暫時綁定和靜態綁定的詳細資訊,請參考VMware KB 1022312知識庫文章內容。在本文實作環境中,選擇使用「Backup-vNetwork」的Port Group,而FQDN為「vcenter8.lab.weithenn.org」,固定IP位址是「10.10.75.30」,如圖13所示。

圖13 鍵入vCenter虛擬主機網路組態設定。

在10. Ready to complete stage1頁面中,再次檢查還原項目和設定值內容是否正確,確認無誤後按下〔Finish〕鈕,便立即執行第一階段的還原工作任務。完成之後,系統將會提醒管理人員可以登入vCenter Server Management(Port 5480)管理介面,如圖14所示。

圖14 vCenter管理平台第一階段還原任務完成。

在第二階段的還原工作流程中,系統會將備份檔案中的組態設定和相關內容,複製到新部署的vCenter主機內。在2. Backup details步驟中,會再次檢視備份檔案路徑是否正確,倘若備份時有搭配加密機制時,此步驟中就必須鍵入加密密碼。

如果還原的vCenter主機處於ELM增強型鏈接模式時,系統將會要求提供SSO(Single Sign-On)認證資訊,確保還原後的vCenter管理平台能夠與其他台vCenter主機繼續通訊及同步。

在3. Ready to complete步驟中,再次檢查還原組態設定是否正確,系統會提醒倘若原有的vCenter主機仍在運作中,必須關閉它避免發生IP位址衝突的問題,確認無誤後按下〔Finish〕鈕,便立即執行第二階段的還原任務。成功執行任務後,系統會提醒管理人員可以登入vCenter Server(Port 443)管理介面,如圖15所示。

圖15 vCenter管理平台第二階段還原任務完成。

還原vDS分佈式虛擬交換器

原則上,在vCenter管理平台故障期間,若無針對vSwitch虛擬交換器進行異動的話,那麼vCenter管理平台還原後,無須針對vDS分佈式虛擬交換器進行匯入或還原作業。除非有任何異動或發生損壞時,才需要透過先前的vDS分佈式虛擬交換器備份進行還原作業。

如果vDS分佈式虛擬交換器整個遺失,則在vCenter管理介面中依序點選「Inventory > Networking > Datacenter > Actions > Distributed Switch > Import Distributed Switch」,按下〔Browse〕鈕,選擇先前的匯出檔案backup.zip,若希望保留vDS和Port Group的ID,就勾選「Preserve original distributed switch and port group identifiers」選項,如圖16所示。

圖16 匯入先前良好的vDS分佈式虛擬交換器組態設定。

在2. Ready to complete步驟,再次檢視內容,若正確無誤就按下〔Finish〕鈕,便會立即執行匯入vDS分佈式虛擬交換器組態設定的動作,匯入動作完成後,便可以看到vDS分佈式虛擬交換器恢復運作,如圖17所示。

圖17 成功還原先前設定好的vDS分佈式虛擬交換器。

倘若vDS分佈式虛擬交換器仍存在,但是部分Port Group遺失或損壞,則在vCenter管理介面中依序點選「Inventory > Networking > Distributed Switch > Actions > Settings > Restore configuration」,按下〔Browse〕鈕後選擇先前的匯出檔案backup.zip,並依據需求僅還原vDS分佈式虛擬交換器,或vDS分佈式虛擬交換器並包含所有Port Group選項,如圖18所示。

圖18 還原vDS分佈式虛擬交換器和所有Port Group。

在2. Ready to complete步驟中,再次檢視內容正確無誤後,按下〔Finish〕鈕便立即執行還原vDS分佈式虛擬交換器和所有Port Group的動作,還原動作完成,即可看到vDS分佈式虛擬交換器和Port Group恢復正常運作。

重建vCHA高可用性機制

如前所述,在vCHA高可用性環境中,備份機制僅會備份vCenter主要節點,在還原任務執行成功後,重新建構vCHA高可用性叢集環境即可。

有關建構vCHA高可用性叢集環境詳細資訊,請參考本刊第214期「部署vCHA機制因應災難‧可容錯移轉營運不中斷」內容。

<本文作者:王偉任,Microsoft MVP及VMware vExpert。早期主要研究Linux/FreeBSD各項整合應用,目前則專注於Microsoft及VMware虛擬化技術及混合雲運作架構,部落格weithenn.org。>