vROPs監看虛擬化環境　大規模維運一手掌握

2018-02-26

顧武雄

vRealize Operations Manager在vSphere的虛擬化架構環境內賦予IT人員預先防範與即時解決問題的能力，而在前幾期的專欄中已詳解了vRealize Operations Manager在部署實戰上的深度學習，本期將延續前文，正式進入進階的企業IT虛擬化現場監視實戰，說明如何真正全面掌握任何架構規模中的效能、容量以及組態配置。

最後，在選取虛擬機器後，透過點選「物件詳細資料」功能圖示，來開啟此虛擬機器完整分析資訊的頁面，進一步從其健全狀況、組態設定、各項資源的使用趨勢等度量資訊，來確認它是否適合移動至其他資料存放區來運行。

健全狀況警示與解決示範

vSphere的運作風險可能來自於主機或虛擬機器組態的設定不當，或是網路與資料存放區的架構設計有問題，或者資源分配不佳所造的效能問題，無論如何，面對各式各樣可能的風險，聰明的vRealize Operations Manager都會自動發出警示提醒，而管理者需要做的就是根據不同的警示等級來決定是否要立即處理，或是安排特定的時間再來排除此風險。

如圖18所示，在「建議」儀表板中的各項Widget，是vSphere架構管理師應當在每天的工作中檢視的重要資訊。在此範例中可以發現一個名為「虛擬機器CPU使用率持續偏高，導致產生壓力」的風險警示，點選該風險警示來查看更詳細的資訊並立即排除。

▲圖18 檢視建議儀表板。

來到〔摘要〕頁籤內，如圖19所示便可以看到針對此風險的完整描述，並且標示了警示子類型是屬於「效能」，而嚴重度則是「急迫」，這意味著若再不趕緊處理，短時間內就會受到相關應用系統用戶的抱怨，此時按下〔設定虛擬機器的CPU計數〕按鈕。

▲圖19 查看風險警示詳細資訊。

如圖20所示，在「設定虛擬機器的CPU計數」頁面中，如果發現擁有多部的虛擬機器面臨著相同風險時，可以在此一次完成批次修改。不過同樣必須注意的是，並非所有的客體作業系統皆支援熱新增CPU的能力，因此必須決定是否要勾選「允許關閉電源」，以及是否要在異動執行前先執行「快照」備份。在按下〔開始動作〕按鈕後，將會在「工作」管理頁面中查看到執行的進度與結果。

▲圖20 設定虛擬機器的CPU計數。

關於vSphere整體運作風險的警示，除了可以到上述的「建議」儀表板中檢視外，若有預先正確設定好前面介紹中的SMTP主機連線，以及建立「通知」的規則，便能夠在第一時間收到類似如圖21所示的E-mail警示通知。不過，現階段比較缺乏的設計是在通知的內文中加註顯示相對事件的網站連結，以方便管理人員能夠直接開啟風險警示的「摘要」頁面，來即刻點選執行相對的解決方案。

▲圖21 出現CPU資源嚴重事件警示。

在虛擬機器集中監視與故障排除的方法中，還可以善用「疑難排解虛擬機器」儀表板來迅速查看問題與找到解決辦法。舉例來說，可使用「是否有嚴重警示」Widget來檢視虛擬機器的嚴重警示，並在第一時間內加以解決，以避免發生更嚴重的後果。

使用「虛擬機器的需求是否突增或異常」Widget來找出任一虛擬機器，對於任何資源利用的需求是否有突增的情形，進而調配所需要的資源大小或是移動虛擬機器的所在位置。而使用「父資料存放區是否有延遲」Widget，可協助從資料存放區的延遲與虛擬機器的總延遲關聯中，觀察出可能影響虛擬機器效能不彰的問題，例如當虛擬機器的延遲突增但是資料存放區並沒有發生顯著的突增狀況時，便表示僅虛擬機器本身的配置有問題，而與資料存放區的效能沒有直接關係。

建立自訂的監視儀表板

如果已經熟悉了vRealize Operations Manager網站上所有內建提供的儀表板，實際上已經能夠在任何大型且複雜的vSphere架構中，輕易地發覺任何潛在的運作問題並加以處理。

不過，某些時候管理者可能會希望將一些位於不同儀表板中的常用Widget集合在一個自訂的儀表板頁面內，而不必在多個不同的儀表板間進行切換。像這樣的情境需求，只要選擇建立自己專屬的儀表板即可。

如圖22所示，只要在「首頁」管理介面中，點選「動作」選單中的【建立儀表板】選項即可，至於後續無論是要進行編輯、刪除或是排序等操作，也都可以從此選單中來完成。

▲圖22 使用首頁動作選單。

在「新增儀表板」頁面中，首先必須設定新儀表板的名稱、說明以及是否要成為預設開啟的儀表板。接著，就可以切換至如圖23所示的「Widget清單」窗格內，透過以滑鼠拖曳的方式將需要的Widget置放在儀表板的任一位置內，這些可選用的Widget，包括了最常使用的度量圖（Metrics）、視圖（View）、環境狀態、警示清單、健全狀態等等。

▲圖23 設定Widget清單。

圖24所示是一個典型的「視圖」Widget設定範例，在此必須先選擇所要針對的vSphere物件，例如叢集、ESXi主機、虛擬機器、資料存放區。緊接著，再挑選所要監視的視圖，像是最常使用的CPU爭用、DRS叢集CPU與記憶體工作負載、VMware叢集CPU需求預測趨勢、主機CPU與記憶體工作負載摘要。完成設定後，按下〔儲存〕按鈕即可。

▲圖24 編輯視圖Widget。

結語

面對中大型以上的vSphere虛擬化維運，若懂得善用vRealize Operations Manager來全面監控其運行，確實遠比僅透過vSphere Client控管虛擬主機、虛擬機器、資料存放區、虛擬網路、叢集等物件，要來得更加可靠有保障，而不必一天到晚擔心受怕哪個虛擬機器效能不彰，或是哪個資料存放區已經發生爆量等問題，可以有效地做好vSphere整體的即時健康診斷與風險管理。

相較於其他第三方的解決方案，雖然vRealize Operations Manager幾乎已經提供了全面完勝的功能，可是就未來的管理趨勢而言，筆者認為仍有許多進步的空間，例如結合AI模組（Artificial Intelligence Module）技術的發展，讓系統能夠在不斷自我學習的過程內，有智慧地自主解決同類型的問題，讓許多重複的運作問題能夠在無須人工介入的情況下，第一時間便完成問題的排除，並將處理結果的詳細報告傳送給相關的管理人員。

＜本文作者：顧武雄，Microsoft MVP 2004-2016、MCITP與MCTS認證專家、台灣微軟Technet、TechDays、Webcast、MVA特約資深顧問講師、VMware vExpert 2016-217、IBM Unified Communications/Notes/Domino/Connections Certified。＞