想要365天全天候監控Hyper-V主機的運行,IT部門所能夠選擇的解決方案相當多,包括Microsoft自家的System Center Operations Manager(SCOM),但如果所要監控的範圍涵蓋IT網路中的所有設備、主機、應用系統與服務,那麼不妨試試ManageEngine OpManager。
公司的IT部門需要一套能夠全面監控整個網路環境,從硬體到軟體以及從實體到虛擬的監控系統,否則縱使雇用再多的IT人員,也難以解決龐大IT維運的困境。在一個以Hyper-V虛擬化平台運行的IT網路中,如何正確選擇適用的監控系統來協助IT部門做好維運工作呢?
可以先部署ManageEngine OpManager來優先監視Hyper-V的基礎架構。除了網路設備與主機硬體設備外,那就是Active Directory網域控制站,因為唯有網域服務運行正常,Hyper-V主機與叢集的基本運行才能夠順暢與穩定,否則若僅監控Hyper-V主機,一旦網域服務的運行發生問題,在進行故障排除的過程中,可能會因為誤判而導致延長系統恢復的時間。
有了穩固的IT基礎架構後,接著才是針對Hyper-V主機與叢集的運行監控。可以善用OpManager支援WMI自動探索以及分類Hyper-V主機與虛擬機器的基本功能,持續不間斷地監控Hyper-V主機與虛擬機器的CPU、記憶體、磁碟、網路等等超過40多項效能指標。此外,還能進一步在結合Email與SMS的使用之下,讓IT人員可以在第一時間掌握到重要的警報資訊。
最後是深入Guest OS中相關應用服務的監視,例如IIS、SQL Server、Exchange Server等等,然後將關鍵監視的事件設定閾值,包括各項服務的運行狀態、硬體資源的使用率、網路流量的使用率、儲存剩餘空間以及特別事件的發生等等,讓IT管理人員可以接收到系統第一間時間所觸發的警報,然後即刻介入、處理、解決問題。
部署前的準備工作
先連結以下的ManageEngine OpManager官方網址,再依照作業系統(Windows或Linux)的建置需求,選擇要下載標準版、專業版、企業版或免費版。免費版其實是專為小型企業所打造,IT管理員可以善用它來監控最多3台主機或網路設備,不過並不包括Hyper-V與VMware的虛擬化平台,若要加入虛擬化平台的監控,必須選擇付費的專業版或企業版。
‧ManageEngine OpManager官方下載網址:https://www.manageengine.com/tw/network-monitoring/download-confirm.html
OpManager在30天試用期間,可以使用其專業版本的完整功能,並且能夠以單一伺服器的部署方式來監視高達一千個主機或網路設備的運行,在試用期限到期後會自動降為免費版。關於標準版、專業版以及企業版的功能比較,可參考官方網站(https://www.manageengine.com/tw/network-monitoring/opmanager-editions.html)的說明。
在開始安裝OpManager之前,必須先確認所準備的軟硬體環境是否符合系統最低要求。在硬體規格部分,只要監視的裝置數量在250台內,便只需要準備4核心的CPU、4GB的可用記憶體以及20GB的可用儲存空間。至於軟體需求方面,可以參考表1的軟體需求說明。
安裝指引
接下來,將以OpManager安裝在Windows Server 2025作業系統為例做說明。執行安裝程式後,首先決定主程式安裝的路徑,系統預設為「C:\Program Files\ManageEngine\OpManager」,決定好之後按下〔Next〕按鈕。
在「Port Selection Panel」頁面中,可依需求修改HTTP預設的8060通訊埠以及HTTPS預設的8061通訊埠來運行OpManager網站。如果目前沒有任何應用程式使用到HTTP的80以及HTTPS的443通訊埠,可以改為設定OpManager網站使用這些通訊埠,以簡化網站連線的使用與設定,再按下〔Next〕按鈕繼續。
接著,在「Registration for Technical Support」頁面中可選擇性註冊官方的登入資訊,以便在使用過程中獲得相關技術支援,再按下〔Next〕按鈕。在「Select the backend database for OpManager」頁面中,選擇資料庫要採用OpManager內建的PostgreSQL資料庫服務,還是網路中現行的MSSQL資料庫服務,本次選擇後者,再按下〔Next〕按鈕。
緊接著,決定SQL Server採用的身分驗證方式,有「SQL Authentication」與「Windows Authentication」兩種模式可以選擇,選擇完畢按下〔Next〕按鈕。在「Configure the SQL Server details」頁面中,必須依序輸入SQL Server的主機名稱(或IP位址)、通訊埠、網域名稱、資料庫名稱、用戶名稱以及密碼,其中資料庫名稱建議採用預設的OpManagerDB命名即可。 在完成OpManager安裝後,在「InstallShield Wizard Complete」頁面中勾選「Start OpManager now」設定,以便在按下〔Finish〕按鈕後,自動開啟OpManager的網站。
此外,建議將選定的安裝路徑,例如「C:\Program Files\ManageEngine\OpManager」,於本機的防毒軟體中設定為例外掃描的資料夾,如此將可以避免資料庫相關功能執行時受到影響。圖1所示是OpManager網站的登入頁面,預設的管理員帳戶與密碼皆是「admin」,按下〔登入〕按鈕,首次登入時系統將會強制要求變更密碼。
圖1 登入OpManager網站。
快速新增裝置
修改預設管理員的帳號密碼後,若想要快速新增網路中現有的主機或設備,可以直接開啟網站中所出現的「開始於5個簡單步驟」連結提示。在如圖2所示的頁面中,可以選擇「新增裝置」、「Add Virtual Server」或是「批量探索」。在此建議點選「新增裝置」,以便優先加入Active Directory網域控制站主機的監控。
圖2 開始於5個簡單步驟。
在「新增裝置/伺服器」頁面中,先輸入網域控制站主機的IP位址。在「認證」選單中預設沒有任何可用的認證選項,可以在點選「新增認證」後,再選擇採用「Windows/WMI」認證方式,然後完成配置名稱以及網域管理員帳號與密碼的設定,即可再次回到「新增裝置/伺服器」頁面中進行挑選。關於目前OpManager所支援的認證類型與用途,請參考表2說明。
成功新增網域控制站主機或網路設備後,若想要知道目前OpManager主機與選定裝置的連線狀況,只要如圖3所示點選「Ping」圖示,系統便會立即進行Ping的通訊測試並顯示回應資訊。除此之外,還可以對於不同的裝置與主機來開啟「可用性監視」頁面,以選擇狀態輪詢的間隔時間,例如針對關鍵的設備設定每5分鐘輪詢一次,而對重要性較低的設備則選擇60分鐘輪詢一次。
圖3 裝置網路測試。
如何管理認證
在中大型以上的IT環境中,肯定不會只有Microsoft的Active Directory需要進行認證,通常還會有許多沒有整合Active Directory認證的系統或設備,這些可能是採用SNMP v1/v2/v3的網路設備,或是需要使用Telnet/SSH連線方式的Linux作業系統。無論如何,對於以上這些主機或設備的管理,都可以預先建立所需要的認證設定,讓現行已受控管的主機或設備或後續的探索與連線設定可以直接關聯使用。馬上來看看實際的操作說明。
先點選至「設定」→「認證」頁面,如圖4所示,在「監視」頁面中可以檢視到目前已經建立好的認證設定,其中Pubic是系統預設的SNMP v1/v2認證設定,按下〔新增認證〕按鈕繼續。
圖4 認證管理。
在「新增認證」頁面中,先根據所要探索的目標設備或主機,選擇適用的認證類型。舉例來說,凡是以Windows作業系統為主的目標主機,無論是網域控制站、Hyper-V主機還是用戶端電腦,通通都選擇「Windows/WMI」認證類型,接著再輸入連線該主機的管理員帳號與密碼,最後按下〔儲存〕按鈕。
緊接著,可以繼續新增更多的認證,並且對於每一個剛新增的認證設定按下〔關聯到設備〕按鈕,讓選定的認證設定直接關聯到現行已探索到的主機或網路設備。完成關聯設定後,最後按下〔測試認證〕進行與關聯設備的登入測試。
如果在進行「測試認證」過程中發生連線失敗的問題,可能的原因除了網路或目標主機與設備的停機問題外,也有可能是被目標設備或主機的防火牆所阻擋。在這種情況之下,便需要根據不同的認證類型來開通不同的通訊埠,以便順利進行探索與認證測試。
舉例來說,當目標主機或設備是採用Windows/WMI的方式進行探索與認證,記得在防火牆的設置上開通TCP 135。若是採用SNMP就開通UDP 161、SNMP Traps則開通UDP 162,而Telnet開通TCP 23、SSH開通TCP 22。如果是要在OpManager網站上接收來自各種網路設備的系統紀錄(Syslog),記得在OpManager主機的本地防火牆中開通UDP 514。
監視AD網域控制站
由於Hyper-V叢集的運行基礎是Active Directory,因此深入了解網域控制站主機的監視內容是本次實作的首要任務。圖5所示是受監控網域控制站主機的「摘要」頁面,在此可以查看到最新狀態、IP位址、DNS名稱、輪詢方式、類型、分類、廠商、監視方法以及監視間隔等資訊,而在頁面下方處則可以查看最近的警示與診斷訊息。
圖5 AD主機摘要資訊。
對於主機資源狀態的使用監視,可以開啟「自訂撥打」頁面,如圖6所示,查看CPU使用率、磁碟使用率、記憶體使用以及系統執行時間等等資訊。
圖6 查看主機資源狀態。
當發生網域控制站主機的資源負載過高時,通常首要的工作是檢查「活動的程序」頁面,查看究竟是哪一個執行的程序使用較多的CPU或記憶體的資源,必要時可以開啟遠端連線桌面來予以關閉。若想要知道目前該主機已安裝的軟體清單,則切換至「已安裝的軟件」頁面進行查看。
在「圖形和閥值」頁面中,除了可以看見目前該主機受監視的項目清單外,還能夠得知在這些項目中有哪一些已啟用閥值功能,也就是在該資源所回報的數值超過一定量時,將會出現不同的事件等級通知。
以開啟記憶體使用率的閥值設定做示範,如圖7所示,除了可以設定持續監測間隔的時間與單位外,還能決定是否要儲存資料以及選擇資料呈現的類型。最後,分別設定三種不同事件等級的閥值,包括注意、故障、嚴重。
圖7 設定閥值。
新增Hyper-V主機
搞定AD網域控制站主機的監控後,接下來要加入Hyper-V主機的監控。先點選至「虛擬」頁面,再點選「新增裝置」選單中的「新增Hyper-V」,開啟「虛擬化探索」頁面。如圖8所示,在「Hyper-V」子頁面中,先輸入主機的完整名稱或IP位址,再挑選前面介紹中所建立好的網域管理員的「認證」設定,並按下〔探索〕按鈕。
圖8 設定虛擬化探索。
一旦成功連接選定的Hyper-V主機或叢集,就可以在「主機詳細資料」頁面中查看相關虛擬機器的資源分配情形,包括記憶體保留區、CPU保留區、記憶體限制、CPU限制,以及所使用的網卡配接器清單。也可以在此查看Hyper-V主機作業系統本身的相關資訊,包括摘要、通訊埠、活動的程序、已安裝的軟體,以及圖形和閥值的設定。
在「虛擬機器」頁面中,則可以查看到目前運行此Hyper-V主機中的虛擬機器清單。在此還可以進一步對於所要加入監視的虛擬機器按下〔開始〕按鈕,如此一來後續有關於此虛擬機器的IP位址、狀態、客體OS等等資訊也將會在此頁面中一併顯示。
圖9所示便是一台叢集虛擬機器的摘要資訊,除了可以查看到基本的CPU與記憶體以及IP位址的配置外,也能檢視每一個CPU以及記憶體與磁碟的資源使用狀況。進一步地,同樣可以查看在Guest OS中已安裝的軟體、活動的程序以及調整各種監視的閥值。例如,設定記憶體使用率與CPU使用率的閥值到達80%時觸發「注意」警報,而在裝置的系統磁碟分割區空間使用率高達90%時觸發「嚴重」警報。
圖9 檢視虛擬機器摘要。
無論是Hyper-V主機還是虛擬機器的「摘要」頁面的右方,都有一個「圖形」圖示連結,可以開啟效能圖形檢視模式,完整檢視各項資源的使用狀況,如圖10所示。
圖10 檢視Hyper-V主機效能圖形。
另外,還可以開啟選定資源的效能明細(例如CPU)。除了查看此CPU使用率的最小值、最大值以及平均值外,還可以從下方的「表格視圖」中查看到不同時間的使用率變化,讓管理員藉此判斷是否需要升級或添加更多的硬體資源。若需要對於檢視的結果產出報表,則按下頁面右上方的〔匯出〕按鈕。
若想產生效能報表,可透過排程設定來完成。如圖11所示,只要開啟「排程報表」頁面,就可以依需設定排程名稱、時間段、時間範圍、報表格式類型、報表傳送類型、電子郵件ID以及執行時間。如此一來,管理員的Email信箱就會定期收到來自系統所自動發送的效能報表,不再必登入OpManager網站。
圖11 設定排程報表。
郵件伺服器設定
只要是受到OpManager所監視的網路設備、主機或虛擬機器,一旦在運行的過程中發生無法連線、服務停止,或某一項被監視的項目閥值超出範圍,管理員在登入OpManager網站後,都可以立即看到相關的警報與事件。然而,管理員不可能始終在網站上監看事件,因此必須有一旦發生警報便立刻通知管理員的機制才行。在OpManager網站上,可以透過自動發送郵件的通知功能來解決這一項需求。
首先點選「設定」→「一般設定」選單中的「郵件伺服器設定」,接著在如圖12所示的頁面中,可以發現目前支援主要與次要兩台郵件伺服器的配置,只要依序完成伺服器名稱、連接埠以及收件人電子郵件ID即可。若所指定的郵件伺服器需要進行登入帳號驗證,才須進一步選擇認證類型、安全連線方式,以及輸入使用者名稱與密碼。
圖12 郵件伺服器設定。
完成上述的郵件伺服器設定後按下〔傳送測試電子郵件〕按鈕,確認所設定的郵件伺服器能夠正常發送Email,圖13所示便是一封來自OpManager網站的測試郵件範例。
圖13 測試郵件。
Hyper-V警報通知配置
在正確設定郵件伺服器配置後,就針對一些關鍵的主機、虛擬機器或是網路設備的監視,個別設定警報通知的配置。先來看看一台Hyper-V主機發生無回應時的警報事件。
如圖14所示,在「主機詳細資料」頁面中發現目前該主機的「狀態」已呈現「嚴重」警示,並且在左下方的「最近警示」訊息欄內也出現WMI無法連線此Hyper-V主機進行認證的錯誤訊息。至於右下方則是浮出兩則最新尚未閱讀的警報事件。為了讓後續的相關警報能夠在第一時間被管理員所得知,點選上方功能列的「設定通知設定檔」小圖示。
圖14 Hyper-V警報事件。
將會來到「發送電子郵件」頁面,如圖15所示,這裡主要是可以自訂警報通知的主題與訊息內容,而它們皆是透過變數的設定來決定,並且還能夠決定郵件的內容格式要採用純文字還是HTML。完成上述設定後,按下〔測試動作〕按鈕查看實際發送的結果,然後按下〔下一步〕按鈕繼續。
圖15 郵件通知設定。
如圖16所示,在「選擇準則」頁面中可以自訂發送Email通知的準則。例如,勾選「當任何已選擇閥值規則違規」設定來觸發系統預設的四項閥值警報,這裡面包含連續輪詢五次這台主機皆無回應時的準則,再按下〔下一步〕按鈕繼續。
圖16 選擇準則。
最後,針對上述設定好的「通知設定檔」,決定套用的時間範圍、延遲觸發、重複觸發以及觸發器間隔等設定,確認一切設定無誤後按下〔儲存並關閉〕按鈕。
檢視伺服器狀態
對於IT人員維運的定期檢查任務,建議點選至「伺服器」→「所有伺服器」頁面。如圖17所示,在此可以從「裝置」的「表格視圖」檢視中查看到所有主機與設備的最新狀態,包括CPU與記憶體的負載情況。若數量相當多,可以點選至實體伺服器、Windows、Linux網域控制器等分類來快速檢視。
圖17 檢視所有伺服器。
除了有預設的「表格視圖」檢視方式外,也可以從「視圖類型」選單中選擇清單視圖、熱點圖視圖、圖示視圖、介面視圖以及儀表板視圖。例如,在「儀表板視圖」頁面中能夠檢視到可用性統計資料、可用性分佈、平均可用性,以及前N個可用性最低的設備等相關統計圖。
建立工作流程
工作流程功能讓管理員能夠針對監控的虛擬化平台伺服器、虛擬機器、設備系統、應用服務預先設計好各種自動化執行任務,把原本複雜的檢查程序與解決程序寫成一個簡單的圖形化工作流程,以便因應在維運過程中對於各種可能遭遇的情境,能夠快速透過執行一鍵功能或排程來立即解決問題。
在「工作流程」→「所有工作流程」頁面中,預設已有三個系統內建的工作流程,可以選擇修改現有的工作流程或是建立全新的工作流程。
接下來,示範一個新的工作流程設計。如圖18所示,在此只放入一個「Ping裝置」以及「傳送電子郵件」功能,按下〔下一步〕按鈕繼續。針對「Ping裝置」在「關聯工作流程」頁面中,可以從「裝置選取」清單中挑選所有要進行Ping測試的裝置。在「設定觸發器」頁面中,則可以選擇想要使用的觸發器。然後,在「設定檔」頁面中選擇此設定的觸發時間範圍,以及延遲觸發與重複觸發的條件配置,最後記得按下〔保存〕按鈕。
圖18 工作流程設計。
再次回到「所有工作流程」頁面中,可以隨時對於所建立的工作流程按下〔執行工作流程〕按鈕並查看執行結果。
整合AD網域驗證
目前大多數中大型的企業網路都有部署Active Directory網域架構,來集中管理組織、群組以及帳號對於資源權限的配置,因此如果能夠讓OpManager管理人員直接以AD網域帳號登入,將可以更加簡化IT維運管理的複雜度。
想要知道目前OpManager除了支援本機驗證方式外,還額外支援哪些驗證方式嗎?只要點選至「設定」→「一般設定」→「驗證」頁面,便會發現有Radius伺服器設定、AD驗證、SAML以及雙因素驗證。若想使用「AD驗證」整合功能,只要在該頁面中依序完成域名、網域控制器、通訊協定以及驗證設定,即可加入此網域的驗證選項。
完成AD驗證的設定後,接下來點選至「設定」→「一般設定」→「用戶管理」頁面,然後新增一筆想要使用AD驗證的用戶設定。如圖19所示,在「設置使用者詳細資料」頁面中便可以選擇「使用類型」為AD驗證,並且只要依序完成角色、用戶名稱、電子郵件ID以及域名的設定即可。
圖19 設置使用者詳細資料。
當陸續建立好多位管理用帳號後,若需要進一步劃分各自管轄的範圍,只要透過業務視圖的建立並且指派給用戶即可。舉例來說,負責監控Hyper-V虛擬化環境的Peter,以及負責監控所有AD主機的Jovi,便可以授予不同的業務視圖權限。那具體該怎麼做呢?
首先點選至「地圖」頁面,在預設狀態下並沒有任何的業務視圖,因此點選「建立業務視圖」。接著,在業務視圖的設計頁面中,就可以把所有與這個視圖有關的主機、虛擬機器等設備通通拖曳至設計中,並且完成個別主機與設備之間相關接線的設計。最後,再輸入新視圖的名稱並按下〔儲存〕按鈕。
完成有關於各種業務視圖的建立後,點選至「設定」→「一般設定」的「用戶管理」頁面中,如圖20所示,即可針對每一個帳號的編輯,在「範圍」頁面中選取要指派的業務範圍視圖。
圖20 設定用戶管轄範圍。
行動App的使用
凡是對於網路設備、伺服器或是應用系統與服務的監控,無論使用的工具為何,IT人員總是希望能夠有一個隨身的行動App可用,以便可以隨時隨地拿起手機或平板查看主機與設備的運行狀況。
在OpManager平台上,除了可以透過任何作業系統或行動裝置的網頁瀏覽器來連線登入與使用外,官方也提供專屬的行動App供Android或iOS用戶下載及安裝,如圖21所示。
圖21 OpManager行動App。
安裝好「OpManager Network Monitoring」行動App後,開啟時首先必須在「Configure Server」頁面中選擇使用HTTP或HTTPS通訊協定,再輸入要連線的OpManager網址與通訊埠。完成連線設定後,就可以輸入登入的帳號與密碼以及選擇驗證方式,然後按下〔LOGIN〕按鈕。
成功登入後,就可以在預設的首頁中查看到最新24小時內的各類警報統計,包括Critical、Trouble、Attention、Service Down。接著,可檢視到目前已偵測到停擺的設備或主機清單,必要時還可針對任一目標按下〔Ping〕按鈕,進行基本的網路通訊測試。隨後,還可以查看像是CPU、記憶體、磁碟以及網路使用率等資源的設備排名,並且得知每一個設備對於該資源的最小、最大以及平均的使用率。
針對Hyper-V主機或是虛擬機器的資源使用量排名,則可以從「虛擬」頁面中查看包括按CPU使用率、按記憶體使用率、按磁碟I/O使用量等方式,列出前幾名的主機或虛擬機器。
在圖形化效能的檢視部分,可以在「Device Details」的「概況」或「性能監視器」頁面中查看,其中包括設備(主機)的可用性、封包遺失、CPU使用率以及記憶體使用率。
最後,如果想要在尚未登入OpManager的App的情況下,就能查看到最新的各類警報統計,或是查看已發生停擺的設備與主機清單,如圖22所示,只要將隨附的「Down Devices」和「Alarms」小工具置放到手機或平板的桌面即可。
圖22 行動裝置桌面小工具。
OpManager自身管理
前面所有的實戰教學重點皆是在講解如何使用OpManager來監控Active Directory網域服務、Hyper-V主機與叢集、虛擬機器的整體運行,然而如果OpManager自身的服務發生故障,那麼IT人員將無法像往常一樣快速地得知所有受監控主機與網路設備的運行狀況,那就趕緊來了解一下如何做好OpManager自身服務的管理。
首先,在OpManager的Windows Server主機中,如圖23所示,以滑鼠右鍵點選位於工作列的OpManager圖示,即可看到啟動服務(Start Service)與停止服務(Stop Service)的功能,並且還可以在「Startup Options」選單中決定是否要在Windows Server作業系統完成啟動後,自動啟動OpManager並隨後開啟網站控制台。
圖23 Windows工作列。
除了從工作列來管理OpManager服務的啟動外,也可以從Windows Server的「服務」管理介面中找到「ManageEngine OpManager」服務,接著便可以針對此服務執行啟動、停止、暫停或是重新啟動。
最後,必須注意30天專業評估版的使用問題,若是已超過試用期限,便會在登入OpManager網站時出現「OpManager授權詳細資料」頁面,並且顯示「您將超出授權限制」提示訊息。此時若要繼續使用此監控系統,便需要在「裝置清單」中抉擇要刪除哪一些現行的主機或設備。
結語
如果目前還在評估各家的監控系統,建議不妨註冊下載ManageEngine OpManager的30天試用版來評估看看是否能夠滿足IT維運的需求。如果是中小企業,則建議直接下載使用免費版本,協助IT人員不間斷地監視3台重要主機或網路設備的運行。
<本文作者:顧武雄,Microsoft MVP 2004-2016、MCITP與MCTS認證專家、台灣微軟Technet、TechDays、Webcast、MVA特約資深顧問講師、VMware vExpert 2016-217、IBM Unified Communications/Notes/Domino/Connections Certified。>