隨著科技的不斷進步,“AI”、“大數據”這些名詞越來越多地出現在人們的日常生活中。對監控運維產品來說,平臺會獲得大量設備的性能數據并加以存儲。對于這些數據的進一步利用,傳統方式一般為生成數據圖表、分析性能使用、預測未來趨勢等。今天來說說 ManageEngine OpManager 在滿足傳統數據分析功能外,還可以由AI 機器學習,通過高階算法,自動生成并優化性能監控閾值,實現性能告警全自動。
什么是閾值?
在介紹自適應閾值之前,首先來說明一下到底什么是閾值。
閾值又叫臨界值,是指一個效應能夠產生的最低值或最高值。
在監控中,以CPU利用率為例,設置閾值用于判斷CPU利用率是否在正常使用范圍內。當CPU利用率超過設定的閾值時,便可以認為此時設備的CPU處于異常使用情況,從而觸發告警,讓作為管理員的我們第一時間得到消息,檢查設備運行狀態。
閾值的配置
既然閾值是觸發告警的標準,那么設置合理的閾值是非常重要的。我們發現目前常見的閾值配置辦法,是管理員手動對各個不同監控項,正如下圖中給一個固定數值來區分“正常”、“異常”狀態。
手動配置閾值的缺陷:
上述說到的手動配置有些致命的問題,那就是當面臨成百上千臺不同的設備,以及成千上萬個不同監視項時,管理員需要花費大量時間手動配置不同監控項的閾值。這不僅麻煩,而且會給“異常”情況留出“生存空間”。
我來舉個例子,讓大家更好地理解。當一臺服務器白天的內存利用率正常情況下保持在70%左右、夜間保持在30%左右時,管理員將內存利用率閾值設置為大于80%產生告警。那么當某個夜間內存利用率突然飆升到60%時,因為沒有達到閾值告警的觸發條件,所以不能將此特殊情況通知到管理員。然而,對于夜間來說,60%的數值實際上已經是出現了異常情況,只是受限于傳統閾值的設置方法,導致了這種異常情況被忽略。
基于 AI,“預測”未來
在使用OpManager的過程中,發現OpManager可以基于AI技術,通過高階算法計算出“預測值”,并根據“預測值”自動設置閾值。未來,通過不斷地機器學習,閾值也會隨著“預測值”的更新而自動變化,從而使告警也“智能”起來。它不僅消除了手動設置閾值的煩惱,并使研究復雜數據集和為每個監視器得出可行的閾值的過程完全自動化。如下圖所示,OpManager需要至少3天的性能數據收集,會以每天不同小時段為單位,給出一個該小時內的“預測值”,并會通過后續的數據不斷自動優化和更新“預測值”。
自適應閾值為運維人員帶來不少好處,例如:
●省去了管理員手動設置的麻煩與時間。
●針對不同設備的不同監視器,會自動設置不同的閾值。
●對不同時間段,會自動設置對該小時內的告警觸發條件,不給“異常”情況留“活路”
●不斷根據新的數據收集自動優化、調整告警閾值,徹底實現監控自動化。
●ManageEngine OpManager 是一款功能強大的網絡監控工具,可通過AI技術自動為您監控中的設備性能配置閾值告警。不僅省去了管理員手動設置的繁瑣,而且能夠自動對不同時間段分配不同的告警觸發條件,加上不斷的機器學習與優化,讓“異常”無所遁形。
免責聲明:市場有風險,選擇需謹慎!此文僅供參考,不作買賣依據。
關鍵詞: