2022年9月16日-17日,QECon全球軟件質量&效能大會上海站在上海龍之夢大酒店隆重舉辦。本次大會,聚焦人工智能、云原生、移動互聯網、大數據、業務價值、協同提效等主題,邀請眾多行業技術大咖展開專場分享。掌動智能作為戰略合作伙伴受邀參會,首次提出“三位一體”IT反脆弱性工程解決方案,為大型數字化系統的穩定可靠運行保駕護航!
大會現場
▲ 掌動智能“三位一體”IT反脆弱性工程在大會主會場首發亮相
何為“三位一體”IT反脆弱性工程?下面為您一一揭秘!
反脆弱性與混沌工程
“反脆弱(Antifragile)”是趨勢作家塔勒布在其同名著作中提出的觀點。他認為,風險事件無法預估,但脆弱卻可以被提前發現。反脆弱性方案針對脆性提前發現并從不確定性中收益。
在IT領域,混沌工程就是反脆弱性方案的典型代表。它是一套通過在(準)生產環境,對IT架構和業務系統進行壓力與故障模擬實驗,主動暴露實驗對象脆弱性的方法論,能有效地幫助探索和避免潛在的穩定性缺陷,檢驗和提升系統高可用性和容錯性,提升故障響應修復效率,減小事故影響,從而打造更具彈性、更抗風險的系統,掌握系統運行時各種行為規律,持續提高技術團隊的應急能力和抗壓素養。
但是傳統的混沌工程也有自身的缺陷。根據反脆弱性理論,IT組織的脆弱性來自于內部隨機事件和外部壓力事件,但現階段混沌方案,只側重于來自內部,面向架構的故障注入;而欠缺來自外部,面向業務的故障注入。同時由于歷史原因,大部分混沌工程方案,并未形成跨架構的能力,在“軟件定義一切”的大背景下,絕大多數的故障注入,又都會對IaaS,PaaS和SaaS產生影響。因此,跨架構的可觀測性成為必然。
“三位一體”反脆弱性工程
針對混沌工程的短板,掌動智能提出“三位一體”反脆弱性工程解決方案。它是基于反脆弱性理論,以業務壓測作為外部壓力,混沌工程作為隨機事件,性能監控作為統一的測量方法,將三個方案有機融合在一起。
三位一體的反脆弱性工程解決方案主要包括:
1、混沌業務級故障注入
通過配置不同參數,組合不同業務報文,播放不同類型的業務交易,實現對被測對象的容量爆破,容錯爆破,風險爆破。
2、混沌架構級故障注入
通過執行不同策略的故障腳本,實現對架構級、應用級的混沌爆破,主要以資源耗盡,錯誤配置,人工切換等方法,實現故障注入。
3、跨架構全棧可觀測性
通過資產、指標(KPI/KQI)和業特征務(API/SQL/報文),實現基于性能異常方法的故障注入監控告警以及基于故障定位方法的故障爆炸半徑測量。
從落地角度,掌動智能針對“三位一體”的實現,推出了三套業界領先的工具集。
1、X-Runner業務測試工具
具有國際先進水平的新一代國產化性能安全保障軟件套件產品。X-Runner使用百萬級別的并發虛擬用戶模擬真實用戶訪問,從集中控制點管理分布式壓測端對系統生成準確、可衡量和可重復的負載,并在服務器、虛擬化、容器等多種不同環境采集云網性能指標和業務運行指標。
XRunner實現了大規模用戶瞬時并發訪問場景注入,無規律,瞬時隨機的大規模業務并發,通過響應時間、辦理成功率等數據,檢測系統對尖峰流量的抗沖擊能力,伸縮性以及自恢復能力;錯誤業務數據場景注入,構建錯誤數據、錯誤流程、重復數據、攻擊性數據等場景,通過返回報文的正確性校驗,檢測系統對非正常數據的容錯能力
2、X-Chaos-混沌工程工具
Chaos混沌工程,是一類基于方法論和實踐相結合的工程化項目。X-Chaos以ChaosBlade為基礎,結合某超大型央企的全國云環境的混沌需求打造,也是國內現階段,單一項目規模最大,內容最復雜,故障注入用例最多,實施頻次最高的混沌工程。X-Chaos的混沌能力借助故障注入對基礎層、平臺層和應用層進行混沌演練,依托PaaS平臺的安全能力和自身的權限控制做到在進行混沌實驗的同時保障集群的安全可靠。
3、X-UniEye-跨架構全棧性能監控
X-Unieye以超輕量的單體探針,實現豐富的資產、業務、指標的數據采集、解析和治理;憑借“顯微鏡”一樣的可觀測性能力,快速實現豐富的運維與安全多場景方案。
X-Unieye的觀測維度包括:
① 資產類:從IP、Port、MAC到Host-Name、System、Process和Pod,再到Domain、URL和API業務特征
② 指標類:從主機資源使用率;到每一次通信連接的流量,數據包,會話,各種標志位,各類時延;再到每一次應用會話,業務報文的通信指標、各類時延,返回碼;實現最完整的基于流量的Metrix能力。
③交易鏈路類:從每一次TCP/UDP通信四元組,到每一次HTTP/URL/API,DNS,SQL…各類應用層會話,再到每一次負載段的業務報文。
收益與價值
通過三位一體的反脆弱性工程的實施,能帶給企業如下價值體現:
1、提高事故預測和預警能力,有效降低事故率
通過對不同業務量下,各個應用組件,架構組件,網絡組件的性能指標分析,實現定位故障隱患,減少事故風險,為每個單元建立基于業務量的性能基線,提高異常發現能力。
2、驗證自愈和應急能力,減小事故影響和損失
精確衡量業務影響度和故障恢復時間,有效判斷系統自愈能力、高可用能力、資源配置合理性以及監控告警的有效性,降低事故影響和業務損失。
免責聲明:市場有風險,選擇需謹慎!此文僅供參考,不作買賣依據。
關鍵詞: