農(nóng)商行智能運維-運維大數(shù)據(jù)平臺方案
《農(nóng)商行智能運維-運維大數(shù)據(jù)平臺方案》由會員分享,可在線閱讀,更多相關(guān)《農(nóng)商行智能運維-運維大數(shù)據(jù)平臺方案(55頁珍藏版)》請在裝配圖網(wǎng)上搜索。
1、農(nóng)商行 智能運維 - 大數(shù)據(jù)分析平臺項目 方案建議書 目錄 第 1 章 . 項目概述 第 2 章 . 總體方案介紹 6 2.1. 方案概述 6 2.2. 設(shè)計理念 8 2.3. 平臺規(guī)劃 11 2.4. 平臺框架 12 2.5. 平臺特點 13 2.6. 平臺技術(shù)能力 16 第 3 章 . 運維大數(shù)據(jù)平臺建設(shè)設(shè)計 24 3.1. 總體架構(gòu) 24 3.2. 運維大數(shù)據(jù)平臺架構(gòu)設(shè)計 24 邏輯架構(gòu) 24 物理架構(gòu) 25 數(shù)據(jù)采集 26 3.3. 數(shù)據(jù)聚合及處理 數(shù)據(jù)存儲 查詢引擎 告警引擎 機器學習
2、 展現(xiàn)引擎 平臺管理 運維大數(shù)據(jù)平臺展現(xiàn)設(shè)計 28 31 31 33 34 34 35 36 3.3.1. 整體架構(gòu) 36 3.3.2. 展現(xiàn)原則 37 3.4. 運維大數(shù)據(jù)平臺管理功能設(shè)計 37 3.4.1. 權(quán)限管理 38 3.4.2. 平臺自檢 38 第 4 章 . 運維大數(shù)據(jù)平臺運用場景 40 4.1.1. 運維數(shù)據(jù)集中采集 4
3、0 4.1.2. 運維數(shù)據(jù)集中分析 40 ? 全局搜索 40 ? 查詢語法 41 ? 日志解析 44 4.2. 智能發(fā)現(xiàn)問題場景 45 ? 集中告警管理 47 4.3. 智能分析問題場景 50 4.3.1. 故障關(guān)聯(lián)分析 50 4.3.2. 容量分析 51 ? 單 KPI 指標趨勢分析 -容量預(yù)測 51 ? 多 KPI 指標趨勢分析 -容量預(yù)測/故障預(yù)測 5 4 ? 應(yīng)用分析場景
4、 57 4.4. 智能問題解決場景 58 第 5 章. 公司簡介 錯誤!未定義書簽 第1章.項目概述 隨著某農(nóng)商行業(yè)務(wù)的快速發(fā)展,信息系統(tǒng)日漸龐大和復(fù)雜,當前行內(nèi)的IT架 構(gòu)早已不是單一系統(tǒng)或是單一設(shè)備的單純環(huán)境,伴隨而來,是規(guī)模不斷擴大的 IT 系統(tǒng),日益復(fù)雜的系統(tǒng)架構(gòu),以及海量的IT運維數(shù)據(jù)。數(shù)據(jù)中心運維管理難度和 重要性也日漸凸顯,對業(yè)務(wù)連續(xù)性要求和運維服務(wù)質(zhì)量的要求也不斷提高,迫切 需要建設(shè)一套科學、高效的運維管理體系。 面對這些新形勢下的挑戰(zhàn),IT運維管理需要從原有的人工加被動響應(yīng),轉(zhuǎn)變 為更高效,更智能化的運維體系,為新形勢下的IT系統(tǒng)保駕護
5、航。在數(shù)據(jù)大集中 背景下,如何使組織和機構(gòu)的IT數(shù)據(jù)進行整合,管理,維護,分析并使之再生效 益,那就催生了“人工智能運維”(以下簡稱Alops),是一種將大數(shù)據(jù)分析和機器 學習的技術(shù)應(yīng)用于現(xiàn)代IT運維及業(yè)務(wù)運營管理體系中的概念,它為IT運維和運 營提供了全新的管理思路。 splunk> Nagios TrveSight ORACLE 智能運維 AIOps,即 Artificial Intelligenee for IT Operations ,智能 運維,將人工智能應(yīng)用于運維領(lǐng)域,基于已有的 運維數(shù)據(jù)(日志數(shù)據(jù),監(jiān)控指標 數(shù)據(jù),告警數(shù)據(jù),應(yīng)用信息等),通過機器學習的方式來進一
6、步解決自動化運維 無法解決的問題 自動化運維在手動運維基礎(chǔ)上大大提高了運維的效率, DevOps有效地提升了 研發(fā)和運維的配合效率。但是,隨著整個IT系統(tǒng)數(shù)據(jù)規(guī)模急劇膨脹,以及服務(wù)類 型更加復(fù)雜多樣,"基于認為配置規(guī)則"的專家系統(tǒng)逐漸變得力不從心。這是因 為,自動化運維的瓶頸在于人腦:必須由長期在一個行業(yè)從事運維的專家們手動 地將重復(fù)出現(xiàn)、有跡可循的現(xiàn)象總結(jié)成為規(guī)則,完成自動化。然后,越來越多的 場景表明,簡單的基于人為制定規(guī)則的方法并不能解決大規(guī)模運維的問題。 與自動化運維依賴人工生成規(guī)則不同,智能運維基于機器學習算法,自動從 海量運維數(shù)據(jù)(包括事件本身以及運維人員的人工處理日志)中不
7、斷地學習,不 斷地提煉總結(jié)規(guī)則,以解決自動化運維和 DevOps 依然無法解決的問題。換句話 說,智能運維在自動化運維的基礎(chǔ)上增加了一個基于機器學習的大腦,指揮著監(jiān) 測系統(tǒng)采集大 腦決策所需數(shù)據(jù),做出分析、決策并指揮自動化腳本去執(zhí)行大腦的 決策,從而達到智能運維系統(tǒng)的整體目標。 典型的智能運維場景包括: 異常發(fā)現(xiàn) 根因分析 趨勢預(yù)測 容量分析 智能預(yù)警 聯(lián)機交易分析 系統(tǒng)畫像 本次項目的目標為在某農(nóng)商行現(xiàn)有 IT 運維管理工具的基礎(chǔ)上建設(shè)“人工智能 IT 運維系統(tǒng)”,幫助打破現(xiàn)有各個孤立系統(tǒng)中的運維數(shù)據(jù)孤島,實現(xiàn)對某農(nóng)商行的 IT 運維數(shù)據(jù)的全面采集及綜合分析。該項目除包含
8、端到端可視化的 IT 數(shù)據(jù)展示、 滿足規(guī)?;悄芑倪\維需求、通過機器學習,做到故障智能化的定位和自動處 理等功能。 此文檔的目的是為收集、分析和定義某農(nóng)商行“人工智能 IT 運維系統(tǒng)”的需 求,提供建議技術(shù)方案、資源方案、實施方案等,并規(guī)劃未來三年的平臺發(fā)展藍 圖。 第2章.總體方案介紹 2.1. 方案概述 伴隨著各種新技術(shù)的出現(xiàn)和管理復(fù)雜度的增加,IT運維部門將面臨前所未 有的挑戰(zhàn): 來自傳統(tǒng)IT及非傳統(tǒng)IT系統(tǒng)的高度分散、多樣和非結(jié)構(gòu)化數(shù)據(jù)。 基于科技技術(shù)在數(shù)字化業(yè)務(wù)中所扮演的重要角色,結(jié)合實際業(yè)務(wù)厘清 IT應(yīng)用和服務(wù)對企業(yè)在營收、成本和風險方面的影響度。 預(yù)測在多大程度
9、上技術(shù)能夠支持不斷變化的業(yè)務(wù),為數(shù)字化企業(yè)領(lǐng)導 提供基于技術(shù)的重要決策咨詢。 與業(yè)務(wù)保持同速,通常傳統(tǒng)的IT運營流程無法企及,且需要盡可能規(guī) 避由于提速所帶來的風險。 當前,某農(nóng)商行數(shù)據(jù)中心在集中的生產(chǎn)環(huán)境中,運行的服務(wù)器已達上千 臺,其上運行著重要的應(yīng)用、數(shù)據(jù)庫、中間件及各種輔助系統(tǒng)。隨著業(yè)務(wù)的發(fā) 展,被管理對象不斷增多,通過常規(guī)的IT運營技術(shù)及工具已經(jīng)不能滿足需求。 當前,IT部門主要通過人工的方式進行運行維護及問題檢測,這種方式不但大 大消耗了技術(shù)人員寶貴的時間,也無形中帶來了各種操作隱患,并難以穩(wěn)定的 保證運維水平一一靠人工檢查已無法滿足業(yè)務(wù)發(fā)展需求,無法做到及時發(fā)現(xiàn)故 障,快速定
10、位問題,日檢及周檢工作占用了大量工作時間。 方案將基于Alops人工智能運維系統(tǒng)框架-夏洛克SharpLook平臺進行大數(shù) 據(jù)分析平臺建設(shè)。在建設(shè)中將體現(xiàn)以下思路: ? 高效安全的集中式運維分析工具 集中高效管理 通過高效數(shù)據(jù)采集手段,實現(xiàn)對現(xiàn)有IT環(huán)境的快速數(shù)據(jù)采集,打破各個孤 立運維工具中的數(shù)據(jù)孤島,對所有運維數(shù)據(jù)集中高效的存儲,查詢,及可視化 展示。 智能自動化處理 如果故障或問題確定是由某個特定的原因引起,可進行自動監(jiān)控、自動診 斷,甚至自動維護。通過機器學習方式快速區(qū)分故障,降低故障率,并通過智能 的故障關(guān)聯(lián)方式關(guān)聯(lián)相關(guān)告警及信息,如變更記錄、流程工單、監(jiān)控指標等, 降
11、低人工維護的成本,并能對故障進行精確定位,加快故障解決速度。 開放且符合標準的平臺 平臺提供符合業(yè)界標準的集成接口,其體系架構(gòu)符合行業(yè)大數(shù)據(jù)的技術(shù)發(fā) 展路線。在架構(gòu)中,已經(jīng)采用了成熟的行業(yè)開源技術(shù)標準中的大量組件,并支 持在后期的擴展開發(fā)中,統(tǒng)一采用某農(nóng)商行的技術(shù)標準。 ? 以應(yīng)用為視角的業(yè)務(wù)系統(tǒng)管理 方案還考慮以應(yīng)用為視角的業(yè)務(wù)系統(tǒng)管理更強調(diào)的是搭建業(yè)務(wù)系統(tǒng)相對應(yīng) 的IT應(yīng)用端到端視圖,能夠便于運維團隊從用戶訪問側(cè)開始,經(jīng)過網(wǎng)絡(luò)、應(yīng)用 服務(wù)器到后端的數(shù)據(jù)庫系統(tǒng),實時并直觀地掌握所負責系統(tǒng)的應(yīng)用狀況與性 能。同時,為了能夠提高平均故障修復(fù)時間(MTTR),運維部門能夠結(jié)合應(yīng)用監(jiān) 控的
12、數(shù)據(jù)和基礎(chǔ)架構(gòu)監(jiān)控數(shù)據(jù),利用平臺的分析優(yōu)化能力,快速定位出業(yè)務(wù)系 統(tǒng)故障現(xiàn)象的根原因,甚至在用戶未感知故障發(fā)生前主動發(fā)現(xiàn)問題并解決,從 而提高業(yè)務(wù)可用性。 ? 決策支持的大數(shù)據(jù)支撐 通過統(tǒng)一運維平臺,建立支撐未來運維的大數(shù)據(jù)平臺,提供支撐 IT運維管 理的分析數(shù)據(jù)。產(chǎn)生面向系統(tǒng)運行的歷史分析數(shù)據(jù),為 IT運維的決策提供強有 力的支持??梢詫崟r對歷史數(shù)據(jù)進行分析、挖掘來分析業(yè)務(wù)系統(tǒng)的發(fā)展趨勢, 為新業(yè)務(wù)的推出提供數(shù)據(jù)化的決策依據(jù)。 通過夏洛克SharpLook技術(shù)框架,并通過后期的優(yōu)化開發(fā),實現(xiàn)對某農(nóng)商 行IT運維分析需求,做到快速數(shù)據(jù)采集、靈活方便配置、動態(tài)閾值、容量預(yù) 測、集中
13、展示,并在系統(tǒng)出現(xiàn)問題時能夠快速發(fā)現(xiàn)問題,定位問題,同時也將 提供針對運維大數(shù)據(jù)分析的能力。 22 設(shè)計理念 本方案幫助用戶應(yīng)對IT運維管理中的常見問題: ? 精細化告警:海量告警中的有效告警 ? 追蹤性能指標波動,分析連鎖反應(yīng),找出根源組件、主機 ,并實現(xiàn)對未 來容量的預(yù)測 ?日志及數(shù)據(jù)追蹤查詢,快速提取和展示、實時分析運維中的關(guān)鍵 KPI指 標 ? 運維數(shù)據(jù)關(guān)聯(lián)分析(指標,告警,日志,工單,變更, 問題,CMDB 配置庫等),找出深層原因 ? 獲得實時的安全/合規(guī)事件預(yù)警,快速響應(yīng) ? 應(yīng)用的深度監(jiān)控,及歷史運行數(shù)據(jù)統(tǒng)計分析 !兩個目標 繪1姻的分/謝憎
14、tsi迓迅垃及您本鹿a蘭析 也務(wù)K卩理磁骸誘 :四項館力 的強人工騎和大頤分祈歸實驕腿取 一個愿景 五Z 第23頁/共58頁 IT運維分析中,通常需要關(guān)注以下幾點: ? 一個愿景:通過通過運用人工智能和大數(shù)據(jù)分析技術(shù),實現(xiàn)智能運維 ?兩個目標:變被動為主動,從IT到業(yè)務(wù)。通過ITOA平臺的建設(shè),讓IT 運維不再是被動的救火,并且能夠通過積極的介入,更多地作為業(yè)務(wù)運 行中必不可少的一個環(huán)節(jié)。 ?三條主線:提供對實時數(shù)據(jù)的分析及處理,通過對歷史數(shù)據(jù)的挖掘,能 夠預(yù)測對關(guān)鍵運行能力進行未來趨勢的分析及預(yù)測。 ?四項能力:在AIops平臺中,必需具備數(shù)據(jù)挖
15、掘、決策支持、故障快速 定位、多角度的分析展示,才能為IT運營分析提供有力支持。 ?五位一體:面向IT運營的平臺,更多地綜合IT數(shù)據(jù)中心內(nèi)部的運行數(shù) 據(jù),通過對運行數(shù)據(jù)的分析,獲得運營支持的關(guān)鍵能力。因此,數(shù)據(jù)的 多方位集成是基礎(chǔ),通常需要的數(shù)據(jù)包括:告警故障數(shù)據(jù)、應(yīng)用監(jiān)控數(shù) 據(jù)、系統(tǒng)及應(yīng)用日志數(shù)據(jù)、配置相關(guān)數(shù)據(jù)以及流程服務(wù)數(shù)據(jù)(如工單、 變更等)。 通過IT運維分析平臺的建設(shè),可以實現(xiàn)的功能場景大致如下: (1) 快速信息檢索/問題定位 IT 運營分析平臺通過收集各類數(shù)據(jù)源(包括:操作系統(tǒng),系統(tǒng)軟件,數(shù)據(jù) 庫,應(yīng)用的日志等),統(tǒng)一進行管理,不同于以往每次僅可查看數(shù)量有限的幾種 日志,
16、運維人員可通過平臺所提供的關(guān)鍵字,統(tǒng)計函數(shù),單條件,多條件,模 糊查找等功能,多個系統(tǒng)中快速定位故障信息,幫助運維人員從全局視角查看系 統(tǒng)的運維數(shù)據(jù)信息。 (2) 復(fù)雜多維報表,應(yīng)用深度監(jiān)控 平臺將各系統(tǒng)的運維數(shù)據(jù)進行統(tǒng)計分析并生成各類實時報表,對各類運維數(shù) 據(jù)(如,應(yīng)用日志,交易日志,系統(tǒng)日志)進行多維度、多角度深入分析及可視 化展現(xiàn),以業(yè)務(wù)視角實時展示各種業(yè)務(wù)指標,比如 : 1. 透視交易量,展示實時的交易系統(tǒng)指標,交易量,平均交易時長,交易 成功率,返回交易碼等,對核心交易系統(tǒng)交易超時事件進行告警, 對核心系統(tǒng)異 常錯誤進行告警,并在告警中帶出關(guān)鍵相關(guān)交易日志。 2. 透視應(yīng)
17、用接口調(diào)用狀態(tài),每分鐘/每天對核心業(yè)務(wù)進行關(guān)鍵指標統(tǒng)計(如 調(diào)用來源,調(diào)用量,接口處理時間等),體現(xiàn)端到端的運維的狀態(tài) 3. 監(jiān)控實際用戶體驗,比如為 Web訪問日志創(chuàng)建數(shù)據(jù)模型,透視響應(yīng)最慢 的網(wǎng)頁,顯示最多的錯誤代碼的等 4. 另外,通過建立應(yīng)用、系統(tǒng)、物理主機之間的邏輯從屬關(guān)系,從而將平 面的日志變?yōu)榱Ⅲw的日志。通過對日志源與對應(yīng)系統(tǒng)的邏輯關(guān)系記錄, 使問題的 定位更加快速、直觀,使得問題的解決更加容易便捷。 (3) 快速發(fā)現(xiàn)故障,精準告警 實時采集各類運維數(shù)據(jù)(日志,監(jiān)控系統(tǒng)告警,性能數(shù)據(jù)等),通過歷史數(shù) 據(jù)的挖掘和分析,平臺可以找出哪些告警和事件頻繁一起出現(xiàn), 并認為是一類
18、故 障的告警,把多個報警和指標綜合起來,同類的報警進行合并來推送給運維人員, 做到精細化告警,避免傳統(tǒng)監(jiān)控工具因一故障而導致的告警風暴,生產(chǎn)告警噪音。 (4) 縮短故障解決時間 通過運維數(shù)據(jù)可視化(復(fù)雜多維報表,熱力圖)以及精細化告警信息,結(jié)合 以前發(fā)現(xiàn)問題的經(jīng)驗知識庫和模型, 從而將運維信息從平面變?yōu)榱Ⅲw,立體展現(xiàn) 故障樹分析,通過推導路徑使運維人員對于問題的定位更加快速、直觀,使得問 題的解決更加容易便捷。 (5) 故障預(yù)測,事先預(yù)警 對運維數(shù)據(jù)進行數(shù)據(jù)挖掘,生成分析類報表,例如某些故障之間有時間上的 先后關(guān)系,例如交換頁不足,內(nèi)存不足會逐漸導致系統(tǒng)故障或應(yīng)用故障, 該系統(tǒng) 建立關(guān)
19、聯(lián)模型,發(fā)現(xiàn)前者故障,提醒用戶可能后繼可能發(fā)生系統(tǒng)故障或應(yīng)用故障。 在故障產(chǎn)生真正業(yè)務(wù)影響前,告知運維人員事先解決問題。 23 平臺規(guī)劃 在運維平臺建設(shè)的過程中,特別需集合某農(nóng)商行的實際環(huán)境和情況對平臺的建設(shè)進行規(guī) 劃,在建設(shè)中可以根據(jù)實際的使用場景需求分為以下四個階段: 以上每個階段對運維建設(shè)的不同需求,可以在未來作為建設(shè)的路線進行考慮。 項目一期 項目目標: 1. 運維數(shù)據(jù)大集中。打破各個運維系統(tǒng)的數(shù)據(jù)孤島,米集當前環(huán)境中 各類的運維分析所需數(shù)據(jù),包含:日志數(shù)據(jù), IT流程數(shù)據(jù),性能 指標,告警數(shù)據(jù),批量元數(shù)據(jù)。采集監(jiān)控性能數(shù),實現(xiàn)性能數(shù)據(jù)的 統(tǒng)一管理;采集關(guān)鍵業(yè)務(wù)日
20、志,對業(yè)務(wù)日志進行數(shù)據(jù)分析,提取業(yè) 務(wù)交易數(shù)據(jù);對業(yè)務(wù)日志進行歸檔存儲,實現(xiàn)統(tǒng)一的檢索查詢; 2. 趨勢分析。分析歷史指標數(shù)據(jù)閾值的配置問題,構(gòu)建智能分析模 型。幫助構(gòu)建智能基線模型,以及容量預(yù)測模型 3. 可視化分析。提供運維可視化報表,通過日志解析及可視化展現(xiàn)交 易端到端監(jiān)控,輔助決策支持。 4. 通過智能算法,實現(xiàn)指標的智能預(yù)警和異常檢測場景。 項目二期 項目目標: 1. 對接統(tǒng)一事件管理平臺,實現(xiàn)告警事件、業(yè)務(wù)數(shù)據(jù)、性能數(shù)據(jù)的匯 總分析; 2. 通過業(yè)務(wù)數(shù)據(jù)+事件數(shù)據(jù)+性能數(shù)據(jù),實現(xiàn)多維度的業(yè)務(wù)分析、告警 關(guān)聯(lián)分析; 3. 智能監(jiān)控。
21、是建立基于動態(tài)閾值的性能監(jiān)控,幫助運維人員更為 靈敏、及時地發(fā)現(xiàn)性能指標異動,結(jié)合日志實現(xiàn)關(guān)聯(lián)分析。嘗試部 分場景精準告警,分析固定時間窗口內(nèi)的報警彼此關(guān)聯(lián)關(guān)系,建立 根源報警和周邊報警聯(lián)系,輔助故障根源定位。 4. 未來預(yù)測:通過多KPI指標關(guān)聯(lián)分析和發(fā)現(xiàn),實現(xiàn)容量預(yù)測、故障 預(yù)測、熱點預(yù)測等。 5. 故障診斷。對故障告警進行根因分析,輔助快速定位故障根因, 6. 實現(xiàn)故障根因分析。 項目三期 項目目標: 1. 對接ITIL、CMDB系統(tǒng),實現(xiàn)運維數(shù)據(jù)的大匯總; 2.通過業(yè)務(wù)數(shù)據(jù)和運維數(shù)據(jù)的整合分析,實現(xiàn)以業(yè)務(wù)驅(qū)動運維的管理 能力。 2
22、4 平臺框架 整體方案在邏輯上分為兩個層次: ? 現(xiàn)有IT運維管理平臺(ITOM):包括各專業(yè)監(jiān)控平臺,如系統(tǒng)監(jiān)控平臺、應(yīng) 用監(jiān)控平臺、流程管理平臺等?;谀壳澳侈r(nóng)商行的現(xiàn)狀,相關(guān)的 IT運維 管理工具包括: 集中事件平臺-金證事件集中管理平臺 系統(tǒng)監(jiān)控-IBM Tivoli 監(jiān)控平臺 網(wǎng)絡(luò)監(jiān)控-合名監(jiān)控系統(tǒng) IT流程管理平臺 -BMC remedy 配置管理庫-BMC CMDB 應(yīng)用性能監(jiān)控-天旦BPC ? 智能運維-運維大數(shù)據(jù)分析平臺(Alops):該平臺以ITOM平臺為基礎(chǔ),構(gòu)建 在ITOM平臺的上層,通過算法智能場景:智能預(yù)警 +異常發(fā)現(xiàn)+故障根源分 析,專注在分析
23、能力,更多地集中在快速問題分析、趨勢分析、運營支撐 的能力。解決方案框架如下: Q色詢、告書啓示引坐 U 磁大敵拯處理 8大數(shù)抵存儲 :師管粉析引整 %> Ki.SU.WiS^rtf S 話刪曲| 兇蚯3B 血時乩 5i
24、標。 2.5. 平臺特點 本次方案基于擎創(chuàng)科技的夏洛克大數(shù)據(jù)智能運維平臺實現(xiàn)。夏洛克平臺提供 AIOps各階段需要的能力,具備多源數(shù)據(jù)采集、高效實時分析、機器學習能力, 能夠協(xié)助企業(yè)級用戶一站式分析IT運維整體狀況,實現(xiàn)跨域海量數(shù)據(jù)(如各類 日志、性能指標等)的采集、集中歸檔及管理、挖掘關(guān)鍵指標、集中展示及分析, 并通過“排障助手”、異常檢測、趨勢分析、故障關(guān)聯(lián)及精準告警等智能運維手 段,協(xié)助用戶提高IT運維能力,降低IT成本。 提供決策支持的大數(shù)據(jù)支撐平臺 通過統(tǒng)一的運維系統(tǒng),建立支撐未來運維的大數(shù)據(jù)平臺,提供支撐 IT運維 管理的分析數(shù)據(jù)。產(chǎn)生面向系統(tǒng)運行的歷史分析數(shù)據(jù),為 I
25、T運維的決策提供強 有力的支持??梢詫崟r對歷史數(shù)據(jù)進行分析、挖掘來分析業(yè)務(wù)系統(tǒng)的發(fā)展趨勢, 為新業(yè)務(wù)的推出提供數(shù)據(jù)化的決策依據(jù)。 高效安全的集中式運維分析工具 ? 數(shù)據(jù)集中高效管理 通過高效數(shù)據(jù)采集手段,實現(xiàn)對現(xiàn)有IT環(huán)境的快速數(shù)據(jù)采集,打破各個孤 立運維工具中的數(shù)據(jù)孤島,對所有運維數(shù)據(jù)進行集中高效的存儲、查詢及可視 化展示。 ? 快速排障 內(nèi)置分析算法,對相關(guān)的指標、告警及數(shù)據(jù)進行比對,協(xié)助運維人員快速發(fā) 現(xiàn)異常,縮短問題解決時間,加快故障解決速度。 ? 開放的平臺接口 平臺提供符合業(yè)界標準的集成接口,其體系架構(gòu)符合行業(yè)大數(shù)據(jù)的技術(shù)發(fā) 展路線。在架構(gòu)中,已經(jīng)采用了成熟的行業(yè)開
26、源技術(shù)標準中的大量組件,并支 持在后期的擴展開發(fā)中,統(tǒng)一采用某農(nóng)商行的技術(shù)標準。 經(jīng)過驗證的智能分析引擎 平臺內(nèi)置多種經(jīng)過驗證的人工智能算法,能夠?qū)崿F(xiàn)針對 IT運維場景的故障 分析、精準告警、趨勢分析等,并提供算法外掛的能力,隨時擴充平臺的智能 能力。如果故障或問題確定是由某個特定的原因引起,可進行自動監(jiān)控、自動 診斷,甚至自動維護。通過機器學習方式快速區(qū)分故障,降低故障率,并通過智 能的故障關(guān)聯(lián)方式關(guān)聯(lián)相關(guān)告警及信息,如變更記錄、流程工單、監(jiān)控指標 等,降低人工維護的成本,并能對故障進行精確定位,加快故障解決速度。 以應(yīng)用為視角的業(yè)務(wù)系統(tǒng)管理 產(chǎn)品本身還內(nèi)置了以應(yīng)用為視角的業(yè)務(wù)系統(tǒng)
27、管理,通過配置直接可以使 用。通過搭建業(yè)務(wù)系統(tǒng)相對應(yīng)的IT應(yīng)用端到端視圖,能夠便于運維團隊從用戶 訪問側(cè)開始,經(jīng)過網(wǎng)絡(luò)、應(yīng)用服務(wù)器到后端的數(shù)據(jù)庫系統(tǒng),實時并直觀地掌握 所負責系統(tǒng)的應(yīng)用狀況與性能。同時,為了能夠提高平均故障修復(fù)時間 (MTTR),運維部門能夠結(jié)合應(yīng)用監(jiān)控的數(shù)據(jù)和基礎(chǔ)架構(gòu)監(jiān)控數(shù)據(jù),利用平臺的 分析優(yōu)化能力,快速定位出業(yè)務(wù)系統(tǒng)故障現(xiàn)象的根原因,甚至在用戶未感知故 障發(fā)生前主動發(fā)現(xiàn)問題并解決,從而提高業(yè)務(wù)可用性。 高可用性 運維大數(shù)據(jù)平臺系統(tǒng)本身服務(wù)保證在 99.99%的時間內(nèi)能正常運行,服務(wù)中 斷時間一年內(nèi)累計不得多于兩小時。 運維大數(shù)據(jù)平臺上部署的任何節(jié)點都需要采用雙活的
28、高可用模式,任何節(jié) 點出現(xiàn)故障,運維大數(shù)據(jù)平臺能夠在分鐘級發(fā)現(xiàn)故障并隔離,分鐘級內(nèi)將監(jiān)控 切換到其他節(jié)點,期間監(jiān)控數(shù)據(jù)不丟失。 運維大數(shù)據(jù)平臺設(shè)計采用合理架構(gòu),保證運維大數(shù)據(jù)平臺系統(tǒng)故障不影響 或盡可能少影響業(yè)務(wù)運行。運維大數(shù)據(jù)平臺系統(tǒng)軟硬件系統(tǒng)故障須確保數(shù)據(jù)的 完整性,不得出現(xiàn)數(shù)據(jù)丟失的情況。 高性能 運維大數(shù)據(jù)平臺整體架構(gòu)設(shè)計需要充分考慮平臺的高性能,平臺能夠支持 并發(fā)用戶數(shù)不低于100個,并發(fā)管理及監(jiān)控服務(wù)器等實例不低于 30000個,并 發(fā)指標數(shù)不低于100萬個。 運維大數(shù)據(jù)平臺在性能類告警發(fā)生時,分鐘級產(chǎn)生告警,容量類發(fā)生的告 警時分鐘級產(chǎn)生告警,可用性發(fā)生告警時秒級產(chǎn)生告警
29、。 運維大數(shù)據(jù)平臺數(shù)據(jù)庫節(jié)點故障探測及自主切換時間不超過 1分鐘。運維 大數(shù)據(jù)平臺窗口按鈕平均響應(yīng)時間不超過 30秒鐘。 若采用代理方式,代理在每分鐘采集 500個指標的工作情況時,占用的 CPU不超過總CPU勺3%內(nèi)存占用不超過200MI采值誤差不超過2%采值時延 不超過1s。 每天至少能夠處理數(shù)T的新增監(jiān)控數(shù)據(jù),性能監(jiān)控指標每秒至少可以入庫 3萬條記錄,日志數(shù)據(jù)錄入峰值不低于 800G/天。持久化時間不得超過1s。需 要提供數(shù)據(jù)層調(diào)優(yōu)參數(shù)窗口,重點參數(shù)在窗口調(diào)優(yōu)后立刻生效。 提供數(shù)據(jù)層管理功能數(shù)據(jù)在線提取、備份和歸檔、保留周期、清理策略調(diào) 整的窗口,調(diào)整后立即生效。 調(diào)
30、用海量數(shù)據(jù)生成報表時,響應(yīng)時間在可接受范圍內(nèi),查看單臺服務(wù)器前 1天的報表響應(yīng)時間小于30s,查看單臺服務(wù)器,1個月內(nèi)數(shù)據(jù),響應(yīng)時間小于 1分鐘;查看100臺服務(wù)器1周內(nèi)數(shù)據(jù)的報表,相應(yīng)時間小于 2分鐘,查看100 臺服務(wù)器1個月內(nèi)的數(shù)據(jù)響應(yīng)時間小于3分鐘。 2.6.平臺技術(shù)能力 海量數(shù)據(jù)采集能力 夏洛克ITOA具備多樣且彈性的數(shù)據(jù)搜集方法,可以檢索各種型態(tài)的IT運營 數(shù)據(jù),不限定數(shù)據(jù)樣式,并收集來自各種不同的應(yīng)用系統(tǒng)和網(wǎng)絡(luò)設(shè)備。 通過利用 所有數(shù)據(jù)(結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù))來全面了解 IT運維活動,其中包括: 事 件、日志、告警、性能和任何指標。 Agent方式 數(shù)據(jù)采集接口
31、集成方式 開源方式 采用豈涪殼自有比理,支持壬流燥作京蜿,蛆井的性能懇日志采餐眇級數(shù)JS 采崖能R . CPU便用豐平越過M %. 瓏釆矢能力自話應(yīng).具留子護充觀自譚整能力 自監(jiān)控勒”貝缶容訊,流■控飆 采集刪質(zhì)伏況,數(shù)呃定證性謝直 細集刪育包志系飪的舸的L JtlSplLink , iA^tKtSplunk Forwarder^ 發(fā)3 DaU到弟三方系魏(肓萬克特} 異他DO用的主i耘也甲臺整合捲口 , 5::0MC BPPM/Trucsight. Remedy, Control-MU 支持5戸I旳、立杵上傳方式集磁 幵啟式摳口 ”客戶□定宣烹惟合 便用現(xiàn)有抿賽互聯(lián)網(wǎng)企業(yè)都
32、育自己的幵灑海血融采畫工翼.賽用于舷日 志睪炭如刊總盹a軸Fluni# Hpk*導 全平臺支持能力 -主流操作系統(tǒng)、數(shù)據(jù)庫、中間件、容器、存儲以及主流監(jiān)控系統(tǒng) ? 高吞吐秒采能力-海量數(shù)據(jù)實時,高頻采集 (秒采),每秒支持采集數(shù)萬事件 ? 開箱即用的采集能力 -提供開箱即用的采集模版,縮短數(shù)據(jù)采集定制難度 ? 自助監(jiān)控能力擴展能力 —支持自定義腳本/Web Service 接口擴展/網(wǎng)絡(luò)端口監(jiān)聽等 擴展采集方式 ? 其他能力 -支持容錯,流量控制,以及支持采集端資源控制、健康狀況以及數(shù)據(jù)完 整性檢查,保障采集端的穩(wěn)定性。 圖形化配置解析規(guī)則 圖形化配置運維數(shù)據(jù)解析規(guī)則,用
33、戶可以通過圖形化向?qū)?fù)雜的數(shù)據(jù)數(shù)據(jù) 格式,通過夏洛克平臺預(yù)定義采集策略,解析并轉(zhuǎn)化為數(shù)據(jù)存儲所要求的規(guī)范化 格式 碗駆■ MHMa 4 —? i ■片卓呻 EJe* \i ■ 4 | * 彈■fl*!1. ■a ■:= " i l-L 4齢* ifrnTjBM qT Lb i aM "bN. LM .frii . f ■拿m . d i a .T- I E ■i"V- ■ a9F*a ? * J a . ■ jU . ■才 r
34、 |ji ■L1W _ ■】屛 * *(-rH Mt i tu |iHr- 7 l-r M IfTIMtinEi 9 hsJ.- ? kJ lip! rtlwrj YF35 i-存? 4UX" LM* -NB i ijI -■■pn Aip Ef FL ?辜rm緲.3 bb■- Hr ■ ?雖印缶巾 |A 呻 r …*■ iai ^r-r fl;- !■
35、- fH 1 f H. IJ !> JH Hrl4 J I- IBJ B 34 0 ■ ■■Il u - V I 4 1" Tl PN s tWJMMr ■ A同的 a 1* ?壽■神吟ii 支持解析策略包括: 正則解析,字段管
36、理,類型轉(zhuǎn)換,日期規(guī)范化,KV解析,大小寫轉(zhuǎn)換,User Age nt 解析規(guī)則,URL Decode解析,替換規(guī)則,JSONW析,XML解析,分隔符解析 豐富的開箱即用功能 為了讓夏洛克更為方便實用,夏洛克內(nèi)置大量針對常用運維系統(tǒng)的數(shù)據(jù)解析、 分析、展示模版,運維人員只需要進行簡單配置就可以采集及分析相關(guān)應(yīng)用。 ■E^H 103 SQL S#r ye- ■II ii JOB I | ■霜 2Q17-9e-n 22:MB MySQL - Erw It■需 已另昭 m i i on i 躍用 zoit^w^s 監(jiān);右a g*
37、CWaten - 巳啟劇 201^0C-2S22:23 19 - XUL KM 巳屆疇 i ni?|漏用 20174M-?812:2M1 Oracle WvbL^igic EZ用憑銀 SHI ] | ■?降 | Sffl 9D17-U-29 22:2341 llSlog er用用就 EXBffl 2DI7->fi-2a 22-22 他 巳啟期 ■竊1和11鼻陪|耳用 2Q17 M 2d 22 27^2 MicrotsorE IIS - fjitendedl 癢視1克Hl "J* 1茸
38、用 2D17-CP6-2a 22-2Q 43 htermDn IIS W也i覇 ?用 sgiy-M m n:aot 3* Apaebe W=b.iS 已宕團 占宦克隆1鼻肆1常用 2D17-0€-2a 22:19r22 Apache TamcJi! 應(yīng)Ml用酬 已自厲 ■1■、臣H | 鼻曲 I MN4 加站22:倔?酣 離亡h$ Hiq^^rver - ErTO< mm 1克陡1 1用 2Q17-M-2i@ 22:18 04 全局索引和搜索 夏洛克具備快速自定義的各種型態(tài)搜尋,而不是只有固定幾種的
39、字段,不需 要指定數(shù)據(jù)的格式,更可結(jié)合時間與關(guān)鍵詞進行搜尋,呈現(xiàn)出清楚的搜索結(jié)果, 使用上就像百度、Google 一樣的直觀易用。為方便運維人員使用,在支持SPL查 詢語法的同時,支持SQL語法查詢。 SKACPILlJC e .n$: OB ■Iff MHM >n IF EQ 二;1OCOQ! * ? 鍵入關(guān)鍵詞后任意搜尋, 支持類自然語言SPL和結(jié)構(gòu)化查詢語言SQL ? 支持大數(shù)據(jù)量秒級搜索,實時收集/搜索數(shù)以百萬計的數(shù)據(jù)字段 ? 支持全文檢索,短語查詢,字段值查詢,邏輯運算符,計算及范圍查詢, 排序等基本查詢 ? 支持統(tǒng)計分析,子查詢,事務(wù)合并查詢,基線分
40、析查詢等高級查詢 ? 可支持無限聚合的能力,即在生成統(tǒng)計聚合結(jié)果的基礎(chǔ)上,再次進行統(tǒng)計 和排序操作 ? 在搜索過程中提取和生成字段 ? 查詢數(shù)據(jù)直接生成報表及儀表板,做到所見即所得 INTO 同 EiWft 20f7-9. .0.6002 2^Q.GJXBl 3GI7G.DOOOZ 20rM』DGOZ 207-0.00002 2W7^.O.OKiZ 2617-0 OGQOZ 4小時內(nèi)中間件服務(wù)報錯數(shù)據(jù) I^Hl GOUHt 系境日志告警級別分布 2W7-Q.JOJDD02 w-o^&imz 多維(實時)報表及儀表盤功能 將各系統(tǒng)的運維數(shù)據(jù)進行統(tǒng)計分析并
41、生成各類實時報表,對各類運營數(shù)據(jù) (如,應(yīng)用日志,交易日志,系統(tǒng)日志)進行多維度、多角度深入分析及可視化 展現(xiàn),以業(yè)務(wù)視角實時展示各種業(yè)務(wù)指標,以及幫助關(guān)聯(lián)分析 過去2天每分鐘的WEB請求數(shù)據(jù)5 過去1小時的每分鐘CPU的晟大使用率 山 ■- rnax_xslBValu4 心 1D0 夏洛克平臺提供強大的報表能力,能夠?qū)⑺褜そY(jié)果以各項清晰的圖表呈現(xiàn), 更可彈性化地生成企業(yè)和機構(gòu)管理層所想要的報告內(nèi)容。 ? 無須透過其他工具,可直接輸出報表 ? 可從多數(shù)據(jù)源中獲取,并基于關(guān)鍵主鍵進行聚合關(guān)聯(lián)分析和串聯(lián)展示 ? 8種報表格式,如直方圖、線性圖、分區(qū)圖、圓餅圖、單點圖…等
42、? 支持向下鉆取:皆為動態(tài)報表,可隨時點選并進行特定搜尋 通過實時和直觀的儀表板/報表,達到運維可視化的目的,包括應(yīng)用狀態(tài)可視 化、趨勢可視化、故障可視化、異??梢暬⒂绊懣梢暬?、業(yè)務(wù) KPI可視化 主動監(jiān)測和告警功能 夏洛克ITOA運維大數(shù)據(jù)分析平臺能夠定期/實時執(zhí)行,并依據(jù)搜尋結(jié)果發(fā)出 各項警示通知,可以透過Email、腳本等方式鏈接其他管理接口,可觸發(fā)執(zhí)行自 行定義的相應(yīng)方式,例如重新啟動應(yīng)用程序、系統(tǒng)或網(wǎng)絡(luò)設(shè)備。 ? Email發(fā)送警告 ? 可制訂不連續(xù)時間啟動自動搜尋并發(fā)送警告 ? 可以呼叫script 延伸應(yīng)用 排障助手 通過大數(shù)據(jù)分析算法,集中分析相關(guān)指標及
43、數(shù)據(jù),回放問題發(fā)生前各項指標 狀態(tài),經(jīng)關(guān)聯(lián)分析相關(guān)性能指標和日志數(shù)據(jù)之間的關(guān)系,更快分析根本原因 VF Ri:7?m HAW ? 1-,-i-i I;; fe JdS v=i .:苛」i^i > 三匸比 II oi BXVL VI1 MB ■ CPU ■ i^irpjnv: ■flBi? ■旦芒犁 ? 獲得所有排障過程需洞察的所有數(shù)據(jù)源,包括日志分析,性能指標,運 維流程數(shù)據(jù)(事件工單、變更數(shù)據(jù))等 ? 以時間軸的方式回放數(shù)據(jù),獲得任一何時間點查看所有數(shù)據(jù)狀態(tài),以快 速解決問題 ? 利用自動運維數(shù)據(jù)分析,查明根本原因 智能分析引擎 平臺內(nèi)置多種智能學習算法,通過智能分
44、析引擎,根據(jù)歷史監(jiān)控數(shù)據(jù)和告警 信息,產(chǎn)生智能閾值模型、事件關(guān)聯(lián)性模型,業(yè)務(wù)影響性模型、事件智能處 理模型。不斷利用新生成的數(shù)據(jù),對現(xiàn)有模型進行完善和優(yōu)化調(diào)整。 根據(jù)歷 史事件的處理方法,總結(jié)規(guī)則,形成模型,主要針對如下幾個方面: 監(jiān)控閾值的機器學習,逐步實現(xiàn)精準告警。 事件關(guān)聯(lián)性分析和業(yè)務(wù)影響分析。 部分告警事件智能處理的智能運維。 容量預(yù)測功能 IHKW^ 動態(tài)檢測F關(guān)聯(lián)分析 kn 4r< HRnwiftanAv |T ::丸“, tumii |-q ■■! | . *4 MVA1* *3 和*丿宀丄叫"名*?」?? 機器學習 ■UUi p 安全
45、功能 企業(yè)、組織和機構(gòu)的IT信息其重要性不言而喻。而夏洛克ITOA平臺可進行 用戶數(shù)據(jù)訪問權(quán)限管理,安全管控,確保數(shù)據(jù)在存取、分析和稽核時不會破壞數(shù) 據(jù)的完整性。 ? 提供用戶聯(lián)機與數(shù)據(jù)訪問權(quán)限控制 ? 不變更原始數(shù)據(jù)的完整性 銀行的業(yè)務(wù)動態(tài)運行分析 夏洛克平臺針對銀行類的業(yè)務(wù)系統(tǒng)特別推出了針對業(yè)務(wù)端到端的動態(tài)運行 圖,將各系統(tǒng)的運維數(shù)據(jù)進行統(tǒng)計分析并生成各類實時報表, 對各類運維數(shù)據(jù)(如: 應(yīng)用日志、交易日志、系統(tǒng)日志等)進行多維度、多角度深入分析及可視化展現(xiàn), 以業(yè)務(wù)視角實時展示各種業(yè)務(wù)指標,可以做到: ? 透視交易量 展示實時的交易系統(tǒng)指標-交易量、平均交易時長、交易成 功
46、率、返回交易碼等,對核心交易系統(tǒng)交易超時事件進行告警,對核心系 統(tǒng)異常錯誤進行告警,并在告警中帶出關(guān)鍵相關(guān)交易日志。 ? 透視應(yīng)用接口調(diào)用狀態(tài) 每分鐘/每天對核心業(yè)務(wù)進行關(guān)鍵指標統(tǒng)計(如調(diào) 用來源、調(diào)用量、接口處理時間等),體現(xiàn)端到端的運維的狀態(tài)。 ? 監(jiān)控實際用戶體驗 比如為網(wǎng)頁訪問日志創(chuàng)建數(shù)據(jù)模型、檢視響應(yīng)最慢的 網(wǎng)頁、顯示最多的錯誤代碼等 ? 變平面為立體 通過建立應(yīng)用、系統(tǒng)、物理主機之間的邏輯從屬關(guān)系,將 平面的日志變?yōu)榱Ⅲw的日志。通過對日志源與對應(yīng)系統(tǒng)的邏輯關(guān)系記錄, 使問題的定位更加快速、直觀,使得問題的解決更加容易便捷。 0 M23列、肚58列
47、 第27頁/共58頁 第3章.運維大數(shù)據(jù)平臺建設(shè)設(shè)計 3.1. 總體架構(gòu) 根據(jù)項目需求及某農(nóng)商行的技術(shù)路線,本次項目建議的總體架構(gòu)規(guī)劃如下 紅色為項目一期目標,綠色為項目二期目標,淺藍色為項目三期目標。 CKtmta -gKwflthtH .? . ■ 1 ■ c> V ■ Him nrm=ft?u 曲灑手 I 11 Ij I li It I Jl I ! 3.2. 運維大數(shù)據(jù)平臺架構(gòu)設(shè)計 邏輯
48、架構(gòu) 運維大數(shù)據(jù)平臺的整體架構(gòu)是根據(jù)其要求的功能性要求以及非功能性要求 進行設(shè)計。平臺共分為:數(shù)據(jù)采集,數(shù)據(jù)處理,數(shù)據(jù)存儲,查詢引擎,告警引擎, 分析引擎,展現(xiàn)引擎以及平臺管理共計 8個模塊組成,整體邏輯架構(gòu)圖如下: 魚返遇準IS他訥第(9PL丄SQL) 劉T詢 xrk Mllih| 一全局量向即肇 8大模塊都可支持橫向擴展,提升每個模塊的吞吐量以及處理能力,同時每 個模塊內(nèi)部都是多點分布式部署,保證了系統(tǒng)高可用以及數(shù)據(jù)安全。在數(shù)據(jù)采集, 處理,存儲以及分析等模塊采用了目前比較主流成熟的開源組件, 既有效利用了 開源社區(qū)的力量,避免重復(fù)建設(shè),
49、同時有選擇性的利用以及優(yōu)化/改造, 也避免 了開源軟件在穩(wěn)定性以及可靠性上的不足 物理架構(gòu) 運維大數(shù)據(jù)平臺在物理部署時充分考慮了架構(gòu)的先進性,避免了重復(fù)建設(shè) 以及減輕了平臺本身后期的維護要求,監(jiān)控平臺中需要的 Hadoop HBase ElasticSearch、Spark、Kafka以及ZK集群都支持用戶版本需求,其他增量節(jié) 點都支持虛擬機,非存儲節(jié)點也支持 Docker或者Kubernetes部署,可以非常 容易的調(diào)整節(jié)點數(shù)量,為后期平臺的自動智能擴容提供了基礎(chǔ),整體物理架構(gòu) 如下: 數(shù)據(jù)采集 數(shù)據(jù)采集分為有代理采集以及無代理采集兩種方式,其中無代理采集為在 服務(wù)端采集
50、,支持SNMP,DATABSETCP, SYSLOGI主流采集協(xié)議,對于一些無 法安裝代理的被采集對象,可以采用這種方式。有代理采集采用多進程方式, 即:守護進程+工作進程的方式,既保證采集代理的穩(wěn)定性,又可以對工作進 程的資源消耗進行控制,避免代理客戶端對被采集對象的資源消耗過大。 1. 無代理采集 無代理采集基于開源框架 Kafka Connect進行優(yōu)化以及改造而來,框架本 身提供了采集服務(wù)的高可用以及采集數(shù)據(jù)的數(shù)據(jù)安全, 其基于Kafka集群, 采集之后的數(shù)據(jù)首先寫入Kafka集群,后續(xù)流經(jīng)統(tǒng)一的數(shù)據(jù)處理引擎 Spark Streaming進行數(shù)據(jù)的解析以及結(jié)構(gòu)轉(zhuǎn)換。無代理采集支
51、持從文件,數(shù)據(jù) 庫,tcp,snmp, syslog等協(xié)議采集數(shù)據(jù),其采集配置支持通過接口方式進 行新增,修改以及停止等熱更新操作。 2. 有代理采集 有代理采集需要在被采集對象上安裝客戶端,因此有代理采集需要具備穩(wěn) 定,高效,低資源消耗的功能,并且可以適配不同的操作系統(tǒng),根據(jù)要求, 可以支持aix以及主流Linux和Windows操作系統(tǒng)。本次投標的夏洛克平 第26頁/共58頁 臺直接支持Flume作為采集端的接入 多進程 代理客戶端分為守護通訊進程以及采集工作進程, 守護通訊進程負責 與服務(wù)端進行通訊,可以實時接收服務(wù)端下發(fā)的采集指令, 此外守護 通訊進程還負責監(jiān)控采集工
52、作進程,當工作進程出現(xiàn)異?;蛘哔Y源消 耗過大時,進行管理控制。 ? 跨平臺 采集代理支持基于x86平臺的主流Linux以及Windows系統(tǒng),也支持 IBM AIX系統(tǒng)。在x86平臺上基于開源組件Beats改造和優(yōu)化而來, 在AIX平臺上基于開源組件Nxlog改造和優(yōu)化而來,兩個開源組件都 經(jīng)過了開源社區(qū)的大量測試以及改造,功能以及穩(wěn)定性都值得信賴, 在兩個開源組件之上,通過新增的守護通訊進程對通訊協(xié)議以及指令 進行了統(tǒng)一,對上層的服務(wù)端提供了統(tǒng)一的采集通訊接口。 ? 高性能 米集客戶端基于C/GO靜態(tài)語言開發(fā),編譯后為直接可執(zhí)行的機器代 碼,省去了像Java等高級語言的運行時解析環(huán)
53、節(jié),更為高效。另外 采集客戶端與服務(wù)端通訊為雙向tcp長鏈接方式,服務(wù)端的采集指令 可以快速實時下發(fā)給客戶端。 ? 低消耗 采集客戶端本身提供采集速度,網(wǎng)絡(luò)流量等配置功能,可以通過合理 的采集速度配置,來使其本身的資源消耗在一個合理的水平, 此外守 護進程還通過cgroup的方式來從上層限制了采集客戶端進程的最大 資源消耗,確保客戶端的資源消耗符合需求。 ? 高頻率,高精度 采集客戶端的高性能以及低消耗決定了可以進行更高頻率的指標采 集,更能保證指標的準確度以及數(shù)據(jù)完整性, 返回給服務(wù)端的數(shù)據(jù)即 可以為明細數(shù)據(jù),也可以是在客戶端處理之后的均值, 既能減輕服務(wù) 端的壓力,又能保證服務(wù)端
54、拿到數(shù)據(jù)的準確性。此外,針對CPU負荷 等毫秒級變化的指標,采用底層操作系統(tǒng)內(nèi)核API的方式直接讀取系 統(tǒng)提供的更準確更真實的數(shù)據(jù)。 ? 數(shù)據(jù)安全 采集客戶端在遇到網(wǎng)絡(luò)狀況不好或者網(wǎng)絡(luò)丟失的情況時,可以先把采 集到的數(shù)據(jù)緩存到本地,等到網(wǎng)絡(luò)恢復(fù)時,再上送給服務(wù)端,每一次 上送都需要服務(wù)端返回確認成功標志后,才為成功。 ? 傳輸壓縮,批量 采集客戶端把數(shù)據(jù)按照定義的壓縮策略進行壓縮后,批量發(fā)送給服務(wù) 端,到服務(wù)端后解壓解析,減少了客戶端與服務(wù)端的交互次數(shù), 減輕 了網(wǎng)絡(luò)流量,做到傳輸?shù)母咝А? ? 傳輸安全 采集客戶端與服務(wù)端的通訊基于 SSL的證書加密雙向認證后進行,確 保數(shù)據(jù)的安全
55、。 ? 可擴展 采集客戶端除了提供目前監(jiān)控平臺需要的采集功能外, 還支持服務(wù)端 下發(fā)一般命令,然后返回命令執(zhí)行結(jié)果的方式,并且支持命令 RunAs 特定用戶的方式來讓運維人員可以在監(jiān)控平臺界面即可執(zhí)行一般的 命令來檢查被監(jiān)控服務(wù)器,此外通過這種方式,用戶可以非常容易的 增加新的采集能力,新增一個采集項只需要定義采集命令,返回值解 析格式,超時時間,執(zhí)行用戶等幾個要素即可。 數(shù)據(jù)聚合及處理 數(shù)據(jù)處理層分為路由層-> 隊列緩沖層-> 流處理引擎三個階段,數(shù)據(jù)路 由層直接接收采集客戶端上送的數(shù)據(jù),根據(jù)不同數(shù)據(jù)源對應(yīng)的路有策略,轉(zhuǎn)發(fā) 給不同的Kafka Topic,流處理引擎從Kafk
56、a直接拉取數(shù)據(jù),處理成功并且持 久化到數(shù)據(jù)庫后更新數(shù)據(jù)消費偏移量,確保了數(shù)據(jù)至少被處理一次,數(shù)據(jù)零丟 失。 1. 數(shù)據(jù)路由層 數(shù)據(jù)路由層的主要作用是實現(xiàn)任何數(shù)據(jù)的一次采集, 可多次消費的目的,即 數(shù)據(jù)采集客戶端主要關(guān)注數(shù)據(jù)的采集邏輯: 包含數(shù)據(jù)的采集協(xié)議,采集地址,分 隔符號,編碼方式等要素,路由層作為數(shù)據(jù)采集 到 數(shù)據(jù)消費的路由層,支持把 一份數(shù)據(jù)分發(fā)給1個或者多個kafka topic,實現(xiàn)一份數(shù)據(jù)多個消費者的需求。 數(shù)據(jù)路由層基于高性能tcp服務(wù)器netty構(gòu)建而成,通過epoll的I/O復(fù)用架構(gòu) 實現(xiàn)數(shù)據(jù)的高效傳輸。 2. 數(shù)據(jù)緩沖層 數(shù)據(jù)在提交到服務(wù)端后,經(jīng)過數(shù)據(jù)路由提交
57、到Kafka集群,作為數(shù)據(jù)采集到 數(shù)據(jù)處理之間的一個緩沖層,既可以適配不同的網(wǎng)絡(luò)拓撲架構(gòu),又可以避免數(shù)據(jù) 洪峰時對后端的處理層帶來過大的壓力。 Kafka隊列采用push+pull的方式,基 于順序?qū)懘疟P以及Linux page cache的特點實現(xiàn)了數(shù)據(jù)的高效轉(zhuǎn)發(fā)。 3. 流處理層 流處理層基于Spark Streaming,實現(xiàn)了分布式的數(shù)據(jù)處理,處理能力可以 通過增加Spark executor的數(shù)量來提升。 ? 數(shù)據(jù)拉取 Spark streaming的數(shù)據(jù)從kafka拉取而來,采用了 no-receiver 的 方式直接從kafka的分區(qū)上并行拉取數(shù)據(jù),但是默認spark從k
58、afka 拉取數(shù)據(jù)時,會根據(jù)kafka的分區(qū)數(shù)量來確定spark的并發(fā)數(shù)量,當 kafka上的分區(qū)不多或者分區(qū)之間數(shù)據(jù)不平衡時,會出現(xiàn)spark的處 理速度不高的問題,基于此我們優(yōu)化了 spark在與kafka連接時計算 分區(qū)的策略,可以根據(jù)上層的速度要求來自動計算 spark的分區(qū)并發(fā) 數(shù)量,提升了數(shù)據(jù)的拉取速度。 ? 數(shù)據(jù)處理 不同的數(shù)據(jù)源對應(yīng)的數(shù)據(jù)處理邏輯不同, 通過對數(shù)據(jù)的處理類型進行 抽象提取,對上層提供了可配置的數(shù)據(jù)處理接口, 用戶可以通過界面 配置的方式來配置數(shù)據(jù)的解析,轉(zhuǎn)換以及處理邏輯,例如常見的正則 匹配,xml解析,類型轉(zhuǎn)換等常見的解析操作都可以通過界面讓用戶 方便的
59、進行配置,并且用戶可以實時預(yù)覽原始數(shù)據(jù)的解析結(jié)果, 達到 所見即所得的效果。 ? 會話以及交易鏈處理 在處理日志數(shù)據(jù)時,特別是處理交易日志時,會遇到有狀態(tài)的日志數(shù) 據(jù),不同數(shù)據(jù)來源的日志會構(gòu)建成同一個交易會話, 不同的交易會話 又會構(gòu)建成同一個交易鏈路,利用spark streaming的狀態(tài)管理,通 過會話以及鏈路的抽象提取,可以允許用戶通過配置的方式創(chuàng)建自己 的交易會話或者路徑,可以實現(xiàn)把不通系統(tǒng)來源的數(shù)據(jù)自動關(guān)聯(lián)起來, 進而再計算相應(yīng)的交易指標數(shù)據(jù)。 ? Spark as a service Spark streaming默認是通過命令行的方式提交 spark job來啟動,
60、 基于與spark的深度集成,實現(xiàn)了 spark as a service 的需求,可 以按需啟動,停止spark con text,以及調(diào)整特定spark job的資源, 通過rest http 接口的方式實現(xiàn)了 spark job 的動態(tài)管理。 ? 數(shù)據(jù)輸出 spark streaming在處理完數(shù)據(jù)后,需要根據(jù)不同的數(shù)據(jù)類型把數(shù)據(jù) 寫入不同的數(shù)據(jù)庫,結(jié)構(gòu)化數(shù)據(jù)寫入 HBase非結(jié)構(gòu)化數(shù)據(jù)寫入 Elastic Search,兩者都是分布式數(shù)據(jù)庫,都基于分區(qū)/分片的方式 來存儲數(shù)據(jù),默認spark在向上述兩個數(shù)據(jù)庫寫入數(shù)據(jù)時,依賴于外 部數(shù)據(jù)庫進行數(shù)據(jù)路由,存在著數(shù)據(jù)二次移動的問題,影
61、響了數(shù)據(jù)寫 入效率,我們在寫入之前預(yù)先計算好數(shù)據(jù)最終寫入的分區(qū)/分片, 避 免了數(shù)據(jù)的二次轉(zhuǎn)發(fā)時間消耗。 數(shù)據(jù)存儲 數(shù)據(jù)存儲是運維大數(shù)據(jù)平臺的數(shù)據(jù)落地的地方, 根據(jù)不同的數(shù)據(jù)類型以及不 同數(shù)據(jù)類型的使用場景,選擇了不同的數(shù)據(jù)存儲方式,針對一些需要進行全文檢 索,分詞搜索的數(shù)據(jù)Elastic Search,用于實時可視化查詢/分析。所有數(shù)據(jù)也 都會存入Hadoop HDFS/HIVE之上用于長期保存及離線批量統(tǒng)計及計算數(shù)據(jù)寫入 的入口都是Spark Streaming,支持分布式并發(fā)按照分區(qū)/分片進行寫入。平臺 管理的管理配置類的數(shù)據(jù)是結(jié)構(gòu)化數(shù)據(jù),存于結(jié)構(gòu)化數(shù)據(jù)庫 MySQ之中。 日志數(shù)
62、據(jù)作為運維數(shù)據(jù)中的主要核心數(shù)據(jù), 來源是非結(jié)構(gòu)化數(shù)據(jù),但是通過 前面的數(shù)據(jù)處理引擎后,數(shù)據(jù)完成了從結(jié)構(gòu)化到非結(jié)構(gòu)化的轉(zhuǎn)變, 可以在支持全 文檢索的同時,也可以支持結(jié)構(gòu)化查詢。基于銀行的需求以及前期測試結(jié)果, 選 擇了 Elastic Search 作為日志等文本數(shù)據(jù)的實時分析存儲落地。 ElasicSearch 是基于搜索引擎Lucene之上的分布式擴展,既可以實現(xiàn)文本非結(jié)構(gòu)化字段的檢 索,又可以基于其DocValue的列式存儲實現(xiàn)高效的分布式聚合計算。 此外,Elastic Search還支持通過Groovy腳本來擴展聚合以及搜索的能力, 可以實現(xiàn)“多層聚合”以及 Schema O
63、n Read的能力,為上層提供更加豐富的查 詢服務(wù)。 查詢引擎 運維大數(shù)據(jù)平臺底層在數(shù)據(jù)存儲上根據(jù)不同的數(shù)據(jù)類型選擇了不同的數(shù)據(jù) 庫引擎,每個數(shù)據(jù)庫引擎的數(shù)據(jù)查詢方式都不同,為了給上層的業(yè)務(wù)功能層提 供一致的查詢接口,需要有一個查詢引擎層來屏蔽底層數(shù)據(jù)庫的差異性,此外 不同數(shù)據(jù)庫之間的數(shù)據(jù)有相互關(guān)聯(lián)關(guān)系,例如同一臺服務(wù)器的 cpu性能與日志 數(shù)據(jù)關(guān)聯(lián)查看的需求,查詢引擎識別出用戶的查詢意圖進行解析后,分拆到不 同的底層數(shù)據(jù)庫引擎,如果查詢牽扯到多個數(shù)據(jù)庫引擎,則需要把結(jié)果聚合后 再返回給用戶,對上層服務(wù)或者用戶,查詢引擎提供了兩種類型的查詢接口, SPL以及SQL滿足不同用戶的查詢需求,
64、在對 spl /sql解析后生成具體的查 詢,分派到對應(yīng)的數(shù)據(jù)庫引擎。 1. SPL 接口 SPL全稱為Search Process Language,是專門針對文本數(shù)據(jù)搜索提供的 語言,其非常類似Unix管道符的工作方式,前一個階段的輸出是后面一個階段 的輸入,SPL的實現(xiàn)首先需要定義語法樹,后續(xù)聲稱對應(yīng)的語法分析器。 SPL 除了能提供基本的數(shù)據(jù)搜索之外,還能提供豐富的數(shù)據(jù)聚合統(tǒng)計功能。除了目 前已經(jīng)具備的SPL功能外,還可以根據(jù)需求設(shè)計定制的 SPL 2. SQL接 口 運維大數(shù)據(jù)平臺也支持通過 SQL的方式來進行查詢,SQL提供的查詢功能 與SPL一致,既可以用來查詢文本日志
65、數(shù)據(jù),也可以用來查詢性能數(shù)據(jù)等。 3. 統(tǒng)一查詢 查詢引擎是運維大數(shù)據(jù)平臺的唯一查詢服務(wù)入口,無論是用戶在系統(tǒng)界面輸入 的SQL/SPL還是界面展現(xiàn)的儀表盤/報表,都是通過查詢引擎與底層的數(shù)據(jù)庫 進行交互。 告警引擎 1. 規(guī)則引擎 規(guī)則引擎主要針對日志等非結(jié)構(gòu)化數(shù)據(jù)進行告警管理,需要支持按照關(guān)鍵 字搜索結(jié)果定義識別規(guī)則,根據(jù)規(guī)則匹配的結(jié)果決定是否告警以及告警級 別。 2. 指標管理 指標管理是闕值設(shè)定的前提,指標管理除了包含基本的性能指標之外,還 包含基于基本數(shù)據(jù)聚合而成的指標,例如最近 5分鐘的錯誤交易次數(shù),或 者最近5分鐘的平均交易耗時。聚合指標的定義采用了查詢引擎提供的查
66、 詢接口來生成。只要是查詢引擎支持的統(tǒng)計聚合語句都可以另存為指標。 3. 闕值管理 闕值的定義依賴于指標,闕值管理支持分時間段設(shè)置不同的告警值,例如 對CPU利用率這一指標設(shè)置為上午8點到晚上8點的告警值為0.8,其他 時段為0.9,方便用戶根據(jù)實際的業(yè)務(wù)情況靈活定義告警闕值。 4. 調(diào)度引擎 告警啟動后,需要根據(jù)告警定義時的時間周期去實時計算對應(yīng)指標或者規(guī) 貝運維大數(shù)據(jù)平臺需要支持的并行實時計算的指標/規(guī)則到百萬級別, 系統(tǒng)需要提供高效的調(diào)度,并行的去實時監(jiān)控百萬級的指標。 告警引擎的框架基于AKKA Cluster實現(xiàn),每個啟動的告警管理項都是一 個Actor,其是一個輕量級的并行模型,比線程更輕量級,告警的規(guī)則,需 要計算的指標,告警的闕值,計算的周期等信息都在 Actor創(chuàng)建時確定存 儲在Actor內(nèi)部,每個Actor都被實時監(jiān)控管理,當出現(xiàn)異常時,可以自 動重啟或者重新創(chuàng)建。一臺4g的虛擬機,可以輕松創(chuàng)建百萬級別的Actor, 且支持通過增加節(jié)點的方式來提高 AKKA Cluster的整體吞吐量。
- 溫馨提示:
1: 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2: 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3.本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 裝配圖網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2024《增值稅法》全文學習解讀(規(guī)范增值稅的征收和繳納保護納稅人的合法權(quán)益)
- 2024《文物保護法》全文解讀學習(加強對文物的保護促進科學研究工作)
- 銷售技巧培訓課件:接近客戶的套路總結(jié)
- 20種成交的銷售話術(shù)和技巧
- 銷售技巧:接近客戶的8種套路
- 銷售套路總結(jié)
- 房產(chǎn)銷售中的常見問題及解決方法
- 銷售技巧:值得默念的成交話術(shù)
- 銷售資料:讓人舒服的35種說話方式
- 汽車銷售績效管理規(guī)范
- 銷售技巧培訓課件:絕對成交的銷售話術(shù)
- 頂尖銷售技巧總結(jié)
- 銷售技巧:電話營銷十大定律
- 銷售逼單最好的二十三種技巧
- 銷售最常遇到的10大麻煩