農(nóng)商行智能運(yùn)維-運(yùn)維大數(shù)據(jù)平臺(tái)方案
《農(nóng)商行智能運(yùn)維-運(yùn)維大數(shù)據(jù)平臺(tái)方案》由會(huì)員分享,可在線閱讀,更多相關(guān)《農(nóng)商行智能運(yùn)維-運(yùn)維大數(shù)據(jù)平臺(tái)方案(55頁(yè)珍藏版)》請(qǐng)?jiān)谘b配圖網(wǎng)上搜索。
1、農(nóng)商行 智能運(yùn)維 - 大數(shù)據(jù)分析平臺(tái)項(xiàng)目 方案建議書 目錄 第 1 章 . 項(xiàng)目概述 第 2 章 . 總體方案介紹 6 2.1. 方案概述 6 2.2. 設(shè)計(jì)理念 8 2.3. 平臺(tái)規(guī)劃 11 2.4. 平臺(tái)框架 12 2.5. 平臺(tái)特點(diǎn) 13 2.6. 平臺(tái)技術(shù)能力 16 第 3 章 . 運(yùn)維大數(shù)據(jù)平臺(tái)建設(shè)設(shè)計(jì) 24 3.1. 總體架構(gòu) 24 3.2. 運(yùn)維大數(shù)據(jù)平臺(tái)架構(gòu)設(shè)計(jì) 24 邏輯架構(gòu) 24 物理架構(gòu) 25 數(shù)據(jù)采集 26 3.3. 數(shù)據(jù)聚合及處理 數(shù)據(jù)存儲(chǔ) 查詢引擎 告警引擎 機(jī)器學(xué)習(xí)
2、 展現(xiàn)引擎 平臺(tái)管理 運(yùn)維大數(shù)據(jù)平臺(tái)展現(xiàn)設(shè)計(jì) 28 31 31 33 34 34 35 36 3.3.1. 整體架構(gòu) 36 3.3.2. 展現(xiàn)原則 37 3.4. 運(yùn)維大數(shù)據(jù)平臺(tái)管理功能設(shè)計(jì) 37 3.4.1. 權(quán)限管理 38 3.4.2. 平臺(tái)自檢 38 第 4 章 . 運(yùn)維大數(shù)據(jù)平臺(tái)運(yùn)用場(chǎng)景 40 4.1.1. 運(yùn)維數(shù)據(jù)集中采集 4
3、0 4.1.2. 運(yùn)維數(shù)據(jù)集中分析 40 ? 全局搜索 40 ? 查詢語(yǔ)法 41 ? 日志解析 44 4.2. 智能發(fā)現(xiàn)問(wèn)題場(chǎng)景 45 ? 集中告警管理 47 4.3. 智能分析問(wèn)題場(chǎng)景 50 4.3.1. 故障關(guān)聯(lián)分析 50 4.3.2. 容量分析 51 ? 單 KPI 指標(biāo)趨勢(shì)分析 -容量預(yù)測(cè) 51 ? 多 KPI 指標(biāo)趨勢(shì)分析 -容量預(yù)測(cè)/故障預(yù)測(cè) 5 4 ? 應(yīng)用分析場(chǎng)景
4、 57 4.4. 智能問(wèn)題解決場(chǎng)景 58 第 5 章. 公司簡(jiǎn)介 錯(cuò)誤!未定義書簽 第1章.項(xiàng)目概述 隨著某農(nóng)商行業(yè)務(wù)的快速發(fā)展,信息系統(tǒng)日漸龐大和復(fù)雜,當(dāng)前行內(nèi)的IT架 構(gòu)早已不是單一系統(tǒng)或是單一設(shè)備的單純環(huán)境,伴隨而來(lái),是規(guī)模不斷擴(kuò)大的 IT 系統(tǒng),日益復(fù)雜的系統(tǒng)架構(gòu),以及海量的IT運(yùn)維數(shù)據(jù)。數(shù)據(jù)中心運(yùn)維管理難度和 重要性也日漸凸顯,對(duì)業(yè)務(wù)連續(xù)性要求和運(yùn)維服務(wù)質(zhì)量的要求也不斷提高,迫切 需要建設(shè)一套科學(xué)、高效的運(yùn)維管理體系。 面對(duì)這些新形勢(shì)下的挑戰(zhàn),IT運(yùn)維管理需要從原有的人工加被動(dòng)響應(yīng),轉(zhuǎn)變 為更高效,更智能化的運(yùn)維體系,為新形勢(shì)下的IT系統(tǒng)保駕護(hù)
5、航。在數(shù)據(jù)大集中 背景下,如何使組織和機(jī)構(gòu)的IT數(shù)據(jù)進(jìn)行整合,管理,維護(hù),分析并使之再生效 益,那就催生了“人工智能運(yùn)維”(以下簡(jiǎn)稱Alops),是一種將大數(shù)據(jù)分析和機(jī)器 學(xué)習(xí)的技術(shù)應(yīng)用于現(xiàn)代IT運(yùn)維及業(yè)務(wù)運(yùn)營(yíng)管理體系中的概念,它為IT運(yùn)維和運(yùn) 營(yíng)提供了全新的管理思路。 splunk> Nagios TrveSight ORACLE 智能運(yùn)維 AIOps,即 Artificial Intelligenee for IT Operations ,智能 運(yùn)維,將人工智能應(yīng)用于運(yùn)維領(lǐng)域,基于已有的 運(yùn)維數(shù)據(jù)(日志數(shù)據(jù),監(jiān)控指標(biāo) 數(shù)據(jù),告警數(shù)據(jù),應(yīng)用信息等),通過(guò)機(jī)器學(xué)習(xí)的方式來(lái)進(jìn)一
6、步解決自動(dòng)化運(yùn)維 無(wú)法解決的問(wèn)題 自動(dòng)化運(yùn)維在手動(dòng)運(yùn)維基礎(chǔ)上大大提高了運(yùn)維的效率, DevOps有效地提升了 研發(fā)和運(yùn)維的配合效率。但是,隨著整個(gè)IT系統(tǒng)數(shù)據(jù)規(guī)模急劇膨脹,以及服務(wù)類 型更加復(fù)雜多樣,"基于認(rèn)為配置規(guī)則"的專家系統(tǒng)逐漸變得力不從心。這是因 為,自動(dòng)化運(yùn)維的瓶頸在于人腦:必須由長(zhǎng)期在一個(gè)行業(yè)從事運(yùn)維的專家們手動(dòng) 地將重復(fù)出現(xiàn)、有跡可循的現(xiàn)象總結(jié)成為規(guī)則,完成自動(dòng)化。然后,越來(lái)越多的 場(chǎng)景表明,簡(jiǎn)單的基于人為制定規(guī)則的方法并不能解決大規(guī)模運(yùn)維的問(wèn)題。 與自動(dòng)化運(yùn)維依賴人工生成規(guī)則不同,智能運(yùn)維基于機(jī)器學(xué)習(xí)算法,自動(dòng)從 海量運(yùn)維數(shù)據(jù)(包括事件本身以及運(yùn)維人員的人工處理日志)中不
7、斷地學(xué)習(xí),不 斷地提煉總結(jié)規(guī)則,以解決自動(dòng)化運(yùn)維和 DevOps 依然無(wú)法解決的問(wèn)題。換句話 說(shuō),智能運(yùn)維在自動(dòng)化運(yùn)維的基礎(chǔ)上增加了一個(gè)基于機(jī)器學(xué)習(xí)的大腦,指揮著監(jiān) 測(cè)系統(tǒng)采集大 腦決策所需數(shù)據(jù),做出分析、決策并指揮自動(dòng)化腳本去執(zhí)行大腦的 決策,從而達(dá)到智能運(yùn)維系統(tǒng)的整體目標(biāo)。 典型的智能運(yùn)維場(chǎng)景包括: 異常發(fā)現(xiàn) 根因分析 趨勢(shì)預(yù)測(cè) 容量分析 智能預(yù)警 聯(lián)機(jī)交易分析 系統(tǒng)畫像 本次項(xiàng)目的目標(biāo)為在某農(nóng)商行現(xiàn)有 IT 運(yùn)維管理工具的基礎(chǔ)上建設(shè)“人工智能 IT 運(yùn)維系統(tǒng)”,幫助打破現(xiàn)有各個(gè)孤立系統(tǒng)中的運(yùn)維數(shù)據(jù)孤島,實(shí)現(xiàn)對(duì)某農(nóng)商行的 IT 運(yùn)維數(shù)據(jù)的全面采集及綜合分析。該項(xiàng)目除包含
8、端到端可視化的 IT 數(shù)據(jù)展示、 滿足規(guī)模化智能化的運(yùn)維需求、通過(guò)機(jī)器學(xué)習(xí),做到故障智能化的定位和自動(dòng)處 理等功能。 此文檔的目的是為收集、分析和定義某農(nóng)商行“人工智能 IT 運(yùn)維系統(tǒng)”的需 求,提供建議技術(shù)方案、資源方案、實(shí)施方案等,并規(guī)劃未來(lái)三年的平臺(tái)發(fā)展藍(lán) 圖。 第2章.總體方案介紹 2.1. 方案概述 伴隨著各種新技術(shù)的出現(xiàn)和管理復(fù)雜度的增加,IT運(yùn)維部門將面臨前所未 有的挑戰(zhàn): 來(lái)自傳統(tǒng)IT及非傳統(tǒng)IT系統(tǒng)的高度分散、多樣和非結(jié)構(gòu)化數(shù)據(jù)。 基于科技技術(shù)在數(shù)字化業(yè)務(wù)中所扮演的重要角色,結(jié)合實(shí)際業(yè)務(wù)厘清 IT應(yīng)用和服務(wù)對(duì)企業(yè)在營(yíng)收、成本和風(fēng)險(xiǎn)方面的影響度。 預(yù)測(cè)在多大程度
9、上技術(shù)能夠支持不斷變化的業(yè)務(wù),為數(shù)字化企業(yè)領(lǐng)導(dǎo) 提供基于技術(shù)的重要決策咨詢。 與業(yè)務(wù)保持同速,通常傳統(tǒng)的IT運(yùn)營(yíng)流程無(wú)法企及,且需要盡可能規(guī) 避由于提速所帶來(lái)的風(fēng)險(xiǎn)。 當(dāng)前,某農(nóng)商行數(shù)據(jù)中心在集中的生產(chǎn)環(huán)境中,運(yùn)行的服務(wù)器已達(dá)上千 臺(tái),其上運(yùn)行著重要的應(yīng)用、數(shù)據(jù)庫(kù)、中間件及各種輔助系統(tǒng)。隨著業(yè)務(wù)的發(fā) 展,被管理對(duì)象不斷增多,通過(guò)常規(guī)的IT運(yùn)營(yíng)技術(shù)及工具已經(jīng)不能滿足需求。 當(dāng)前,IT部門主要通過(guò)人工的方式進(jìn)行運(yùn)行維護(hù)及問(wèn)題檢測(cè),這種方式不但大 大消耗了技術(shù)人員寶貴的時(shí)間,也無(wú)形中帶來(lái)了各種操作隱患,并難以穩(wěn)定的 保證運(yùn)維水平一一靠人工檢查已無(wú)法滿足業(yè)務(wù)發(fā)展需求,無(wú)法做到及時(shí)發(fā)現(xiàn)故 障,快速定
10、位問(wèn)題,日檢及周檢工作占用了大量工作時(shí)間。 方案將基于Alops人工智能運(yùn)維系統(tǒng)框架-夏洛克SharpLook平臺(tái)進(jìn)行大數(shù) 據(jù)分析平臺(tái)建設(shè)。在建設(shè)中將體現(xiàn)以下思路: ? 高效安全的集中式運(yùn)維分析工具 集中高效管理 通過(guò)高效數(shù)據(jù)采集手段,實(shí)現(xiàn)對(duì)現(xiàn)有IT環(huán)境的快速數(shù)據(jù)采集,打破各個(gè)孤 立運(yùn)維工具中的數(shù)據(jù)孤島,對(duì)所有運(yùn)維數(shù)據(jù)集中高效的存儲(chǔ),查詢,及可視化 展示。 智能自動(dòng)化處理 如果故障或問(wèn)題確定是由某個(gè)特定的原因引起,可進(jìn)行自動(dòng)監(jiān)控、自動(dòng)診 斷,甚至自動(dòng)維護(hù)。通過(guò)機(jī)器學(xué)習(xí)方式快速區(qū)分故障,降低故障率,并通過(guò)智能 的故障關(guān)聯(lián)方式關(guān)聯(lián)相關(guān)告警及信息,如變更記錄、流程工單、監(jiān)控指標(biāo)等, 降
11、低人工維護(hù)的成本,并能對(duì)故障進(jìn)行精確定位,加快故障解決速度。 開放且符合標(biāo)準(zhǔn)的平臺(tái) 平臺(tái)提供符合業(yè)界標(biāo)準(zhǔn)的集成接口,其體系架構(gòu)符合行業(yè)大數(shù)據(jù)的技術(shù)發(fā) 展路線。在架構(gòu)中,已經(jīng)采用了成熟的行業(yè)開源技術(shù)標(biāo)準(zhǔn)中的大量組件,并支 持在后期的擴(kuò)展開發(fā)中,統(tǒng)一采用某農(nóng)商行的技術(shù)標(biāo)準(zhǔn)。 ? 以應(yīng)用為視角的業(yè)務(wù)系統(tǒng)管理 方案還考慮以應(yīng)用為視角的業(yè)務(wù)系統(tǒng)管理更強(qiáng)調(diào)的是搭建業(yè)務(wù)系統(tǒng)相對(duì)應(yīng) 的IT應(yīng)用端到端視圖,能夠便于運(yùn)維團(tuán)隊(duì)從用戶訪問(wèn)側(cè)開始,經(jīng)過(guò)網(wǎng)絡(luò)、應(yīng)用 服務(wù)器到后端的數(shù)據(jù)庫(kù)系統(tǒng),實(shí)時(shí)并直觀地掌握所負(fù)責(zé)系統(tǒng)的應(yīng)用狀況與性 能。同時(shí),為了能夠提高平均故障修復(fù)時(shí)間(MTTR),運(yùn)維部門能夠結(jié)合應(yīng)用監(jiān) 控的
12、數(shù)據(jù)和基礎(chǔ)架構(gòu)監(jiān)控?cái)?shù)據(jù),利用平臺(tái)的分析優(yōu)化能力,快速定位出業(yè)務(wù)系 統(tǒng)故障現(xiàn)象的根原因,甚至在用戶未感知故障發(fā)生前主動(dòng)發(fā)現(xiàn)問(wèn)題并解決,從 而提高業(yè)務(wù)可用性。 ? 決策支持的大數(shù)據(jù)支撐 通過(guò)統(tǒng)一運(yùn)維平臺(tái),建立支撐未來(lái)運(yùn)維的大數(shù)據(jù)平臺(tái),提供支撐 IT運(yùn)維管 理的分析數(shù)據(jù)。產(chǎn)生面向系統(tǒng)運(yùn)行的歷史分析數(shù)據(jù),為 IT運(yùn)維的決策提供強(qiáng)有 力的支持??梢詫?shí)時(shí)對(duì)歷史數(shù)據(jù)進(jìn)行分析、挖掘來(lái)分析業(yè)務(wù)系統(tǒng)的發(fā)展趨勢(shì), 為新業(yè)務(wù)的推出提供數(shù)據(jù)化的決策依據(jù)。 通過(guò)夏洛克SharpLook技術(shù)框架,并通過(guò)后期的優(yōu)化開發(fā),實(shí)現(xiàn)對(duì)某農(nóng)商 行IT運(yùn)維分析需求,做到快速數(shù)據(jù)采集、靈活方便配置、動(dòng)態(tài)閾值、容量預(yù) 測(cè)、集中
13、展示,并在系統(tǒng)出現(xiàn)問(wèn)題時(shí)能夠快速發(fā)現(xiàn)問(wèn)題,定位問(wèn)題,同時(shí)也將 提供針對(duì)運(yùn)維大數(shù)據(jù)分析的能力。 22 設(shè)計(jì)理念 本方案幫助用戶應(yīng)對(duì)IT運(yùn)維管理中的常見問(wèn)題: ? 精細(xì)化告警:海量告警中的有效告警 ? 追蹤性能指標(biāo)波動(dòng),分析連鎖反應(yīng),找出根源組件、主機(jī) ,并實(shí)現(xiàn)對(duì)未 來(lái)容量的預(yù)測(cè) ?日志及數(shù)據(jù)追蹤查詢,快速提取和展示、實(shí)時(shí)分析運(yùn)維中的關(guān)鍵 KPI指 標(biāo) ? 運(yùn)維數(shù)據(jù)關(guān)聯(lián)分析(指標(biāo),告警,日志,工單,變更, 問(wèn)題,CMDB 配置庫(kù)等),找出深層原因 ? 獲得實(shí)時(shí)的安全/合規(guī)事件預(yù)警,快速響應(yīng) ? 應(yīng)用的深度監(jiān)控,及歷史運(yùn)行數(shù)據(jù)統(tǒng)計(jì)分析 !兩個(gè)目標(biāo) 繪1姻的分/謝憎
14、tsi迓迅垃及您本鹿a蘭析 也務(wù)K卩理磁骸誘 :四項(xiàng)館力 的強(qiáng)人工騎和大頤分祈歸實(shí)驕腿取 一個(gè)愿景 五Z 第23頁(yè)/共58頁(yè) IT運(yùn)維分析中,通常需要關(guān)注以下幾點(diǎn): ? 一個(gè)愿景:通過(guò)通過(guò)運(yùn)用人工智能和大數(shù)據(jù)分析技術(shù),實(shí)現(xiàn)智能運(yùn)維 ?兩個(gè)目標(biāo):變被動(dòng)為主動(dòng),從IT到業(yè)務(wù)。通過(guò)ITOA平臺(tái)的建設(shè),讓IT 運(yùn)維不再是被動(dòng)的救火,并且能夠通過(guò)積極的介入,更多地作為業(yè)務(wù)運(yùn) 行中必不可少的一個(gè)環(huán)節(jié)。 ?三條主線:提供對(duì)實(shí)時(shí)數(shù)據(jù)的分析及處理,通過(guò)對(duì)歷史數(shù)據(jù)的挖掘,能 夠預(yù)測(cè)對(duì)關(guān)鍵運(yùn)行能力進(jìn)行未來(lái)趨勢(shì)的分析及預(yù)測(cè)。 ?四項(xiàng)能力:在AIops平臺(tái)中,必需具備數(shù)據(jù)挖
15、掘、決策支持、故障快速 定位、多角度的分析展示,才能為IT運(yùn)營(yíng)分析提供有力支持。 ?五位一體:面向IT運(yùn)營(yíng)的平臺(tái),更多地綜合IT數(shù)據(jù)中心內(nèi)部的運(yùn)行數(shù) 據(jù),通過(guò)對(duì)運(yùn)行數(shù)據(jù)的分析,獲得運(yùn)營(yíng)支持的關(guān)鍵能力。因此,數(shù)據(jù)的 多方位集成是基礎(chǔ),通常需要的數(shù)據(jù)包括:告警故障數(shù)據(jù)、應(yīng)用監(jiān)控?cái)?shù) 據(jù)、系統(tǒng)及應(yīng)用日志數(shù)據(jù)、配置相關(guān)數(shù)據(jù)以及流程服務(wù)數(shù)據(jù)(如工單、 變更等)。 通過(guò)IT運(yùn)維分析平臺(tái)的建設(shè),可以實(shí)現(xiàn)的功能場(chǎng)景大致如下: (1) 快速信息檢索/問(wèn)題定位 IT 運(yùn)營(yíng)分析平臺(tái)通過(guò)收集各類數(shù)據(jù)源(包括:操作系統(tǒng),系統(tǒng)軟件,數(shù)據(jù) 庫(kù),應(yīng)用的日志等),統(tǒng)一進(jìn)行管理,不同于以往每次僅可查看數(shù)量有限的幾種 日志,
16、運(yùn)維人員可通過(guò)平臺(tái)所提供的關(guān)鍵字,統(tǒng)計(jì)函數(shù),單條件,多條件,模 糊查找等功能,多個(gè)系統(tǒng)中快速定位故障信息,幫助運(yùn)維人員從全局視角查看系 統(tǒng)的運(yùn)維數(shù)據(jù)信息。 (2) 復(fù)雜多維報(bào)表,應(yīng)用深度監(jiān)控 平臺(tái)將各系統(tǒng)的運(yùn)維數(shù)據(jù)進(jìn)行統(tǒng)計(jì)分析并生成各類實(shí)時(shí)報(bào)表,對(duì)各類運(yùn)維數(shù) 據(jù)(如,應(yīng)用日志,交易日志,系統(tǒng)日志)進(jìn)行多維度、多角度深入分析及可視 化展現(xiàn),以業(yè)務(wù)視角實(shí)時(shí)展示各種業(yè)務(wù)指標(biāo),比如 : 1. 透視交易量,展示實(shí)時(shí)的交易系統(tǒng)指標(biāo),交易量,平均交易時(shí)長(zhǎng),交易 成功率,返回交易碼等,對(duì)核心交易系統(tǒng)交易超時(shí)事件進(jìn)行告警, 對(duì)核心系統(tǒng)異 常錯(cuò)誤進(jìn)行告警,并在告警中帶出關(guān)鍵相關(guān)交易日志。 2. 透視應(yīng)
17、用接口調(diào)用狀態(tài),每分鐘/每天對(duì)核心業(yè)務(wù)進(jìn)行關(guān)鍵指標(biāo)統(tǒng)計(jì)(如 調(diào)用來(lái)源,調(diào)用量,接口處理時(shí)間等),體現(xiàn)端到端的運(yùn)維的狀態(tài) 3. 監(jiān)控實(shí)際用戶體驗(yàn),比如為 Web訪問(wèn)日志創(chuàng)建數(shù)據(jù)模型,透視響應(yīng)最慢 的網(wǎng)頁(yè),顯示最多的錯(cuò)誤代碼的等 4. 另外,通過(guò)建立應(yīng)用、系統(tǒng)、物理主機(jī)之間的邏輯從屬關(guān)系,從而將平 面的日志變?yōu)榱Ⅲw的日志。通過(guò)對(duì)日志源與對(duì)應(yīng)系統(tǒng)的邏輯關(guān)系記錄, 使問(wèn)題的 定位更加快速、直觀,使得問(wèn)題的解決更加容易便捷。 (3) 快速發(fā)現(xiàn)故障,精準(zhǔn)告警 實(shí)時(shí)采集各類運(yùn)維數(shù)據(jù)(日志,監(jiān)控系統(tǒng)告警,性能數(shù)據(jù)等),通過(guò)歷史數(shù) 據(jù)的挖掘和分析,平臺(tái)可以找出哪些告警和事件頻繁一起出現(xiàn), 并認(rèn)為是一類
18、故 障的告警,把多個(gè)報(bào)警和指標(biāo)綜合起來(lái),同類的報(bào)警進(jìn)行合并來(lái)推送給運(yùn)維人員, 做到精細(xì)化告警,避免傳統(tǒng)監(jiān)控工具因一故障而導(dǎo)致的告警風(fēng)暴,生產(chǎn)告警噪音。 (4) 縮短故障解決時(shí)間 通過(guò)運(yùn)維數(shù)據(jù)可視化(復(fù)雜多維報(bào)表,熱力圖)以及精細(xì)化告警信息,結(jié)合 以前發(fā)現(xiàn)問(wèn)題的經(jīng)驗(yàn)知識(shí)庫(kù)和模型, 從而將運(yùn)維信息從平面變?yōu)榱Ⅲw,立體展現(xiàn) 故障樹分析,通過(guò)推導(dǎo)路徑使運(yùn)維人員對(duì)于問(wèn)題的定位更加快速、直觀,使得問(wèn) 題的解決更加容易便捷。 (5) 故障預(yù)測(cè),事先預(yù)警 對(duì)運(yùn)維數(shù)據(jù)進(jìn)行數(shù)據(jù)挖掘,生成分析類報(bào)表,例如某些故障之間有時(shí)間上的 先后關(guān)系,例如交換頁(yè)不足,內(nèi)存不足會(huì)逐漸導(dǎo)致系統(tǒng)故障或應(yīng)用故障, 該系統(tǒng) 建立關(guān)
19、聯(lián)模型,發(fā)現(xiàn)前者故障,提醒用戶可能后繼可能發(fā)生系統(tǒng)故障或應(yīng)用故障。 在故障產(chǎn)生真正業(yè)務(wù)影響前,告知運(yùn)維人員事先解決問(wèn)題。 23 平臺(tái)規(guī)劃 在運(yùn)維平臺(tái)建設(shè)的過(guò)程中,特別需集合某農(nóng)商行的實(shí)際環(huán)境和情況對(duì)平臺(tái)的建設(shè)進(jìn)行規(guī) 劃,在建設(shè)中可以根據(jù)實(shí)際的使用場(chǎng)景需求分為以下四個(gè)階段: 以上每個(gè)階段對(duì)運(yùn)維建設(shè)的不同需求,可以在未來(lái)作為建設(shè)的路線進(jìn)行考慮。 項(xiàng)目一期 項(xiàng)目目標(biāo): 1. 運(yùn)維數(shù)據(jù)大集中。打破各個(gè)運(yùn)維系統(tǒng)的數(shù)據(jù)孤島,米集當(dāng)前環(huán)境中 各類的運(yùn)維分析所需數(shù)據(jù),包含:日志數(shù)據(jù), IT流程數(shù)據(jù),性能 指標(biāo),告警數(shù)據(jù),批量元數(shù)據(jù)。采集監(jiān)控性能數(shù),實(shí)現(xiàn)性能數(shù)據(jù)的 統(tǒng)一管理;采集關(guān)鍵業(yè)務(wù)日
20、志,對(duì)業(yè)務(wù)日志進(jìn)行數(shù)據(jù)分析,提取業(yè) 務(wù)交易數(shù)據(jù);對(duì)業(yè)務(wù)日志進(jìn)行歸檔存儲(chǔ),實(shí)現(xiàn)統(tǒng)一的檢索查詢; 2. 趨勢(shì)分析。分析歷史指標(biāo)數(shù)據(jù)閾值的配置問(wèn)題,構(gòu)建智能分析模 型。幫助構(gòu)建智能基線模型,以及容量預(yù)測(cè)模型 3. 可視化分析。提供運(yùn)維可視化報(bào)表,通過(guò)日志解析及可視化展現(xiàn)交 易端到端監(jiān)控,輔助決策支持。 4. 通過(guò)智能算法,實(shí)現(xiàn)指標(biāo)的智能預(yù)警和異常檢測(cè)場(chǎng)景。 項(xiàng)目二期 項(xiàng)目目標(biāo): 1. 對(duì)接統(tǒng)一事件管理平臺(tái),實(shí)現(xiàn)告警事件、業(yè)務(wù)數(shù)據(jù)、性能數(shù)據(jù)的匯 總分析; 2. 通過(guò)業(yè)務(wù)數(shù)據(jù)+事件數(shù)據(jù)+性能數(shù)據(jù),實(shí)現(xiàn)多維度的業(yè)務(wù)分析、告警 關(guān)聯(lián)分析; 3. 智能監(jiān)控。
21、是建立基于動(dòng)態(tài)閾值的性能監(jiān)控,幫助運(yùn)維人員更為 靈敏、及時(shí)地發(fā)現(xiàn)性能指標(biāo)異動(dòng),結(jié)合日志實(shí)現(xiàn)關(guān)聯(lián)分析。嘗試部 分場(chǎng)景精準(zhǔn)告警,分析固定時(shí)間窗口內(nèi)的報(bào)警彼此關(guān)聯(lián)關(guān)系,建立 根源報(bào)警和周邊報(bào)警聯(lián)系,輔助故障根源定位。 4. 未來(lái)預(yù)測(cè):通過(guò)多KPI指標(biāo)關(guān)聯(lián)分析和發(fā)現(xiàn),實(shí)現(xiàn)容量預(yù)測(cè)、故障 預(yù)測(cè)、熱點(diǎn)預(yù)測(cè)等。 5. 故障診斷。對(duì)故障告警進(jìn)行根因分析,輔助快速定位故障根因, 6. 實(shí)現(xiàn)故障根因分析。 項(xiàng)目三期 項(xiàng)目目標(biāo): 1. 對(duì)接ITIL、CMDB系統(tǒng),實(shí)現(xiàn)運(yùn)維數(shù)據(jù)的大匯總; 2.通過(guò)業(yè)務(wù)數(shù)據(jù)和運(yùn)維數(shù)據(jù)的整合分析,實(shí)現(xiàn)以業(yè)務(wù)驅(qū)動(dòng)運(yùn)維的管理 能力。 2
22、4 平臺(tái)框架 整體方案在邏輯上分為兩個(gè)層次: ? 現(xiàn)有IT運(yùn)維管理平臺(tái)(ITOM):包括各專業(yè)監(jiān)控平臺(tái),如系統(tǒng)監(jiān)控平臺(tái)、應(yīng) 用監(jiān)控平臺(tái)、流程管理平臺(tái)等?;谀壳澳侈r(nóng)商行的現(xiàn)狀,相關(guān)的 IT運(yùn)維 管理工具包括: 集中事件平臺(tái)-金證事件集中管理平臺(tái) 系統(tǒng)監(jiān)控-IBM Tivoli 監(jiān)控平臺(tái) 網(wǎng)絡(luò)監(jiān)控-合名監(jiān)控系統(tǒng) IT流程管理平臺(tái) -BMC remedy 配置管理庫(kù)-BMC CMDB 應(yīng)用性能監(jiān)控-天旦BPC ? 智能運(yùn)維-運(yùn)維大數(shù)據(jù)分析平臺(tái)(Alops):該平臺(tái)以ITOM平臺(tái)為基礎(chǔ),構(gòu)建 在ITOM平臺(tái)的上層,通過(guò)算法智能場(chǎng)景:智能預(yù)警 +異常發(fā)現(xiàn)+故障根源分 析,專注在分析
23、能力,更多地集中在快速問(wèn)題分析、趨勢(shì)分析、運(yùn)營(yíng)支撐 的能力。解決方案框架如下: Q色詢、告書啓示引坐 U 磁大敵拯處理 8大數(shù)抵存儲(chǔ) :師管粉析引整 %> Ki.SU.WiS^rtf S 話刪曲| 兇蚯3B 血時(shí)乩 5i
24、標(biāo)。 2.5. 平臺(tái)特點(diǎn) 本次方案基于擎創(chuàng)科技的夏洛克大數(shù)據(jù)智能運(yùn)維平臺(tái)實(shí)現(xiàn)。夏洛克平臺(tái)提供 AIOps各階段需要的能力,具備多源數(shù)據(jù)采集、高效實(shí)時(shí)分析、機(jī)器學(xué)習(xí)能力, 能夠協(xié)助企業(yè)級(jí)用戶一站式分析IT運(yùn)維整體狀況,實(shí)現(xiàn)跨域海量數(shù)據(jù)(如各類 日志、性能指標(biāo)等)的采集、集中歸檔及管理、挖掘關(guān)鍵指標(biāo)、集中展示及分析, 并通過(guò)“排障助手”、異常檢測(cè)、趨勢(shì)分析、故障關(guān)聯(lián)及精準(zhǔn)告警等智能運(yùn)維手 段,協(xié)助用戶提高IT運(yùn)維能力,降低IT成本。 提供決策支持的大數(shù)據(jù)支撐平臺(tái) 通過(guò)統(tǒng)一的運(yùn)維系統(tǒng),建立支撐未來(lái)運(yùn)維的大數(shù)據(jù)平臺(tái),提供支撐 IT運(yùn)維 管理的分析數(shù)據(jù)。產(chǎn)生面向系統(tǒng)運(yùn)行的歷史分析數(shù)據(jù),為 I
25、T運(yùn)維的決策提供強(qiáng) 有力的支持??梢詫?shí)時(shí)對(duì)歷史數(shù)據(jù)進(jìn)行分析、挖掘來(lái)分析業(yè)務(wù)系統(tǒng)的發(fā)展趨勢(shì), 為新業(yè)務(wù)的推出提供數(shù)據(jù)化的決策依據(jù)。 高效安全的集中式運(yùn)維分析工具 ? 數(shù)據(jù)集中高效管理 通過(guò)高效數(shù)據(jù)采集手段,實(shí)現(xiàn)對(duì)現(xiàn)有IT環(huán)境的快速數(shù)據(jù)采集,打破各個(gè)孤 立運(yùn)維工具中的數(shù)據(jù)孤島,對(duì)所有運(yùn)維數(shù)據(jù)進(jìn)行集中高效的存儲(chǔ)、查詢及可視 化展示。 ? 快速排障 內(nèi)置分析算法,對(duì)相關(guān)的指標(biāo)、告警及數(shù)據(jù)進(jìn)行比對(duì),協(xié)助運(yùn)維人員快速發(fā) 現(xiàn)異常,縮短問(wèn)題解決時(shí)間,加快故障解決速度。 ? 開放的平臺(tái)接口 平臺(tái)提供符合業(yè)界標(biāo)準(zhǔn)的集成接口,其體系架構(gòu)符合行業(yè)大數(shù)據(jù)的技術(shù)發(fā) 展路線。在架構(gòu)中,已經(jīng)采用了成熟的行業(yè)開
26、源技術(shù)標(biāo)準(zhǔn)中的大量組件,并支 持在后期的擴(kuò)展開發(fā)中,統(tǒng)一采用某農(nóng)商行的技術(shù)標(biāo)準(zhǔn)。 經(jīng)過(guò)驗(yàn)證的智能分析引擎 平臺(tái)內(nèi)置多種經(jīng)過(guò)驗(yàn)證的人工智能算法,能夠?qū)崿F(xiàn)針對(duì) IT運(yùn)維場(chǎng)景的故障 分析、精準(zhǔn)告警、趨勢(shì)分析等,并提供算法外掛的能力,隨時(shí)擴(kuò)充平臺(tái)的智能 能力。如果故障或問(wèn)題確定是由某個(gè)特定的原因引起,可進(jìn)行自動(dòng)監(jiān)控、自動(dòng) 診斷,甚至自動(dòng)維護(hù)。通過(guò)機(jī)器學(xué)習(xí)方式快速區(qū)分故障,降低故障率,并通過(guò)智 能的故障關(guān)聯(lián)方式關(guān)聯(lián)相關(guān)告警及信息,如變更記錄、流程工單、監(jiān)控指標(biāo) 等,降低人工維護(hù)的成本,并能對(duì)故障進(jìn)行精確定位,加快故障解決速度。 以應(yīng)用為視角的業(yè)務(wù)系統(tǒng)管理 產(chǎn)品本身還內(nèi)置了以應(yīng)用為視角的業(yè)務(wù)系統(tǒng)
27、管理,通過(guò)配置直接可以使 用。通過(guò)搭建業(yè)務(wù)系統(tǒng)相對(duì)應(yīng)的IT應(yīng)用端到端視圖,能夠便于運(yùn)維團(tuán)隊(duì)從用戶 訪問(wèn)側(cè)開始,經(jīng)過(guò)網(wǎng)絡(luò)、應(yīng)用服務(wù)器到后端的數(shù)據(jù)庫(kù)系統(tǒng),實(shí)時(shí)并直觀地掌握 所負(fù)責(zé)系統(tǒng)的應(yīng)用狀況與性能。同時(shí),為了能夠提高平均故障修復(fù)時(shí)間 (MTTR),運(yùn)維部門能夠結(jié)合應(yīng)用監(jiān)控的數(shù)據(jù)和基礎(chǔ)架構(gòu)監(jiān)控?cái)?shù)據(jù),利用平臺(tái)的 分析優(yōu)化能力,快速定位出業(yè)務(wù)系統(tǒng)故障現(xiàn)象的根原因,甚至在用戶未感知故 障發(fā)生前主動(dòng)發(fā)現(xiàn)問(wèn)題并解決,從而提高業(yè)務(wù)可用性。 高可用性 運(yùn)維大數(shù)據(jù)平臺(tái)系統(tǒng)本身服務(wù)保證在 99.99%的時(shí)間內(nèi)能正常運(yùn)行,服務(wù)中 斷時(shí)間一年內(nèi)累計(jì)不得多于兩小時(shí)。 運(yùn)維大數(shù)據(jù)平臺(tái)上部署的任何節(jié)點(diǎn)都需要采用雙活的
28、高可用模式,任何節(jié) 點(diǎn)出現(xiàn)故障,運(yùn)維大數(shù)據(jù)平臺(tái)能夠在分鐘級(jí)發(fā)現(xiàn)故障并隔離,分鐘級(jí)內(nèi)將監(jiān)控 切換到其他節(jié)點(diǎn),期間監(jiān)控?cái)?shù)據(jù)不丟失。 運(yùn)維大數(shù)據(jù)平臺(tái)設(shè)計(jì)采用合理架構(gòu),保證運(yùn)維大數(shù)據(jù)平臺(tái)系統(tǒng)故障不影響 或盡可能少影響業(yè)務(wù)運(yùn)行。運(yùn)維大數(shù)據(jù)平臺(tái)系統(tǒng)軟硬件系統(tǒng)故障須確保數(shù)據(jù)的 完整性,不得出現(xiàn)數(shù)據(jù)丟失的情況。 高性能 運(yùn)維大數(shù)據(jù)平臺(tái)整體架構(gòu)設(shè)計(jì)需要充分考慮平臺(tái)的高性能,平臺(tái)能夠支持 并發(fā)用戶數(shù)不低于100個(gè),并發(fā)管理及監(jiān)控服務(wù)器等實(shí)例不低于 30000個(gè),并 發(fā)指標(biāo)數(shù)不低于100萬(wàn)個(gè)。 運(yùn)維大數(shù)據(jù)平臺(tái)在性能類告警發(fā)生時(shí),分鐘級(jí)產(chǎn)生告警,容量類發(fā)生的告 警時(shí)分鐘級(jí)產(chǎn)生告警,可用性發(fā)生告警時(shí)秒級(jí)產(chǎn)生告警
29、。 運(yùn)維大數(shù)據(jù)平臺(tái)數(shù)據(jù)庫(kù)節(jié)點(diǎn)故障探測(cè)及自主切換時(shí)間不超過(guò) 1分鐘。運(yùn)維 大數(shù)據(jù)平臺(tái)窗口按鈕平均響應(yīng)時(shí)間不超過(guò) 30秒鐘。 若采用代理方式,代理在每分鐘采集 500個(gè)指標(biāo)的工作情況時(shí),占用的 CPU不超過(guò)總CPU勺3%內(nèi)存占用不超過(guò)200MI采值誤差不超過(guò)2%采值時(shí)延 不超過(guò)1s。 每天至少能夠處理數(shù)T的新增監(jiān)控?cái)?shù)據(jù),性能監(jiān)控指標(biāo)每秒至少可以入庫(kù) 3萬(wàn)條記錄,日志數(shù)據(jù)錄入峰值不低于 800G/天。持久化時(shí)間不得超過(guò)1s。需 要提供數(shù)據(jù)層調(diào)優(yōu)參數(shù)窗口,重點(diǎn)參數(shù)在窗口調(diào)優(yōu)后立刻生效。 提供數(shù)據(jù)層管理功能數(shù)據(jù)在線提取、備份和歸檔、保留周期、清理策略調(diào) 整的窗口,調(diào)整后立即生效。 調(diào)
30、用海量數(shù)據(jù)生成報(bào)表時(shí),響應(yīng)時(shí)間在可接受范圍內(nèi),查看單臺(tái)服務(wù)器前 1天的報(bào)表響應(yīng)時(shí)間小于30s,查看單臺(tái)服務(wù)器,1個(gè)月內(nèi)數(shù)據(jù),響應(yīng)時(shí)間小于 1分鐘;查看100臺(tái)服務(wù)器1周內(nèi)數(shù)據(jù)的報(bào)表,相應(yīng)時(shí)間小于 2分鐘,查看100 臺(tái)服務(wù)器1個(gè)月內(nèi)的數(shù)據(jù)響應(yīng)時(shí)間小于3分鐘。 2.6.平臺(tái)技術(shù)能力 海量數(shù)據(jù)采集能力 夏洛克ITOA具備多樣且彈性的數(shù)據(jù)搜集方法,可以檢索各種型態(tài)的IT運(yùn)營(yíng) 數(shù)據(jù),不限定數(shù)據(jù)樣式,并收集來(lái)自各種不同的應(yīng)用系統(tǒng)和網(wǎng)絡(luò)設(shè)備。 通過(guò)利用 所有數(shù)據(jù)(結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù))來(lái)全面了解 IT運(yùn)維活動(dòng),其中包括: 事 件、日志、告警、性能和任何指標(biāo)。 Agent方式 數(shù)據(jù)采集接口
31、集成方式 開源方式 采用豈涪殼自有比理,支持壬流燥作京蜿,蛆井的性能懇日志采餐眇級(jí)數(shù)JS 采崖能R . CPU便用豐平越過(guò)M %. 瓏釆矢能力自話應(yīng).具留子護(hù)充觀自譚整能力 自監(jiān)控勒”貝缶容訊,流■控飆 采集刪質(zhì)伏況,數(shù)呃定證性謝直 細(xì)集刪育包志系飪的舸的L JtlSplLink , iA^tKtSplunk Forwarder^ 發(fā)3 DaU到弟三方系魏(肓萬(wàn)克特} 異他DO用的主i耘也甲臺(tái)整合捲口 , 5::0MC BPPM/Trucsight. Remedy, Control-MU 支持5戸I旳、立杵上傳方式集磁 幵啟式摳口 ”客戶□定宣烹惟合 便用現(xiàn)有抿賽互聯(lián)網(wǎng)企業(yè)都
32、育自己的幵灑海血融采畫工翼.賽用于舷日 志睪炭如刊總盹a軸Fluni# Hpk*導(dǎo) 全平臺(tái)支持能力 -主流操作系統(tǒng)、數(shù)據(jù)庫(kù)、中間件、容器、存儲(chǔ)以及主流監(jiān)控系統(tǒng) ? 高吞吐秒采能力-海量數(shù)據(jù)實(shí)時(shí),高頻采集 (秒采),每秒支持采集數(shù)萬(wàn)事件 ? 開箱即用的采集能力 -提供開箱即用的采集模版,縮短數(shù)據(jù)采集定制難度 ? 自助監(jiān)控能力擴(kuò)展能力 —支持自定義腳本/Web Service 接口擴(kuò)展/網(wǎng)絡(luò)端口監(jiān)聽等 擴(kuò)展采集方式 ? 其他能力 -支持容錯(cuò),流量控制,以及支持采集端資源控制、健康狀況以及數(shù)據(jù)完 整性檢查,保障采集端的穩(wěn)定性。 圖形化配置解析規(guī)則 圖形化配置運(yùn)維數(shù)據(jù)解析規(guī)則,用
33、戶可以通過(guò)圖形化向?qū)?fù)雜的數(shù)據(jù)數(shù)據(jù) 格式,通過(guò)夏洛克平臺(tái)預(yù)定義采集策略,解析并轉(zhuǎn)化為數(shù)據(jù)存儲(chǔ)所要求的規(guī)范化 格式 碗駆■ MHMa 4 —? i ■片卓呻 EJe* \i ■ 4 | * 彈■fl*!1. ■a ■:= " i l-L 4齢* ifrnTjBM qT Lb i aM "bN. LM .frii . f ■拿m . d i a .T- I E ■i"V- ■ a9F*a ? * J a . ■ jU . ■才 r
34、 |ji ■L1W _ ■】屛 * *(-rH Mt i tu |iHr- 7 l-r M IfTIMtinEi 9 hsJ.- ? kJ lip! rtlwrj YF35 i-存? 4UX" LM* -NB i ijI -■■pn Aip Ef FL ?辜rm緲.3 bb■- Hr ■ ?雖印缶巾 |A 呻 r …*■ iai ^r-r fl;- !■
35、- fH 1 f H. IJ !> JH Hrl4 J I- IBJ B 34 0 ■ ■■Il u - V I 4 1" Tl PN s tWJMMr ■ A同的 a 1* ?壽■神吟ii 支持解析策略包括: 正則解析,字段管
36、理,類型轉(zhuǎn)換,日期規(guī)范化,KV解析,大小寫轉(zhuǎn)換,User Age nt 解析規(guī)則,URL Decode解析,替換規(guī)則,JSONW析,XML解析,分隔符解析 豐富的開箱即用功能 為了讓夏洛克更為方便實(shí)用,夏洛克內(nèi)置大量針對(duì)常用運(yùn)維系統(tǒng)的數(shù)據(jù)解析、 分析、展示模版,運(yùn)維人員只需要進(jìn)行簡(jiǎn)單配置就可以采集及分析相關(guān)應(yīng)用。 ■E^H 103 SQL S#r ye- ■II ii JOB I | ■霜 2Q17-9e-n 22:MB MySQL - Erw It■需 已另昭 m i i on i 躍用 zoit^w^s 監(jiān);右a g*
37、CWaten - 巳啟劇 201^0C-2S22:23 19 - XUL KM 巳屆疇 i ni?|漏用 20174M-?812:2M1 Oracle WvbL^igic EZ用憑銀 SHI ] | ■?降 | Sffl 9D17-U-29 22:2341 llSlog er用用就 EXBffl 2DI7->fi-2a 22-22 他 巳啟期 ■竊1和11鼻陪|耳用 2Q17 M 2d 22 27^2 MicrotsorE IIS - fjitendedl 癢視1克Hl "J* 1茸
38、用 2D17-CP6-2a 22-2Q 43 htermDn IIS W也i覇 ?用 sgiy-M m n:aot 3* Apaebe W=b.iS 已宕團(tuán) 占宦克隆1鼻肆1常用 2D17-0€-2a 22:19r22 Apache TamcJi! 應(yīng)Ml用酬 已自厲 ■1■、臣H | 鼻曲 I MN4 加站22:倔?酣 離亡h$ Hiq^^rver - ErTO< mm 1克陡1 1用 2Q17-M-2i@ 22:18 04 全局索引和搜索 夏洛克具備快速自定義的各種型態(tài)搜尋,而不是只有固定幾種的
39、字段,不需 要指定數(shù)據(jù)的格式,更可結(jié)合時(shí)間與關(guān)鍵詞進(jìn)行搜尋,呈現(xiàn)出清楚的搜索結(jié)果, 使用上就像百度、Google 一樣的直觀易用。為方便運(yùn)維人員使用,在支持SPL查 詢語(yǔ)法的同時(shí),支持SQL語(yǔ)法查詢。 SKACPILlJC e .n$: OB ■Iff MHM >n IF EQ 二;1OCOQ! * ? 鍵入關(guān)鍵詞后任意搜尋, 支持類自然語(yǔ)言SPL和結(jié)構(gòu)化查詢語(yǔ)言SQL ? 支持大數(shù)據(jù)量秒級(jí)搜索,實(shí)時(shí)收集/搜索數(shù)以百萬(wàn)計(jì)的數(shù)據(jù)字段 ? 支持全文檢索,短語(yǔ)查詢,字段值查詢,邏輯運(yùn)算符,計(jì)算及范圍查詢, 排序等基本查詢 ? 支持統(tǒng)計(jì)分析,子查詢,事務(wù)合并查詢,基線分
40、析查詢等高級(jí)查詢 ? 可支持無(wú)限聚合的能力,即在生成統(tǒng)計(jì)聚合結(jié)果的基礎(chǔ)上,再次進(jìn)行統(tǒng)計(jì) 和排序操作 ? 在搜索過(guò)程中提取和生成字段 ? 查詢數(shù)據(jù)直接生成報(bào)表及儀表板,做到所見即所得 INTO 同 EiWft 20f7-9. .0.6002 2^Q.GJXBl 3GI7G.DOOOZ 20rM』DGOZ 207-0.00002 2W7^.O.OKiZ 2617-0 OGQOZ 4小時(shí)內(nèi)中間件服務(wù)報(bào)錯(cuò)數(shù)據(jù) I^Hl GOUHt 系境日志告警級(jí)別分布 2W7-Q.JOJDD02 w-o^&imz 多維(實(shí)時(shí))報(bào)表及儀表盤功能 將各系統(tǒng)的運(yùn)維數(shù)據(jù)進(jìn)行統(tǒng)計(jì)分析并
41、生成各類實(shí)時(shí)報(bào)表,對(duì)各類運(yùn)營(yíng)數(shù)據(jù) (如,應(yīng)用日志,交易日志,系統(tǒng)日志)進(jìn)行多維度、多角度深入分析及可視化 展現(xiàn),以業(yè)務(wù)視角實(shí)時(shí)展示各種業(yè)務(wù)指標(biāo),以及幫助關(guān)聯(lián)分析 過(guò)去2天每分鐘的WEB請(qǐng)求數(shù)據(jù)5 過(guò)去1小時(shí)的每分鐘CPU的晟大使用率 山 ■- rnax_xslBValu4 心 1D0 夏洛克平臺(tái)提供強(qiáng)大的報(bào)表能力,能夠?qū)⑺褜そY(jié)果以各項(xiàng)清晰的圖表呈現(xiàn), 更可彈性化地生成企業(yè)和機(jī)構(gòu)管理層所想要的報(bào)告內(nèi)容。 ? 無(wú)須透過(guò)其他工具,可直接輸出報(bào)表 ? 可從多數(shù)據(jù)源中獲取,并基于關(guān)鍵主鍵進(jìn)行聚合關(guān)聯(lián)分析和串聯(lián)展示 ? 8種報(bào)表格式,如直方圖、線性圖、分區(qū)圖、圓餅圖、單點(diǎn)圖…等
42、? 支持向下鉆取:皆為動(dòng)態(tài)報(bào)表,可隨時(shí)點(diǎn)選并進(jìn)行特定搜尋 通過(guò)實(shí)時(shí)和直觀的儀表板/報(bào)表,達(dá)到運(yùn)維可視化的目的,包括應(yīng)用狀態(tài)可視 化、趨勢(shì)可視化、故障可視化、異??梢暬⒂绊懣梢暬?、業(yè)務(wù) KPI可視化 主動(dòng)監(jiān)測(cè)和告警功能 夏洛克ITOA運(yùn)維大數(shù)據(jù)分析平臺(tái)能夠定期/實(shí)時(shí)執(zhí)行,并依據(jù)搜尋結(jié)果發(fā)出 各項(xiàng)警示通知,可以透過(guò)Email、腳本等方式鏈接其他管理接口,可觸發(fā)執(zhí)行自 行定義的相應(yīng)方式,例如重新啟動(dòng)應(yīng)用程序、系統(tǒng)或網(wǎng)絡(luò)設(shè)備。 ? Email發(fā)送警告 ? 可制訂不連續(xù)時(shí)間啟動(dòng)自動(dòng)搜尋并發(fā)送警告 ? 可以呼叫script 延伸應(yīng)用 排障助手 通過(guò)大數(shù)據(jù)分析算法,集中分析相關(guān)指標(biāo)及
43、數(shù)據(jù),回放問(wèn)題發(fā)生前各項(xiàng)指標(biāo) 狀態(tài),經(jīng)關(guān)聯(lián)分析相關(guān)性能指標(biāo)和日志數(shù)據(jù)之間的關(guān)系,更快分析根本原因 VF Ri:7?m HAW ? 1-,-i-i I;; fe JdS v=i .:苛」i^i > 三匸比 II oi BXVL VI1 MB ■ CPU ■ i^irpjnv: ■flBi? ■旦芒犁 ? 獲得所有排障過(guò)程需洞察的所有數(shù)據(jù)源,包括日志分析,性能指標(biāo),運(yùn) 維流程數(shù)據(jù)(事件工單、變更數(shù)據(jù))等 ? 以時(shí)間軸的方式回放數(shù)據(jù),獲得任一何時(shí)間點(diǎn)查看所有數(shù)據(jù)狀態(tài),以快 速解決問(wèn)題 ? 利用自動(dòng)運(yùn)維數(shù)據(jù)分析,查明根本原因 智能分析引擎 平臺(tái)內(nèi)置多種智能學(xué)習(xí)算法,通過(guò)智能分
44、析引擎,根據(jù)歷史監(jiān)控?cái)?shù)據(jù)和告警 信息,產(chǎn)生智能閾值模型、事件關(guān)聯(lián)性模型,業(yè)務(wù)影響性模型、事件智能處 理模型。不斷利用新生成的數(shù)據(jù),對(duì)現(xiàn)有模型進(jìn)行完善和優(yōu)化調(diào)整。 根據(jù)歷 史事件的處理方法,總結(jié)規(guī)則,形成模型,主要針對(duì)如下幾個(gè)方面: 監(jiān)控閾值的機(jī)器學(xué)習(xí),逐步實(shí)現(xiàn)精準(zhǔn)告警。 事件關(guān)聯(lián)性分析和業(yè)務(wù)影響分析。 部分告警事件智能處理的智能運(yùn)維。 容量預(yù)測(cè)功能 IHKW^ 動(dòng)態(tài)檢測(cè)F關(guān)聯(lián)分析 kn 4r< HRnwiftanAv |T ::丸“, tumii |-q ■■! | . *4 MVA1* *3 和*丿宀丄叫"名*?」?? 機(jī)器學(xué)習(xí) ■UUi p 安全
45、功能 企業(yè)、組織和機(jī)構(gòu)的IT信息其重要性不言而喻。而夏洛克ITOA平臺(tái)可進(jìn)行 用戶數(shù)據(jù)訪問(wèn)權(quán)限管理,安全管控,確保數(shù)據(jù)在存取、分析和稽核時(shí)不會(huì)破壞數(shù) 據(jù)的完整性。 ? 提供用戶聯(lián)機(jī)與數(shù)據(jù)訪問(wèn)權(quán)限控制 ? 不變更原始數(shù)據(jù)的完整性 銀行的業(yè)務(wù)動(dòng)態(tài)運(yùn)行分析 夏洛克平臺(tái)針對(duì)銀行類的業(yè)務(wù)系統(tǒng)特別推出了針對(duì)業(yè)務(wù)端到端的動(dòng)態(tài)運(yùn)行 圖,將各系統(tǒng)的運(yùn)維數(shù)據(jù)進(jìn)行統(tǒng)計(jì)分析并生成各類實(shí)時(shí)報(bào)表, 對(duì)各類運(yùn)維數(shù)據(jù)(如: 應(yīng)用日志、交易日志、系統(tǒng)日志等)進(jìn)行多維度、多角度深入分析及可視化展現(xiàn), 以業(yè)務(wù)視角實(shí)時(shí)展示各種業(yè)務(wù)指標(biāo),可以做到: ? 透視交易量 展示實(shí)時(shí)的交易系統(tǒng)指標(biāo)-交易量、平均交易時(shí)長(zhǎng)、交易成 功
46、率、返回交易碼等,對(duì)核心交易系統(tǒng)交易超時(shí)事件進(jìn)行告警,對(duì)核心系 統(tǒng)異常錯(cuò)誤進(jìn)行告警,并在告警中帶出關(guān)鍵相關(guān)交易日志。 ? 透視應(yīng)用接口調(diào)用狀態(tài) 每分鐘/每天對(duì)核心業(yè)務(wù)進(jìn)行關(guān)鍵指標(biāo)統(tǒng)計(jì)(如調(diào) 用來(lái)源、調(diào)用量、接口處理時(shí)間等),體現(xiàn)端到端的運(yùn)維的狀態(tài)。 ? 監(jiān)控實(shí)際用戶體驗(yàn) 比如為網(wǎng)頁(yè)訪問(wèn)日志創(chuàng)建數(shù)據(jù)模型、檢視響應(yīng)最慢的 網(wǎng)頁(yè)、顯示最多的錯(cuò)誤代碼等 ? 變平面為立體 通過(guò)建立應(yīng)用、系統(tǒng)、物理主機(jī)之間的邏輯從屬關(guān)系,將 平面的日志變?yōu)榱Ⅲw的日志。通過(guò)對(duì)日志源與對(duì)應(yīng)系統(tǒng)的邏輯關(guān)系記錄, 使問(wèn)題的定位更加快速、直觀,使得問(wèn)題的解決更加容易便捷。 0 M23列、肚58列
47、 第27頁(yè)/共58頁(yè) 第3章.運(yùn)維大數(shù)據(jù)平臺(tái)建設(shè)設(shè)計(jì) 3.1. 總體架構(gòu) 根據(jù)項(xiàng)目需求及某農(nóng)商行的技術(shù)路線,本次項(xiàng)目建議的總體架構(gòu)規(guī)劃如下 紅色為項(xiàng)目一期目標(biāo),綠色為項(xiàng)目二期目標(biāo),淺藍(lán)色為項(xiàng)目三期目標(biāo)。 CKtmta -gKwflthtH .? . ■ 1 ■ c> V ■ Him nrm=ft?u 曲灑手 I 11 Ij I li It I Jl I ! 3.2. 運(yùn)維大數(shù)據(jù)平臺(tái)架構(gòu)設(shè)計(jì) 邏輯
48、架構(gòu) 運(yùn)維大數(shù)據(jù)平臺(tái)的整體架構(gòu)是根據(jù)其要求的功能性要求以及非功能性要求 進(jìn)行設(shè)計(jì)。平臺(tái)共分為:數(shù)據(jù)采集,數(shù)據(jù)處理,數(shù)據(jù)存儲(chǔ),查詢引擎,告警引擎, 分析引擎,展現(xiàn)引擎以及平臺(tái)管理共計(jì) 8個(gè)模塊組成,整體邏輯架構(gòu)圖如下: 魚返遇準(zhǔn)IS他訥第(9PL丄SQL) 劉T詢 xrk Mllih| 一全局量向即肇 8大模塊都可支持橫向擴(kuò)展,提升每個(gè)模塊的吞吐量以及處理能力,同時(shí)每 個(gè)模塊內(nèi)部都是多點(diǎn)分布式部署,保證了系統(tǒng)高可用以及數(shù)據(jù)安全。在數(shù)據(jù)采集, 處理,存儲(chǔ)以及分析等模塊采用了目前比較主流成熟的開源組件, 既有效利用了 開源社區(qū)的力量,避免重復(fù)建設(shè),
49、同時(shí)有選擇性的利用以及優(yōu)化/改造, 也避免 了開源軟件在穩(wěn)定性以及可靠性上的不足 物理架構(gòu) 運(yùn)維大數(shù)據(jù)平臺(tái)在物理部署時(shí)充分考慮了架構(gòu)的先進(jìn)性,避免了重復(fù)建設(shè) 以及減輕了平臺(tái)本身后期的維護(hù)要求,監(jiān)控平臺(tái)中需要的 Hadoop HBase ElasticSearch、Spark、Kafka以及ZK集群都支持用戶版本需求,其他增量節(jié) 點(diǎn)都支持虛擬機(jī),非存儲(chǔ)節(jié)點(diǎn)也支持 Docker或者Kubernetes部署,可以非常 容易的調(diào)整節(jié)點(diǎn)數(shù)量,為后期平臺(tái)的自動(dòng)智能擴(kuò)容提供了基礎(chǔ),整體物理架構(gòu) 如下: 數(shù)據(jù)采集 數(shù)據(jù)采集分為有代理采集以及無(wú)代理采集兩種方式,其中無(wú)代理采集為在 服務(wù)端采集
50、,支持SNMP,DATABSETCP, SYSLOGI主流采集協(xié)議,對(duì)于一些無(wú) 法安裝代理的被采集對(duì)象,可以采用這種方式。有代理采集采用多進(jìn)程方式, 即:守護(hù)進(jìn)程+工作進(jìn)程的方式,既保證采集代理的穩(wěn)定性,又可以對(duì)工作進(jìn) 程的資源消耗進(jìn)行控制,避免代理客戶端對(duì)被采集對(duì)象的資源消耗過(guò)大。 1. 無(wú)代理采集 無(wú)代理采集基于開源框架 Kafka Connect進(jìn)行優(yōu)化以及改造而來(lái),框架本 身提供了采集服務(wù)的高可用以及采集數(shù)據(jù)的數(shù)據(jù)安全, 其基于Kafka集群, 采集之后的數(shù)據(jù)首先寫入Kafka集群,后續(xù)流經(jīng)統(tǒng)一的數(shù)據(jù)處理引擎 Spark Streaming進(jìn)行數(shù)據(jù)的解析以及結(jié)構(gòu)轉(zhuǎn)換。無(wú)代理采集支
51、持從文件,數(shù)據(jù) 庫(kù),tcp,snmp, syslog等協(xié)議采集數(shù)據(jù),其采集配置支持通過(guò)接口方式進(jìn) 行新增,修改以及停止等熱更新操作。 2. 有代理采集 有代理采集需要在被采集對(duì)象上安裝客戶端,因此有代理采集需要具備穩(wěn) 定,高效,低資源消耗的功能,并且可以適配不同的操作系統(tǒng),根據(jù)要求, 可以支持aix以及主流Linux和Windows操作系統(tǒng)。本次投標(biāo)的夏洛克平 第26頁(yè)/共58頁(yè) 臺(tái)直接支持Flume作為采集端的接入 多進(jìn)程 代理客戶端分為守護(hù)通訊進(jìn)程以及采集工作進(jìn)程, 守護(hù)通訊進(jìn)程負(fù)責(zé) 與服務(wù)端進(jìn)行通訊,可以實(shí)時(shí)接收服務(wù)端下發(fā)的采集指令, 此外守護(hù) 通訊進(jìn)程還負(fù)責(zé)監(jiān)控采集工
52、作進(jìn)程,當(dāng)工作進(jìn)程出現(xiàn)異?;蛘哔Y源消 耗過(guò)大時(shí),進(jìn)行管理控制。 ? 跨平臺(tái) 采集代理支持基于x86平臺(tái)的主流Linux以及Windows系統(tǒng),也支持 IBM AIX系統(tǒng)。在x86平臺(tái)上基于開源組件Beats改造和優(yōu)化而來(lái), 在AIX平臺(tái)上基于開源組件Nxlog改造和優(yōu)化而來(lái),兩個(gè)開源組件都 經(jīng)過(guò)了開源社區(qū)的大量測(cè)試以及改造,功能以及穩(wěn)定性都值得信賴, 在兩個(gè)開源組件之上,通過(guò)新增的守護(hù)通訊進(jìn)程對(duì)通訊協(xié)議以及指令 進(jìn)行了統(tǒng)一,對(duì)上層的服務(wù)端提供了統(tǒng)一的采集通訊接口。 ? 高性能 米集客戶端基于C/GO靜態(tài)語(yǔ)言開發(fā),編譯后為直接可執(zhí)行的機(jī)器代 碼,省去了像Java等高級(jí)語(yǔ)言的運(yùn)行時(shí)解析環(huán)
53、節(jié),更為高效。另外 采集客戶端與服務(wù)端通訊為雙向tcp長(zhǎng)鏈接方式,服務(wù)端的采集指令 可以快速實(shí)時(shí)下發(fā)給客戶端。 ? 低消耗 采集客戶端本身提供采集速度,網(wǎng)絡(luò)流量等配置功能,可以通過(guò)合理 的采集速度配置,來(lái)使其本身的資源消耗在一個(gè)合理的水平, 此外守 護(hù)進(jìn)程還通過(guò)cgroup的方式來(lái)從上層限制了采集客戶端進(jìn)程的最大 資源消耗,確保客戶端的資源消耗符合需求。 ? 高頻率,高精度 采集客戶端的高性能以及低消耗決定了可以進(jìn)行更高頻率的指標(biāo)采 集,更能保證指標(biāo)的準(zhǔn)確度以及數(shù)據(jù)完整性, 返回給服務(wù)端的數(shù)據(jù)即 可以為明細(xì)數(shù)據(jù),也可以是在客戶端處理之后的均值, 既能減輕服務(wù) 端的壓力,又能保證服務(wù)端
54、拿到數(shù)據(jù)的準(zhǔn)確性。此外,針對(duì)CPU負(fù)荷 等毫秒級(jí)變化的指標(biāo),采用底層操作系統(tǒng)內(nèi)核API的方式直接讀取系 統(tǒng)提供的更準(zhǔn)確更真實(shí)的數(shù)據(jù)。 ? 數(shù)據(jù)安全 采集客戶端在遇到網(wǎng)絡(luò)狀況不好或者網(wǎng)絡(luò)丟失的情況時(shí),可以先把采 集到的數(shù)據(jù)緩存到本地,等到網(wǎng)絡(luò)恢復(fù)時(shí),再上送給服務(wù)端,每一次 上送都需要服務(wù)端返回確認(rèn)成功標(biāo)志后,才為成功。 ? 傳輸壓縮,批量 采集客戶端把數(shù)據(jù)按照定義的壓縮策略進(jìn)行壓縮后,批量發(fā)送給服務(wù) 端,到服務(wù)端后解壓解析,減少了客戶端與服務(wù)端的交互次數(shù), 減輕 了網(wǎng)絡(luò)流量,做到傳輸?shù)母咝А? ? 傳輸安全 采集客戶端與服務(wù)端的通訊基于 SSL的證書加密雙向認(rèn)證后進(jìn)行,確 保數(shù)據(jù)的安全
55、。 ? 可擴(kuò)展 采集客戶端除了提供目前監(jiān)控平臺(tái)需要的采集功能外, 還支持服務(wù)端 下發(fā)一般命令,然后返回命令執(zhí)行結(jié)果的方式,并且支持命令 RunAs 特定用戶的方式來(lái)讓運(yùn)維人員可以在監(jiān)控平臺(tái)界面即可執(zhí)行一般的 命令來(lái)檢查被監(jiān)控服務(wù)器,此外通過(guò)這種方式,用戶可以非常容易的 增加新的采集能力,新增一個(gè)采集項(xiàng)只需要定義采集命令,返回值解 析格式,超時(shí)時(shí)間,執(zhí)行用戶等幾個(gè)要素即可。 數(shù)據(jù)聚合及處理 數(shù)據(jù)處理層分為路由層-> 隊(duì)列緩沖層-> 流處理引擎三個(gè)階段,數(shù)據(jù)路 由層直接接收采集客戶端上送的數(shù)據(jù),根據(jù)不同數(shù)據(jù)源對(duì)應(yīng)的路有策略,轉(zhuǎn)發(fā) 給不同的Kafka Topic,流處理引擎從Kafk
56、a直接拉取數(shù)據(jù),處理成功并且持 久化到數(shù)據(jù)庫(kù)后更新數(shù)據(jù)消費(fèi)偏移量,確保了數(shù)據(jù)至少被處理一次,數(shù)據(jù)零丟 失。 1. 數(shù)據(jù)路由層 數(shù)據(jù)路由層的主要作用是實(shí)現(xiàn)任何數(shù)據(jù)的一次采集, 可多次消費(fèi)的目的,即 數(shù)據(jù)采集客戶端主要關(guān)注數(shù)據(jù)的采集邏輯: 包含數(shù)據(jù)的采集協(xié)議,采集地址,分 隔符號(hào),編碼方式等要素,路由層作為數(shù)據(jù)采集 到 數(shù)據(jù)消費(fèi)的路由層,支持把 一份數(shù)據(jù)分發(fā)給1個(gè)或者多個(gè)kafka topic,實(shí)現(xiàn)一份數(shù)據(jù)多個(gè)消費(fèi)者的需求。 數(shù)據(jù)路由層基于高性能tcp服務(wù)器netty構(gòu)建而成,通過(guò)epoll的I/O復(fù)用架構(gòu) 實(shí)現(xiàn)數(shù)據(jù)的高效傳輸。 2. 數(shù)據(jù)緩沖層 數(shù)據(jù)在提交到服務(wù)端后,經(jīng)過(guò)數(shù)據(jù)路由提交
57、到Kafka集群,作為數(shù)據(jù)采集到 數(shù)據(jù)處理之間的一個(gè)緩沖層,既可以適配不同的網(wǎng)絡(luò)拓?fù)浼軜?gòu),又可以避免數(shù)據(jù) 洪峰時(shí)對(duì)后端的處理層帶來(lái)過(guò)大的壓力。 Kafka隊(duì)列采用push+pull的方式,基 于順序?qū)懘疟P以及Linux page cache的特點(diǎn)實(shí)現(xiàn)了數(shù)據(jù)的高效轉(zhuǎn)發(fā)。 3. 流處理層 流處理層基于Spark Streaming,實(shí)現(xiàn)了分布式的數(shù)據(jù)處理,處理能力可以 通過(guò)增加Spark executor的數(shù)量來(lái)提升。 ? 數(shù)據(jù)拉取 Spark streaming的數(shù)據(jù)從kafka拉取而來(lái),采用了 no-receiver 的 方式直接從kafka的分區(qū)上并行拉取數(shù)據(jù),但是默認(rèn)spark從k
58、afka 拉取數(shù)據(jù)時(shí),會(huì)根據(jù)kafka的分區(qū)數(shù)量來(lái)確定spark的并發(fā)數(shù)量,當(dāng) kafka上的分區(qū)不多或者分區(qū)之間數(shù)據(jù)不平衡時(shí),會(huì)出現(xiàn)spark的處 理速度不高的問(wèn)題,基于此我們優(yōu)化了 spark在與kafka連接時(shí)計(jì)算 分區(qū)的策略,可以根據(jù)上層的速度要求來(lái)自動(dòng)計(jì)算 spark的分區(qū)并發(fā) 數(shù)量,提升了數(shù)據(jù)的拉取速度。 ? 數(shù)據(jù)處理 不同的數(shù)據(jù)源對(duì)應(yīng)的數(shù)據(jù)處理邏輯不同, 通過(guò)對(duì)數(shù)據(jù)的處理類型進(jìn)行 抽象提取,對(duì)上層提供了可配置的數(shù)據(jù)處理接口, 用戶可以通過(guò)界面 配置的方式來(lái)配置數(shù)據(jù)的解析,轉(zhuǎn)換以及處理邏輯,例如常見的正則 匹配,xml解析,類型轉(zhuǎn)換等常見的解析操作都可以通過(guò)界面讓用戶 方便的
59、進(jìn)行配置,并且用戶可以實(shí)時(shí)預(yù)覽原始數(shù)據(jù)的解析結(jié)果, 達(dá)到 所見即所得的效果。 ? 會(huì)話以及交易鏈處理 在處理日志數(shù)據(jù)時(shí),特別是處理交易日志時(shí),會(huì)遇到有狀態(tài)的日志數(shù) 據(jù),不同數(shù)據(jù)來(lái)源的日志會(huì)構(gòu)建成同一個(gè)交易會(huì)話, 不同的交易會(huì)話 又會(huì)構(gòu)建成同一個(gè)交易鏈路,利用spark streaming的狀態(tài)管理,通 過(guò)會(huì)話以及鏈路的抽象提取,可以允許用戶通過(guò)配置的方式創(chuàng)建自己 的交易會(huì)話或者路徑,可以實(shí)現(xiàn)把不通系統(tǒng)來(lái)源的數(shù)據(jù)自動(dòng)關(guān)聯(lián)起來(lái), 進(jìn)而再計(jì)算相應(yīng)的交易指標(biāo)數(shù)據(jù)。 ? Spark as a service Spark streaming默認(rèn)是通過(guò)命令行的方式提交 spark job來(lái)啟動(dòng),
60、 基于與spark的深度集成,實(shí)現(xiàn)了 spark as a service 的需求,可 以按需啟動(dòng),停止spark con text,以及調(diào)整特定spark job的資源, 通過(guò)rest http 接口的方式實(shí)現(xiàn)了 spark job 的動(dòng)態(tài)管理。 ? 數(shù)據(jù)輸出 spark streaming在處理完數(shù)據(jù)后,需要根據(jù)不同的數(shù)據(jù)類型把數(shù)據(jù) 寫入不同的數(shù)據(jù)庫(kù),結(jié)構(gòu)化數(shù)據(jù)寫入 HBase非結(jié)構(gòu)化數(shù)據(jù)寫入 Elastic Search,兩者都是分布式數(shù)據(jù)庫(kù),都基于分區(qū)/分片的方式 來(lái)存儲(chǔ)數(shù)據(jù),默認(rèn)spark在向上述兩個(gè)數(shù)據(jù)庫(kù)寫入數(shù)據(jù)時(shí),依賴于外 部數(shù)據(jù)庫(kù)進(jìn)行數(shù)據(jù)路由,存在著數(shù)據(jù)二次移動(dòng)的問(wèn)題,影
61、響了數(shù)據(jù)寫 入效率,我們?cè)趯懭胫邦A(yù)先計(jì)算好數(shù)據(jù)最終寫入的分區(qū)/分片, 避 免了數(shù)據(jù)的二次轉(zhuǎn)發(fā)時(shí)間消耗。 數(shù)據(jù)存儲(chǔ) 數(shù)據(jù)存儲(chǔ)是運(yùn)維大數(shù)據(jù)平臺(tái)的數(shù)據(jù)落地的地方, 根據(jù)不同的數(shù)據(jù)類型以及不 同數(shù)據(jù)類型的使用場(chǎng)景,選擇了不同的數(shù)據(jù)存儲(chǔ)方式,針對(duì)一些需要進(jìn)行全文檢 索,分詞搜索的數(shù)據(jù)Elastic Search,用于實(shí)時(shí)可視化查詢/分析。所有數(shù)據(jù)也 都會(huì)存入Hadoop HDFS/HIVE之上用于長(zhǎng)期保存及離線批量統(tǒng)計(jì)及計(jì)算數(shù)據(jù)寫入 的入口都是Spark Streaming,支持分布式并發(fā)按照分區(qū)/分片進(jìn)行寫入。平臺(tái) 管理的管理配置類的數(shù)據(jù)是結(jié)構(gòu)化數(shù)據(jù),存于結(jié)構(gòu)化數(shù)據(jù)庫(kù) MySQ之中。 日志數(shù)
62、據(jù)作為運(yùn)維數(shù)據(jù)中的主要核心數(shù)據(jù), 來(lái)源是非結(jié)構(gòu)化數(shù)據(jù),但是通過(guò) 前面的數(shù)據(jù)處理引擎后,數(shù)據(jù)完成了從結(jié)構(gòu)化到非結(jié)構(gòu)化的轉(zhuǎn)變, 可以在支持全 文檢索的同時(shí),也可以支持結(jié)構(gòu)化查詢。基于銀行的需求以及前期測(cè)試結(jié)果, 選 擇了 Elastic Search 作為日志等文本數(shù)據(jù)的實(shí)時(shí)分析存儲(chǔ)落地。 ElasicSearch 是基于搜索引擎Lucene之上的分布式擴(kuò)展,既可以實(shí)現(xiàn)文本非結(jié)構(gòu)化字段的檢 索,又可以基于其DocValue的列式存儲(chǔ)實(shí)現(xiàn)高效的分布式聚合計(jì)算。 此外,Elastic Search還支持通過(guò)Groovy腳本來(lái)擴(kuò)展聚合以及搜索的能力, 可以實(shí)現(xiàn)“多層聚合”以及 Schema O
63、n Read的能力,為上層提供更加豐富的查 詢服務(wù)。 查詢引擎 運(yùn)維大數(shù)據(jù)平臺(tái)底層在數(shù)據(jù)存儲(chǔ)上根據(jù)不同的數(shù)據(jù)類型選擇了不同的數(shù)據(jù) 庫(kù)引擎,每個(gè)數(shù)據(jù)庫(kù)引擎的數(shù)據(jù)查詢方式都不同,為了給上層的業(yè)務(wù)功能層提 供一致的查詢接口,需要有一個(gè)查詢引擎層來(lái)屏蔽底層數(shù)據(jù)庫(kù)的差異性,此外 不同數(shù)據(jù)庫(kù)之間的數(shù)據(jù)有相互關(guān)聯(lián)關(guān)系,例如同一臺(tái)服務(wù)器的 cpu性能與日志 數(shù)據(jù)關(guān)聯(lián)查看的需求,查詢引擎識(shí)別出用戶的查詢意圖進(jìn)行解析后,分拆到不 同的底層數(shù)據(jù)庫(kù)引擎,如果查詢牽扯到多個(gè)數(shù)據(jù)庫(kù)引擎,則需要把結(jié)果聚合后 再返回給用戶,對(duì)上層服務(wù)或者用戶,查詢引擎提供了兩種類型的查詢接口, SPL以及SQL滿足不同用戶的查詢需求,
64、在對(duì) spl /sql解析后生成具體的查 詢,分派到對(duì)應(yīng)的數(shù)據(jù)庫(kù)引擎。 1. SPL 接口 SPL全稱為Search Process Language,是專門針對(duì)文本數(shù)據(jù)搜索提供的 語(yǔ)言,其非常類似Unix管道符的工作方式,前一個(gè)階段的輸出是后面一個(gè)階段 的輸入,SPL的實(shí)現(xiàn)首先需要定義語(yǔ)法樹,后續(xù)聲稱對(duì)應(yīng)的語(yǔ)法分析器。 SPL 除了能提供基本的數(shù)據(jù)搜索之外,還能提供豐富的數(shù)據(jù)聚合統(tǒng)計(jì)功能。除了目 前已經(jīng)具備的SPL功能外,還可以根據(jù)需求設(shè)計(jì)定制的 SPL 2. SQL接 口 運(yùn)維大數(shù)據(jù)平臺(tái)也支持通過(guò) SQL的方式來(lái)進(jìn)行查詢,SQL提供的查詢功能 與SPL一致,既可以用來(lái)查詢文本日志
65、數(shù)據(jù),也可以用來(lái)查詢性能數(shù)據(jù)等。 3. 統(tǒng)一查詢 查詢引擎是運(yùn)維大數(shù)據(jù)平臺(tái)的唯一查詢服務(wù)入口,無(wú)論是用戶在系統(tǒng)界面輸入 的SQL/SPL還是界面展現(xiàn)的儀表盤/報(bào)表,都是通過(guò)查詢引擎與底層的數(shù)據(jù)庫(kù) 進(jìn)行交互。 告警引擎 1. 規(guī)則引擎 規(guī)則引擎主要針對(duì)日志等非結(jié)構(gòu)化數(shù)據(jù)進(jìn)行告警管理,需要支持按照關(guān)鍵 字搜索結(jié)果定義識(shí)別規(guī)則,根據(jù)規(guī)則匹配的結(jié)果決定是否告警以及告警級(jí) 別。 2. 指標(biāo)管理 指標(biāo)管理是闕值設(shè)定的前提,指標(biāo)管理除了包含基本的性能指標(biāo)之外,還 包含基于基本數(shù)據(jù)聚合而成的指標(biāo),例如最近 5分鐘的錯(cuò)誤交易次數(shù),或 者最近5分鐘的平均交易耗時(shí)。聚合指標(biāo)的定義采用了查詢引擎提供的查
66、 詢接口來(lái)生成。只要是查詢引擎支持的統(tǒng)計(jì)聚合語(yǔ)句都可以另存為指標(biāo)。 3. 闕值管理 闕值的定義依賴于指標(biāo),闕值管理支持分時(shí)間段設(shè)置不同的告警值,例如 對(duì)CPU利用率這一指標(biāo)設(shè)置為上午8點(diǎn)到晚上8點(diǎn)的告警值為0.8,其他 時(shí)段為0.9,方便用戶根據(jù)實(shí)際的業(yè)務(wù)情況靈活定義告警闕值。 4. 調(diào)度引擎 告警啟動(dòng)后,需要根據(jù)告警定義時(shí)的時(shí)間周期去實(shí)時(shí)計(jì)算對(duì)應(yīng)指標(biāo)或者規(guī) 貝運(yùn)維大數(shù)據(jù)平臺(tái)需要支持的并行實(shí)時(shí)計(jì)算的指標(biāo)/規(guī)則到百萬(wàn)級(jí)別, 系統(tǒng)需要提供高效的調(diào)度,并行的去實(shí)時(shí)監(jiān)控百萬(wàn)級(jí)的指標(biāo)。 告警引擎的框架基于AKKA Cluster實(shí)現(xiàn),每個(gè)啟動(dòng)的告警管理項(xiàng)都是一 個(gè)Actor,其是一個(gè)輕量級(jí)的并行模型,比線程更輕量級(jí),告警的規(guī)則,需 要計(jì)算的指標(biāo),告警的闕值,計(jì)算的周期等信息都在 Actor創(chuàng)建時(shí)確定存 儲(chǔ)在Actor內(nèi)部,每個(gè)Actor都被實(shí)時(shí)監(jiān)控管理,當(dāng)出現(xiàn)異常時(shí),可以自 動(dòng)重啟或者重新創(chuàng)建。一臺(tái)4g的虛擬機(jī),可以輕松創(chuàng)建百萬(wàn)級(jí)別的Actor, 且支持通過(guò)增加節(jié)點(diǎn)的方式來(lái)提高 AKKA Cluster的整體吞吐量。
- 溫馨提示:
1: 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
2: 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3.本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 裝配圖網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2024《增值稅法》全文學(xué)習(xí)解讀(規(guī)范增值稅的征收和繳納保護(hù)納稅人的合法權(quán)益)
- 2024《文物保護(hù)法》全文解讀學(xué)習(xí)(加強(qiáng)對(duì)文物的保護(hù)促進(jìn)科學(xué)研究工作)
- 銷售技巧培訓(xùn)課件:接近客戶的套路總結(jié)
- 20種成交的銷售話術(shù)和技巧
- 銷售技巧:接近客戶的8種套路
- 銷售套路總結(jié)
- 房產(chǎn)銷售中的常見問(wèn)題及解決方法
- 銷售技巧:值得默念的成交話術(shù)
- 銷售資料:讓人舒服的35種說(shuō)話方式
- 汽車銷售績(jī)效管理規(guī)范
- 銷售技巧培訓(xùn)課件:絕對(duì)成交的銷售話術(shù)
- 頂尖銷售技巧總結(jié)
- 銷售技巧:電話營(yíng)銷十大定律
- 銷售逼單最好的二十三種技巧
- 銷售最常遇到的10大麻煩