01. 運(yùn)維一體化的概念被泛化
運(yùn)維一體化是近幾年被廣泛提起的概念,有各種解讀和實(shí)踐形態(tài),在到具體的技術(shù)架構(gòu)和管理實(shí)踐前,我們還是要對(duì)一體化有幾個(gè)基本定義,這樣才能更為嚴(yán)肅地探討運(yùn)維一體化的本質(zhì)。
1)什么是運(yùn)維業(yè)務(wù)
我們采用TOGAF定義的業(yè)務(wù)架構(gòu)來定義運(yùn)維業(yè)務(wù),運(yùn)維業(yè)務(wù)是價(jià)值定位、管理、組織、關(guān)鍵業(yè)務(wù)流程的組合描述,抽象來講要回答幾個(gè)問題:干什么(業(yè)務(wù)能力)、誰來干(業(yè)務(wù)角色)、怎么干(業(yè)務(wù)流程)、所需應(yīng)用(運(yùn)維應(yīng)用架構(gòu))、所需數(shù)據(jù)(運(yùn)維數(shù)據(jù)架構(gòu))、所需技術(shù)(運(yùn)維的技術(shù)變化與發(fā)展);
例如這里就可以用一句很泛的話術(shù)來描述運(yùn)維業(yè)務(wù):基于業(yè)務(wù)安全穩(wěn)定運(yùn)行和IT服務(wù)滿意(業(yè)務(wù)能力),組織職能線和專業(yè)線的IT運(yùn)維角色(業(yè)務(wù)角色,如調(diào)度室是跨專業(yè)的職能線、DBA則是具體的專業(yè)線角色),基于服務(wù)管理、事件管理、變更管理等流程實(shí)踐(業(yè)務(wù)流程,這里就需要拆解角色和崗位的映射),基于運(yùn)維的監(jiān)管控等工具(運(yùn)維應(yīng)用),管理log、metric、trace、event、工單、配置等數(shù)據(jù)(運(yùn)維數(shù)據(jù)),基于分布式組件、容器化架構(gòu),實(shí)現(xiàn)運(yùn)維業(yè)務(wù)支撐。
更細(xì)化一點(diǎn),運(yùn)維業(yè)務(wù)需要定義對(duì)應(yīng)運(yùn)維主題領(lǐng)域的四要素:角色、活動(dòng)流程、工具系統(tǒng)、活動(dòng)對(duì)象,來滿足對(duì)應(yīng)的運(yùn)維業(yè)務(wù)能力。
以一般性IT服務(wù)管理主題為例:
而業(yè)務(wù)定義清楚,對(duì)應(yīng)的管理規(guī)范就清晰了,再到應(yīng)用設(shè)計(jì),就清晰了技術(shù)規(guī)范,規(guī)范輔助業(yè)務(wù)的落地。
2)業(yè)務(wù)單元與業(yè)務(wù)交互邏輯是什么
運(yùn)維大的體系可被拆解到多個(gè)業(yè)務(wù)子域,ITIL實(shí)踐幫我們已經(jīng)做了一定的總結(jié),不過技術(shù)性指導(dǎo)不夠;一般來講從業(yè)界通用的運(yùn)維領(lǐng)域來看運(yùn)維業(yè)務(wù)設(shè)計(jì),我們可以定義運(yùn)維業(yè)務(wù)設(shè)計(jì)大的主題分為兩類:服務(wù)管理、技術(shù)管理;服務(wù)管理是數(shù)據(jù)中心為相關(guān)利益方提供真正體現(xiàn)數(shù)據(jù)中心價(jià)值的服務(wù)的管理過程;技術(shù)管理是從數(shù)據(jù)中心內(nèi)部發(fā)展角度,為服務(wù)提升提供前瞻性、系統(tǒng)性的技術(shù)創(chuàng)新研究的管理活動(dòng);而展開就有了服務(wù)管理包含:配置管理、變更管理、事件管理、投產(chǎn)管理、問題管理、應(yīng)急災(zāi)備管理、監(jiān)控管理、操作管理等;技術(shù)管理則包含架構(gòu)管理、運(yùn)維開發(fā)管理、數(shù)據(jù)管理等;
而這些業(yè)務(wù)子域之間,則往往基于共同滿足一個(gè)大的運(yùn)維價(jià)值和活動(dòng)場(chǎng)景,需要做業(yè)務(wù)域的關(guān)聯(lián)設(shè)計(jì),這種交互的邏輯一部分源于場(chǎng)景端到端的驅(qū)動(dòng),一部分源于技術(shù)復(fù)用和關(guān)聯(lián)的驅(qū)動(dòng)。例如:我們要做企業(yè)信息系統(tǒng)的災(zāi)備應(yīng)急管理,首先要定義這個(gè)業(yè)務(wù)的四要素,角色(應(yīng)急管理崗、應(yīng)急實(shí)施崗、綜合管理崗等),活動(dòng)(組織管理、預(yù)案管理、演練管理、應(yīng)急處置管理、資源管理),流程(事件應(yīng)急流程、災(zāi)備應(yīng)急流程),活動(dòng)對(duì)象(資源、事件、預(yù)案、人員等)。而信息系統(tǒng)業(yè)務(wù)域與其他業(yè)務(wù)域的關(guān)聯(lián)設(shè)計(jì)時(shí),則例如業(yè)務(wù)活動(dòng)里面的應(yīng)急處置管理,來源是監(jiān)控管理業(yè)務(wù)領(lǐng)域的生產(chǎn)事件,這屬于場(chǎng)景端到端驅(qū)動(dòng),而資源基于CMDB構(gòu)建,則是技術(shù)復(fù)用和關(guān)聯(lián)。
業(yè)務(wù)域關(guān)聯(lián)設(shè)計(jì)示例:災(zāi)備應(yīng)急業(yè)務(wù)域在場(chǎng)景端到端驅(qū)動(dòng),尤其是故障生命周期視角,以及技術(shù)復(fù)用和關(guān)聯(lián)驅(qū)動(dòng),尤其是統(tǒng)一對(duì)象模型和流程上,實(shí)現(xiàn)業(yè)務(wù)關(guān)聯(lián)設(shè)計(jì)。
3)實(shí)現(xiàn)業(yè)務(wù)的應(yīng)用架構(gòu)是否一體化
具體是指實(shí)現(xiàn)某個(gè)運(yùn)維業(yè)務(wù)的閉環(huán),最后落到工具系統(tǒng)時(shí),工具系統(tǒng)本身沒有好的內(nèi)聚與耦合設(shè)計(jì),沒有實(shí)現(xiàn)與周邊關(guān)聯(lián)系統(tǒng)集成,最后并不能完成整個(gè)業(yè)務(wù)的閉環(huán)支撐;
例如:我們規(guī)劃發(fā)布投產(chǎn)的業(yè)務(wù),定義好業(yè)務(wù)要素后,進(jìn)行應(yīng)用架構(gòu)設(shè)計(jì),但是不可能把投產(chǎn)流程獨(dú)立于ITSM之外再做一遍;且發(fā)布對(duì)象如果面臨傳統(tǒng)和容器化架構(gòu),對(duì)象是否能通過CMDB統(tǒng)一,包含了CMDB如何納管容器化架構(gòu)應(yīng)用等;然后投產(chǎn)發(fā)布活動(dòng)中有一個(gè)活動(dòng)節(jié)點(diǎn):投產(chǎn)實(shí)施,此時(shí)需要關(guān)聯(lián)關(guān)閉告警,避免誤報(bào)太多;這個(gè)時(shí)候就會(huì)發(fā)現(xiàn),不是一個(gè)業(yè)務(wù)域一個(gè)工具,而是一個(gè)業(yè)務(wù)域是跨工具實(shí)現(xiàn)的場(chǎng)景,且多個(gè)業(yè)務(wù)域才能滿足更高階的閉環(huán)管理。例如業(yè)務(wù)連續(xù)性關(guān)聯(lián),關(guān)聯(lián)的監(jiān)控管理、災(zāi)備應(yīng)急、運(yùn)行操作管理等多個(gè)業(yè)務(wù)域,而到工具系統(tǒng)時(shí),災(zāi)備應(yīng)急則需要關(guān)聯(lián)監(jiān)控告警、CMDB等工具才能閉環(huán)。
所以從工具一體化視角來看,要定義核心所屬業(yè)務(wù)域,以及外部調(diào)用與被調(diào)用的關(guān)系設(shè)計(jì),以發(fā)布投產(chǎn)一體化工具為例,應(yīng)用架構(gòu)如下,除核心業(yè)務(wù)活動(dòng)過程與功能外,外部與DevOps,以及與ITOM、ITSM的關(guān)聯(lián)設(shè)計(jì)都需要考慮:
因而,運(yùn)維一體化較為嚴(yán)肅的定義是:基于運(yùn)維業(yè)務(wù)視角的角色、流程、活動(dòng)(對(duì)象)、工具系統(tǒng)的整合,業(yè)務(wù)運(yùn)轉(zhuǎn)順暢、流程運(yùn)行高速、工具支撐高效是對(duì)運(yùn)維一體化的核心驗(yàn)證。運(yùn)維一體化不只是工具全和單一工具技術(shù)功能完整,而是要融入業(yè)務(wù)設(shè)計(jì)和整個(gè)體系中。
接下來管中窺豹探索一體化運(yùn)維體系落地。
02. 運(yùn)維業(yè)務(wù)拆解模型
談如何建設(shè)一體化,必須先對(duì)運(yùn)維業(yè)務(wù)拆解,回歸到對(duì)業(yè)務(wù)架構(gòu)的定義,有如下三段的拆解模型,其中又有運(yùn)維這個(gè)業(yè)務(wù)形態(tài)所面臨的場(chǎng)景復(fù)雜和對(duì)象復(fù)雜的特殊要素。
1)業(yè)務(wù)架構(gòu)定義
定義四要素:角色、活動(dòng)流程、工具系統(tǒng)、活動(dòng)對(duì)象;下面以大家熟知的配置管理業(yè)務(wù)主題為例,做拆解分析。
角色:配置經(jīng)理進(jìn)行配置規(guī)劃和配置運(yùn)營,制定配置管理體系和配置運(yùn)營體系;配置管理員定義模型、權(quán)限和數(shù)據(jù)準(zhǔn)入及審核;配置owner則映射各個(gè)專業(yè)管理員,管理本專業(yè)的對(duì)象數(shù)據(jù)實(shí)例、屬性及關(guān)系;
活動(dòng)流程:核心是5個(gè)活動(dòng)流程,配置規(guī)劃、模型與數(shù)據(jù)創(chuàng)建、配置維護(hù)、配置消費(fèi)和持續(xù)運(yùn)營,而活動(dòng)則可以更細(xì)一步拆解的任務(wù)和步驟,如配置維護(hù)的任務(wù)包括:對(duì)象新增、對(duì)象查詢、對(duì)象修改、對(duì)象刪除,而對(duì)象修改任務(wù)則進(jìn)一步拆解成步驟,如選擇對(duì)象實(shí)例、修改關(guān)系、修改屬性等;
工具系統(tǒng):工具系統(tǒng)則承接活動(dòng)、任務(wù)、步驟的信息化實(shí)現(xiàn),基本都需要有模型管理、數(shù)據(jù)實(shí)例管理、配置審核、自動(dòng)采集、配置拓?fù)洹⑴渲脠?bào)表等功能;
活動(dòng)對(duì)象:對(duì)于配置管理的對(duì)象,則主要是IT系統(tǒng)的實(shí)體及邏輯對(duì)象,可以大致劃分為應(yīng)用、資源、基礎(chǔ)設(shè)施;這里關(guān)于邏輯對(duì)象特別強(qiáng)調(diào)下,例如微服務(wù)容器化架構(gòu),k8s是資源層的模型設(shè)計(jì),業(yè)務(wù)則是一個(gè)邏輯概念,可以把多個(gè)k8s集群定義為一個(gè)業(yè)務(wù),也可以把一個(gè)業(yè)務(wù)系統(tǒng)組合定義成一個(gè)業(yè)務(wù),最后兩個(gè)維度做邏輯關(guān)聯(lián)。
2)功能架構(gòu)設(shè)計(jì)
是對(duì)應(yīng)用結(jié)構(gòu)和交互的描述,這些應(yīng)用是提供關(guān)鍵業(yè)務(wù)功能和管理數(shù)據(jù)資產(chǎn)的功能組,尤其是應(yīng)用組件及其交互,與業(yè)務(wù)流程的關(guān)系。仍然以配置管理為例,為了支撐持續(xù)運(yùn)營這個(gè)活動(dòng),功能上需要有報(bào)表、運(yùn)營分析(如配置質(zhì)量評(píng)分等)的功能,而這個(gè)要與配置數(shù)據(jù)實(shí)例管理關(guān)聯(lián);
繼續(xù)以配置管理為主題拆解:
核心應(yīng)用組件:一級(jí)功能需要包含能支撐主要業(yè)務(wù)活動(dòng)的模型管理、數(shù)據(jù)實(shí)例管理、配置發(fā)現(xiàn)、配置報(bào)表及拓?fù)洹?shù)據(jù)運(yùn)營,以及權(quán)限控制、日志等通用功能;
組件交互:這里就較為關(guān)鍵了,以配置發(fā)現(xiàn)為例,配置發(fā)現(xiàn)支撐了模型與數(shù)據(jù)創(chuàng)建這個(gè)關(guān)鍵業(yè)務(wù)活動(dòng),這個(gè)與模型關(guān)聯(lián)的關(guān)系支撐了從模型到數(shù)據(jù)的活動(dòng)過程,與數(shù)據(jù)實(shí)例管理的管理是支撐了數(shù)據(jù)實(shí)例自動(dòng)采集的活動(dòng);
與周邊系統(tǒng)集成:配置管理可以分為兩類集成,均是支撐配置消費(fèi)場(chǎng)景,一個(gè)是內(nèi)部消費(fèi),包括臺(tái)賬、多維度報(bào)表、拓?fù)湟晥D等,一個(gè)是外部消費(fèi),尤其是作為構(gòu)建其他運(yùn)維系統(tǒng)的元數(shù)據(jù)對(duì)象模型。
3)與其他業(yè)務(wù)域關(guān)聯(lián)
業(yè)務(wù)域的關(guān)聯(lián)設(shè)計(jì)是由各個(gè)業(yè)務(wù)主體的建設(shè)去設(shè)計(jì),然后與其他業(yè)務(wù)域達(dá)成一致,原因就是一個(gè)業(yè)務(wù)域設(shè)計(jì)無法完全貫穿一個(gè)完整的運(yùn)維場(chǎng)景,尤其是高階的運(yùn)維場(chǎng)景。類似這種場(chǎng)景就特別多了,例如我們要做監(jiān)控管理,其中有一個(gè)關(guān)鍵業(yè)務(wù)活動(dòng)節(jié)點(diǎn)是告警處置,就會(huì)根據(jù)告警級(jí)別關(guān)聯(lián)不同的業(yè)務(wù)域,如事件管理、運(yùn)行處置(故障自動(dòng)解決)等。
而這種全量場(chǎng)景,可以基本劃分為日常維護(hù)類、變更發(fā)布類、故障應(yīng)急類、服務(wù)響應(yīng)類、優(yōu)化提升類等,每個(gè)企業(yè)不盡相同,且關(guān)注重點(diǎn)不一,可以基于崗位、技術(shù)對(duì)象、活動(dòng)來梳理,進(jìn)而由場(chǎng)景做業(yè)務(wù)域的關(guān)系設(shè)計(jì),當(dāng)然,運(yùn)維的業(yè)務(wù)域,在業(yè)界還是有一定共識(shí)的,一般可以先從請(qǐng)求管理、配置管理、變更管理、事件管理、發(fā)布投產(chǎn)管理、問題管理、應(yīng)急災(zāi)備管理、監(jiān)控管理、操作管理、資源管理這幾個(gè)著手,后續(xù)進(jìn)而考慮高階和擴(kuò)展的業(yè)務(wù)域。
總結(jié)下,運(yùn)維業(yè)務(wù)拆解模型利于我們定義幾個(gè)東西:
① 確定業(yè)務(wù)領(lǐng)域邊界
運(yùn)維體系最容易出現(xiàn)的情況是建設(shè)混亂,工具繁多但是一體化的價(jià)值并沒有達(dá)到,例如:之前遇到一個(gè)需求,基于應(yīng)用和資源拓?fù)湟暯堑谋O(jiān)控與處置一體化,這個(gè)需求歸屬到配置管理,還是監(jiān)控管理、運(yùn)行處置,就有很大的爭(zhēng)議,從技術(shù)視角來看,應(yīng)用和資源拓?fù)涫荂MDB管理維護(hù)的,對(duì)象監(jiān)控是監(jiān)控告警工具提供的,處置則是自動(dòng)化提供的,較為容易出現(xiàn)建設(shè)混亂,但是從業(yè)務(wù)視角來看,應(yīng)該歸屬于監(jiān)控管理領(lǐng)域的“全景視圖”,然后與自動(dòng)化處置做業(yè)務(wù)域打通,屬于監(jiān)控管理領(lǐng)域的故障視圖活動(dòng)節(jié)點(diǎn);
② 確定業(yè)務(wù)域打通的邏輯
業(yè)務(wù)域打通的邏輯是源自業(yè)務(wù)之間的關(guān)系設(shè)計(jì),例如做好事件管理,需要考慮監(jiān)控告警域、運(yùn)行處置域、變更管理域、配置管理域等幾個(gè)域的關(guān)系設(shè)計(jì),事件來源有巡檢、告警等,事件可能需要上升到變更管理才能解決,事件的技術(shù)手段解決則需要關(guān)聯(lián)到運(yùn)行處置域,打通方式則有包括流程的API對(duì)接、數(shù)據(jù)消息傳遞等;
③ 功能是為業(yè)務(wù)服務(wù)的
沒有對(duì)業(yè)務(wù)架構(gòu)的定義,尤其是業(yè)務(wù)架構(gòu)的關(guān)鍵角色、活動(dòng)節(jié)點(diǎn)、活動(dòng)對(duì)象、流程的定義,就無法細(xì)化到角色與崗位之間的映射,且無法轉(zhuǎn)換成支撐崗位活動(dòng)的功能設(shè)計(jì),進(jìn)而變成了人要習(xí)慣工具,而不是人與工具遵循規(guī)范化活動(dòng)運(yùn)轉(zhuǎn)。
03. 業(yè)務(wù)、應(yīng)用、數(shù)據(jù)、技術(shù)多維建設(shè)來推進(jìn)一體化
當(dāng)定義清晰了眾多業(yè)務(wù)域后,建設(shè)一體化運(yùn)維,則可以從如下視角展開:
1)業(yè)務(wù)層面基于流程端到端的貫穿
核心是運(yùn)行、管理、處置一體化,有如下展開場(chǎng)景:
① 運(yùn)行管理一體化
生產(chǎn)運(yùn)行基于監(jiān)控管理和監(jiān)控運(yùn)行完成,包括關(guān)鍵的數(shù)據(jù)采集、數(shù)據(jù)檢測(cè)、數(shù)據(jù)告警、數(shù)據(jù)分析、數(shù)據(jù)視圖等關(guān)鍵活動(dòng),運(yùn)行與處置的一體是指在數(shù)據(jù)告警活動(dòng)節(jié)點(diǎn),數(shù)據(jù)告警根據(jù)業(yè)務(wù)級(jí)別、應(yīng)用、影響面、故障類別、故障信息構(gòu)成,由此生成事件在事件管理業(yè)務(wù)域去跟蹤管理,如果由事件上升到應(yīng)急,則調(diào)用應(yīng)急處置預(yù)案去完成。
較為典型的就是告警轉(zhuǎn)事件的聯(lián)動(dòng)場(chǎng)景:
② 運(yùn)行處置一體化
運(yùn)行處置一體是指數(shù)據(jù)告警、數(shù)據(jù)分析的活動(dòng)節(jié)點(diǎn),對(duì)于標(biāo)準(zhǔn)化告警,直接調(diào)用運(yùn)行操作完成基于規(guī)則的標(biāo)準(zhǔn)化自愈;對(duì)于上升到事件應(yīng)急的,則調(diào)用運(yùn)行操作的應(yīng)急預(yù)案自動(dòng)化,完成生產(chǎn)回復(fù);同時(shí)對(duì)于數(shù)據(jù)分析場(chǎng)景,則基于運(yùn)行操作進(jìn)行故障決策樹分析、告警快照、多維信息視圖獲取等操作,來進(jìn)行故障輔助分析,當(dāng)然,也有基于AI的故障初因定位、根因定位,從業(yè)務(wù)活動(dòng)來講業(yè)務(wù)是沒變的,實(shí)現(xiàn)業(yè)務(wù)的技術(shù)手段在不斷蓬勃發(fā)展;
③ 管理處置一體化
管理與處置的一體是當(dāng)前IT服務(wù)發(fā)展的一個(gè)關(guān)鍵趨勢(shì)和特性:敏捷;應(yīng)用在如服務(wù)自助自動(dòng)化、標(biāo)準(zhǔn)變更自動(dòng)化、配置管理自動(dòng)化、工單自動(dòng)處理等場(chǎng)景,較為典型的如發(fā)布投產(chǎn)管理,基于發(fā)布投產(chǎn)的管理活動(dòng),執(zhí)行時(shí)輸入標(biāo)準(zhǔn)化的技術(shù)參數(shù):程序包、sql、腳本、配置文件、對(duì)象參數(shù)等,再調(diào)用發(fā)布自動(dòng)化工具,完成管理流與執(zhí)行流的編排與一體化,管理流程編排中可嵌入技術(shù)編排,從而實(shí)現(xiàn)這個(gè)打通:
2)應(yīng)用架構(gòu)基于統(tǒng)一對(duì)象模型
眾多業(yè)務(wù)域構(gòu)建應(yīng)用架構(gòu)時(shí),都需要考慮運(yùn)維的一個(gè)核心定義:對(duì)象;如做可觀測(cè),我們所有觀測(cè)的對(duì)象都需要有對(duì)象元數(shù)據(jù)的定義,包括了實(shí)體對(duì)象和邏輯對(duì)象;如做發(fā)布,發(fā)布策略編排則是基于對(duì)象在應(yīng)用架構(gòu)中的關(guān)系來設(shè)計(jì)的,也需要一個(gè)對(duì)象元數(shù)據(jù)。而這里就有一個(gè)首要的一體化:統(tǒng)一配置管理體系建設(shè);除了滿足配置管理的內(nèi)部管理功能外,非常核心的一點(diǎn)是能支撐一體化運(yùn)維的應(yīng)用系統(tǒng)的對(duì)象模型統(tǒng)一設(shè)計(jì)。
以可觀測(cè)建設(shè)為例,統(tǒng)一的對(duì)象模型是起點(diǎn),沒有統(tǒng)一對(duì)象模型的定義,無法去構(gòu)建指標(biāo)體系、數(shù)據(jù)關(guān)聯(lián)及融合場(chǎng)景。以可觀測(cè)的指標(biāo)體系為例,基于統(tǒng)一對(duì)象模型的設(shè)計(jì)如下,核心是進(jìn)行對(duì)象和數(shù)據(jù)實(shí)例在外部系統(tǒng)與CMDB之間的映射:
3)數(shù)據(jù)層面則基于數(shù)據(jù)治理框架支撐場(chǎng)景
運(yùn)維數(shù)據(jù)可以劃分成5個(gè)域:
配置域:IT資產(chǎn)管理系統(tǒng)、配置管理中各類電子信息設(shè)備的基本信息、技術(shù)參數(shù)及關(guān)聯(lián)關(guān)系等信息,包括PC機(jī)、服務(wù)器、存儲(chǔ)設(shè)備、網(wǎng)絡(luò)設(shè)備、安全設(shè)備、輔助設(shè)備、機(jī)房環(huán)境設(shè)備、套裝軟件及應(yīng)用系統(tǒng)軟件等;
狀態(tài)域:IT監(jiān)控、自動(dòng)化運(yùn)維、安全監(jiān)測(cè)等采集的設(shè)備軟硬件性能、狀態(tài)、事件、日志、告警及實(shí)用化數(shù)據(jù)等;
流程域:運(yùn)維流程管理中執(zhí)行一個(gè)業(yè)務(wù)流程所產(chǎn)生的相關(guān)記錄數(shù)據(jù);
作業(yè)域:自動(dòng)化作業(yè)、故障自愈、編排處置步驟等作業(yè)執(zhí)行流程數(shù)據(jù)和操作審計(jì)數(shù)據(jù);
知識(shí)域:故障事件處理經(jīng)驗(yàn),其他相關(guān)知識(shí)庫,以知識(shí)主題、關(guān)鍵字索引、內(nèi)容等形式存在。
數(shù)據(jù)治理框架核心要定義幾個(gè)問題:
關(guān)鍵邏輯為:
這里面有幾個(gè)實(shí)踐建議:
① 消費(fèi)場(chǎng)景聚焦在提升性能容量、觀測(cè)整合、運(yùn)營分析的高階運(yùn)維能力;尤其是在觀測(cè)整合上,當(dāng)前可觀測(cè)主要圍繞故障分析和定位展開,基于數(shù)據(jù)管理框架,則可以完成數(shù)據(jù)標(biāo)簽統(tǒng)一、數(shù)據(jù)聚合計(jì)算、數(shù)據(jù)關(guān)聯(lián)信息平面、AI模型應(yīng)用等,例如其中一個(gè)觀測(cè)場(chǎng)景可以基于告警視角,展開trace、log、metric、場(chǎng)景視圖、知識(shí)庫關(guān)聯(lián)、變更事件關(guān)聯(lián)分析等,來形成初步的觀測(cè)整合分析場(chǎng)景:
② 技術(shù)價(jià)值上主要體現(xiàn)在復(fù)雜和大規(guī)模的數(shù)據(jù)清洗、開發(fā)和存儲(chǔ)需求;跨數(shù)據(jù)源的數(shù)據(jù)關(guān)聯(lián)計(jì)算;聯(lián)動(dòng)MLOps實(shí)現(xiàn)數(shù)據(jù)樣本和數(shù)據(jù)源的關(guān)聯(lián),實(shí)現(xiàn)AIOps模型開發(fā)和應(yīng)用;
③ 數(shù)據(jù)管理采用專業(yè)分散,消費(fèi)驅(qū)動(dòng)的模式管理,專業(yè)分散是指如CMDB、metric、trace、log等都在專業(yè)管理工具里,消費(fèi)驅(qū)動(dòng)則是基于場(chǎng)景調(diào)用時(shí),再去做數(shù)據(jù)接入、標(biāo)簽、關(guān)聯(lián)計(jì)算等,支撐數(shù)據(jù)之上的場(chǎng)景應(yīng)用;
4)技術(shù)架構(gòu)基于統(tǒng)一管控管道和平臺(tái)架構(gòu)
統(tǒng)一管控管道指的是適配各類運(yùn)維應(yīng)用的運(yùn)維對(duì)象管道,核心包括三個(gè)設(shè)計(jì):
平臺(tái)架構(gòu)核心是做能力和場(chǎng)景的解耦,保持持續(xù)的擴(kuò)展性能力。(下一期將對(duì)平臺(tái)化進(jìn)行詳細(xì)介紹,敬請(qǐng)期待~)
04. 一體化運(yùn)維在投產(chǎn)發(fā)布下的設(shè)計(jì)示例
最后更具象化一點(diǎn)設(shè)計(jì)一體化運(yùn)維在具體業(yè)務(wù)域的設(shè)計(jì)示例:
1)設(shè)定情景
業(yè)務(wù)系統(tǒng)100+,主機(jī)節(jié)點(diǎn)5W+,K8S集群主機(jī)節(jié)點(diǎn)5000+,實(shí)現(xiàn)高質(zhì)量、高安全、高效率的統(tǒng)一發(fā)布;
2)業(yè)務(wù)設(shè)計(jì)
組織角色:以應(yīng)用為維度,負(fù)責(zé)部門為應(yīng)用運(yùn)維管理員,協(xié)同研發(fā)、基礎(chǔ)設(shè)施維護(hù)人員;發(fā)布經(jīng)理負(fù)責(zé)發(fā)布的統(tǒng)籌、組織和方案把控,發(fā)布工程師負(fù)責(zé)發(fā)布的任務(wù)編排、發(fā)布執(zhí)行、驗(yàn)證、回滾;發(fā)布領(lǐng)導(dǎo)負(fù)責(zé)外部溝通、業(yè)務(wù)影響評(píng)估和風(fēng)險(xiǎn)回退控制;技術(shù)專家包括研發(fā)對(duì)包的質(zhì)量管理、基礎(chǔ)架構(gòu)專家負(fù)責(zé)準(zhǔn)備對(duì)應(yīng)的資源及環(huán)境;
工作流程:通過投產(chǎn)計(jì)劃、程序驗(yàn)證、投產(chǎn)評(píng)審、投產(chǎn)執(zhí)行、應(yīng)用驗(yàn)證這幾個(gè)核心流程組成,每個(gè)流程可以進(jìn)一步展開到里面具體的角色活動(dòng);
關(guān)鍵活動(dòng):
規(guī)范指引:《生產(chǎn)發(fā)布運(yùn)行管理辦法》:應(yīng)用架構(gòu)與運(yùn)行環(huán)境、發(fā)布過程、常規(guī)故障處置、緊急回滾;
3)工具設(shè)計(jì)
接入層:與不同環(huán)境及不同資源對(duì)象進(jìn)行對(duì)接,主要是主機(jī)和容器化環(huán)境;
邏輯層:最核心是任務(wù)編排、制品管理、應(yīng)用管理;從而滿足一站式發(fā)布,支持灰度、藍(lán)綠建設(shè);
界面層:面向不同角色的生命周期活動(dòng)階段,如發(fā)布經(jīng)理最為關(guān)注影響分析、發(fā)布編排、發(fā)布驗(yàn)證、發(fā)布回滾;管理層最為關(guān)注發(fā)布計(jì)劃、影響分析、回退機(jī)制及運(yùn)營數(shù)據(jù);
外部集成:與DevOps聯(lián)動(dòng)、觸發(fā)告警時(shí)間屏蔽、與ITSM變更流程聯(lián)動(dòng);
落地設(shè)計(jì)示例:
工具產(chǎn)品界面:
所以至此,簡(jiǎn)單總結(jié)下幾個(gè)結(jié)論:
嘉為藍(lán)鯨作為業(yè)內(nèi)領(lǐng)先的平臺(tái)化、一體化、數(shù)智化運(yùn)維解決方案提供商,我們堅(jiān)定地致力于把成熟的業(yè)務(wù)實(shí)踐、領(lǐng)先的技術(shù)架構(gòu),賦能給我們的客戶。
最后,歡迎隨時(shí)與嘉為藍(lán)鯨共同探討!
總結(jié):以上為筆者對(duì)一體化運(yùn)維的剖析,歡迎探討交流,謝謝!
嘉為藍(lán)鯨CPack制品管理平臺(tái):聯(lián)邦倉庫——助力跨團(tuán)隊(duì)、跨地域、跨組織的制品資產(chǎn)協(xié)作
查看詳細(xì)
嘉為藍(lán)鯨CMeas研發(fā)效能洞察平臺(tái):一鍵保存你的專屬查詢儀表板
查看詳細(xì)
嘉為藍(lán)鯨WeOps數(shù)據(jù)庫監(jiān)控新范式:以專業(yè)監(jiān)控視圖,賦能高效運(yùn)維管理
查看詳細(xì)
Jira國產(chǎn)化替代:從合規(guī)到價(jià)值,嘉為藍(lán)鯨DevOps敏捷協(xié)同平臺(tái)的破局之道
查看詳細(xì)
嘉為藍(lán)鯨CCI持續(xù)集成平臺(tái):掌控CI/CD全流程,流水線Stage準(zhǔn)入讓部署更可靠
查看詳細(xì)
嘉為藍(lán)鯨CMeas研發(fā)效能洞察平臺(tái):研發(fā)效能周報(bào),自動(dòng)推送領(lǐng)導(dǎo)郵箱
查看詳細(xì)
申請(qǐng)演示