隨著云原生技術(shù)的普及,Kubernetes(k8s)已成為企業(yè)容器編排的核心引擎。然而,其多層次架構(gòu)與動(dòng)態(tài)特性使得故障定位與資源調(diào)度效率低下,傳統(tǒng)人工運(yùn)維模式難以應(yīng)對(duì)高速迭代需求。
中山大學(xué)計(jì)算機(jī)系陳鵬飛教授科研團(tuán)隊(duì)(陳鵬飛 | 中山大學(xué)計(jì)算機(jī)學(xué)院)與嘉為藍(lán)鯨OpsPilot智能運(yùn)維平臺(tái)強(qiáng)強(qiáng)聯(lián)合,基于中大在分布式系統(tǒng)、智能運(yùn)維等領(lǐng)域的學(xué)術(shù)積累,深度集成大模型和K8s工具鏈,以聯(lián)合研發(fā)的對(duì)話式智能體重構(gòu)集群管理流程 ,推動(dòng)運(yùn)維模式從“人工救火”邁向“AI自愈”。
01.傳統(tǒng)運(yùn)維:深夜救火效率低下,人工排障錯(cuò)誤頻發(fā)
運(yùn)維工程師小王深夜接到告警:“線上支付服務(wù)響應(yīng)超時(shí),請(qǐng)求成功率跌至80%”。他立刻打開電腦,卻陷入一連串麻煩:

傳統(tǒng)k8s運(yùn)維的核心痛點(diǎn)清晰可見:
02.K8s智能體解決:故障診斷秒級(jí)閉環(huán),集群運(yùn)維對(duì)話達(dá)成
1)從自然語言理解到閉環(huán)執(zhí)行的智能體架構(gòu)革命
面對(duì)傳統(tǒng)運(yùn)維的痛點(diǎn),OpsPilot基于LLM大模型與MCP協(xié)議工具調(diào)度能力,重構(gòu)了集群管理流程,實(shí)現(xiàn)從被動(dòng)響應(yīng)到主動(dòng)治理的跨越式升級(jí)。k8s智能體實(shí)現(xiàn)以下關(guān)鍵特性:

2)三種使用形態(tài),讓k8s故障自愈發(fā)揮最大價(jià)值
k8s智能體主要有三種使用形態(tài):對(duì)話式觸發(fā),定時(shí)觸發(fā),API觸發(fā)。所有形態(tài)均收斂至K8s Virtual SRE,由它協(xié)調(diào)工具執(zhí)行和決策。執(zhí)行過程存在關(guān)鍵分叉路徑 ——通知路徑(企業(yè)微信/釘釘)支持人工介入場景,而操作路徑(API直連Kubernetes)驅(qū)動(dòng)自動(dòng)化修復(fù),最終形成從觸發(fā)入口到反饋出口的閉環(huán):事件經(jīng)由SRE與工具協(xié)同處理,直達(dá)集群操作,實(shí)現(xiàn)對(duì)Kubernetes環(huán)境的秒級(jí)敏捷響應(yīng),貫穿"診斷-決策-執(zhí)行"全鏈路。


智能體響應(yīng)流程如下,智能體根據(jù)預(yù)設(shè)規(guī)則自動(dòng)執(zhí)行以下操作:

通過此功能可快速實(shí)現(xiàn):
(2)示例問題2:診斷處于failed或pending狀態(tài)的pods

智能體響應(yīng)流程如下,智能體根據(jù)預(yù)設(shè)規(guī)則自動(dòng)執(zhí)行以下操作:

通過此功能可快速實(shí)現(xiàn):
(3)示例問題3:查看整個(gè)集群的近期events

智能體響應(yīng)流程如下,智能體根據(jù)預(yù)設(shè)規(guī)則自動(dòng)執(zhí)行以下操作:

通過此功能可快速實(shí)現(xiàn):
?點(diǎn)擊了解陳教授
中山大學(xué)的云原生故障診斷算法 、零侵入追蹤專利與智能調(diào)度模型注入OpsPilot,k8s運(yùn)維正式邁入“技術(shù)自治”時(shí)代——學(xué)術(shù)精研與工程實(shí)踐的共振,正讓“AI自愈運(yùn)維”從實(shí)驗(yàn)室走向產(chǎn)業(yè)核心場景。
還在等什么呢?嘉為藍(lán)鯨智能運(yùn)維OpsPilot體驗(yàn)環(huán)境已開放!點(diǎn)擊下方鏈接,即可免費(fèi)體驗(yàn)環(huán)境:https://bklite.canway.net/ops-console/home
加入社區(qū),共創(chuàng)未來:想深入了解實(shí)現(xiàn)細(xì)節(jié)或參與項(xiàng)目共建?歡迎訪問我們的 GitHub 開源項(xiàng)目,獲取最新代碼與技術(shù)文檔:https://github.com/TencentBlueK
與開發(fā)者零距離交流:歡迎大家掃碼加入技術(shù)交流群,獲取實(shí)時(shí)更新、案例分享與專家答疑~

04.嘉為藍(lán)鯨OpsPilot智能運(yùn)維支撐平臺(tái):更懂運(yùn)維的AI平臺(tái)
嘉為藍(lán)鯨智能運(yùn)維OpsPilot是集知識(shí)庫管理、技能配置、機(jī)器人管理及工具管理于一體的智能運(yùn)維支撐平臺(tái),深度融合LLM大模型的語義理解、知識(shí)增強(qiáng)與多模態(tài)處理能力,聚焦運(yùn)維領(lǐng)域,突破單一LLM能力局限,成為更懂運(yùn)維的智能AI平臺(tái)。

【騰訊藍(lán)鯨社區(qū)活動(dòng)】嘉為藍(lán)鯨吳文豪詳解BlueKing Lite:輕盈與智能的運(yùn)維之旅
2025-12-01
查看詳細(xì)
嘉為藍(lán)鯨DevOps消息中心:通知精準(zhǔn)觸達(dá),協(xié)作全程不脫節(jié)!
2025-12-01
查看詳細(xì)
嘉為藍(lán)鯨WeOps上新 | WeOps V5.28&V4.28:服務(wù)臺(tái)門戶主題上新,提單更快、體驗(yàn)更簡!
2025-11-21
查看詳細(xì)
嘉為藍(lán)鯨DevOps多租戶管理:隔離安全可控,定制隨需而變,多團(tuán)隊(duì)協(xié)作互不干擾!
2025-11-21
查看詳細(xì)
嘉為藍(lán)鯨制品庫倉庫回收站:保障制度安全,提升管理靈活性
2025-11-14
查看詳細(xì)
【CMDB系列】CMDB納管容器詳解
2025-11-14
查看詳細(xì)
申請(qǐng)演示