隨著云原生技術的普及,Kubernetes(k8s)已成為企業容器編排的核心引擎。然而,其多層次架構與動態特性使得故障定位與資源調度效率低下,傳統人工運維模式難以應對高速迭代需求。
中山大學計算機系陳鵬飛教授科研團隊(陳鵬飛 | 中山大學計算機學院)與嘉為藍鯨OpsPilot智能運維平臺強強聯合,基于中大在分布式系統、智能運維等領域的學術積累,深度集成大模型和K8s工具鏈,以聯合研發的對話式智能體重構集群管理流程 ,推動運維模式從“人工救火”邁向“AI自愈”。
01.傳統運維:深夜救火效率低下,人工排障錯誤頻發
運維工程師小王深夜接到告警:“線上支付服務響應超時,請求成功率跌至80%”。他立刻打開電腦,卻陷入一連串麻煩:
傳統k8s運維的核心痛點清晰可見:
02.K8s智能體解決:故障診斷秒級閉環,集群運維對話達成
1)從自然語言理解到閉環執行的智能體架構革命
面對傳統運維的痛點,OpsPilot基于LLM大模型與MCP協議工具調度能力,重構了集群管理流程,實現從被動響應到主動治理的跨越式升級。k8s智能體實現以下關鍵特性:
2)三種使用形態,讓k8s故障自愈發揮最大價值
k8s智能體主要有三種使用形態:對話式觸發,定時觸發,API觸發。所有形態均收斂至K8s Virtual SRE,由它協調工具執行和決策。執行過程存在關鍵分叉路徑 ——通知路徑(企業微信/釘釘)支持人工介入場景,而操作路徑(API直連Kubernetes)驅動自動化修復,最終形成從觸發入口到反饋出口的閉環:事件經由SRE與工具協同處理,直達集群操作,實現對Kubernetes環境的秒級敏捷響應,貫穿"診斷-決策-執行"全鏈路。
智能體響應流程如下,智能體根據預設規則自動執行以下操作:
通過此功能可快速實現:
(2)示例問題2:診斷處于failed或pending狀態的pods
智能體響應流程如下,智能體根據預設規則自動執行以下操作:
通過此功能可快速實現:
(3)示例問題3:查看整個集群的近期events
智能體響應流程如下,智能體根據預設規則自動執行以下操作:
通過此功能可快速實現:
??點擊了解陳教授
中山大學的云原生故障診斷算法 、零侵入追蹤專利與智能調度模型注入OpsPilot,k8s運維正式邁入“技術自治”時代——學術精研與工程實踐的共振,正讓“AI自愈運維”從實驗室走向產業核心場景。
還在等什么呢?嘉為藍鯨智能運維OpsPilot體驗環境已開放!點擊下方鏈接,即可免費體驗環境:https://bklite.canway.net/ops-console/home
加入社區,共創未來:想深入了解實現細節或參與項目共建?歡迎訪問我們的 GitHub 開源項目,獲取最新代碼與技術文檔:https://github.com/TencentBlueK
與開發者零距離交流:歡迎大家掃碼加入技術交流群,獲取實時更新、案例分享與專家答疑~
04.嘉為藍鯨OpsPilot智能運維支撐平臺:更懂運維的AI平臺
嘉為藍鯨智能運維OpsPilot是集知識庫管理、技能配置、機器人管理及工具管理于一體的智能運維支撐平臺,深度融合LLM大模型的語義理解、知識增強與多模態處理能力,聚焦運維領域,突破單一LLM能力局限,成為更懂運維的智能AI平臺。
9月4日起!嘉為藍鯨2025秋季發布會啟幕,13大產品煥新,開啟IT研運智能新程
查看詳細
再赴香港!嘉為藍鯨亮相網絡安全技術研討會,與伙伴共探行業發展新趨勢
查看詳細
嘉為藍鯨WeOps上新|WeOpsV5.25&V4.25:日志查詢的兩道坎都讓AI填平了
查看詳細
權威認可!嘉為藍鯨參編信通院行業報告,為央國企數智化轉型注入強勁動能!
查看詳細
【嘉為藍鯨×中大】首篇實戰:對話觸發k8s智能體,高效自愈集群故障
查看詳細
智能運維OpsPilot:動態知識圖譜上線,讓企業知識“活”起來
查看詳細
申請演示