在大語言模型技術快速發展的當下,檢索增強生成(RAG)技術憑借強大的潛力,在眾多應用場景中得到廣泛運用。嘉為藍鯨 OpsPilot 作為智能運維支撐平臺,深度融合 LLM 大模型能力,基于 RAG 技術構建高效知識庫體系。
在 RAG 技術棧中,提取與分塊如同 “知識手術刀”,將原始文檔精準切割為適合大模型處理的 “知識細胞”,既避免長文本的 “信息肥胖癥”,又防止短文本的 “營養碎片化”,它們直接影響著后續文本向量化的質量,以及檢索效率與大模型輸出的準確性。

01.知識處理
將用戶上傳的各類知識(如各類型文檔、自定義文本、網絡鏈接)進行提取-分塊-增強,以便后續知識向量化和混合檢索。針對不同類型的知識,OpsPilot提供“5+4”類提取、分塊策略,提供給用戶多元搭配選擇,如:用戶上傳一個長文本技術文檔,可先通過章節提取抓取目錄結構內容,再結合語義分塊,基于算法按主題拆分,為后續檢索筑牢基礎。

1)文檔提取
能將各類格式文檔轉化為可供系統處理的文本,從大量原始數據中提取出可被系統處理的文本信息,確保信息的完整性與準確性。它的進行關乎到最終能拿到什么數據信息,比如:無法編輯的PDF文件,質量不好的提取,可能拿到的就是亂碼。OpsPilot 通過五種方式實現高效提取:
(1)五大文檔提取方式

2)文檔分塊
將長文本拆分為較小的、語義聚焦的短單元,解決長文本向量化中的語義稀釋、計算資源消耗和檢索效率低問題。分塊為文本建立“檢索索引”,提升檢索定位精準度與速度;同時,輕量化文本既能避免大模型輸入超限,又能增強生成邏輯連貫性。OpsPilot 通過四種分塊方式達成以上效果:

02.功能介紹
1)上傳:多類知識匯聚上傳
知識庫支持三種知識上傳方式,包括:本地文件上傳——私域知識沉淀、網頁知識——動態知識補充、自定義文本——碎片知識整合,覆蓋用戶全方面知識上傳需求。

2)提取:多元格式適配,精準識別內容
為精準識別不同格式文檔內容,OpsPilot 以多元提取方式適配需求。包含全文提取(處理 PDF 等,掃描件啟用 OCR)、章節提取(按 Word 目錄結構解析長文本)、頁面提取(拆分 PPT 單頁),以及表格的工作表整體提取、行級數據提取,實現文檔結構與內容的深度解析。


3)分塊:破解長文本難題,優化檢索效果
提取出可編輯的文本數據后,分塊對其進一步處理,通過精細切割讓知識 “化整為零”,為高效檢索與智能生成鋪就基石。分塊功能依據文本特性與應用場景,提供多元策略:定長分塊、循環分塊、語義分塊、不分塊。分塊通過優化知識顆粒度,讓機器理解與檢索的效率,真正匹配人類的知識邏輯。

03.嘉為藍鯨OpsPilot——更懂運維的AI平臺
嘉為藍鯨OpsPilot是一款集知識庫管理、技能配置、機器人管理和工具管理為一體的智能運維支撐平臺,通過結合LLM大模型強大語義理解、知識增強與多模態處理能力,從而實現運維相關的問答和操作。此外,OpsPilot更加聚焦于運維領域,超出單個LLM大模型的能力范疇,成為更懂運維的智能AI平臺。

【騰訊藍鯨社區活動】嘉為藍鯨吳文豪詳解BlueKing Lite:輕盈與智能的運維之旅
2025-12-01
查看詳細
嘉為藍鯨DevOps消息中心:通知精準觸達,協作全程不脫節!
2025-12-01
查看詳細
嘉為藍鯨WeOps上新 | WeOps V5.28&V4.28:服務臺門戶主題上新,提單更快、體驗更簡!
2025-11-21
查看詳細
嘉為藍鯨DevOps多租戶管理:隔離安全可控,定制隨需而變,多團隊協作互不干擾!
2025-11-21
查看詳細
嘉為藍鯨制品庫倉庫回收站:保障制度安全,提升管理靈活性
2025-11-14
查看詳細
【CMDB系列】CMDB納管容器詳解
2025-11-14
查看詳細
申請演示