GraphRAG是一种基于知识图谱的检索增强生成技术,通过引入知识图谱的结构化信息与社区聚类机制,提升模型回答的准确性、全面性和多样性。知识图谱的引入GraphRAG在传统RAG(检索增强生成)的基础上,引入了知识图谱作为核心数据结构。知识图谱由节点和边构成,每个节点代表一个实体(如人物、概念、公司),边则表示实体间的关系(如“属于某个行业”或“是谁的创始人”)。这种结构化表示使系统能够利用显式关系定位信息,而非仅依赖语义相似度,从而提升信息检索的精准度。图谱RAG pipeline索引构建:社区聚类与语义组织GraphRAG使用Leiden算法对知识图谱中的节点进行聚类,将高度关联的节点划分为同一“社区”。例如,在某公司知识图谱中,算法可识别出“人力资源部”“财务部”“产品部”等社区。这种分层结构使系统能够快速定位与查询相关的节点及其关联信息。例如,查询“C部门在2024年的表现”时,系统可聚焦于“C部门”和“2024年”相关节点,实现高效推理。提问机制:全局搜索与局部搜索GraphRAG提供两种定制化搜索模式,适应不同场景需求:全局搜索:适用于跨文档或跨社区的综合推理问题(如“2024年X公司的整体表现如何?”)。系统通过社区级摘要(community summaries)汇总信息,生成全局回答。流程包括:结合用户问题与对话历史,确保上下文理解;提取社区报告并分批次处理,减少位置偏差;生成中间回复并评分,筛选关键信息点;聚合信息点生成最终回答。全局搜索的流程图局部搜索:适用于围绕具体实体的问题(如“X公司的HR主管是谁?”)。系统从实体出发,扩展至邻居节点和关联概念,快速定位信息。流程包括:使用向量数据库(如Milvus)搜索相似实体;映射实体与文本单元,提取结构化信息;提取实体关系并关联属性(如时间、统计数据);融合社区报告与对话历史,生成最终回答。局部搜索的流程图效果评估:完整性与多样性的提升实验表明,GraphRAG在完整性(回答是否全面覆盖问题各方面)和多样性(回答是否包含多角度观点)上显著优于传统RAG。这一提升得益于知识图谱的结构化组织与社区聚类机制,使系统能够整合分散信息,生成层次分明、内容丰富的回答。例如,在回答公司年度表现时,系统可综合各部门数据,提供更立体的分析。应用场景与优势GraphRAG适用于需要高精度、多维度信息检索的场景,如企业知识管理、复杂问题推理等。其核心优势在于:结构化信息利用:通过知识图谱显式关系,减少语义模糊性;社区级推理:聚类机制支持跨社区信息整合,提升回答深度;定制化搜索:全局与局部搜索模式灵活适配不同问题类型。如需进一步了解实验细节,可参考微软研究博客:GraphRAG: Unlocking LLM Discovery on Narrative Private Data 或 Medium 技术解析:GraphRAG Explained: Enhancing RAG with Knowledge Graphs。



































