知识图谱和 GraphRAG 讲解一、知识图谱概述知识图谱(Knowledge Graph,简称KG)是一个包含顶点和边的有向图,用于表示实体、概念及其之间的关系。早在1998年,Tim Berners-Lee就提出了语义网的概念,这可以视为知识图谱的雏形。随后,各种类型的图谱逐渐建立起来,如WordNet、知网、维基百科等。定义与构成:知识图谱由顶点和边构成。顶点表示实体或概念,实体是具体的人、物体等,而概念则是抽象的信息,如电影、电视剧、国家等。边则表示两个顶点之间的关系或属性。应用实例:以谷歌的智能搜索为例,当用户搜索“北京大学”时,不仅能搜索到相关的网页,还能展示北京大学的校徽、地址、电话等基础信息。这些信息就是通过知识图谱技术提取并展示的。二、RAG的基本原理检索增强生成技术(Retrieval-Augmented Generation,简称RAG)旨在减少大模型在回答用户问题时存在的幻觉问题,以及数据和知识更新不及时等问题。RAG的流程主要分为三个部分:建立索引:通过对自有知识库的数据进行切分、向量化等操作,将数据转化为固定维度的向量并进行存储。向量检索:将用户的问题向量化后,与向量数据库中的向量计算相似度,获取与用户问题最相关的Top K个知识片段。回答:将用户的问题及获取到的K个知识片段按照编写好的提示词模板进行封装,输入给大模型,让大模型根据已知的知识回答问题,输出最后的结果。三、GraphRAGRAG技术虽然有效,但其可控性较差,一旦向量生成后,相似度的计算就是一个固定值,难以简单地根据阈值去过滤获取到的文档片段。因此,微软提出了结合知识图谱进行RAG的新模式,即GraphRAG。GraphRAG在原来向量检索的基础上,增加了知识图谱召回和多种数据聚合的步骤。其流程大致如下:实体抽取:通过大型语言模型(LLM)抽取用户问题中的实体(人名、地名、机构等)。图检索:通过图的检索算法去检索这些实体相关联的数据。上下文生成:将这些相关联的数据拼接成上下文数据,供大模型进行回答。微软在论文中提到的GraphRAG流程更为复杂,不仅包含了知识图谱构建,还有社区发现、摘要生成等内容。四、未来展望科技的进步往往类似S曲线一样前行,当一种技术达到顶峰时,另一种技术会刺激进步并超越之前的技术。RAG技术本身存在的不足,促使人们尝试使用知识图谱结合RAG技术去提升回答效果,从而诞生了GraphRAG技术。然而,GraphRAG本身耗费的token很多,时间成本很高,在迭代一段时间后,也可能会出现更高级的技术去优化。综上所述,知识图谱、RAG以及GraphRAG都是人工智能领域的重要技术,它们在提升模型回答效果、增强模型可控性等方面发挥着重要作用。随着技术的不断发展,这些技术也将不断完善和优化,为人工智能领域带来更多的创新和突破。



































