语义索引在知识图谱中的算法拟合误差

知识图谱和 GraphRAG 讲解

知识图谱和 GraphRAG 讲解一、知识图谱概述知识图谱（Knowledge Graph，简称KG）是一个包含顶点和边的有向图，用于表示实体、概念及其之间的关系。早在1998年，Tim Berners-Lee就提出了语义网的概念，这可以视为知识图谱的雏形。随后，各种类型的图谱逐渐建立起来，如WordNet、知网、维基百科等。定义与构成：知识图谱由顶点和边构成。顶点表示实体或概念，实体是具体的人、物体等，而概念则是抽象的信息，如电影、电视剧、国家等。边则表示两个顶点之间的关系或属性。应用实例：以谷歌的智能搜索为例，当用户搜索“北京大学”时，不仅能搜索到相关的网页，还能展示北京大学的校徽、地址、电话等基础信息。这些信息就是通过知识图谱技术提取并展示的。二、RAG的基本原理检索增强生成技术（Retrieval-Augmented Generation，简称RAG）旨在减少大模型在回答用户问题时存在的幻觉问题，以及数据和知识更新不及时等问题。RAG的流程主要分为三个部分：建立索引：通过对自有知识库的数据进行切分、向量化等操作，将数据转化为固定维度的向量并进行存储。向量检索：将用户的问题向量化后，与向量数据库中的向量计算相似度，获取与用户问题最相关的Top K个知识片段。回答：将用户的问题及获取到的K个知识片段按照编写好的提示词模板进行封装，输入给大模型，让大模型根据已知的知识回答问题，输出最后的结果。三、GraphRAGRAG技术虽然有效，但其可控性较差，一旦向量生成后，相似度的计算就是一个固定值，难以简单地根据阈值去过滤获取到的文档片段。因此，微软提出了结合知识图谱进行RAG的新模式，即GraphRAG。GraphRAG在原来向量检索的基础上，增加了知识图谱召回和多种数据聚合的步骤。其流程大致如下：实体抽取：通过大型语言模型（LLM）抽取用户问题中的实体（人名、地名、机构等）。图检索：通过图的检索算法去检索这些实体相关联的数据。上下文生成：将这些相关联的数据拼接成上下文数据，供大模型进行回答。微软在论文中提到的GraphRAG流程更为复杂，不仅包含了知识图谱构建，还有社区发现、摘要生成等内容。四、未来展望科技的进步往往类似S曲线一样前行，当一种技术达到顶峰时，另一种技术会刺激进步并超越之前的技术。RAG技术本身存在的不足，促使人们尝试使用知识图谱结合RAG技术去提升回答效果，从而诞生了GraphRAG技术。然而，GraphRAG本身耗费的token很多，时间成本很高，在迭代一段时间后，也可能会出现更高级的技术去优化。综上所述，知识图谱、RAG以及GraphRAG都是人工智能领域的重要技术，它们在提升模型回答效果、增强模型可控性等方面发挥着重要作用。随着技术的不断发展，这些技术也将不断完善和优化，为人工智能领域带来更多的创新和突破。

nginx