SEO工具链推动知识图谱发展的内容差异化策略

什么是知识图谱?

知识图谱，本质上，是一种揭示实体之间关系的语义网络。2012年5月17日，Google正式提出了知识图谱（Knowledge Graph）的概念，其初衷是为了优化搜索引擎返回的结果，增强用户搜索质量及体验。例如，当我们想知道“王健林的儿子”是谁时，搜索引擎能准确返回王思聪的信息，这说明搜索引擎理解了用户的意图，知道我们要找的是“王思聪”，而不仅仅是返回关键词为“王健林的儿子”的网页。一、知识图谱的起源与发展知识图谱并不是一个全新的概念，早在2006年就有文献提出了语义网（Semantic Network）的概念，呼吁推广、完善使用本体模型来形式化表达数据中的隐含语义。RDF（resource description framework，资源描述框架）模式和OWL（Web ontology language，万维网本体语言）就是基于上述目的产生的。知识图谱技术的出现正是基于以上相关研究，是对语义网标准与技术的一次扬弃与升华。二、知识图谱的定义与构成知识图谱由一条条知识组成，每条知识表示为一个SPO三元组（Subject-Predicate-Object），即（实体1，关系，实体2）或（实体，属性，属性值）。例如，“王思聪是王健林的儿子”就可以表示为一个三元组（王思聪，儿子，王健林）。知识图谱在逻辑结构上可分为模式层与数据层两个层次：数据层：主要是由一系列的事实组成，而知识将以事实为单位进行存储。如果用（实体1，关系，实体2）、（实体、属性，属性值）这样的三元组来表达事实，可选择图数据库作为存储介质，例如开源的Neo4j等。模式层：构建在数据层之上，主要是通过本体库来规范数据层的一系列事实表达。本体是结构化知识库的概念模板，通过本体库而形成的知识库不仅层次结构较强，并且冗余程度较小。三、知识图谱的构建方式曾经知识图谱非常流行自顶向下（top-down）的构建方式，即先为知识图谱定义好本体与数据模式，再将实体加入到知识库。该构建方式需要利用一些现有的结构化知识库作为其基础知识库，例如Freebase项目。然而目前，大多数知识图谱都采用自底向上（bottom-up）的构建方式，即从一些开放链接数据（也就是“信息”）中提取出实体，选择其中置信度较高的加入到知识库，再构建实体与实体之间的联系。四、知识图谱的关键技术知识图谱的构建与应用需要多种智能信息处理技术的支持，包括知识抽取、知识融合、知识推理以及知识表示等。知识抽取：主要是面向开放的链接数据，通过自动化的技术抽取出可用的知识单元，知识单元主要包括实体（概念的外延）、关系以及属性3个知识要素，并以此为基础，形成一系列高质量的事实表达，为上层模式层的构建奠定基础。知识抽取有三个主要工作：实体抽取、关系抽取和属性抽取。知识表示：近年来，以深度学习为代表的表示学习技术取得了重要的进展，可以将实体的语义信息表示为稠密低维实值向量，进而在低维空间中高效计算实体、关系及其之间的复杂语义关联，对知识库的构建、推理、融合以及应用均具有重要的意义。知识融合：由于知识图谱中的知识来源广泛，存在知识质量良莠不齐、来自不同数据源的知识重复、知识间的关联不够明确等问题，所以必须要进行知识的融合。知识融合是高层次的知识组织，使来自不同知识源的知识在同一框架规范下进行异构数据整合、消歧、加工、推理验证、更新等步骤，达到数据、信息、方法、经验以及人的思想的融合，形成高质量的知识库。知识推理：则是在已有的知识库基础上进一步挖掘隐含的知识，从而丰富、扩展知识库。五、知识图谱的应用知识图谱为互联网上海量、异构、动态的大数据表达、组织、管理以及利用提供了一种更为有效的方式，使得网络的智能化水平更高，更加接近于人类的认知思维。知识图谱已广泛应用于智能搜索、智能问答、个性化推荐、社交网络以及垂直行业应用等领域。智能搜索：用户的查询输入后，搜索引擎不仅仅去寻找关键词，而是首先进行语义的理解。比如，对查询分词之后，对查询的描述进行归一化，从而能够与知识库进行匹配。查询的返回结果，是搜索引擎在知识库中检索相应的实体之后，给出的完整知识体系。深度问答：问答系统是信息检索系统的一种高级形式，能够以准确简洁的自然语言为用户提供问题的解答。知识图谱使得机器与人的交互看起来更智能。社交网络：知识图谱可以将人、地点、事情等联系在一起，并以直观的方式支持精确的自然语言查询，帮助用户在庞大的社交网络中找到与自己最具相关性的人、照片、地点和兴趣等。垂直行业应用：在金融、医疗、电商等很多垂直领域，知识图谱正在带来更好的领域知识、更低金融风险、更完美的购物体验。综上所述，知识图谱作为一种揭示实体之间关系的语义网络，在人工智能领域具有广泛的应用前景和重要的研究价值。

nginx