前言及背景:在构建知识图谱的过程中,大量知识信息来源于文档和网页信息,在从文档提取知识的过程中往往会有偏差,这些偏差来自于看两方面:
(1)文档中会有很多噪声信息,即无用信息,它的产生可能来自于知识抽取算法本身,也可能和语言文字本身的有效性有关;
(2)文档信息量有限,不会把所有知识都涵盖进去,尤其是很多常识性知识。
以上都会导致知识图谱是不完整的,所以 知识图谱补全 在构建知识图谱中日益重要。 通过 已获取的知识 来对实体间进行关系预测,以达到对实体间关系的补全,也可以是实体类型信息的补全。该过程可以利用本知识库内部的知识,也可以引入第三方知识库的知识来帮助完成。 整理了一份200G的AI资料包: ①人工智能课程及项目【含课件源码】 ②超详解人工智能学习路线图 ③人工智能必看优质书籍电子书汇总 ④国内外知名精华资源 ⑤优质人工智能资源网站整理(找前辈、找代码、找论文都有) ⑥人工智能行业报告 ⑦人工智能论文合集 /","uri":"","width":31,"height":27,"darkImgUrl":"","darkImgUri":"","formulaImgStatus":"succeed"}" class="syl-plugin-formula"> 资料在网盘里排列的非常整齐干净!希望对大家的学习有所帮助, 私信备注【05】添加领取
知识图谱补全分为两个层次: 概念层次的知识补全 和 实例层次的知识补全 。 往往提到知识图谱构建过程中只是提及了实体和关系的抽取,然后就可以生成实体和关系组成的RDF了。 但是,仅仅获取三元组是不够的,还要考虑这些,因为三元组中的实体除了具有属性和关系之外,还可以 映射关联到知识概念层次的类型(type),而且一个实体的类型可以有很多 。
例如:实体奥巴马的类型在不同关系中是有变化的。 在出生信息描述中,类型为人;在创作回忆录的描述中其类型还可以是作家;在任职描述中还可以是政治家。 实体类型的概念层次模型 在这里:人、作家、政治家这些概念之间是有层次的,也就是所说的概念的层次模型。 1、概念层次的知识补全——主要是要解决实体的类型信息缺失问题 正如前面的例子所描述,一旦一个实体被判别为人这个类型,那么在以构建好的知识模式中,该实体除了人的类型外仍需要向下层概念搜索,以发现更多的类别描述信息。 (1)基于描述逻辑的规则推理机制。 本体论和模式 :实体都可以归结为一种本体,而这种本体会具有一组模式来保证其独特性,这组模式可以用规则来描述,因此,对于本体而言,其可以由这组规则来描述。 例如,奥巴马是个实体,他的本体可以归为人,而人的模式就是可以使用语言和工具、可以改造其他事务等等,这些模式可以通过规则来描述,于是基于描述逻辑的规则推理方法就出现了。 描述逻辑 是一种常见的知识表示方式,它建立在概念和关系之上。 比如,可以将关于人的实体实例(可以是文本)收集起来,从中提取出其中模式并以规则的形式记录下来,这样一来,只要遇到一个新的实体实例 ,只需将其代入到之前记录下的规则中进行比较即可做出判断,如果符合规则,就说明该实例可以归类为人的概念类型,否则就判定为非此概念类型。 (2)基于机器学习类型推理机制 经过基于描述逻辑的规则推理的发展阶段后,机器学习相关研究开始占据主流,此时 不是单纯地利用实例产生的规则等内部线索来进行判断,同时也要利用外部的特征和线索来学习类型的预测 。 对一个未知类型实体e1而言,如果能找到一个与其类似的且已知类型的实体e2的话,那么就可以据此推知实体e1的类型应该与e2的类型一致或至少相似。 此类方法主要可以分为:基于内容的类型推理、基于链接的类型推理和基于统计关系学习的类型推理(如,Markov逻辑网)几个方向。 (3)基于表示学习类型推理机制 将嵌入式学习和深度学习引入到类型推理,基于机器学习的类型推理方法大多假设数据中没有噪声,且其特征仍然需要认为选择和设计,引入深度学习可以避免特征工程。而类型推理要依据文本内容,也需要链接结构等其他特征的支持,此时嵌入式方法可以发挥其自身优势。
2、实例层次的知识补全 可以理解为:对于一个实例三元组(SPO,主谓宾),其中可能缺失情况为(?,P,O),(S,?,O)或者(S,P,?),这就如同知识库中不存在这个三元组,此时需要预测缺失的实体或者关系是什么。 事实上, 很多缺失的知识是可以通过已经获得的知识来推知的 ,有时这个过程也被称为 链接预测 。 注意 :有时知识不是缺失的,而是 新出现 的,即出现了新的三元组,且这个三元组不是原知识库所已知的知识,此时需要将其作为新知识补充道知识库中,但此种情形 不是传统意义的补全 。 (1)基于随机游走的概率补全方法 (2)基于表示学习的补全方法 知识图谱嵌入流程: ①结构嵌入表示法 ②张量神经网络法 ③矩阵分解法 ④翻译法
(3)其他补全方法 跨知识库补全方法、基于信息检索技术的知识库补全方法、知识库中的常识知识补全
面临的挑战和主要发展方向: (1)解决长尾实体及关系的稀疏性。 知名的明星的关系实例会很多,而对于普通民众的实例就很少,但是他们数量却众多,导致其相关的关系实例也是十分稀疏,而且在数量不断增加的情况下,这种情况会更加明显。 (2)实体的一对多、多对一和多对多问题。 对于大规模数据,不是一对十几或者几十数量级那么简单,而是成百上千的数量级,传统的解决方案无法有效深圳根本无法解决此种数量级别的关系学习问题。 (3)三元组的动态增加和变化导致KG的动态变化加剧。 新知识源源不断的产生,而之前的知识可能被后面证明是错误的,或者需要修正的。这些都会使得知识补全的过程也需修正改变,如何使得知识图谱补全技术适应KG的动态变化变得越来越重要,而这方面的技术还未引起足够的重视。 (4)KG中关系预测路径长度会不断增长。 关系预测能推理的长度是有限的,但在大规模知识图谱闪光,实体间的关系路径序列会变得越来越长,这就需要更高效的模型来描述更复杂的关系预测模型。