知识图谱的构建形式: 自顶向下:先为知识图谱定义好本体与数据模式,再将实体加入到知识库。 自底向上(常用) :从一些开放链接数据中提取出实体,选择其中置信度较高的加入到知识库,再构建顶层的本体模式。 (1)语义信息抽取; (2)多元数据集成与验证(知识融合); (3)知识图谱补全
知识库分类: 开放链接知识库:Freebase、Wikidata、DBpedia、YAGO。包含大量半结构化、非结构化数据。 垂直行业知识库(特定领域):IMDB(影视)、MusicBrainz(音乐)、ConceptNet(概念)等。
基于规则与词典的方法(为目标实体编写模板,然后进行匹配):编写大量规则或模板,覆盖领域有限,难以适应新需求 基于统计机器学习的方法(机器学习,训练模型,识别实体):监督学习算法受训练集限制,准确率和召回率不够理想 ( 召回率:真阳性 / 真阳性 + 假阳性;准确率:真阳性 + 真阴性 / 真阳性 + 假阳性 + 真阴性 + 假阴性 ) 面向开放域的抽取方法(面向海量的Web语料):通过少量实体实例建立特征模型,再通过它应用于新的数据集,给新实体做分类与聚类。(迭代扩展)
早期:人工构造语义规则以及模板的方式; 实体间的关系模型代替了早期的人工构造; 面向开放域的信息抽取框架(OIE):对隐含关系抽取性能低下。 ( 隐含关系抽取:基于马尔科夫逻辑网、基于本体推理的深层隐含关系抽取方法 )
可以将实体属性的抽取问题转换为关系抽取问题
分布式表示 目的在于用 一个综合的向量来表示实体对象的语义信息 ,这种形式在知识图谱的计算、 补全 、推理等方面起到重要的作用: 1、语义相似度计算:实体间的语义关联程度,为自然语言处理(NLP)等提供了极大的便利 2、
消除异构数据中实体冲突、指向不明等不一致性问题。 (1)待对齐数据分区索引; (2)利用相似度函数或相似性算法查找匹配实例; (3)对齐算法(成对实体对齐、全局(局部)集合实体对齐)进行实例融合。
经过实体对齐后得到一系列的基本事实表达,然后事实并不等于知识,它只是知识的基本单位。
本体相当于知识库的模具,使其具有较强的层次结构和较小的冗余程度。
可分为人工构建和数据驱动自动构建。 数据驱动的本体自动构建: ①纵向概念间的并列关系计算:计算两个实体间并列关系的相似度,辨析他们在语义层面是否属于同一个概念。 ②实体上下位关系抽取。 ③本体生成:对各层次得到的概念进行聚类,并为每一类的实体指定1个或多个公共上位词。
通常是与实体对齐任务一起进行:对知识可信度进行量化,保留置信度较高的,舍弃置信度较低的。
主要包括模式层的更新与数据层的更新。
一阶谓词逻辑、描述逻辑以及规则等 (1)一阶谓词逻辑:以命题为基本,命题包含个体(实体)和谓词(属性或关系)。 (2)基于描述逻辑的规则推理:在(1)的基础上发展而来,目的是在知识表示能力与推理复杂度之间追求一种平衡。 (3)通过本体的概念层次推理。
一些算法主要是 利用了关系路径 中的蕴涵信息: 通过图中两个实体间的多步路径来预测它们之间的语义关系,即从源节点开始,在图上根据路径建模算法进行游走,如果能够到达目标节点,则推测源节点和目标节点间存在联系。 ( 关系路径的建模研究仍处于初期阶段,需要进一步探索完成 )
参考文献: [1]徐增林,盛泳潘,贺丽荣,王雅芳.知识图谱技术综述[J].电子科技大学学报,2016,45(04):589-606.