知识图谱,是通过将应用数学、图形学、信息可视化技术、信息科学等学科的理论与方法与计量学引文分析、共现分析等方法结合,并利用可视化的图谱形象地展示学科的核心结构、发展历史、前沿领域以及整体知识架构达到多学科融合目的的现代理论。
“知识图谱的应用涉及到众多行业,尤其是知识密集型行业,目前关注度比较高的领域:医疗、金融、法律、电商、智能家电等。”基于信息、知识和智能形成的闭环,从信息中获取知识,基于知识开发智能应用,智能应用产生新的信息,从新的信息中再获取新的知识,不断迭代,就可以不断产生更加丰富的知识图谱,更加智能的应用。
如果说波士顿动力的翻跟头是在帮机器人锻炼筋骨,那么知识图谱的“绘制”则是在试图“创造”一个能运转的机器人大脑。
“目前,还不能做到让机器理解人的语言。”中国科学院软件所研究员、中国中文信息学会副理事长孙乐说。无论是能逗你一乐的Siri,还是会做诗的小冰,亦或是会“悬丝诊脉”的沃森,它们并不真正明白自己在做什么、为什么这么做。
让机器学会思考,要靠“谱”。这个“谱”被称为知识图谱,意在将人类世界中产生的知识,构建在机器世界中,进而形成能够支撑类脑推理的知识库。
为了在国内构建一个关于知识图谱的全新产学合作模式,知识图谱研讨会日前召开,来自高校院所的研究人员与产业团队共商打造全球化的知识图谱体系,建立世界领先的人工智能基础设施的开拓性工作。
技术原理:把文本转化成知识
“对于‘姚明是上海人’这样一个句子,存储在机器里只是一串字符。而这串字符在人脑中却是‘活’起来的。”孙乐举例说。比如说到“姚明”,人会想到他是前美职篮球员、“小巨人”、中锋等,而“上海”会让人想到东方明珠、繁华都市等含义。但对于机器来说,仅仅说“姚明是上海人”,它不能和人类一样明白其背后的含义。机器理解文本,首先就需要了解背景知识。
那如何将文本转化成知识呢?
“借助信息抽取技术,人们可以从文本中抽取知识,这也正是知识图谱构建的核心技术。”孙乐说,目前比较流行的是使用“三元组”的存储方式。三元组由两个点、一条边构成,点代表实体或者概念,边代表实体与概念之间的各种语义关系。一个点可以延伸出多个边,构成很多关系。例如姚明这个点,可以和上海构成出生地的关系,可以和美职篮构成效力关系,还可以和2.26米构成身高关系。
“如果这些关系足够完善,机器就具备了理解语言的基础。”孙乐说。那么如何让机器拥有这样的“理解力”呢?
“上世纪六十年代,人工智能先驱麻省理工学院的马文·明斯基在一个问答系统项目SIR中,使用了实体间语义关系来表示问句和答案的语义,剑桥语言研究部门的玛格丽特·玛斯特曼在1961年使用Semantic Network来建模世界知识,这些都可被看作是知识图谱的前身。”孙乐说。
随后的Wordnet、中国的知网(Hownet)也进行了人工构建知识库的工作。
“这里包括主观知识,比如社交网站上人们对某个产品的态度是喜欢还是不喜欢;场景知识,比如在某个特定场景中应该怎么做;语言知识,例如各种语言语法;常识知识,例如水、猫、狗,教人认的时候可以直接指着教,却很难让计算机明白。”孙乐解释,从这些初步的分类中就能感受到知识的海量,更别说那些高层次的科学知识了。
构建方式:从手工劳动到自动抽取
“2010年之后,维基百科开始尝试‘众包’的方式,每个人都能够贡献知识。”孙乐说,这让知识图谱的积累速度大大增加,后续百度百科、互动百科等也采取了类似的知识搜集方式,发动公众使得“积沙”这个环节的时间大大缩短、效率大大增加,无数的知识从四面八方赶来,迅速集聚,只待“成塔”。
面对如此大量的数据,或者说“文本”,知识图谱的构建工作自然不能再手工劳动,“让机器自动抽取结构化的知识,自动生成‘三元组’。”孙乐说,学术界和产业界开发出了不同的构架、体系,能够自动或半自动地从文本中生成机器可识别的知识。
孙乐的演示课件中,有一张生动的图画,一大摞文件纸吃进去,电脑马上转化为“知识”,但事实远没有那么简单。自动抽取结构化数据在不同行业还没有统一的方案。在“百度知识图谱”的介绍中这样写道:对提交至知识图谱的数据转换为遵循Schema的实体对象,并进行统一的数据清洗、对齐、融合、关联等知识计算,完成图谱的构建。“但是大家发现,基于维基百科,结构化半结构化数据挖掘出来的知识图谱还是不够,因此目前所有的工作都集中在研究如何从海量文本中抽取知识。”孙乐说,例如谷歌的Knowledge Vault,以及美国国家标准与技术研究院主办的TAC-KBP评测,也都在推进从文本中抽取知识的技术。
在权威的“知识库自动构建国际评测”中,从文本中抽取知识被分解为实体发现、关系抽取、事件抽取、情感抽取等4部分。在美国NIST组织的TAC-KBP中文评测中,中科院软件所—搜狗联合团队获得综合性能指标第3名,事件抽取单项指标第1名的好成绩。
“我国在这一领域可以和国际水平比肩。”孙乐介绍,中科院软件所提出了基于Co-Bootstrapping的实体获取算法,基于多源知识监督的关系抽取算法等,大幅度降低了文本知识抽取工具构建模型的成本,并提升了性能。
终极目标:将人类知识全部结构化
《圣经·旧约》记载,人类联合起来兴建希望能通往天堂的高塔——“巴别塔”,而今,创造AI的人类正在建造这样一座“巴别塔”,帮助人工智能企及人类智能。
自动的做法让知识量开始形成规模,达到了能够支持实际应用的量级。“但是这种转化,还远远未达到人类的知识水平。”孙乐说,何况人类的知识一直在增加、更新,一直在动态变化,理解也应该与时俱进地体现在机器“脑”中。
“因此知识图谱不会是一个静止的状态,而是要形成一个循环,这也是美国卡耐基梅隆大学等地方提出来的Never Ending Learning(学无止境)的概念。”孙乐说。
资料显示,目前谷歌知识图谱中记载了超过35亿事实;Freebase中记载了4000多万实体,上万个属性关系,24亿多个事实;百度百科记录词条数1000万个,百度搜索中应用了联想搜索功能。
“在医学领域、人物关系等特定领域,也有专门的知识图谱。”孙乐介绍,Kinships描述人物之间的亲属关系,104个实体,26种关系,10800个事实;UMLS在医学领域描述了医学概念之间的联系,135个实体,49种关系,6800个事实。
“这是一幅充满美好前景的宏伟蓝图。”孙乐说,知识图谱的最终目标是将人类的知识全部形式化、结构化,并用于构建基于知识的自然语言理解系统。
尽管令业内满意的“真正理解语言的系统”还远未出现,目前的“巴别塔”还只是在基础层面,但相关的应用已经显示出广阔的前景。例如,在百度百科输入“冷冻电镜”,右竖条的关联将出现“施一公”,输入“撒币”,将直接在搜索项中出现“王思聪”等相关项。其中蕴含着机器对人类意图的理解。
本文仅以该图为案例,其他软件如VOSviewer做的图也存在各种问题
上图你一定很熟悉,利用CiteSpace软件制作的时区图(TimeZone)
该图通过关键词出现年份进行排列,用以展示主题的演化过程
具体原理可参考我之前的推文:《 CiteSpace的时区图谱含义详细解读 》
但是,该图存在一个致命问题
这个问题在以前并不是问题
而是随着期刊公开方式的变化而产生的
以前,中国知网公开的期刊都是已经印刷完成的,已经有纸质版本了,所以文章的发表时间是确定的了
但是,近年来随着期刊公开方式的转变,尚未印刷已经录用的文章会通过 网络首发 的方式进行公开,如下:
当纸质版印刷后,再把网络首发删除,公开正式版本
现在 几乎每个期刊 都会通过 网路首发 公开自己刚刚录用的文章,这是非常好的事情,能够让读者及时了解到最新研究成果,打破了文章从录用到出版的时滞问题
但是,网路首发的文章对于我们做文献计量与知识图谱就会存在致命问题
为什么呢?
因为网络首发的文章
缺失时间
缺失时间
缺失时间
缺失时间有什么重要后果呢?
比如,我们做时区图,有一个关键词是【新型冠状病毒】,显然该词出现于2020年,但是由于缺失时间,CiteSpace会默认补充一个1990年或者其他年份,这就出现问题啦。
同样针对研究前沿探测也会出现此问题
另外,VOSviewer软件也具备时间-关键词叠加图,由于 网路首发 导致的缺失时间,该软件也会出现相应的问题
上述缺陷会导致结果错误
而你可能并不知道
最终结果就是看着错误的图给出错误的解析
不知道你以前注意过此问题吗?
可能并没有,也可能注意到了但不知道如何解决
下面给出解决方案
中文数据利用 Data数据园软件 综合提取功能,看是哪篇文献缺失时间,然后回到原TXT文本里补充时间
英文数据利用 WOS全字段挖掘软件 综合提取功能,看是哪篇文献缺失时间,然后回到原TXT文本里补充时间
关注[学术点滴]公众号获取更多资讯。
这个数据预处理功能一定要重视
知网的文档格式为CAJ,里面的文字和图片都是不能下载的,只能用于参考查阅。
可视化图标有数据图,点状分布图,线性图用于查看自我数据变化,柱状图用于看同类型数据对比,饼状图用于分析个体在全局中的占比。可视化分析图谱意思是指将大量的数据、信息、知识转化为一种人类的视觉形式,直观、形象的表现、解释和分析。
视化图标及其特点
柱形图利用柱子的高度,能够比较清晰的反映数据的差异,一般情况下用来反映分类项目之间的比较,也可以用来反映时间趋势。折线图用来反映随时间变化的趋势。当我们需要描述事物随时间维度的变化时常常需要使用该图形。
通常折线图描绘的点越多,越能够清楚的观察到数据的变化趋势。方便决策者及时做出决策。饼图的使用应该慎重,因为肉眼对面积大小感应不敏感。是最容易被误用的。但在具体反映某个比重的时候,配上具体数值,会有较好的效果。在需要描述某一部分占总体的百分比时,适合使用饼图。
但对比的数量最多不能超过6个,否则会产生视觉的混乱。散点图的数据为三维数据,使用两组数据构成多个坐标点,分析坐标点的分布情况,判断两个变量之间的关联或分布趋势。适合于观测大量数据的分布特点,对于视觉的直观性更强。点与点之间的密集度反应着该区域的整体权重比例。
多模态资源支持作为一种新生的教学模式,为英语课堂教学注入了新生命和新理念。
在探索如何将线上和线下教学进行有机融合并提高小学英语课堂教学有效性的路径中,可整合多模态教学资源并融入到课堂教学中,从而提升学生英语学科核心素养。
突如其来的新冠肺炎疫情推动教师们思考如何将线上和线下教学进行有机融合
笔者认为,可以从传统单一的机械性教学模式向着多模态资源支持下的教学模式转变
力求将多模态视角下整合的教学资源同时应用到线上和线下英语课堂教学中,让学生在真实创设的语境中提高自身认知和语言运用能力,从而切实有效地培养学生的英语学科核心素养。
模态指的是人类通过感官(如视觉、听觉等)与外部环境(如人、机器、物件、动物等)之间的互动方式。
根据个体使用的感官数量可以分为单模态、双模态和多模态,其中单模态指主要使用单个感官进行互动,双模态则运用了两个感官进行互动,借助三个或以上感官的则是多模态。