撰写文献综述步骤:
1、搜索相关文献
2、评价来源
3、识别主题、辩论和差距
4、概述结构
5、写文献综述
文献综述是毕业论文的重要部分,一篇完整的毕业论文必须有一个囊括论文各个关键词的国内外综述性概述。在各大高校均采用中国知网论文检测系统后,文献综述就是很多同学的恶梦,因为文献引用的多,论文重复率过高,文献引用的少,论文字数不够。本经验就是本小姐 梁逸媛同学根据多年的论文写作经验写成的文献综述写作宝典。有任何论文检测及论文写作的问题都可以加我,我将尽力为大家解决论文相关的问题,希望大家能够支持百度经验这个平台。1、 综述的定义和特点1文献综述的定义: 综述是查阅了某一专题在一段时期内的相当数量的文献资料,经过分析研究,选取有关情报信息,进行归纳整理,作出综合性描述的文章。2文献综述的特点: ①综合性:综述要"纵横交错",既要以某一专题的发展为纵线,反映当前课题的进展;又要从本单位、省内、国内到国外,进行横的比较。只有如此,文章才会占有大量素材,经过综合分析、归纳整理、消化鉴别,使材料更精练、更明确、更有层次和更有逻辑,进而把握本专题发展规律和预测发展趋势。3②评述性:是指比较专门地、全面地、深入地、系统地论述某一方面的问题,对所综述的内容进行综合、分析、评价,反映作者的观点和见解,并与综述的内容构成整体。一般来说,综述应有作者的观点,否则就不成为综述,而是手册或讲座了。4③先进性:综述不是写学科发展的历史,而是要搜集最新资料,获取最新内容,将最新的信息和科研动向及时传递给读者。5综述不应是材料的罗列,而是对亲自阅读和收集的材料,加以归纳、总结,做出评论和估价。并由提供的文献资料引出重要结论。一篇好的综述,应当是既有观点,又有事实,有骨又有肉的好文章。由于综述是三次文献,不同于原始论文(一次文献),所以在引用材料方面,也可包括作者自己的实验结果、未发表或待发表的新成果。6综述的内容和形式灵活多样,无严格的规定,篇幅大小不一。大的可以是几十万字甚至上百万字的专著,参考文献可数百篇乃至数千篇;小的可仅有千余字,参考文献数篇。一般医学期刊登载的多为3000~4000字,引文15~20篇,一般不超过20篇,外文参考文献不应少于1/3END2 、综述的内容要求1选题要新:即所综述的选题必须是近期该刊未曾刊载过的。一片综述文章,若与已发表的综述文章"撞车",即选题与内容基本一致,同一种期刊是不可能刊用的。2说理要明:说理必须占有充分的资料,处处以事实为依据,决不能异想天开地臆造数据和诊断,将自己的推测作为结论写。3层次要清:这就要求作者在写作时思路要清,先写什么,后写什么,写到什么程度,前后如何呼应,都要有一个统一的构思。4语言要美:科技文章以科学性为生命,但语不达义、晦涩坳口,结果必然阻碍了科技知识的交流。所以,在实际写作中,应不断地加强汉语修辞、表达方面的训练。5文献要新:由于现在的综述多为"现状综述",所以在引用文献中,70%的应为3年内的文献。参考文献依引用先后次序排列在综述文末,并将序号置入该论据(引文内容)的右上角。引用文献必须确实,以便读者查阅参考。6校者把关:综述写成之后,要请有关专家审阅,从专业和文字方面进一步修改提高。这一步是必须的,因为作者往往有顾此失彼之误,常注意了此一方而忽视了彼一方。有些结论往往是荒谬的,没有恰到好处地反应某一课题研究的"真面目"。这些问题经过校阅往往可以得到解决。END3 、综述的格式和写法 综述一般都包括题名、著者、摘要、关键词、正文、参考文献几部分。其中正文部分又由前言、主体和总结组成。 前言:用200~300字的篇幅,提出问题,包括写作目的、意义和作用,综述问题的历史、资料来源、现状和发展动态,有关概念和定义,选择这一专题的目的和动机、应用价值和实践意义,如果属于争论性课题,要指明争论的焦点所在。 主体:主要包括论据和论证。通过提出问题、分析问题和解决问题,比较各种观点的异同点及其理论根据,从而反映作者的见解。为把问题说得明白透彻,可分为若干个小标题分述。这部分应包括历史发展、现状分析和趋向预测几个方面的内容。 ①历史发展:要按时间顺序,简要说明这一课题的提出及各历史阶段的发展状况,体现各阶段的研究水平。 ②现状分析:介绍国内外对本课题的研究现状及各派观点,包括作者本人的观点。将归纳、整理的科学事实和资料进行排列和必要的分析。对有创造性和发展前途的理论或假说要详细介绍,并引出论据;对有争论的问题要介绍各家观点或学说,进行比较,指问题的焦点和可能的发展趋势,并提出自己的看法。对陈旧的、过时的或已被否定的观点可从简。对一般读者熟知的问题只要提及即可。 ③趋向预测:在纵横对比中肯定所综述课题的研究水平、存在问题和不同观点,提出展望性意见。这部分内容要写得客观、准确,不但要指明方向,而且要提示捷径,为有志于攀登新高峰者指明方向,搭梯铺路。主体部分没有固定的格式,有的按问题发展历史依年代顺序介绍,也有按问题的现状加以阐述的。不论采用哪种方式,都应比较各家学说及论据,阐明有关问题的历史背景、现状和发展方向。END注意事项文献综述是本人对您所阅读文献的一个理解和概括。强烈建议多读文献后,再进行文献综述的写作,如果你有任何关于论文相关的问题,都可以加我好友,找我解决。我是百度经验的签约作者梁逸媛。。如果你有任何关于论文相关的问题,都可以加我好友,找我解决。我是百度经验的签约作者梁逸媛。希望能帮到你,望采纳,谢谢
文献综述是对某一方面的专题搜集大量情报资料后经综合分析而写成的一种学术论文,它是科学文献的一种。格式与写法文献综述的格式与一般研究性论文的格式有所不同。这是因为研究性的论文注重研究的方法和结果,特别是阳性结果,而文献综述要求向读者介绍与主题有关的详细资料、动态、进展、展望以及对以上方面的评述。因此文献综述的格式相对多样,但总的来说,一般都包含以下四部分:即前言、主题、总结和参考文献。撰写文献综述时可按这四部分拟写提纲,在根据提纲进行撰写工。前言部分,主要是说明写作的目的,介绍有关的概念及定义以及综述的范围,扼要说明有关主题的现状或争论焦点,使读者对全文要叙述的问题有一个初步的轮廓。主题部分,是综述的主体,其写法多样,没有固定的格式。可按年代顺序综述,也可按不同的问题进行综述,还可按不同的观点进行比较综述,不管用那一种格式综述,都要将所搜集到的文献资料归纳、整理及分析比较,阐明有关主题的历史背景、现状和发展方向,以及对这些问题的评述,主题部分应特别注意代表性强、具有科学性和创造性的文献引用和评述。总结部分,与研究性论文的小结有些类似,将全文主题进行扼要总结,对所综述的主题有研究的作者,最好能提出自己的见解。参考文献虽然放在文末,但却是文献综述的重要组成部分。因为它不仅表示对被引用文献作者的尊重及引用文献的依据,而且为读者深入探讨有关问题提供了文献查找线索。因此,应认真对待。参考文献的编排应条目清楚,查找方便,内容准确无误。关于参考文献的使用方法,录著项目及格式与研究论文相同,不再重复。
文献综述是对论文选题研究现状的梳理,但并不仅仅是把文献进行简单的堆砌与罗列,而是需要在总结梳理别人研究的同时,对已有的研究做出评价,也就是说有述有评,这也是为什么文献综述也叫做文献述评的原因。
计算机论文题目
随着大科学时代的到来及科技水平的高速发展,计算机科学与技术已经渗透到我国经济、社会的各个领域,这些都有利于全球经济的发展,还极大地推动了社会的进步,
1、基于物联网的煤矿井下监测网络平台关键技术研究
2、基于抽象状态自动机和π演算的UML动态语义研究
3、基于多种数据源的中文知识图谱构建方法研究
4、基于矩阵化特征表示和Ho-Kashyap算法的分类器设计方法研究
5、基于博弈论的云计算资源调度方法研究
6、基于合约的泛型Web服务组合与选择研究
7、本体支持的Web服务智能协商和监测机制研究
8、基于神经网络的不平衡数据分类方法研究
9、基于内容的图像检索与推荐技术研究
10、物联网技术及其在监管场所中的应用
11、移动图书馆的研发与实现
12、图书馆联机公共目录查询系统的研究与实现
13、基于O2O模式的外卖订餐系统
14、网络时代个人数据与隐私保护的调查分析
15、微信公众平台CMS的设计与实现
16、环保部门语义链网络图形化呈现系统
17、BS结构计量信息管理系统设计与研究
18、基于上下文的天然气改质分析控制系统的设计与实现
19、基于增量学习和特征融合的多摄像机协作监控系统目标匹配方法研究
20、无线自组网络密钥管理及认证技术的研究
21、基于CDMI的云存储框架技术研究
22、磨损均衡在提高SSD使用寿命中的应用与改进
23、基于.NET的物流管理软件的设计与实现
24、车站商铺信息管理系统设计与实现
25、元数据模型驱动的合同管理系统的设计与实现
26、安睡宝供应与销售客户数据管理与分析系统
27、基于OpenCV的人脸检测与跟踪算法研究
28、基于PHP的负载均衡技术的研究与改进
29、协同药物研发平台的构建及其信任机制研究
30、光纤网络资源的智能化管理方法研究
31、基于差异同步的云存储研究和实践
32、基于Swift的云存储产品优化及云计算虚拟机调度算法研究
33、基于Hadoop的重复数据删除技术研究
34、中文微博情绪分析技术研究
35、基于协议代理的内控堡垒主机的设计与实现
36、公交车辆保修信息系统的研究与设计
37、基于移动互联网的光纤网络管理系统设计与开发
38、基于云平台的展馆综合管理系统
39、面向列表型知识库的组织机构实体链接方法研究
40、Real-time Hand Gesture Recognition by Using Geometric Feature
41、基于事件的社交网络核心节点挖掘算法的研究与应用
42、线性判别式的比较与优化方法研究
43、面向日志分类的蚁群聚类算法研究
44、基于决策树的数据挖掘技术在电信欠费管理中的应用与研究
45、基于信任关系与主题分析的微博用户推荐技术
46、微博用户兴趣挖掘技术研究
47、面向多源数据的信息抽取方法研究
48、基于本体约束规则与遗传算法的BIM进度计划自动生成研究
49、面向报关行的通关服务软件研究与优化
50、云应用开发框架及云服务推进策略的研究与实践
51、复杂网络社区发现方法以及在网络扰动中的影响
52、空中交通拥挤的识别与预测方法研究
53、基于RTT的端到端网络拥塞控制研究
54、基于体系结构的无线局域网安全弱点研究
55、物联网中的RFID安全协议与可信保障机制研究
56、机器人认知地图创建关键技术研究
57、Web服务网络分析和社区发现研究
58、基于球模型的三维冠状动脉中心线抽取方法研究
59、认知无线网络中频谱分配策略的建模理论与优化方法研究
60、传感器网络关键安全技术研究
61、任务关键系统的软件行为建模与检测技术研究
62、基于多尺度相似学习的图像超分辨率重建算法研究
63、基于服务的信息物理融合系统可信建模与分析
64、电信机房综合管控系统设计与实现
65、粒子群改进算法及在人工神经网络中的应用研究
66、污染源自动监控数据传输标准的研究与应用
67、一种智能力矩限制器的设计与研究
68、移动IPv6切换技术的研究
69、基于移动Ad hoc网络路由协议的改进研究
70、机会网络中基于社会关系的数据转发机制研究
71、嵌入式系统视频会议控制技术的研究与实现
72、基于PML的物联网异构信息聚合技术研究
73、基于移动P2P网络的广播数据访问优化机制研究
74、基于开放业务接入技术的业务移动性管理研究
75、基于AUV的UWSN定位技术的研究
76、基于隐私保护的无线传感网数据融合技术研究
77、基于DIVA模型语音生成和获取中小脑功能及其模型的研究
78、无线网络环境下流媒体传送技术的研究与实现
79、异构云计算平台中节能的任务调度策略研究
80、PRAM模型应用于同步机制的研究
81、云计算平台中虚拟化资源监测与调度关键技术研究
82、云存储系统中副本管理机制的研究
83、嵌入式系统图形用户界面开发技术研究
84、基于多维管理的呼叫中心运行系统技术研究
85、嵌入式系统的流媒体播放器设计与性能优化
86、基于组合双向拍卖的云资源调度算法的研究
87、融入隐私保护的特征选择算法研究
88、济宁一中数字化校园系统的设计与实现
89、移动合作伙伴管理系统的设计与实现
90、黄山市地税局网络开票系统的设计与应用
91、基于语义的领域信息抽取系统
92、基于MMTD的图像拼接方法研究
93、基于关系的垃圾评论检测方法
94、IPv6的过渡技术在终端综合管理系统中的实现与应用
95、基于超声波测距与控制的运动实验平台研发
96、手臂延伸与抓取运动时间协调小脑控制模型的研究
97、位置可视化方法及其应用研究
98、DIVA模型中定时和预测功能的研究
99、基于蚁群的Ad Hoc路由空洞研究
100、基于定向天线的Ad Hoc MAC协议的研究
101、复杂网络社区发现方法以及在网络扰动中的影响
102、空中交通拥挤的识别与预测方法研究
103、基于RTT的端到端网络拥塞控制研究
104、基于体系结构的无线局域网安全弱点研究
105、物联网中的RFID安全协议与可信保障机制研究
106、机器人认知地图创建关键技术研究
107、Web服务网络分析和社区发现研究
108、基于球模型的`三维冠状动脉中心线抽取方法研究
109、认知无线网络中频谱分配策略的建模理论与优化方法研究
110、传感器网络关键安全技术研究
111、任务关键系统的软件行为建模与检测技术研究
112、基于多尺度相似学习的图像超分辨率重建算法研究
113、基于服务的信息物理融合系统可信建模与分析
114、电信机房综合管控系统设计与实现
115、粒子群改进算法及在人工神经网络中的应用研究
116、污染源自动监控数据传输标准的研究与应用
117、一种智能力矩限制器的设计与研究
118、移动IPv6切换技术的研究
119、基于移动Ad hoc网络路由协议的改进研究
120、机会网络中基于社会关系的数据转发机制研究
121、嵌入式系统视频会议控制技术的研究与实现
122、基于PML的物联网异构信息聚合技术研究
123、基于移动P2P网络的广播数据访问优化机制研究
124、基于开放业务接入技术的业务移动性管理研究
125、基于AUV的UWSN定位技术的研究
126、基于隐私保护的无线传感网数据融合技术研究
127、基于DIVA模型语音生成和获取中小脑功能及其模型的研究
128、无线网络环境下流媒体传送技术的研究与实现
129、异构云计算平台中节能的任务调度策略研究
130、PRAM模型应用于同步机制的研究
131、云计算平台中虚拟化资源监测与调度关键技术研究
132、云存储系统中副本管理机制的研究
133、嵌入式系统图形用户界面开发技术研究
134、基于多维管理的呼叫中心运行系统技术研究
135、嵌入式系统的流媒体播放器设计与性能优化
136、基于组合双向拍卖的云资源调度算法的研究
137、融入隐私保护的特征选择算法研究
138、济宁一中数字化校园系统的设计与实现
139、移动合作伙伴管理系统的设计与实现
140、黄山市地税局网络开票系统的设计与应用
141、基于语义的领域信息抽取系统
142、基于MMTD的图像拼接方法研究
143、基于关系的垃圾评论检测方法
144、IPv6的过渡技术在终端综合管理系统中的实现与应用
145、基于超声波测距与控制的运动实验平台研发
146、手臂延伸与抓取运动时间协调小脑控制模型的研究
147、位置可视化方法及其应用研究
148、DIVA模型中定时和预测功能的研究
149、基于蚁群的Ad Hoc路由空洞研究
150、基于定向天线的Ad Hoc MAC协议的研究
特殊教育论文题目
1.中国特殊教育发展面临的六大转变
2.美国特殊教育教师专业标准的发展与评介
3.陕西省特殊教育教师专业发展现状的调查研究
4.中国特殊教育发展现状研究
5.我国特殊教育教师胜任特征模型研究
6.特殊教育教师职业认同与工作满意度的调查研究
7.国外特殊教育经费投入和使用及其对我国特殊教育发展的.启示
8.安徽省特殊教育教师专业发展现状调查
9.特殊教育研究热点知识图谱
10.论特殊教育从人文关怀到行动支持走向
11.当前我国高等院校特殊教育专业人才培养现状分析及其启示
12.从政策解读我国特殊教育教师专业标准的建构
13.特殊教育最佳实践方式及教学有效性的思考
14.医教结合:特殊教育改革的可行途径——实施背景、内涵与积极作用的探析
15.我国特殊教育信息化建设与应用现状研究可视化分析
16.特殊教育信息化环境建设与应用现状调查研究
17.信息化视角下的特殊教育发展对策探究
18.宁夏特殊教育发展现状及对策研究
19.中国特殊教育学校教师队伍状况及地区比较——基于2001-2010年《中国教育统计年鉴》相关数据
20.特殊教育教师的职业压力、应对方式及职业倦怠
21.论特殊教育教师专业化发展
22.论特殊教育教师专业化发展
23.中美特殊教育教师政策比较研究
24.新疆特殊教育的现状与发展对策
25.医教结合:现阶段我国特殊教育发展的必然选择——对路莎一文的商榷
26.国内特殊教育教师职业素质研究现状与趋势
27.融合教育理念下的特殊教育财政:历史、现状及未来
28.“复合型”特殊教育教师的培养——基于复合型的内涵分析
29.融合教育背景下我国高等师范院校特殊教育师资培养模式改革的思考
30.上海市特殊教育教师资格制度的现状与发展
31.西方特殊教育研究进展述评
32.美国高校特殊教育专业发展现状及启示
33.特殊教育应是国家基本公共教育服务优先保障的领域
34.我国特殊教育教师职后培训模式新探
35.中国残疾人特殊教育制度转型——福利政策体系化与福利提供优质化
36.特殊教育教师工作家庭冲突对工作投入的影响:情绪智力的调节作用
37.特殊教育教师资格制度的比较研究
38.新疆特殊教育教师队伍的现状、问题与对策
39.医教结合:特殊教育中似热实冷话题之冷思考
1000字的,有的了。
一 当今地球环境状况不容乐观 马斯洛的心理需求论告诉我们,人类的需求是分层次的,从最低级生存需求到最高级的自我价值实现需求,都需要与外界事物进行关联,因此,当人类一方面享受着自己创造的文明成果时,另一方面又不断地品尝着自己亲手酿造的苦果:毫无无节制地滥用自然资源,破坏着生态平衡。人们因生产生活的需要对水、大气和土壤等人类生存环境造成了污染及破坏,导致可供利用的稀有物质资源越来越少,居住、饮食及生命健康已受到严重威胁,地球生物每年也有数千种消失……据世界卫生组织的估计,目前世界上25%的疾病与死亡是因环境问题造成的,全世界每年死亡的4900万人中的3/4是因环境恶化所致,其中儿童是最大的受害者。事实上,片面追求物质财富所导致的生态环境问题,不单是一个地区、一个国家的的问题,而是一个需要全人类共同面对,共同解决的重大问题。 我国是世界上人口最大的国家,经过多年的努力,我国经济得到了快速发展,但与经济快速发展同时出现的还有日益严峻的环境问题。2004中国环境科学研究院生态所王君英教授在《中国教育报》中从宏观环境角度出发,引用大量实地数据,分析了目前我国环境面临的11个方面问题。即水资源匮乏、水污染严重、用水严重浪费;大气污染严重;耕地数量日益减少且土地沙化、土壤酸化盐渍化严重;湿地减少且生态功能退化;森林与草地的数量和质量都在下降,水土流失严重;海洋污染加剧,海洋环境不容乐观;生物多样性受到破坏,物种减少;自然灾害频繁;农业、农村面塬污染严重,食品安全问题突出等等。面对如此艰巨的环境污染和生态失衡问题,我国政府也充分认识到环境污染问题潜在的巨大危害,在十六大、十七大中多次提及环境保护问题,号召全民进行节能减排,树立环保意识,倡导低碳生活,建设节约型社会等。当代大学生是未来国家经济建设的生力军,肩负着民族振兴的历史重任。面对长期艰巨的改善生态环境的任务,大学生应当首先树立先进的环保意识,从而带动整个社会进行环境保护、维护生态和谐。 二 对大学生进行环保意识教育的必要性 首先,加强大学生的环保意识教育有利于提高大学生基本素质。对大学生进行素质教育是高校办学的重点环节,而环保意识教育则是大学生素质教育中的重要内容之一,是提高大学生综合素质及道德素养的重要手段。一个高素质的人应该具备较高的环境意识,有为保护环境而不断调整自身经济活动和社会活动,协调人与环境、人与自身相互关系的实践活动的自觉性。21世纪环境意识将成为人类社会文明、发展进步的重要标志,环境意识也将成为21世纪人类必须具备的素质之一,培养大学生的环境意识正是新世纪发展的客观要求。 其次,加强大学生的环保意识教育有利于实现建设和谐社会的目标。构建社会主义和谐社会是我国“十一五”期间国家所提出的新课题。人与自然的和谐是和谐社会的重要特征。实现人与自然的和谐,除了要通过制定完备的环境保护法规,组建高素质的环境执法队伍,更重要的是要倡导人民大众转变思想,树立正确的环保意识。大学生只有在内心深处树立了尊重自然、保护环境的信念才能担负起建设人与自然和谐社会的重任,才能实现我国乃至全人类的可持续发展战略目标。 最后,加强大学生的环保意识教育有利于促进思想道德教育。通过环保意识教育,能使学生认识到环保问题是关系地球和人类未来的严重问题,树立全球意识和全球观念,认识到人的价值是为人类生存做出贡献,为全人类的根本利益而奋斗;能使学生学会自觉地关注身边的环境,关爱我们共同的家园,培养大学生的忧患意识,激发他们树立对自己、对国家、对世界和的责任意识;还能够培养学生对日常行为规范的自律意识,培养珍视和平及集体主义等美德。 三 大学生环保意识现状分析 1.大学生环保知识较为欠缺 目前,高校教育主要集中在基础课程和专业课程教育方面,涉及环境保护相关的课程开设的较为局限,根据上海师范大学教师陈源所做的调查现实,很多同学对废弃物资源化知识、废弃物无害化知识了解极少,既说不清其中化学机理的原委,也不明了掌握环保知识的重要意义。 2.大学生主动性不强 由于环境保护问题提出时间不长,很多学生对环保知识以及环境问题的危害后果知之甚少,加之学校教育方面的欠缺,致使部分大学生的环境保护主动参与意识不强。具体表现在:对废弃物减量化的意识、对废弃物分类的意识、节能减排意识、环保活动参与意识等方面。 3.大学生环保活动载体不多 目前,高校进行环境保护教育及环境知识普及的主要渠道是授课、讲座、社团活动以及媒体宣传等,从实际状况来看,高校的环保活动载体不够丰富,除缺乏必要的环境相关课程缺乏设置之外,环保类学生社团的建设也没有得到充分的支持,致使学生环保活动多以宣传知识为主,很难深入到实践动手环节,致使大学生对环境保护缺乏兴趣,进而影响环保意识地培养。 四 提高大学生环保意识的对策 1.加强环保理论知识的普及 首先,高校作为培养教育大学生的主阵地,应当从教育角度入手积极普及大学生环保知识。高校在进行专业培养计划制定时,要重视大学生环保意识的培养,对于非环境专业的学生要设立1~2门环境方面的必选选修课,如《环境学》、《生态学》等,同时还要开设一定数量的公共选修课,如《环境监测学》、《普通生物学》等,借此对大学生进行必要点环保知识普及,让大学生对环境问题有充分的认识,并对环境保护的基本条件和方式方法有一定地了解。 2.加强校园环保科技文化活动建设 校园环保文化活动对于提高大学生对环境保护的态度,环境观念的形成有着积极、可持续的影响。在重视课堂教学对学生进行环境知识普及及环保意识教育的同时,还要加强非教学方式的其他教育手段的开拓。首先,高校要充分利用世界环境日、世界地球日、世界无烟日、世界水日、世界粮食日等有关环境的纪念日和纪念主题进行环境科学知识的宣传;邀请环保专家学者到学校讲解环保的政策法规、现状和面临的问题、解决的途径等;其次,高校还可以与所在社区地方政府开展“环境共建”等大型活动,充分组织大学生与社会环保组织共同开展环境保护活动,如与社会环保团体同步进行“地球一小时”关灯活动等;再次,高校要充分发挥大学生创新能力强的特点,在大学生当中广泛开展环保知识、技能、设计等竞赛,如大连大学所开展的“节能减排设计大赛”、“宿舍省电比赛”、“环保创意大赛”等比赛,以此激发大学生对于环境保护的热情,进而增强环保意识。 3.加强高校内部环保社团建设 高校环保活动主要由校内环保社团发起,并组织开展,如今高校环保社团已成为中国环境保护事业的一支不可忽视的力量。近年来,我国各类高校基本都成立了自己的环境保护社团。他们通过开展各种各样的环保活动来宣传和保护环境,这对我国的环境保护事业起了积极的推动作用。但高校环保社团大部分都是自发组织缺乏专业指导、经费、物质等方面的支持,所以大多自生自灭。其所产生的积极影响和贡献并不明显。所以,高校应当重视环保社团的建设,加大经费及指导力度,开展的活动要突出“小、巧、精、智”,并且具有可操作性强、容易成功和见效的特点。如制作高校环保网站,在宿舍设定电池及固体废弃物回收点,设置固定环保知识宣传栏,组织大学生骑自行车外出宣传环保知识等。 总之,环境保护是全人类的责任与使命,大学生作为未来祖国建设的生力军和高学历人才群体,应当也非常有必要提高环境保护意识,为自然及生态的可持续发展尽到一份力量。同时大学生还应当在提高自己环保意识的同时,通过努力带动整个社会群体来关注环保事业,开展环保活动,最终将环境保护落到实处,形成人人关爱环境、人人节能减排的良好环保氛围。
是有的,你自己来拿吧,行不
前言及背景:在构建知识图谱的过程中,大量知识信息来源于文档和网页信息,在从文档提取知识的过程中往往会有偏差,这些偏差来自于看两方面:
(1)文档中会有很多噪声信息,即无用信息,它的产生可能来自于知识抽取算法本身,也可能和语言文字本身的有效性有关;
(2)文档信息量有限,不会把所有知识都涵盖进去,尤其是很多常识性知识。
以上都会导致知识图谱是不完整的,所以 知识图谱补全 在构建知识图谱中日益重要。 通过 已获取的知识 来对实体间进行关系预测,以达到对实体间关系的补全,也可以是实体类型信息的补全。该过程可以利用本知识库内部的知识,也可以引入第三方知识库的知识来帮助完成。 整理了一份200G的AI资料包: ①人工智能课程及项目【含课件源码】 ②超详解人工智能学习路线图 ③人工智能必看优质书籍电子书汇总 ④国内外知名精华资源 ⑤优质人工智能资源网站整理(找前辈、找代码、找论文都有) ⑥人工智能行业报告 ⑦人工智能论文合集 /p3.toutiaoimg.com/origin/tos-cn-i-qvj2lq49k0/36ae8d96bccf490bb4d877abda852f7d","uri":"","width":31,"height":27,"darkImgUrl":"https://p3.toutiaoimg.com/origin/tos-cn-i-qvj2lq49k0/b81aea2925484cf5bdde9cbb4c2c62fd","darkImgUri":"","formulaImgStatus":"succeed"}" class="syl-plugin-formula"> 资料在网盘里排列的非常整齐干净!希望对大家的学习有所帮助, 私信备注【05】添加领取
知识图谱补全分为两个层次: 概念层次的知识补全 和 实例层次的知识补全 。 往往提到知识图谱构建过程中只是提及了实体和关系的抽取,然后就可以生成实体和关系组成的RDF了。 但是,仅仅获取三元组是不够的,还要考虑这些,因为三元组中的实体除了具有属性和关系之外,还可以 映射关联到知识概念层次的类型(type),而且一个实体的类型可以有很多 。
例如:实体奥巴马的类型在不同关系中是有变化的。 在出生信息描述中,类型为人;在创作回忆录的描述中其类型还可以是作家;在任职描述中还可以是政治家。 实体类型的概念层次模型 在这里:人、作家、政治家这些概念之间是有层次的,也就是所说的概念的层次模型。 1、概念层次的知识补全——主要是要解决实体的类型信息缺失问题 正如前面的例子所描述,一旦一个实体被判别为人这个类型,那么在以构建好的知识模式中,该实体除了人的类型外仍需要向下层概念搜索,以发现更多的类别描述信息。 (1)基于描述逻辑的规则推理机制。 本体论和模式 :实体都可以归结为一种本体,而这种本体会具有一组模式来保证其独特性,这组模式可以用规则来描述,因此,对于本体而言,其可以由这组规则来描述。 例如,奥巴马是个实体,他的本体可以归为人,而人的模式就是可以使用语言和工具、可以改造其他事务等等,这些模式可以通过规则来描述,于是基于描述逻辑的规则推理方法就出现了。 描述逻辑 是一种常见的知识表示方式,它建立在概念和关系之上。 比如,可以将关于人的实体实例(可以是文本)收集起来,从中提取出其中模式并以规则的形式记录下来,这样一来,只要遇到一个新的实体实例 ,只需将其代入到之前记录下的规则中进行比较即可做出判断,如果符合规则,就说明该实例可以归类为人的概念类型,否则就判定为非此概念类型。 (2)基于机器学习类型推理机制 经过基于描述逻辑的规则推理的发展阶段后,机器学习相关研究开始占据主流,此时 不是单纯地利用实例产生的规则等内部线索来进行判断,同时也要利用外部的特征和线索来学习类型的预测 。 对一个未知类型实体e1而言,如果能找到一个与其类似的且已知类型的实体e2的话,那么就可以据此推知实体e1的类型应该与e2的类型一致或至少相似。 此类方法主要可以分为:基于内容的类型推理、基于链接的类型推理和基于统计关系学习的类型推理(如,Markov逻辑网)几个方向。 (3)基于表示学习类型推理机制 将嵌入式学习和深度学习引入到类型推理,基于机器学习的类型推理方法大多假设数据中没有噪声,且其特征仍然需要认为选择和设计,引入深度学习可以避免特征工程。而类型推理要依据文本内容,也需要链接结构等其他特征的支持,此时嵌入式方法可以发挥其自身优势。
2、实例层次的知识补全 可以理解为:对于一个实例三元组(SPO,主谓宾),其中可能缺失情况为(?,P,O),(S,?,O)或者(S,P,?),这就如同知识库中不存在这个三元组,此时需要预测缺失的实体或者关系是什么。 事实上, 很多缺失的知识是可以通过已经获得的知识来推知的 ,有时这个过程也被称为 链接预测 。 注意 :有时知识不是缺失的,而是 新出现 的,即出现了新的三元组,且这个三元组不是原知识库所已知的知识,此时需要将其作为新知识补充道知识库中,但此种情形 不是传统意义的补全 。 (1)基于随机游走的概率补全方法 (2)基于表示学习的补全方法 知识图谱嵌入流程: ①结构嵌入表示法 ②张量神经网络法 ③矩阵分解法 ④翻译法
(3)其他补全方法 跨知识库补全方法、基于信息检索技术的知识库补全方法、知识库中的常识知识补全
面临的挑战和主要发展方向: (1)解决长尾实体及关系的稀疏性。 知名的明星的关系实例会很多,而对于普通民众的实例就很少,但是他们数量却众多,导致其相关的关系实例也是十分稀疏,而且在数量不断增加的情况下,这种情况会更加明显。 (2)实体的一对多、多对一和多对多问题。 对于大规模数据,不是一对十几或者几十数量级那么简单,而是成百上千的数量级,传统的解决方案无法有效深圳根本无法解决此种数量级别的关系学习问题。 (3)三元组的动态增加和变化导致KG的动态变化加剧。 新知识源源不断的产生,而之前的知识可能被后面证明是错误的,或者需要修正的。这些都会使得知识补全的过程也需修正改变,如何使得知识图谱补全技术适应KG的动态变化变得越来越重要,而这方面的技术还未引起足够的重视。 (4)KG中关系预测路径长度会不断增长。 关系预测能推理的长度是有限的,但在大规模知识图谱闪光,实体间的关系路径序列会变得越来越长,这就需要更高效的模型来描述更复杂的关系预测模型。
这是一款阿里员工业余时间设计的论文相似性可视化的工具 功能是查找相似论文,并用图表的形式展现这些论文之间的关系。
可以把它理解为这篇论文的祖先们 这些是图表中最常被引用的论文,它们是该领域重要的开创性工作。 选择这些论文的时候,有引用关系的论文会被高亮。
可以把它理解为这篇论文的后代们 这些论文可能是受到图表中的论文启发的近期相关工作,或者是对该领域的调查。 通常包括该领域的现状,系统综述,元分析等。 同样,选择这些论文的时候,有引用关系的论文会被高亮。
我认为这款工具理论上非常适合用于辅助论文中Related Work,和Literature Review部分,比如下面这部分是对Related Work部分如何完成的指导,可以看出需要10到20个相关工作,借助CONNECT PAPERS(以下简称CP)可以很直观地获取更多的相似论文。找到该主题的“先祖“或者“后代”。
知识图谱 (Knowledge Graph) 是当前的研究热点。自从2012年Google推出自己第一版知识图谱以来,它在学术界和工业界掀起了一股热潮。各大互联网企业在之后的短短一年内纷纷推出了自己的知识图谱产品以作为回应。比如在国内,互联网巨头百度和搜狗分别推出”知心“和”知立方”来改进其搜索质量。那么与这些传统的互联网公司相比,对处于当今风口浪尖上的行业 - 互联网金融, 知识图谱可以有哪方面的应用呢?
目录1. 什么是知识图谱?2. 知识图谱的表示3. 知识图谱的存储4. 应用5. 挑战6. 结语
1. 什么是知识图谱?
知识图谱本质上是语义网络,是一种基于图的数据结构,由节点(Point)和边(Edge)组成。在知识图谱里,每个节点表示现实世界中存在的“实体”,每条边为实体与实体之间的“关系”。知识图谱是关系的最有效的表示方式。通俗地讲,知识图谱就是把所有不同种类的信息(Heterogeneous Information)连接在一起而得到的一个关系网络。知识图谱提供了从“关系”的角度去分析问题的能力。
知识图谱这个概念最早由Google提出,主要是用来优化现有的搜索引擎。不同于基于关键词搜索的传统搜索引擎,知识图谱可用来更好地查询复杂的关联信息,从语义层面理解用户意图,改进搜索质量。比如在Google的搜索框里输入Bill Gates的时候,搜索结果页面的右侧还会出现Bill Gates相关的信息比如出生年月,家庭情况等等。
另外,对于稍微复杂的搜索语句比如 ”Who is the wife of Bill Gates“,Google能准确返回他的妻子Melinda Gates。这就说明搜索引擎通过知识图谱真正理解了用户的意图。
上面提到的知识图谱都是属于比较宽泛的范畴,在通用领域里解决搜索引擎优化和问答系统(Question-Answering)等方面的问题。接下来我们看一下特定领域里的 (Domain-Specific) 知识图谱表示方式和应用,这也是工业界比较关心的话题。
2. 知识图谱的表示
假设我们用知识图谱来描述一个事实(Fact) - “张三是李四的父亲”。这里的实体是张三和李四,关系是“父亲”(is_father_of)。当然,张三和李四也可能会跟其他人存在着某种类型的关系(暂时不考虑)。当我们把电话号码也作为节点加入到知识图谱以后(电话号码也是实体),人和电话之间也可以定义一种关系叫 has_phone,就是说某个电话号码是属于某个人。下面的图就展示了这两种不同的关系。
另外,我们可以把时间作为属性(Property)添加到 has_phone 关系里来表示开通电话号码的时间。这种属性不仅可以加到关系里,还可以加到实体当中,当我们把所有这些信息作为关系或者实体的属性添加后,所得到的图谱称之为属性图 (Property Graph)。属性图和传统的RDF格式都可以作为知识图谱的表示和存储方式,但二者还是有区别的,这将在后面章节做简单说明。
3. 知识图谱的存储
知识图谱是基于图的数据结构,它的存储方式主要有两种形式:RDF存储格式和图数据库(Graph Database)。至于它们有哪些区别,请参考【1】。下面的曲线表示各种数据存储类型在最近几年的发展情况。从这里我们可以明显地看到基于图的存储方式在整个数据库存储领域的飞速发展。这幅曲线图来源于 Graph DBMS increased their popularity by 500% within the last 2 years
下面的列表表示的是目前比较流行的基于图存储的数据库排名。从这个排名中可以看出neo4j在整个图存储领域里占据着NO.1的地位,而且在RDF领域里Jena还是目前为止最为流行的存储框架。这部分数据来源于 DB-Engines Ranking
当然,如果需要设计的知识图谱非常简单,而且查询也不会涉及到1度以上的关联查询,我们也可以选择用关系型数据存储格式来保存知识图谱。但对那些稍微复杂的关系网络(现实生活中的实体和关系普遍都比较复杂),知识图谱的优点还是非常明显的。首先,在关联查询的效率上会比传统的存储方式有显著的提高。当我们涉及到2,3度的关联查询,基于知识图谱的查询效率会高出几千倍甚至几百万倍。其次,基于图的存储在设计上会非常灵活,一般只需要局部的改动即可。比如我们有一个新的数据源,我们只需要在已有的图谱上插入就可以。于此相反,关系型存储方式灵活性方面比较差,它所有的Schema都是提前定义好的,如果后续要改变,它的代价是非常高的。最后,把实体和关系存储在图数据结构是一种符合整个故事逻辑的最好的方式。
4. 应用
在本文中,我们主要讨论知识图谱在互联网金融行业中的应用。当然,很多应用场景和想法都可以延伸到其他的各行各业。这里提到的应用场景只是冰山一角, 在很多其他的应用上,知识图谱仍然可以发挥它潜在的价值, 我们在后续的文章中会继续讨论。
反欺诈
反欺诈是风控中非常重要的一道环节。基于大数据的反欺诈的难点在于如何把不同来源的数据(结构化,非结构)整合在一起,并构建反欺诈引擎,从而有效地识别出欺诈案件(比如身份造假,团体欺诈,代办包装等)。而且不少欺诈案件会涉及到复杂的关系网络,这也给欺诈审核带来了新的挑战。 知识图谱,作为关系的直接表示方式,可以很好地解决这两个问题。 首先,知识图谱提供非常便捷的方式来添加新的数据源,这一点在前面提到过。其次,知识图谱本身就是用来表示关系的,这种直观的表示方法可以帮助我们更有效地分析复杂关系中存在的特定的潜在风险。
反欺诈的核心是人,首先需要把与借款人相关的所有的数据源打通,并构建包含多数据源的知识图谱,从而整合成为一台机器可以理解的结构化的知识。在这里,我们不仅可以整合借款人的基本信息(比如申请时填写的信息),还可以把借款人的消费记录、行为记录、网上的浏览记录等整合到整个知识图谱里,从而进行分析和预测。这里的一个难点是很多的数据都是从网络上获取的非结构化数据,需要利用机器学习、自然语言处理技术把这些数据变成结构化的数据。
不一致性验证
不一致性验证可以用来判断一个借款人的欺诈风险,这个跟交叉验证类似。比如借款人张三和借款人李四填写的是同一个公司电话,但张三填写的公司和李四填写的公司完全不一样,这就成了一个风险点,需要审核人员格外的注意。
再比如,借款人说跟张三是朋友关系,跟李四是父子关系。当我们试图把借款人的信息添加到知识图谱里的时候,“一致性验证”引擎会触发。引擎首先会去读取张三和李四的关系,从而去验证这个“三角关系”是否正确。很显然,朋友的朋友不是父子关系,所以存在着明显的不一致性。
不一致性验证涉及到知识的推理。通俗地讲,知识的推理可以理解成“链接预测”,也就是从已有的关系图谱里推导出新的关系或链接。 比如在上面的例子,假设张三和李四是朋友关系,而且张三和借款人也是朋友关系,那我们可以推理出借款人和李四也是朋友关系。
组团欺诈
相比虚假身份的识别,组团欺诈的挖掘难度更大。这种组织在非常复杂的关系网络里隐藏着,不容易被发现。当我们只有把其中隐含的关系网络梳理清楚,才有可能去分析并发现其中潜在的风险。知识图谱,作为天然的关系网络的分析工具,可以帮助我们更容易地去识别这种潜在的风险。举一个简单的例子,有些组团欺诈的成员会用虚假的身份去申请贷款,但部分信息是共享的。下面的图大概说明了这种情形。从图中可以看出张三、李四和王五之间没有直接的关系,但通过关系网络我们很容易看出这三者之间都共享着某一部分信息,这就让我们马上联想到欺诈风险。虽然组团欺诈的形式众多,但有一点值得肯定的是知识图谱一定会比其他任何的工具提供更佳便捷的分析手段。
异常分析(Anomaly Detection)
异常分析是数据挖掘研究领域里比较重要的课题。我们可以把它简单理解成从给定的数据中找出“异常”点。在我们的应用中,这些”异常“点可能会关联到欺诈。既然知识图谱可以看做是一个图 (Graph),知识图谱的异常分析也大都是基于图的结构。由于知识图谱里的实体类型、关系类型不同,异常分析也需要把这些额外的信息考虑进去。大多数基于图的异常分析的计算量比较大,可以选择做离线计算。在我们的应用框架中,可以把异常分析分为两大类: 静态分析和动态分析,后面会逐一讲到。
- 静态分析
所谓的静态分析指的是,给定一个图形结构和某个时间点,从中去发现一些异常点(比如有异常的子图)。下图中我们可以很清楚地看到其中五个点的相互紧密度非常强,可能是一个欺诈组织。所以针对这些异常的结构,我们可以做出进一步的分析。
- 动态分析
所谓的动态分析指的是分析其结构随时间变化的趋势。我们的假设是,在短时间内知识图谱结构的变化不会太大,如果它的变化很大,就说明可能存在异常,需要进一步的关注。分析结构随时间的变化会涉及到时序分析技术和图相似性计算技术。有兴趣的读者可以去参考这方面的资料【2】。
失联客户管理
除了贷前的风险控制,知识图谱也可以在贷后发挥其强大的作用。比如在贷后失联客户管理的问题上,知识图谱可以帮助我们挖掘出更多潜在的新的联系人,从而提高催收的成功率。
现实中,不少借款人在借款成功后出现不还款现象,而且玩“捉迷藏”,联系不上本人。即便试图去联系借款人曾经提供过的其他联系人,但还是没有办法联系到本人。这就进入了所谓的“失联”状态,使得催收人员也无从下手。那接下来的问题是,在失联的情况下,我们有没有办法去挖掘跟借款人有关系的新的联系人? 而且这部分人群并没有以关联联系人的身份出现在我们的知识图谱里。如果我们能够挖掘出更多潜在的新的联系人,就会大大地提高催收成功率。举个例子,在下面的关系图中,借款人跟李四有直接的关系,但我们却联系不上李四。那有没有可能通过2度关系的分析,预测并判断哪些李四的联系人可能会认识借款人。这就涉及到图谱结构的分析。
智能搜索及可视化展示
基于知识图谱,我们也可以提供智能搜索和数据可视化的服务。智能搜索的功能类似于知识图谱在Google, Baidu上的应用。也就是说,对于每一个搜索的关键词,我们可以通过知识图谱来返回更丰富,更全面的信息。比如搜索一个人的身份证号,我们的智能搜索引擎可以返回与这个人相关的所有历史借款记录、联系人信息、行为特征和每一个实体的标签(比如黑名单,同业等)。另外,可视化的好处不言而喻,通过可视化把复杂的信息以非常直观的方式呈现出来, 使得我们对隐藏信息的来龙去脉一目了然。
精准营销
“A knowledge graph allows you to take core information about your customer—their name, where they reside, how to contact them—and relate it to who else they know, how they interact on the web, and more”-- Michele Goetz, a Principal Analyst at Forrester Research
一个聪明的企业可以比它的竞争对手以更为有效的方式去挖掘其潜在的客户。在互联网时代,营销手段多种多样,但不管有多少种方式,都离不开一个核心 - 分析用户和理解用户。知识图谱可以结合多种数据源去分析实体之间的关系,从而对用户的行为有更好的理解。比如一个公司的市场经理用知识图谱来分析用户之间的关系,去发现一个组织的共同喜好,从而可以有针对性的对某一类人群制定营销策略。只有我们能更好的、更深入的(Deep understanding)理解用户的需求,我们才能更好地去做营销。
5. 挑战
知识图谱在工业界还没有形成大规模的应用。即便有部分企业试图往这个方向发展,但很多仍处于调研阶段。主要的原因是很多企业对知识图谱并不了解,或者理解不深。但有一点可以肯定的是,知识图谱在未来几年内必将成为工业界的热门工具,这也是从目前的趋势中很容易预测到的。当然,知识图谱毕竟是一个比较新的工具,所以在实际应用中一定会涉及到或多或少的挑战。
数据的噪声
首先,数据中存在着很多的噪声。即便是已经存在库里的数据,我们也不能保证它有100%的准确性。在这里主要从两个方面说起。第一,目前积累的数据本身有错误,所以这部分错误数据需要纠正。 最简单的纠正办法就是做离线的不一致性验证,这点在前面提过。第二, 数据的冗余。比如借款人张三填写公司名字为”普惠“,借款人李四填写的名字为”普惠金融“,借款人王五则填写成”普惠金融信息服务有限公司“。虽然这三个人都隶属于一家公司,但由于他们填写的名字不同,计算机则会认为他们三个是来自不同的公司。那接下来的问题是,怎么从海量的数据中找出这些存在歧义的名字并将它们合并成一个名字? 这就涉及到自然语言处理中的”消歧分析”技术。
非结构化数据处理能力
在大数据时代,很多数据都是未经处理过的非结构化数据,比如文本、图片、音频、视频等。特别在互联网金融行业里,我们往往会面对大量的文本数据。怎么从这些非结构化数据里提取出有价值的信息是一件非常有挑战性的任务,这对掌握的机器学习,数据挖掘,自然语言处理能力提出了更高的门槛。
知识推理
推理能力是人类智能的重要特征,使得我们可以从已有的知识中发现隐含的知识, 一般的推理往往需要一些规则的支持【3】。例如“朋友”的“朋友”,可以推理出“朋友”关系,“父亲”的“父亲”可以推理出“祖父”的关系。再比如张三的朋友很多也是李四的朋友,那我们可以推测张三和李四也很有可能是朋友关系。当然,这里会涉及到概率的问题。当信息量特别多的时候,怎么把这些信息(side information)有效地与推理算法结合在一起才是最关键的。常用的推理算法包括基于逻辑(Logic) 的推理和基于分布式表示方法(Distributed Representation)的推理。随着深度学习在人工智能领域的地位变得越来越重要,基于分布式表示方法的推理也成为目前研究的热点。如果有兴趣可以参考一下这方面目前的工作进展【4,5,6,7】。
大数据、小样本、构建有效的生态闭环是关键
虽然现在能获取的数据量非常庞大,我们仍然面临着小样本问题,也就是样本数量少。假设我们需要搭建一个基于机器学习的反欺诈评分系统,我们首先需要一些欺诈样本。但实际上,我们能拿到的欺诈样本数量不多,即便有几百万个贷款申请,最后被我们标记为欺诈的样本很可能也就几万个而已。这对机器学习的建模提出了更高的挑战。每一个欺诈样本我们都是以很高昂的“代价”得到的。随着时间的推移,我们必然会收集到更多的样本,但样本的增长空间还是有局限的。这有区别于传统的机器学习系统,比如图像识别,不难拿到好几十万甚至几百万的样本。
在这种小样本条件下,构建有效的生态闭环尤其的重要。所谓的生态闭环,指的是构建有效的自反馈系统使其能够实时地反馈给我们的模型,并使得模型不断地自优化从而提升准确率。为了搭建这种自学习系统,我们不仅要完善已有的数据流系统,而且要深入到各个业务线,并对相应的流程进行优化。这也是整个反欺诈环节必要的过程,我们要知道整个过程都充满着博弈。所以我们需要不断地通过反馈信号来调整我们的策略。
6. 结语
知识图谱在学术界和工业界受到越来越多的关注。除了本文中所提到的应用,知识图谱还可以应用在权限管理,人力资源管理等不同的领域。在后续的文章中会详细地讲到这方面的应用。
参考文献
【1】De Abreu, D., Flores, A., Palma, G., Pestana, V., Pinero, J., Queipo, J., ... & Vidal, M. E. (2013). Choosing Between Graph Databases and RDF Engines for Consuming and Mining Linked Data. In COLD.
【2】User Behavior Tutorial
【3】刘知远 知识图谱——机器大脑中的知识库 第二章 知识图谱——机器大脑中的知识库
【4】Nickel, M., Murphy, K., Tresp, V., & Gabrilovich, E. A Review of Relational Machine Learning for Knowledge Graphs.
【5】Socher, R., Chen, D., Manning, C. D., & Ng, A. (2013). Reasoning with neural tensor networks for knowledge base completion. In Advances in Neural Information Processing Systems (pp. 926-934).
【6】Bordes, A., Usunier, N., Garcia-Duran, A., Weston, J., & Yakhnenko, O. (2013). Translating embeddings for modeling multi-relational data. In Advances in Neural Information Processing Systems (pp. 2787-2795).
【7】Jenatton, R., Roux, N. L., Bordes, A., & Obozinski, G. R. (2012). A latent factor model for highly multi-relational data. In Advances in Neural Information Processing Systems(pp. 3167-3175).
“知识图谱的应用涉及到众多行业,尤其是知识密集型行业,目前关注度比较高的领域:医疗、金融、法律、电商、智能家电等。”基于信息、知识和智能形成的闭环,从信息中获取知识,基于知识开发智能应用,智能应用产生新的信息,从新的信息中再获取新的知识,不断迭代,就可以不断产生更加丰富的知识图谱,更加智能的应用。
如果说波士顿动力的翻跟头是在帮机器人锻炼筋骨,那么知识图谱的“绘制”则是在试图“创造”一个能运转的机器人大脑。
“目前,还不能做到让机器理解人的语言。”中国科学院软件所研究员、中国中文信息学会副理事长孙乐说。无论是能逗你一乐的Siri,还是会做诗的小冰,亦或是会“悬丝诊脉”的沃森,它们并不真正明白自己在做什么、为什么这么做。
让机器学会思考,要靠“谱”。这个“谱”被称为知识图谱,意在将人类世界中产生的知识,构建在机器世界中,进而形成能够支撑类脑推理的知识库。
为了在国内构建一个关于知识图谱的全新产学合作模式,知识图谱研讨会日前召开,来自高校院所的研究人员与产业团队共商打造全球化的知识图谱体系,建立世界领先的人工智能基础设施的开拓性工作。
技术原理:把文本转化成知识
“对于‘姚明是上海人’这样一个句子,存储在机器里只是一串字符。而这串字符在人脑中却是‘活’起来的。”孙乐举例说。比如说到“姚明”,人会想到他是前美职篮球员、“小巨人”、中锋等,而“上海”会让人想到东方明珠、繁华都市等含义。但对于机器来说,仅仅说“姚明是上海人”,它不能和人类一样明白其背后的含义。机器理解文本,首先就需要了解背景知识。
那如何将文本转化成知识呢?
“借助信息抽取技术,人们可以从文本中抽取知识,这也正是知识图谱构建的核心技术。”孙乐说,目前比较流行的是使用“三元组”的存储方式。三元组由两个点、一条边构成,点代表实体或者概念,边代表实体与概念之间的各种语义关系。一个点可以延伸出多个边,构成很多关系。例如姚明这个点,可以和上海构成出生地的关系,可以和美职篮构成效力关系,还可以和2.26米构成身高关系。
“如果这些关系足够完善,机器就具备了理解语言的基础。”孙乐说。那么如何让机器拥有这样的“理解力”呢?
“上世纪六十年代,人工智能先驱麻省理工学院的马文·明斯基在一个问答系统项目SIR中,使用了实体间语义关系来表示问句和答案的语义,剑桥语言研究部门的玛格丽特·玛斯特曼在1961年使用Semantic Network来建模世界知识,这些都可被看作是知识图谱的前身。”孙乐说。
随后的Wordnet、中国的知网(Hownet)也进行了人工构建知识库的工作。
“这里包括主观知识,比如社交网站上人们对某个产品的态度是喜欢还是不喜欢;场景知识,比如在某个特定场景中应该怎么做;语言知识,例如各种语言语法;常识知识,例如水、猫、狗,教人认的时候可以直接指着教,却很难让计算机明白。”孙乐解释,从这些初步的分类中就能感受到知识的海量,更别说那些高层次的科学知识了。
构建方式:从手工劳动到自动抽取
“2010年之后,维基百科开始尝试‘众包’的方式,每个人都能够贡献知识。”孙乐说,这让知识图谱的积累速度大大增加,后续百度百科、互动百科等也采取了类似的知识搜集方式,发动公众使得“积沙”这个环节的时间大大缩短、效率大大增加,无数的知识从四面八方赶来,迅速集聚,只待“成塔”。
面对如此大量的数据,或者说“文本”,知识图谱的构建工作自然不能再手工劳动,“让机器自动抽取结构化的知识,自动生成‘三元组’。”孙乐说,学术界和产业界开发出了不同的构架、体系,能够自动或半自动地从文本中生成机器可识别的知识。
孙乐的演示课件中,有一张生动的图画,一大摞文件纸吃进去,电脑马上转化为“知识”,但事实远没有那么简单。自动抽取结构化数据在不同行业还没有统一的方案。在“百度知识图谱”的介绍中这样写道:对提交至知识图谱的数据转换为遵循Schema的实体对象,并进行统一的数据清洗、对齐、融合、关联等知识计算,完成图谱的构建。“但是大家发现,基于维基百科,结构化半结构化数据挖掘出来的知识图谱还是不够,因此目前所有的工作都集中在研究如何从海量文本中抽取知识。”孙乐说,例如谷歌的Knowledge Vault,以及美国国家标准与技术研究院主办的TAC-KBP评测,也都在推进从文本中抽取知识的技术。
在权威的“知识库自动构建国际评测”中,从文本中抽取知识被分解为实体发现、关系抽取、事件抽取、情感抽取等4部分。在美国NIST组织的TAC-KBP中文评测中,中科院软件所—搜狗联合团队获得综合性能指标第3名,事件抽取单项指标第1名的好成绩。
“我国在这一领域可以和国际水平比肩。”孙乐介绍,中科院软件所提出了基于Co-Bootstrapping的实体获取算法,基于多源知识监督的关系抽取算法等,大幅度降低了文本知识抽取工具构建模型的成本,并提升了性能。
终极目标:将人类知识全部结构化
《圣经·旧约》记载,人类联合起来兴建希望能通往天堂的高塔——“巴别塔”,而今,创造AI的人类正在建造这样一座“巴别塔”,帮助人工智能企及人类智能。
自动的做法让知识量开始形成规模,达到了能够支持实际应用的量级。“但是这种转化,还远远未达到人类的知识水平。”孙乐说,何况人类的知识一直在增加、更新,一直在动态变化,理解也应该与时俱进地体现在机器“脑”中。
“因此知识图谱不会是一个静止的状态,而是要形成一个循环,这也是美国卡耐基梅隆大学等地方提出来的Never Ending Learning(学无止境)的概念。”孙乐说。
资料显示,目前谷歌知识图谱中记载了超过35亿事实;Freebase中记载了4000多万实体,上万个属性关系,24亿多个事实;百度百科记录词条数1000万个,百度搜索中应用了联想搜索功能。
“在医学领域、人物关系等特定领域,也有专门的知识图谱。”孙乐介绍,Kinships描述人物之间的亲属关系,104个实体,26种关系,10800个事实;UMLS在医学领域描述了医学概念之间的联系,135个实体,49种关系,6800个事实。
“这是一幅充满美好前景的宏伟蓝图。”孙乐说,知识图谱的最终目标是将人类的知识全部形式化、结构化,并用于构建基于知识的自然语言理解系统。
尽管令业内满意的“真正理解语言的系统”还远未出现,目前的“巴别塔”还只是在基础层面,但相关的应用已经显示出广阔的前景。例如,在百度百科输入“冷冻电镜”,右竖条的关联将出现“施一公”,输入“撒币”,将直接在搜索项中出现“王思聪”等相关项。其中蕴含着机器对人类意图的理解。
这是一款阿里员工业余时间设计的论文相似性可视化的工具 功能是查找相似论文,并用图表的形式展现这些论文之间的关系。
可以把它理解为这篇论文的祖先们 这些是图表中最常被引用的论文,它们是该领域重要的开创性工作。 选择这些论文的时候,有引用关系的论文会被高亮。
可以把它理解为这篇论文的后代们 这些论文可能是受到图表中的论文启发的近期相关工作,或者是对该领域的调查。 通常包括该领域的现状,系统综述,元分析等。 同样,选择这些论文的时候,有引用关系的论文会被高亮。
我认为这款工具理论上非常适合用于辅助论文中Related Work,和Literature Review部分,比如下面这部分是对Related Work部分如何完成的指导,可以看出需要10到20个相关工作,借助CONNECT PAPERS(以下简称CP)可以很直观地获取更多的相似论文。找到该主题的“先祖“或者“后代”。