数据库设计与优化摘 要:数据库技术是计算机科学中发展最快的领域之一,也是应用最广的技术之一,它已成为计算机信息系统与应用系统的核心技术和重要基础。本文讨论数据库设计流程的所有重要方面,包括需求分析阶段;概念设计阶段;逻辑设计阶段;物理设计阶段;数据库实施阶段;数据库运行维护阶段的六个阶段,并提出数据库设计中所出现的各种问题,并归纳分析了解决这些问题的种种途径。关键词:数据库设计;数据冗余;数据库管理系统引言:近年来,随着多媒体技术、空间数据库技术和计算机网络的飞速发展,数据库系统的发展十分迅速,应用领域愈来愈广,企事业单位、政府部门的行政管理、办公自动化;企业生产计划管理;军队物资管理;银行财务管理;铁路、民航飞机票预定系统;铁路车次调度系统;宾馆、酒店房间预定系统;图书馆管理;政府部门的计划和统计系统;人口普查;气象预报;地震,勘探等大量数据的贮存和统计分析;以及最近google推出的全球卫星定位系统、手机GPRS定位系统,其背后都是一个规模巨大的数据库。 如何合理高效地为政府管理人员或企业高层决策人员、设计数据库管理系统服务已成为当务之急。好的灵活的数据库设计,既能给前台应用程序的设计带来简便,又能给后台数据库的编码和扩充,和系统的维护带来极大的便利。现在关系型数据库已成为业界的主流,而我们讨论的也主要是基于关系型数据库的。 目前设计数据库系统主要采用的是以逻辑数据库设计和物理数据库设计为核心的规范设计方法。其中逻辑数据库设计是根据用户要求和特定数据库管理系统的具体特点,以数据库设计理论为依据,设计数据库的全局逻辑结构和每个用户的局部逻辑结构。物理数据库设计是在逻辑结构确定之后,设计数据库的存储结构及其他实现细节。在数据库设计开始之前,数据库设计人员将始终参与数据库设计,他们的水平直接影响了数据库系统的质量:用户在数据库设计中也举足轻重的,他们主要参加需求分析和数据库的运行维护,他们的积极参与不但能加速数据库设计,而且是决定数据库设计的质量的又一因素。程序员和操作人员则在系统实施阶段参与进来,分别负责编制程序和准备软硬环境。数据库设计的总流程一、 数据库设计的六个阶段各种规范化设计方法在设计步骤上存在差别,各有千秋。通过分析、比较与综合各种常见的数据库规范化设计方法,一般将数据库设计分为以下六阶段:需求分析阶段;概念设计阶段;逻辑设计阶段;物理设计阶段;数据库实施阶段;数据库运行维护阶段。(如下图所示) 二、 需求分析要设计一个有效的数据库,必须用系统工程的观点来考虑问题。在系统分析阶段,设计者和用户双方要密切合作,共同收集和分析数据管理中信息的内容和用户对处理的需求。在调研中,首先要了解数据库所管理的数据将覆盖哪些工作部门,每个部门的数据来自何处,它们是依照什么样的原则处理加工这些数据的,在处理完毕后输出哪些信息到其他部门。其次要确定系统的边界,在与用户充分讨论的基础上,确定计算机数据处理范围,确定哪些工作要由人工来完成,确定人机接口界面。最后得到业务信息流程图。信息流程图中的每个子系统都可抽象为以下所示的框图。 在系统分析过程中,要确定数据管理的信息要求和处理要求。信息要求是指用户需要从数据库中获得信息的内容与性质。由用户的信息要求可以导出数据要求,即在数据库中需要存储哪些数据。处理要求是指用户要求完成什么处理功能,对处理的响应时间有什么要求,处理方式是批处理还是联机处理。新系统的功能必须满足用户的信息要求,处理要求,安全性和完整性要求。这一阶段的工作是否能准确地反映实际系统的信息流程情况和用户对数据库系统的要求,直接影响到以后各阶段的工作,并影响到数据库系统将来运行的效率,因为分析阶段的工作是整个数据设计的基础。三、 概念设计在需求分析阶段数据库设计人员充分调查并描述了用户的应用需求,但这些应用需求还是现实世界的具体需求,应该首先把他们抽象为信息世界的结构,才能更好地、更准确地用某个DBMS实现用户的这些需求。将需求分析得到的用户需求抽象为信息结构即概念模型的过程就是概念结构设计。概念结构独立于数据库逻辑结构,也独立于支持数据库的DBMS。它是现实世界与机器世界的中介,它一方面能够充分反映现实世界,包括实体和实体之间的联系,同时又易于向关系、网状、层次等各种数据模型转换。它是现实世界的一个真实模型,易于理解,便于和不熟悉计算机的用户交换意见,使用户易于参与。当现实世界需求改变时,概念结构可以很容易地作出相应调整。因此概念结构设计是整个数据库设计的关键所在。概念结构设计一般需要两个阶段:第一个阶段是根据用户对数据和处理的需求,为产生全局视图,得到每个用户各自的局部视图,对每个用户的局部数据结构进行描述。第二阶段是在定义了各用户的局部视图的基础上,利用一定的工具分析各个局部视图,并把它们合并成一个统一的全局数据结构,即全局视图。全局视图被称为数据库概念模型。实际上,概念设计得到的实体模型。由于实体模型(如用E-R方法)不易描述,故实体模型通常是用一些原始表格来描述,这样比较直观。四、 逻辑设计概念结构是各种数据模型的共同基础,它比数据模型更独立于机器,更抽象,从而更加稳定。但为了能够用某一DBMS实现用户需要,还必须将概念结构进一步转化为相应的数据模型,这正是数据库逻辑结构设计所要完成的任务。从理论上讲,设计逻辑结构应该选择最适于描述与表达相应概念的结构模型,然后对支持这种数据模型的各种DBMS进行比较,综合考虑性能、价格等各种因素,从中选出最合适的DBMS。但在实际当中,往往是已给定了某台机器,设计人员没有选择DBMS的余地。目前DBMS产品一般只支持关系、网状、层次3种模型中的某一种,对某一种数据模型,各个机器系统又有许多不同的限制,提供不同的环境与工具。所以设计逻辑结构的一般要分3步进行: 将概念结构转化为一般的关系、网状、层次模型。 将转化来的关系、网状、层次模型向特定DBMS支持下的数据模型转换。 对数据模型进行优化。一般数据库逻辑设计的结果要符合下面的准则: 把以同样方式使用的段类型存储在一起。 按照标准使用来设计系统。 在用于例外的分离区域。 最小化表空间冲突。 将数据字典分离。五、 物理设计对于给定的逻辑数据模型选取一个最适合应用环境的物理结构的过程为物理设计。数据库的物理结构主要指数据库的存储记录格式、存储记录安排和存储方法,这些都依赖于所使用的系统。在网状模型和层次模型系统中,这一部分内容较复杂,因为它们是用指针表示记录的联系。关系模型系统比较简单一些,仅包含索引机制、空间大小、块的大小等内容。在设计物理结构时,应先确定数据库的物理结构,然后对物理结构进行评价。评价的重点是时间和空间的效率。数据的存储决定了数据库占用多少空间,数据的处理决定了操作时间的效率。物理结构设计应尽量减少存储空间的占用,也应尽量减少操作次数,做到相应时间越快越好。如果评价结果满足原设计要求,则转向物理实施。否则,就要重新修改或重新设计物理结构,有时甚至要回到逻辑设计阶段修改数据模型。物理设计完成之后,就应该得到详细的磁盘分配方案、存储方案、各种基表的详细信息等。根据这些信息就可以上机建立数据库。六、 数据库实施对数据库的物理设计初步评价完后,就可以开始建立数据库了。数据库实施主要包括:用DDL定义数据库结构,组织数据入库,编制与调试应用程序,数据库试运行。所谓使用DDL定义数据库结构,就是使用DBMS的建库命令建立相应的用户数据库结构。组织数据库入库就是将装载在其他介质上的数据输入到数据库中去。为了完成相应的操作和检索,需要编制很多程序,形成一个程序系统来使用该数据库,这部分是程序设计的任务。一切就绪之后,就可以试运行数据库了。七、 系统管理和维护数据库试运行结果符合设计目标后就可以真正投入运行了。数据库投入运行标志着开发任务基本完成和维护工作开始,并不意味着设计过程的终结。由于应用环境在不断地变化,数据库运行过程中物理存储也不会不断变化。对数据库设计进行评价、调整、修改等维护工作是一项长期的任务,也是设计工作的继续和改进。在数据库运行的阶,对数据库经常性的维护工作主要由DBA完成,这包括以下内容: 数据库的转储和恢复 数据库的安全性、完整性控制 数据库的性能监督、分析和改进 数据库的重组织和重构造解决数据库设计中存在的问题一、需求分析采集 设计一个数据库,第一件的事情就是搞好用户需求分析,需求分析是对现实世界深入了解的过程,数据库能否正确地反映现实世界,主要决定于需求分析。而需求分析的采集主要是由设计人员和该单位有关工作人员合作进行的。需求分析的结果整理成需求说明。需求说明是数据库技术人员和应用单位的工作人员取得共识的基础,必须得到有关管理人员确认。需求说明经过评审后,才成为正式的需求文档,为下一步的数据库设计打好基础。在定义数据库表和字段需求(输入)时,首先应检查现有的或者已经设计出的报表、查询和视图(输出)以决定为了支持这些输出哪些是必要的表和字段。假如客户需要一个报表按照邮政编码排序、分段和求和,你要保证其中包括了单独的邮政编码字段而不要把邮政编码糅进地址字段里。二、考察现有系统 在需求分析采集的过程中,不仅要耐心地和用户讨论业务需求而且还要考察现有的系统。大多数数据库项目都不是从头开始建立的;通常,机构内总会存在用来满足特定需求的现有系统(可能没有实现自动计算)。显然,现有系统并不完美,否则你就不必再建立新系统了。三、分析各种可能的变化 在具体设计每一个字段时一定要从长远角度考虑它以后的扩充,给出一定的预留空间。这样你设计的数据库的伸缩性就非常好。以后在系统升级维护时就非常容易,不至于重构整个系统。这方面的一个典型例子就是:身份证的长度问题,以前是15位,现在是18位,如果你当时设计成15位的话,为那3位的扩充你将会付出多大代价啊。四、数据库逻辑性设计键选择原则:键设计原则为关联字段创建外键。所有的键都必须唯一;避免使用复合键。外键总是关联唯一的键字段。使用系统生成的主键。设计数据库的时候采用系统生成的键作为主键,那么实际控制了数据库的索引完整性。这样,数据库和非人工机制就有效地控制了对存储数据中每一行的访问。采用系统生成键作为主键还有一个优点:当拥有一致的键结构时,找到逻辑缺陷很容易。五、关系模式规范化的度 对数据库进行关系模式规范化不仅有助于消除数据库中的数据冗余、删除、插入等异常出错的可能性,而且,还使你的设计比较科学、规范,同时也使你的系统的伸缩性,以及后期维护特别容易。 3NF通常被认为在性能、扩展性和数据完整性方面达到了最好平衡。其定义为:关系R中若不存在这样的码X、属性组Y及非主属性Z(Z包含于Y)使得X决定Y、Y不依赖于X、Y决定Z成立,则称R属于3NF。 此外,还有BCNF,4NF、5NF等更高层次的关系规范化,但是不是关系规范化的程序越高, 就越实用呢,就越能满足我们的要求呢?我只能用不一定来回答,因为这要视情况而定。其实,在有些项目中是非常慎用关系模式的。因为如果规范化的程序越高,势必要将一个大表拆分成几个小表,在这些小表中用一些键值进行联接,在查询时就需要对多个表进行连接,而联接时最易产生迪卡尔积,这样查询结果集就成几何倍增,非常影响查询的效率。所以为了追求效率我们有时不对表进行关系规范化也是必要的,这样的例子很多。六、要为尽量减轻前台的编码而工作 不要养成对数据库的复杂操作都放到前台来管理的习惯,这样会使你的程序的可读性非常差,同时也造成数据的不一致,而且会对后期的维护带来很大隐患。这一块完全应该是DBA的工作。这方面的典型例子就是数据的更新和删除操作。如果我们把这两种操作都放在前台来管理的话,就需要对多个表进行操作,操作不当的话,就会造成数据不一致。而如果DBA在后台对这几个表搭建关系的话,你在前台只要对一个主表进行操作,那么其他的几个从表就会自动更新。由此可见DBA的工作的重要性。所以,请不要把数据的管理工作都放到前台来做,因为这不是体现你编程能力的时机。七、合理使用数据类型 我们要合理使用一些常规的数据类型,这样不仅能减少数据冗余,而且也能使你的设计更加科学、明确,同时也能使你的数据更加准确。如Oracle9i中有一个float类型,它并没有限定小数位,如果你输入时带小数位的话,它会将它精确得很长,虽然你在往数据库中存放时限定了小数位,但当你在前台进行输出时,就有可能出现小数位精度过度的情况,所以可用numeric来替代。但同时又有另一个问题发生了:例如我们用asp开发网站时用的vbscript就不支持该类型(它只认float)。所以我们应该综合考虑多种因素酌情设计。八、用视图隐藏细节 我们考虑这样的情况,当我们在进行数据库模式设计时需要将一张大表拆分为几张小表,而在进行查询时又需要将几张小表合并为一张大表。如果表比较多的话,我们就要编写复杂的SQL语句,有没有一种机制将这几张小表一次合并为一张虚表,然后对一张表查询,这样操作起来就会简单得多。答案是肯定的。在Oracle9i中可以用视图解决。视图是在你的数据库和你的应用程序代码之间提供另一层抽象,你可以为你的应用程序建立专门的视图而不必非要应用程序直接访问数据表。这样做还等于在处理数据库变更时给你提供了更多的自由,同时也对数据的一些底层操作进行了隐藏。 结论 总之,我们在进行数据库设计时,一定要综合考虑多种因素,具体问题具体分析,既要考虑当前实现的可行性,又要考虑以后的升级维护;既要减轻前台编码的负担,又要让后台的管理简单易行;既要让前台的查询效率高,又要让后台的实现方便可行。数据库设计是一项综合性设计,决非一朝一夕之功,只有在工作、学习中多思考、多动脑、多总结、灵活运用所学知识,综合考虑各种因素,平衡把握每个细节,这样数据库设计才会更加科学、合理。参考文献:1 大型数据库技术及应用 重庆大学出版社 王 越 刘加伶 李 梁 著 2 数据库系统概论 高等教育出版社 王 珊 萨师煊 著 3 数据库管理系统 清华大学出版社 尹买华 著 4 软件设计方法 清华大学出版社 王 选 著 5 数据库设计 机械工业出版社 何玉洁 著
国内主要有5大期刊数据库一、中国知网提供的《中国学术期刊(光盘版)》也称中国期刊全文数据库由清华同方股份有限公司出版。收录1994年以来国内6 600种期刊,包括了学术期刊于非学术期刊,涵盖理工、农业、医药卫生、文史哲、政治军事与法律、教育与社会科学综合、电子技术与信息科学、经济与管理。收录的学术期刊同时作为“中国学术期刊综合评价数据库统计源期刊”。但是收录的期刊不很全面,一些重要期刊未能收录。二、中国生物医学文献数据库(CBMDISC)由数据库是中国医学科学院信息研究所开发研制,收录了自1978年以来1 600余种中国生物医学期刊。范围涉及基础医学、临床医学、预防医学、药学、中医学及中药学等生物医学的各个领域。三、中文生物医学期刊数据库(CMCC)由中国人民解放军医学图书馆数据库研究部研制开发。收录了1994年以来国内正式出版发行的生物医学期刊和一些自办发行的生物医学刊物1 000余种的文献题录和文摘。涉及的主要学科领域有:基础医学、临床医学、预防医学、药学、医学生物学、中医学、中药学、医院管理及医学信息等生物医学的各个领域。并具有成果查新功能医学全在线四、万方数据资源系统(China Info)由中国科技信息研究所,万方数据股份有限公司研制。该数据库收录的期刊学科范围广,包括了学术期刊于非学术期刊,提供约2 000种的电子期刊的全文检索。被收录的学术期刊都获得了“中国核心期刊(遴选)数据库来源期刊”的收录证书。个别期刊甚至将“遴选”改成“精选”,或者干脆去掉。很多作者因此误以为这就是核心期刊。五、维普数据库也称中文科技期刊数据库,维普科技期刊数据库,由中国科学技术信息研究所重庆分所出版。收录了1989年以来我国自然科学、工程技术、农业科学、医药卫生、经济管理、教育科学和图书情报等学科9 000余种期刊,包括了学术与非学术期刊。收录期刊数量很大,但不足之处是部分国家新闻出版总署公布的非法期刊也被收录了。一般的,学术期刊都能进入至少1个国内期刊数据库。期刊据数据库[3]不是期刊的评价体系,对科研处的期刊性质评价也就缺乏足够的意义,故不宜作为期刊性质评价的依据。1、万方数据万方数据提供中国大陆科技期刊检索,是万方数据股份有限公司建立的专业学术知识服务网站。隶属于万方数据资源系统,对外服务数据由万方数据资源系统统一部署提供。2、全国报刊索引收录全国包括港台地区的期刊8000种左右,月报道量在8万条以上,年报道量在44万条左右,书本式用户有3500多家,现又出版光盘数据库。反映了中国政治、经济、军事、科学、文化、文学艺术、历史地理、科技等方面的发展情况,提供了国内外最新学术进展信息。该索引是我国收录报刊种类最多,内容涉及范围最广,持续出版时间最长,与新文献保持同步发展的权威性检索刊物,也是查找建国以来报刊论文资料最重要的检索工具。正文采用分类编排,先后采用过《中国人民大学图书分类法》和自编的《报刊资料分类表》,1980年起,仿《中国图书馆图书分类法》分21类编排,1992年全面改用《中国图书资料分类法》(第三版)编排,2000年开始用《中国图书馆分类法》(第四版)标引,计算机编排。在著录上,《全国报刊索引》从1991年起采用国家标准——《检索期刊条目著录规则》进行著录,包括题名、著译者姓名、报刊名、版本、卷期标识、起止页码、附注等项。同时,“哲社版”采用电脑编排,增加了“著者索引”、“题中人名分析索引”、“引用报刊一览表”,方便了读者的使用。3、超星数字图书馆为目前世界最大的中文在线数字图书馆,提供大量的电子图书资源提供阅读,其中包括文学、经济、计算机等五十余大类,数十万册电子图书,300 万篇论文,全文总量 4亿余页,数据总量30000GB,大量免费电子图书,并且每天仍在不断的增加与更新。覆盖范围:涉及哲学、宗教、社科总论、经典理论、民族学、经济学、自然科学总论、计算机等各个学科门类。本馆已订购67万余册。 收录年限:1977年至今。4、维普资讯维普资讯是科学技术部西南信息中心下属的一家大型的专业化数据公司,是中文期刊数据库建设事业的奠基人,公司全称重庆维普资讯有限公司。目前已经成为中国最大的综合文献数据库。从1989年开始,一直致力于对海量的报刊数据进行科学严谨的研究、分析,采集、加工等深层次开发和推广应用。5、中宏数据库中宏数据库由国家发改委所属的中国宏观经济学会、中宏基金、中国宏观经济信息网、中宏经济研究中心联合研创。是由18类大库、74类中库组成,涵盖了九十年代以来宏观经济、区域经济、产业经济、金融保险、投资消费、世界经济、政策法规、统计数字、研究报告等方面的详尽内容,是目前国内门类最全,分类最细,容量最大的经济类数据库。
只有四大数据库吧知网、万方、维普、龙源
数据库论文在百度上就有很多,可自行下载。数据库(Database)是按照数据结构来组织、存储和管理数据的仓库,它产生于距今六十多年前,随着信息技术和市场的发展,特别是二十世纪九十年代以后,数据管理不再仅仅是存储和管理数据,而转变成用户所需要的各种数据管理的方式。数据库有很多种类型,从最简单的存储有各种数据的表格到能够进行海量数据存储的大型数据库系统都在各个方面得到了广泛的应用。在信息化社会,充分有效地管理和利用各类信息资源,是进行科学研究和决策管理的前提条件。数据库技术是管理信息系统、办公自动化系统、决策支持系统等各类信息系统的核心部分,是进行科学研究和决策管理的重要技术手段。数据库(Database)是按照数据结构来组织、存储和管理数据的建立在计算机存储设备上的仓库。简单来说是本身可视为电子化的文件柜——存储电子文件的处所,用户可以对文件中的数据进行新增、截取、更新、删除等操作。在经济管理的日常工作中,常常需要把某些相关的数据放进这样的“仓库”,并根据管理的需要进行相应的处理。
Elsevier(sciencedirect)是荷兰一家全球著名的学术期刊出版商,每年出版大量的学术图书和期刊,大部分期刊被SCI、SSCI、EI收录,是世界上公认的高品位学术期刊。近几年该公司将其出版的2,500多种期刊和11,000图书全部数字化,即ScienceDirect全文数据库,并通过网络提供服务。该数据库涉及众多学科:计算机科学、工程技术、能源科学、环境科学、材料科学、数学、物理、化学、天文学、医学、生命科学、商业、及经济管理、社会科学等。国内11所学术图书馆于2000年首批联合订购SDOS数据库中1998年以来的全文期刊。
大数据只是一个时代背景,具体内容可以班忙做
"大数据"是一个体量特别大,数据类别特别大的数据集,并且这样的数据集无法用传统数据库工具对其内容进行抓取、管理和处理。 "大数据"首先是指数据体量(volumes)?大,指代大型数据集,一般在10TB?规模左右,但在实际应用中,很多企业用户把多个数据集放在一起,已经形成了PB级的数据量;其次是指数据类别(variety)大,数据来自多种数据源,数据种类和格式日渐丰富,已冲破了以前所限定的结构化数据范畴,囊括了半结构化和非结构化数据。接着是数据处理速度(Velocity)快,在数据量非常庞大的情况下,也能够做到数据的实时处理。最后一个特点是指数据真实性(Veracity)高,随着社交数据、企业内容、交易与应用数据等新数据源的兴趣,传统数据源的局限被打破,企业愈发需要有效的信息之力以确保其真实性及安全性。 从所周知,大数据已经不简简单单是数据大的事实了,而最重要的现实是对大数据进行分析,只有通过分析才能获取很多智能的,深入的,有价值的信息。那么越来越多的应用涉及到大数据,而这些大数据的属性,包括数量,速度,多样性等等都是呈现了大数据不断增长的复杂性,所以大数据的分析方法在大数据领域就显得尤为重要,可以说是决定最终信息是否有价值的决定性因素。基于如此的认识,大数据分析普遍存在的方法理论有哪些呢? 大数据分析的使用者有大数据分析专家,同时还有普通用户,但是他们二者对于大数据分析最基本的要求就是可视化分析,因为可视化分析能够直观的呈现大数据特点,同时能够非常容易被读者所接受,就如同看图说话一样简单明了。 大数据分析的理论核心就是数据挖掘算法,各种数据挖掘的算法基于不同的数据类型和格式才能更加科学的呈现出数据本身具备的特点,也正是因为这些被全世界统计学家所公认的各种统计方法(可以称之为真理)才能深入数据内部,挖掘出公认的价值。另外一个方面也是因为有这些数据挖掘的算法才能更快速的处理大数据,如果一个算法得花上好几年才能得出结论,那大数据的价值也就无从说起了。 大数据分析最终要的应用领域之一就是预测性分析,从大数据中挖掘出特点,通过科学的建立模型,之后便可以通过模型带入新的数据,从而预测未来的数据。 大数据分析广泛应用于网络数据挖掘,可从用户的搜索关键词、标签关键词、或其他输入语义,分析,判断用户需求,从而实现更好的用户体验和广告匹配。 大数据分析离不开数据质量和数据管理,高质量的数据和有效的数据管理,无论是在学术研究还是在商业应用领域,都能够保证分析结果的真实和有价值。 大数据分析的基础就是以上五个方面,当然更加深入大数据分析的话,还有很多很多更加有特点的、更加深入的、更加专业的大数据分析方法。 当下我国大数据研发建设应在以下四个方面着力 一是建立一套运行机制。大数据建设是一项有序的、动态的、可持续发展的系统工程,必须建立良好的运行机制,以促进建设过程中各个环节的正规有序,实现统合,搞好顶层设计。 二是规范一套建设标准。没有标准就没有系统。应建立面向不同主题、覆盖各个领域、不断动态更新的大数据建设标准,为实现各级各类信息系统的网络互连、信息互通、资源共享奠定基础。 三是搭建一个共享平台。数据只有不断流动和充分共享,才有生命力。应在各专用数据库建设的基础上,通过数据集成,实现各级各类指挥信息系统的数据交换和数据共享。 四是培养一支专业队伍。大数据建设的每个环节都需要依靠专业人员完成,因此,必须培养和造就一支懂指挥、懂技术、懂管理的大数据建设专业队伍。
事实上,所谓“大数据时代”的说法并不新鲜,早在2010年,“大数据”的概念就已由美国数据科学家维克托·迈尔·舍恩伯格系统地提出。他在 大数据时代一书中说,以前,一旦完成了收集数据的目的之后,数据就会被认为已经没有用处了。比如,在飞机降落之后,票价数据就没有用了;一个网络检索命令完成之后,这项指令也已进入过去时。但如今,数据已经成为一种商业资本,可以创造新的经济利益。数据能够成为一种资本,与移动互联网有密切关系。随着智能手机、平板电脑等移动数码产品的“白菜化”,Wi-Fi信号覆盖的无孔不入,越来越多的人不再有“在线时间”和“不在线时间”之分,只要他们愿意,便可几乎24小时一刻不停地挂在线上;在线交易、在线支付、在线注册等网络服务的普及固然方便了用户,却也让人们更加依赖网络,依赖五花八门的网上平台。而随着科技的进步,以往需要几盒软盘或一张光盘保存的信息,如今只需一片指甲盖大小的芯片,即可全部储存而且绰绰有余;以往需要电脑、显示器、读卡器等专门设备才能读取的数码信息载体,如今或许只需一部智能手机和一个免费下载的APP第三方应用程序,便可将数据一览无余。大数据时代的科技进步,让人们身上更多看似平常的东西成为“移动数据库”,如带有存储芯片的第二代银行卡、信用卡,带有芯片读取功能的新型护照、驾驶证、社保卡、图书证,等等。在一些发达国家,官方为了信息录入方便,还不断将多种“移动数据库”的功能组合成一体。数字化时代使得信息搜集、归纳和分析变得越来越方便,传统的随机抽样被“所有数据的汇拢”所取代,基于随机抽样而变得重要的一些属性,如抽样的精确性、逻辑思辨和推理判断能力,就变得不那么重要,尽可能汇集所有数据,并根据这些数据得出趋势和结论才至为关键。简单说,以往的思维决断模式是基于“为什么”,而在“大数据时代”,则已可直接根据“是什么”来下结论,由于这样的结论剔除了个人情绪、心理动机、抽样精确性等因素的干扰,因此,将更精确,更有预见性。不过,一些学者指出,由于“大数据”理论过于依靠数据的汇集,那么一旦数据本身有问题,在“只问有什么,不问为什么”的模式下,就很可能出现“灾难性大数据”,即因为数据本身的问题,而做出错误的预测和决策。
树妈妈生了一些可爱的嫩芽弟弟妹妹许多叶儿宝宝都穿着绿色的礼服去凑热闹,从远处看,像一块无暇的翡翠,给大树妈妈增添了许多生机 忽然,从远处传来了一阵扑鼻的芳香原来是美人蕉妹妹为春天姐姐的到来,穿上了华丽的礼服,以表示欢迎咦,那边怎么那么多花朵,红的、白的、紫的、黄的等,五彩缤纷走近一看,哦,原来花儿们正在比美比艺花儿们有的显示着自己有的在唱歌,声音是那么好听,所有的演员都被吸引住了有的在表演优美的舞蹈《天鹅湖》、《白雪公主》等真是太精彩了
1,CA检索就是发在期刊上,但通过国际会议宣读论文后收录入库。 2,JA检索是发在期刊上,但没有开会宣读,也被EI入库收录了。 3,准确来说,CA检索和JA检索的区别,就在于文章是否被国际会议宣读过。如果被国际会议宣读了,就是CA检索;没有被宣读,就是JA检索。 EI主要收录工程技术领域的重要文献,包括期刊以及会议文献,另外也收录一些科技报告、专著等。EI收录包括三种类型:被EI核心收录、非核心收录(Pageone收录)、会议论文。 在职称评审和校科技部每年奖励中,只认可被EI核心收录的文章(EI光盘版)。EI Village是一个数据库平台,包含两个数据库(EI和Inspec),所以首先把Inspec前面的勾去掉。下图是区分JA类型和CA类型的方法: 若判断为Document type: Conference article(CA检索),则为会议论文。 若判断为Document type: Journal article(JA检索),再同时满足② 有主题词和分类码,则为核心收录;若没有主题词和分类码则为非核心收录(Pageone收录)。 目前来说,EI期刊源刊基本是JA检索类型。 评职称时档次高于EI检索会议类型。EI期刊源刊的含金量绝对远高于EI检索会议。
有一个ei期刊目录!跟咱们北大核心目录一个意思!目录中的期刊就是
所谓EI检索期刊是指EI数据库中收录的源期刊,2015年大约有4800多种。核心期刊是国内对期刊的评价,目前有三种核心期刊目录:北京大学的《中文核心期刊要目总览》,南京大学的《中国社会科学引文索引(CSSCI)》的源期刊目录,中国科学院的《中国科学引文数据库(CSCD)》的源期刊目录。
《工程索引》(The Engineering Index,简称EI)创刊于1884年,是美国工程信息公司(Engineering information I)出版的著名工程技术类综合性检索工具。EI每月出版1期,文摘3万至4万条;每期附有主题索引与作者索引;每年还另外出版年卷本和年度索引,年度索引还增加了作者单位索引。出版形式有印刷版(期刊形式)、电子版(磁带)及缩微胶片。EI选用世界上工程技术类几十个国家和地区15个语种的3500余种期刊和1000余种会议录、科技报告、标准、图书等出版物。年报道文献量16万余条。收录文献几乎涉及工程技术各个领域。例如:动力、电工、电子、自动控制、矿冶、金属工艺、机械制造、土建、水利等。它具有综合性强、资料来源广、地理覆盖面广、报道量大、报道质量高、权威性强等特点。 EI把它收录的论文分为两个档次 1 、EI Compendex 标引文摘 它收录论文的题录、摘要,并以主题词、分类号进行标引深加工。有没有主题词和分类号是判断论文,是否被EI正式收录的唯一标志。2 、EI Page One题录 主要以题录形式报到。有的也带有摘要,但未进行深加工,没有主题词和分类号。所以Page One 带有文摘不一定算做正式进入EI。 EI 对稿件内容和学术水平的要求 1、 具有较高的学术水平的工程论文, 包括的学科有: —— 机械工程、机电工程、船舶工程、制造技术等; ——矿业、冶金、材料工程、金属材料、有色金属、陶瓷、塑料及聚合物工程等; —— 土木工程、建筑工程、结构工程、海洋工程、水利工程等; ——电气工程、电厂、电子工程、通讯、自动控制、计算机、计算技术、软件、航空航天技术等; ——化学工程、石油化工、燃烧技术、生物技术、轻工纺织、食品工业; ——工程管理。 2、 国家自然科学基金资助项目、科技攻关项目、"八六三"高技术项目等。 3、 论文达到国际先进水平, 成果有创新。 EI不收录纯基础理论方面的论文。
介绍一下(The Engineering Index,简称EI)创刊于1884年,是美国工程信息公司(Engineering information I)出版的著名工程技术类综合性检索工具。
MatDT 就是个不错的金属材料数据库, 好多国家的金属材料牌号都有
现在国能外的数据库有很多,现在国内比较流行的是《matmole》海量事实型材料科学数据,包含了金属、无机非、高分子、纳米、晶体、焊材、材料性能、相图、腐蚀、表面处理,化学词典等领域的相关数据。