参考文献自动生成:
知网
百度学术:
谷歌学术:
查找参考文献的网站:
1、文献党下载器()一款资源集成的文献下载平台,几乎整合了所有中外文献数据库资源,覆盖全科以及各种文献类型。整合资源包括知网、万方、维普、SpringerLink、Elsevier(sciencedirect)、Wiley 、Web of Science、PubMed 、EI、ProQuest(国外学位论文)等数据库资源,还有大量的世界知名期刊,如:nature《自然》、science《科学》、CELL《细胞》、PNAS《美国科学院院报》等等。只要有互联网,在哪里都可以查找下载文献。
2、知网:全球最大的中文数据库。提供中国学术文献、外文文献、学位论文、报纸、会议、年鉴、工具书等各类资源,并提供在线阅读和下载服务。涵盖领域包括:基础科学、文史哲、工程科技、社会科学、农业、经济与管理科学、医药卫生、信息科技等。
3、万方数据库:是由万方数据公司开发的,涵盖期刊、会议纪要、论文、学术成果、学术会议论文的大型网络数据库;也是和中国知网齐名的中国专业的学术数据库。
学科分类:综合,机械,电子电气,计算机/信息科学,能源/动力工程,建筑/土木工程,艺术,社会科学,语言/文学,教育,哲学,政治,生物,材料科学,环境科学,化学/化工,物理,数学。
4、Web of Science是获取全球学术信息的重要数据库。其中以SCIE、SSCI、A&HCI等引文索引数据库,JCR期刊引证报告和ESI基本科学指标享誉全球科技和教育界。Web of Science收录了论文中所引用的参考文献,通过独特的引文索引,用户可以用一篇文章、一个专利号、一篇会议文献、一本期刊或者一本书作为检索词,检索它们的被引用情况,轻松回溯某一研究文献的起源与历史,或者追踪其最新进展;可以越查越广、越查越新、越查越深。
5、Wiley 作为全球最大、最全面的经同行评审的科学、技术、医学和学术研究的在线多学科资源平台之一,Wiley及旗下的子品牌出版了超过500位诺贝尔奖得主的作品。“Wiley Online Library”覆盖了生命科学、健康科学、自然科学、社会与人文科学等全面的学科领域。Wiley Online Library上有1600多种经同行评审的学术期刊,20000本电子图书,170多种在线参考工具书,580多种在线参考书,19种生物学、生命科学和生物医学的实验室指南(Current Protocols),17种化学、光谱和循证医学数据库(Cochrane Library)。
6、Elsevier(sciencedirect)是荷兰一家全球著名的学术期刊出版商,每年出版大量的学术图书和期刊,大部分期刊被SCI、SSCI、EI收录,是世界上公认的高品位学术期刊。scienceDirect是爱思唯尔公司的全文数据库平台,是全球最大的科学、技术与医学全文电子资源数据库,提供2500余种学术期刊以及37000余种图书的全文内容。包括全球影响力极高的CELL《细胞杂志》、THE LANCET《柳叶刀杂志》等。
7、SpringerLink是全球最大的在线科学、技术和医学(STM)领域学术资源平台。Springer 的电子图书数据库包括各种的Springer图书产品,如专著、教科书、手册、地图集、参考工具书、丛书等。具体学科涉及:数学、物理与天文学、化学、生命科学、医学、工程学、计算机科学、环境科学、地球科学、经济学、法律。
8、PubMed 是一个免费的搜寻引擎,提供生物医学方面的论文搜寻以及摘要的数据库。它的数据库来源为MEDLINE。其核心主题为医学,但亦包括其他与医学相关的领域,像是护理学或者其他健康学科。PubMed 的资讯并不包括期刊论文的全文,但可提供指向全文提供者(付费或免费)的链接。
参考文献标准格式:
1、参考文献类型:
普通图书[M]、期刊文章[J]、报纸文章[N]、论文集[C]、学位论 文[D]、报告[R]、标准[s]、专利[P]、数据库[DB]、计算机程序[CP]、电 子公告[EB]、联机网络[OL]、网上期刊[J/OL]、网上电子公告[EB/OL]、其他未 说明文献[z]。
2.参考文献格式及示例:
(1)专著、论文集、学位论文、报告:
[序号]主要责任者.文献题名[文献类型标识]. 出版地:出版者,出版年:起止页码(任选).
[1]刘国钧,陈绍业,王凤翥.图书馆目录[M].北京:高等教育出版社,1957: 15—18.
[2]辛希孟.信息技术与信息服务国际研讨会论文集:A集[c].北京:中国社会科学 出版社.1994.
[3]Radden G&Kovecses Z.Towards a Theory of Metonymy[M].Amsterdam:John Benjamins,1999.
(2)期刊文章:
[序号]主要责任者.文献题名[T].刊名,年,卷(期):起止页码.
[4]金显贺,王昌长,王忠东,等.一种用于在线检测局部放电的数字滤波技术[T]. 清华大学学报(自然科学版),1993,33(4):62—67.
[5]Hubscher—Davidson S E.Personal diversity and diverse personalities in translation: A study of individual differences[J].Perspectives&u西es in Translatology,2009,1 7 (3):175-192.
(3)论文集中的析出文献:
[序号]析出文献主要责任者.析出文献题名[C]//原文献主要 责任者(任选).原文献题名.出版地:出版者,出版年:析出文献起止页码.
[6]钟文发.非线性规划在可燃毒物配置中的应用[C]//赵玮.运筹学的理论与应 用——中国运筹学会第五届大会论文集.西安:西安电子科技大学出版社,1996: 468-471.
[7]Barcelona A.Reviewing the properties and prototype structure of metonymy[C]//Benczes R,Barcelona A.Defining Metonymy in Cognitive Linguistics:Towards a Consensus View. Philadelphia:John Benjamins Publishing Co.,20 11:7—57.
(4)报纸文章:
[序号]主要责任者.文献题名[N].报纸名,出版日期(版次).
[8]谢希德.创造学习的新思路[N].人民El报,1998—12—25(10).
(5)国际、国家标准:
[序号].标准编号,标准名称[s].
[9]GB/T 16159—1996,汉语拼音正词法基本规则[s].
(6)专利:
[序号]专利所有者.专利题名[P].专利国别:专利号,出版日期.
[10]姜锡洲.一种温热外敷药制备方案[P].中国专利:881056073,1989—07—26.
(7)电子文献:
[序号]主要责任者.电子文献题名[电子文献及载体类型标识].(发表或 更新日期)[引用日期].电子文献的出处或可获得地址.
[11]王明亮.关于中国学术期刊标准化数据库系统工程的进展[EB/OL].(1998—08— 16)[1998—10—04].http:Hwww.cajcd.edu.cn/pub/wml.txt/980810—2.html.
[12]万锦坤.中国大学学报论文文摘(1983--1993).英文版[DB/CD].北京:中国 大百科全书出版社,1996.
(8)各种未定义类型的文献:
[序号]主要责任者.文献题名[z].出版地:出版者,出 版年.
写论文的时候,通常要求大家以后写十篇左右的参考文献。参考文献的要求应该和你写的题目有关。你写的是会计论文,后面的参考文献是体育论文,是完全不行的。下面和小编一起来了解论文怎么查参考文献? 论文参考文献通常需要10~15个左右,有些学校需要两个英文参考文献。参考文献通常有自己独特的格式,参考文献主要分为期刊和论文。许多学生不知道如何查看这些参考文献,其实并不难。最简单的方法就是直接从查重报告上抄下来。小编推荐的查重系统是Paperfree,将论文上传到该系统进行查重,通常等待15-30分钟左右,会有详细的查重报告。本查重报告将列出本文引用的一些参考文献,因此您只需将本查重报告上的一些参考文献原封不动地复制到您的论文中。这种查找参考文献的方法是最简单方便的,可以原封不动的复制,也可以保证参考文献的格式不会出错。 另一种方法是在早期写论文时阅读大量的参考文献,许多学生会记录这些参考文献的名称。您还可以阅读以前做的阅读笔记,并将这些参考文献摘录到论文中。
1、知网国内最大知识库,还有批量导出参考文献功能。 2、谷歌学术收录各个领域学术资料的免费搜索引擎。ScienceDirect收录的期刊是世界上公认的高质量学术期刊。 3、Web of Science数据库是国际公认的反映科学研究水准的数据库。检索精确到文献被收录的期刊、出版公司、作者、日期、页码等。 4、Pubmed广泛用于生物医学方面的文献搜索工具。
①首先要在三大网上中文期刊数据库中查找最新的期刊论文文献。中文科技期刊全文数据库和中国期刊网 ②在清华库中有中国优秀博硕士学位论文全文数据库和中国重要会议论文全文数据库,也是撰写毕业论文的重要信息来源; ③三大中文数字图书馆(超星、方正、书生)是重要的文献信息来源; ④使用两大搜索引擎,可以帮助你扩大思考的范围,指引你找到新的文献信息资源 ⑤如果找不到足够多的文献怎么办?可以采用“滚雪球法”进行查找,即利用已找到的文献后的参考文献扩大检索范围。清华库中的《中国期刊引文——全文链接记录库》也是帮助你实现“滚雪球查找”的有力工具;
先向大家推荐几个除了大家耳熟能详的知网、万方、维普之外的检索论文的网站。CiteSeerXCiteSeerX是免费论文搜索网,是CiteSeer的换代产品,而CiteSeer引文搜索引擎是利用自动引文标引系统(ACI)建立的第一个学术论文数字图书馆。CiteSeerX的检索界面简洁清晰,默认为文献(Documents)检索,还支持Authours、tables检索。若选择“IncludeCitations”进行搜索,期刊文献等检索范围会扩大,不仅包括学术文献全文的数据库,还会列出数据库中每篇论文的参考文献。点击“AdvancedSearch”,还可以进入高级检索界面。高级检索会增加检索的精确度,除了支持作者、作者单位、篇名等基本检索之外,还支持文本内容以及用户为论文定义的标签等更为详细的检索。国家哲学社会科学文献中心国家哲学社会科学文献中心是由中国社会科学院牵头,教育部和国家新闻出版广电总局配合建设,2016年12月30日正式上线运行。主要开设有资讯、资源、专题、服务四个栏目,资源包括中文期刊、外文期刊、外文图书、古籍四类,收录哲学社会科学相关领域文献共计10,000,000余条,提供有线阅读、全文下载等服务;还收录有国内外哲学社会科学领域重要的政府机构、高等院校、学术机构以及数据库的链接便于广大读者查阅、使用。初步形成国家哲学社会科学学术期刊数据库,外文学术期刊数据库,中国社会科学院科研成果数据库等特色资源数据库。FindaRticlesInformation Find Articles 作为文献论文搜索引擎,提供了多种顶极刊物的上千万篇论文,涵盖多方面的内容,包括艺术、商业、计算机与技术等。该网站大部分为免费全文资料,检索操作简单,查找十分方便。FindaRticles资料来源较为广泛,主要是来自于杂志、定期刊物和报纸等。HighWireHighWire,斯坦福学术文献电子期刊,由美国斯坦福大学图书馆创立,全球最大的学术文献出版商之一,世界上最大的免费科学期刊库。收录的期刊覆盖以下学科:生命科学、医学、物理学、社会科学,输入需要查找内容的关键词即可,提供免费全文阅读。CiteSeerX是免费论文搜索网,是CiteSeer的换代产品,而CiteSeer引文搜索引擎是利用自动引文标引系统(ACI)建立的第一个学术论文数字图书馆。CiteSeerX的检索界面简洁清晰,默认为文献(Documents)检索,还支持Authours、tables检索。若选择“IncludeCitations”进行搜索,期刊文献等检索范围会扩大,不仅包括学术文献全文的数据库,还会列出数据库中每篇论文的参考文献。介绍完我们查阅论文的利器之后,到了大家最关心的搜集资料的技巧。下面将介绍一些收集文献方面的干货~文献介绍收集文献主要是要找到一些该领域出现的“近期”的综述性文献,一般是不超过三年以前发表的论文。一般来说,英文的综述性文献在题目上有“review”(一般为较为通俗的综述评论)或“survey”(一般为比较专业化的文献综述)这样的字样。综述性文章的内容不是在研究一个具体的问题,而是在回顾、评论某个领域在最近或者过去的一段时间里的研究情况,并对于不同的研究者和不同时期的研究特点进行评论,最后还要为未来的研究方向以及创新的可能性作出预测。网络检索技巧Google是一个很好的图书馆。因为国外的论文全文通常都是pdf格式的,所以不妨在输入的论文名字前加个“pdf”作为关键词搜索。如果通过这些全文数据库还不能查阅到所需要的论文,不妨把论文发表期刊页码记下来,然后到Google上搜索其working paper。如果还不能搜集到,那么还可以尝试搜寻作者的主页。如果仍然没有,还可以尝试通过作者的邮件地址直接写信索取。如果这些方法都尝试了还不行,还可以在EBSCO查阅国内馆藏,请求帮助。最后,尝试以上各种办法都无法得到某篇文献,要么忍痛放弃,要么只有求助国外的朋友,或者从其他文献中间接引用。
文献党下载器():整合汇集大量中外文献数据库,每个数据库又提供了海量的文献资源。主要用于查询下载中外文献。知网:国内最大知识库,综合学科。提供中国学术文献、外文文献、学位论文、报纸、会议、年鉴、工具书、引文库、中国经济社会大数据研究平台等学术文献资源统一检索、统一导航、在线阅读和下载服务。万方:国内著名知识库之一,综合学科。涵盖期刊、会议纪要、论文、学术成果、学术会议论文的大型网络数据库。维普:期刊文献查询下载平台。读秀、超星:主要是电子书查询下载,需要下载超星阅读器。百度学术:免费学术论文搜索引擎,部分文献可直接下载。谷歌学术:免费外文学术论文搜索引擎,部分文献可直接下载。Web of Science(ISI科学引文索引):包括著名的三大引文索引数据库(SCI,SSCI,A&HCI)。ScienceDirect(Elsevier):荷兰一家全球著名的学术期刊出版商,每年出版大量的学术图书和期刊,大部分期刊被SCI、SSCI、EI收录,是世界上公认的高品位学术期刊。ProQuest:美国国会图书馆指定的收藏全美国博硕士论文的机构,ProQuest Dissertations & Theses Global(PQDT Global)是目前世界上规模最大、使用最广泛的博硕士论文数据库。SpringerLink:是全球最大的在线科学、技术和医学(STM)领域学术资源平台。主要用于外文电子书检索。PubMed: 生物医学信息检索系统,该系统通过网络途径免费提供包括MEDLINE在内的自1950年以来全世界70多个国家4300多种主要生物医学文献的书目索引和摘要,并提供部分免费和付费全文链接服务。Wiley:全球最大的学术出版商之一,面向专业人士、科研人员、教育工作者、学生、终身学习者提供必需的知识和服务。IEEE/IEE Electronic Library (IEL) 数据库:收录美国电气电子工程师学会( IEEE )和英国电气工程师学会( IEE )出版的 242 种期刊、 8706 余种会议录和近 1706 种标准的全文信息。
①首先要在三大网上中文期刊数据库中查找最新的期刊论文文献。中文科技期刊全文数据库和中国期刊网②在清华库中有中国优秀博硕士学位论文全文数据库和中国重要会议论文全文数据库,也是撰写毕业论文的重要信息来源;③三大中文数字图书馆(超星、方正、书生)是重要的文献信息来源;④使用两大搜索引擎,可以帮助你扩大思考的范围,指引你找到新的文献信息资源⑤如果找不到足够多的文献怎么办?可以采用“滚雪球法”进行查找,即利用已找到的文献后的参考文献扩大检索范围。清华库中的《中国期刊引文——全文链接记录库》也是帮助你实现“滚雪球查找”的有力工具; 哦 原来是翠翠啊。
论文查询网站有FindaRticles文献论文搜索、钛学术文献平台、Semantic Scholar学术搜索引擎和Base Search德国比勒菲尔德学术搜索引擎。
一、FindaRticles文献论文搜索
1、平台优势:类别比较丰富,体量也比较广,涵盖了艺术与娱乐、汽车、商业与经融、计算机与技术、健康与健身、新闻与社会、科学教育、体育等各个方面刊物的上千万篇论文。
2、平台评价:检索操作简单,文献质量可能有所欠缺,但是它所拥有的文献总量达1100万篇,资料来源于杂志、定期刊物和报纸等,而且是一个适配谷歌的搜索站点。
二、钛学术文献平台
1、平台优势:拥有超广的收录视角,超强的NPL算法,目前已收录亿余篇各式文献,是国内实力极强的一站式文献检索网站。
2、平台评价:实用功能较多,包括但不仅限于丰富的检索方式、高效检索文献功能,细致的文献详情页面、分析选题等等,致力于节省同学们下载后再通过内容去分析价值的时间。
三、Semantic Scholar学术搜索引擎
1、平台优势:由微软联合创始人Paul Allen创立,其检索结果来自于期刊、学术会议资料或者是学术机构的文献。这个搜索引擎能检索到80%的免费论文文献,大约有300万份。
2、平台评价:也是和钛学术功能一样可以提供图表预览,方便研究人员省下更多筛选的工作,另外是信息筛选技术可以搜寻论文发布的会议名称、论文发布的时间,从论文文中筛选出关键词句等。
四、Base Search德国比勒菲尔德学术搜索引擎
1、平台优势:由德国比勒费尔德大学图书馆开发的一个多学科的学术搜索引擎,提供对全球异构学术资源的集成检索服务,Base整合的文献大约有160个开放资源即超过200万个文档数据信息。
2、平台评价:站面精简,查找文献比较快速,以学科资料为主。
搜索英文文献的方法:
1、进入大型的期刊论文数据库里检索;
2、搜索引擎更适合搜索普通的英文资料和论文检索入口。检索途径:
1)图书馆包括高校的图书馆、科研单位的图书馆、地方图书馆(如:国家图书馆、上海图书馆)图书馆一般购买了大量的期刊论文数据库,供内部人员免费使用。有中文为主的万方、维普,有外文的ProQuest、Springer等。
2)利用在线期刊、论文数据库国内的有:中国知网、国家科技图书文献中心、万方数据或国外的网站。
扩展资料:
毕业论文的相关英文文献要求
论文基本规范:
一,要求
1,论文题目:要求准确、简练、醒目、新颖。
2,目录:目录是论文中主要段落的简表。(短篇论文不必列目录)
3,提要:是文章主要内容的摘录,要求短、精、完整。
二、基本格式
1,文献应以英、美等国家公开发表的文献为主。
2,文献翻译的字体、字号、序号等应与毕业论文格式要求完全一致。
就是以数据诸如文字,声音,图像等为主要内容,以检索文献资料的内容而不是外表特征的一种检索技术·主要该系统有TRS系统·天宇系统·等与其他搜索引擎相比,全文搜索引擎的显著特点是它能够以文中任何一个有检索意义的词作为检索入口,而且取得的检索结果是原始文献,而不是文献线索随着计算机产业的发展,以计算机存储设备为载体的电子信息愈来愈多,这些信息大致可分为两类:结构化数据和非结构化数据,结构化数据指的是诸如企业财务帐目和生产数据、学生的分数数据等等,非结构化数据的则是一些文本数据、图象声音等多媒体数据等等。据统计,非结构化数据占有整个信息量的80%以上。对于结构化数据,用RDBMS(关系数据库管理系统)技术来管理是目前最好的一种方式。但是由于RDBMS自身底层结构的缘故使得它管理大量非结构化数据显得有些先天不足,特别是查询这些海量非结构化数据的速度较慢。而通过全文检索技术就能高效地管理这些非结构化数据。经过几年的发展,全文检索从最初的字符串匹配程序已经演进到能对超大文本、语音、图像、活动影像等非结构化数据进行综合管理的大型软件。由于内涵和外延的深刻变化,全文检索系统已成为新一代管理信息系统的代名词,衡量全文检索系统的基本指标也逐渐形成规范。首先,我们关注的是查全率,即系统在进行某一检索时,检索出的相关资料量与系统资料库中相关资料总量的比率。查准率则是保证我们找到最有用资料的一个关键,是系统在进行某一检索时,检索出的有用资料数量与检索出资料总量的比率。检索速度或者说响应时间是提高工作效率的保障,指的是从提交检索课题到查出资料结果所需的时间。最基本的检索速度是应该达“千万汉字,秒级响应"。还有诸如收录范围(所查找的范围)、用户负担(用户在检索过程中付出精力的总和)、输出形式 (输出信息表现形式)等指标也是衡量全文检索系统优劣的要素。搜索引擎应该是全文检索技术最主要的一个应用。目前,搜索引擎的使用已成为排在收发电子邮件之后的第二大互联网应用技术。搜索引擎起源于传统的信息全文检索理论,即计算机程序通过扫描每一篇文章中的每一个词,建立以词为单位的到排文件,检索程序根据检索词在每一篇文章中出现的频率和每一个检索词在一篇文章中出现的概率,对包含这些检索词的文章进行排序,最后输出排序的结果。全文检索技术是搜索引擎的核心支撑技术。一个好的检索引擎是一个理想站点的关键。很多人在访问一个站点时喜欢使用站点检索,站点检索应是分类目录导航和全文检索的完美结合,具体包括以下几个方面:分类目录导航的关键是检索范围,检索范围的限制能使得检索结果不会太多、太滥;全文检索对于站点检索是必不可少的,在通常情况下能够帮助人们很快地找到所要的网页;有时利用分类目录导航和全文检索还很难定位到所要的信息,这时就要组合检索辅助;必须有相关排序功能,因为当检索结果太多时,用户不可能一一浏览,大多数用户只浏览前面几条,没有相关排序,可能准确的检索结果排在后面,用户不能浏览到,而排在前面的检索结果却相关性很少,造成用户的错觉。此外,我们还要考虑HTML/XML的特殊性、支持大量并发用户突发访问、Web站点的动态特性、要求索引维护效率很高等方面。目前的技术实现有Lucene,Solr,ElasticSearch等。全文检索过程分为索引、搜索两个过程: 索引(Indexing)从关系数据库中、互联网上、文件系统采集源数据(要搜索的目标信息),源数据的来源是非常广泛的。将源数据采集到一个统一的地方,例如存储系统,要创建索引,将索引创建到一个索引库(文件系统)中,从源数据库中提取关键信息,从关键信息中抽取一个一个词,词和源数据是有关联的。也即创建索引时,词和源数据有关联,索引库中记录了这个关联,如果找到了词就说明找到了源数据(http的网页、电子书、新闻等……)。搜索(Search)用户执行搜索(全文检索)编写查询关键字。从索引库中搜索索引,根据查询关键字搜索索引库中的一个一个词。展示搜索的结果。
①首先要在三大网上中文期刊数据库中查找最新的期刊论文文献。中文科技期刊全文数据库和中国期刊网 ②在清华库中有中国优秀博硕士学位论文全文数据库和中国重要会议论文全文数据库,也是撰写毕业论文的重要信息来源; ③三大中文数字图书馆(超星、方正、书生)是重要的文献信息来源; ④使用两大搜索引擎,可以帮助你扩大思考的范围,指引你找到新的文献信息资源 ⑤如果找不到足够多的文献怎么办?可以采用“滚雪球法”进行查找,即利用已找到的文献后的参考文献扩大检索范围。清华库中的《中国期刊引文——全文链接记录库》也是帮助你实现“滚雪球查找”的有力工具;
摘 要网络中的资源非常丰富,但是如何有效的搜索信息却是一件困难的事情。建立搜索引擎就是解决这个问题的最好方法。本论文首先详细介绍了基于英特网的搜索引擎的系统结构,然后从网络机器人、索引引擎、Web服务器三个方面进行详细的说明。为了更加深刻的理解这种技术,本人还亲自实现了一个自己的Java搜索引擎——新闻搜索引擎。新闻搜索引擎是从指定的Web页面中按照超连接进行解析、搜索,并把搜索到的每条新闻进行索引后加入数据库。然后通过Web服务器接受客户端请求后从索引数据库中搜索出所匹配的新闻。本人在介绍搜索引擎的章节中除了详细的阐述技术核心外还结合了新闻搜索引擎的实现代码来说明,图文并茂、易于理解。 关键字:搜索引擎,网络机器人,Lucene,中文分词,JavaCC AbstractThe resources in the internet are abundant, but it is a difficult job to search some useful information. So a search engine is the best method to solve this problem. This article fist introduces the system structure of search engine based on the internet in detail, and then gives a minute explanation form Spider search, engine and web server. In order to understand the technology more deeply, I have programmed a news search engine by myself in news search engine is explained and searched according to hyperlink from a appointed web page, then indexes every searched information and adds it to the index database. Then after receiving the customers' requests from the web server, it soon searches the right news form the index engine,In the chapter of introducing search engine, it is not only elaborating the core technology, but also combine with the modern code, pictures included, easy to understand. Key Words:Search Engine, Spider, Lucene, Phrase Query, JavaCC 目 录第1章 引言··· 选题背景:··· 现实意义··· 1第2章 搜索引擎的结构··· 系统概述··· 搜索引擎的构成··· 网络机器人··· 索引与搜索··· Web服务器··· 搜索引擎的主要指标及分析··· 小节··· 4第3章 网络机器人··· 什么是网络机器人··· 网络机器人的结构分析··· 如何解析HTML· 该类几种重要的方法。··· Spider程序结构··· 如何构造Spider程序··· 如何提高程序性能··· 网络机器人的代码分析··· 小节··· 10第4章 基于Lucene的索引与搜索··· 什么是全文检索与全文检索系统?··· 什么是Lucene全文检索··· Lucene的系统结构分析··· 系统结构组织··· 数据流分析··· Lucene索引构建逻辑模块分析··· 绪论··· 对象体系与UML图··· Lucene的包结构··· Lucene的主要逻辑图··· 对Lucene包的小结··· Lucene查询逻辑··· 查询者输入查询条件··· 查询条件被传达到查询分析器中··· 查询遍历树··· 返回结果··· Lucene 检索原理··· Lucene和Nucth的中文分析模块··· Nutch分析··· Nutch中文搜索 中文分词··· 利用JavaCC构造中文分析模块··· 分词小结··· Lucene与Spider的结合··· Index类的实现··· HTML解析类··· Lucene 小结··· 31第5章 基于Lucene的搜索引擎实现··· 基于Tomcat的Web服务器··· 什么是基于Tomcat的Web服务器··· 用户接口设计··· 客户端设计··· 服务端设计··· 在Tomcat上部署项目··· 小节··· 35第6章 搜索引擎策略··· 简介··· 面向主题的搜索策略··· 导向词··· 网页评级··· 权威网页和中心网页··· 小节··· 38结束语··· 39参考文献··· 40致 谢··· 41外文资料原文··· 42外文原文翻译··· 48 第1章 引言 选题背景:面对浩瀚的网络资源,搜索引擎为所有网上冲浪的用户提供了一个入口,毫不夸张的说,所有的用户都可以从搜索出发到达自己想去的网上任何一个地方。因此它也成为除了电子邮件以外最多人使用的网上服务。搜索引擎技术伴随着WWW的发展是引人注目的。搜索引擎大约经历了三代的更新发展:第一代搜索引擎出现于1994年。这类搜索引擎一般都索引少于1,000,000个网页,极少重新搜集网页并去刷新索引。而且其检索速度非常慢,一般都要等待10秒甚至更长的时间。在实现技术上也基本沿用较为成熟的IR(Information Retrieval)、网络、数据库等技术,相当于利用一些已有技术实现的一个WWW上的应用。在1994年3月到4月,网络爬虫World Web Worm (WWWW)平均每天承受大约1500次查询。大约在1996年出现的第二代搜索引擎系统大多采用分布式方案(多个微型计算机协同工作)来提高数据规模、响应速度和用户数量,它们一般都保持一个大约50,000,000网页的索引数据库,每天能够响应10,000,000次用户检索请求。1997年11月,当时最先进的几个搜索引擎号称能建立从2,000,000到100,000,000的网页索引。Altavista搜索引擎声称他们每天大概要承受20,000,000次查询。结束语本课题对基于因特网的Java搜索引擎结构和性能指标进行了分析,了解Spider程序的结构和功能。在进行海量数据搜索时,如果使用单纯的数据库技术,那将是非常痛苦的,速度将是极大的瓶颈。所以本文提出了使用全文搜索引擎Lucene进行索引、搜索。解决中文分词和有效的中文搜索信息。同时解决了如何把Lucene全文搜索引擎和Spider程序互相集合来实现新闻搜索的功能。对于如何构架基于Tomcat的Web服务器,使得用户通过浏览器进行新闻的搜索有了一定的理解,对Tomcat如何部署进行了说明。在些基础上,终于可以调试出一个简单的在本地搜索新闻Java搜索引擎。参考文献[1] Jeff Heaton(美), Programming Spiders, Bots, and Aggregator in Java.[2] Borland Software Corporation(美),JBuilder培训教程(译者:周鹏 [等] 译)北京:机械工业出版社[3]徐宝文,张卫丰. 搜索引擎与信息获取技术.北京:清华大学出版社,[4]车东.基于Java的全文搜索引擎Lucene[5]罗旭.主题搜索引擎的设计与实现[6]Bruce Eckel(美).Thinking in Java.北京:机械工业出版社[7] Otis Gospodnetic Erik Hatcher (美).Action in Lucene.电子工业出版社,[8]耿祥义,张跃平. JAVA2实用教程(第二版).北京:清华大学出版社,[9]刘彬.JSP数据库高级教程.北京:清华大学出版社,[10]刘卫国,严晖.数据库技术与应用——SQL Server.北京:清华大学出版社,[11]闫宏飞.Tiny Search Engine: Design and implementation(PPT). [12]李晓明,闫宏飞,王继民.搜索引擎——原理、技术与系统.北京:科学出版社,2004 更多参考请点击
先向大家推荐几个除了大家耳熟能详的知网、万方、维普之外的检索论文的网站。CiteSeerXCiteSeerX是免费论文搜索网,是CiteSeer的换代产品,而CiteSeer引文搜索引擎是利用自动引文标引系统(ACI)建立的第一个学术论文数字图书馆。CiteSeerX的检索界面简洁清晰,默认为文献(Documents)检索,还支持Authours、tables检索。若选择“IncludeCitations”进行搜索,期刊文献等检索范围会扩大,不仅包括学术文献全文的数据库,还会列出数据库中每篇论文的参考文献。点击“AdvancedSearch”,还可以进入高级检索界面。高级检索会增加检索的精确度,除了支持作者、作者单位、篇名等基本检索之外,还支持文本内容以及用户为论文定义的标签等更为详细的检索。国家哲学社会科学文献中心国家哲学社会科学文献中心是由中国社会科学院牵头,教育部和国家新闻出版广电总局配合建设,2016年12月30日正式上线运行。主要开设有资讯、资源、专题、服务四个栏目,资源包括中文期刊、外文期刊、外文图书、古籍四类,收录哲学社会科学相关领域文献共计10,000,000余条,提供有线阅读、全文下载等服务;还收录有国内外哲学社会科学领域重要的政府机构、高等院校、学术机构以及数据库的链接便于广大读者查阅、使用。初步形成国家哲学社会科学学术期刊数据库,外文学术期刊数据库,中国社会科学院科研成果数据库等特色资源数据库。FindaRticlesInformation Find Articles 作为文献论文搜索引擎,提供了多种顶极刊物的上千万篇论文,涵盖多方面的内容,包括艺术、商业、计算机与技术等。该网站大部分为免费全文资料,检索操作简单,查找十分方便。FindaRticles资料来源较为广泛,主要是来自于杂志、定期刊物和报纸等。HighWireHighWire,斯坦福学术文献电子期刊,由美国斯坦福大学图书馆创立,全球最大的学术文献出版商之一,世界上最大的免费科学期刊库。收录的期刊覆盖以下学科:生命科学、医学、物理学、社会科学,输入需要查找内容的关键词即可,提供免费全文阅读。CiteSeerX是免费论文搜索网,是CiteSeer的换代产品,而CiteSeer引文搜索引擎是利用自动引文标引系统(ACI)建立的第一个学术论文数字图书馆。CiteSeerX的检索界面简洁清晰,默认为文献(Documents)检索,还支持Authours、tables检索。若选择“IncludeCitations”进行搜索,期刊文献等检索范围会扩大,不仅包括学术文献全文的数据库,还会列出数据库中每篇论文的参考文献。介绍完我们查阅论文的利器之后,到了大家最关心的搜集资料的技巧。下面将介绍一些收集文献方面的干货~文献介绍收集文献主要是要找到一些该领域出现的“近期”的综述性文献,一般是不超过三年以前发表的论文。一般来说,英文的综述性文献在题目上有“review”(一般为较为通俗的综述评论)或“survey”(一般为比较专业化的文献综述)这样的字样。综述性文章的内容不是在研究一个具体的问题,而是在回顾、评论某个领域在最近或者过去的一段时间里的研究情况,并对于不同的研究者和不同时期的研究特点进行评论,最后还要为未来的研究方向以及创新的可能性作出预测。网络检索技巧Google是一个很好的图书馆。因为国外的论文全文通常都是pdf格式的,所以不妨在输入的论文名字前加个“pdf”作为关键词搜索。如果通过这些全文数据库还不能查阅到所需要的论文,不妨把论文发表期刊页码记下来,然后到Google上搜索其working paper。如果还不能搜集到,那么还可以尝试搜寻作者的主页。如果仍然没有,还可以尝试通过作者的邮件地址直接写信索取。如果这些方法都尝试了还不行,还可以在EBSCO查阅国内馆藏,请求帮助。最后,尝试以上各种办法都无法得到某篇文献,要么忍痛放弃,要么只有求助国外的朋友,或者从其他文献中间接引用。
寻找论文参考文献的最佳方法包括以下几个步骤:
1、使用学术搜索引擎:Google Scholar、PubMed、Web of Science等学术搜索引擎可以帮助你找到相关的论文。你可以输入关键词、作者名、文章标题等信息来搜索相关的文献。
2、查找参考文献:如果你已经找到了一篇相关的文章,你可以查看其中的参考文献列表。这些2、文献可能会指导你找到更多的相关文献。
3、查找书籍:如果你正在撰写一篇研究性论文,你可能需要查找一些书籍作为参考文献。你可以在学术图书馆、在线书店、学术搜索引擎等地方寻找相关的书籍。
4、参考专家意见:如果你对某个特定领域不熟悉,你可以寻求专家的意见。你可以咨询你的导师、同事或其他领域专家,询问他们能否提供相关的文献或建议。
总之,寻找论文参考文献需要广泛查阅各种资源,建立起全面的文献库,并逐渐筛选出适合自己研究的内容。同时,在查阅文献时也需要注意文献的真实性、可靠性以及文献的质量等方面。
论文的写作技巧:
写作论文需要具备一定的技巧和方法,以下是一些论文写作的技巧:
1、确定论文的主题和范围:在开始写作之前,确定你要写的论文的主题和范围。这有助于你避免偏离主题或者写作无头绪。
2、选择正确的结构:论文应该有一个清晰的结构,包括引言、文献综述、方法、结果和讨论等部分。根据你的论文主题和范围,选择合适的结构。
3、明确你的目标读者:在写作过程中,始终牢记你的目标读者是谁。这有助于你写作更加清晰、简明,并且能够使读者更容易理解你的论文。
4、确保你的论点清晰:在写作过程中,确保你的论点清晰明了。你需要有充分的证据和例证来支持你的论点。
5、保持逻辑连贯:论文应该有一个清晰的逻辑结构。每个段落应该有一个主题句,并且每个段落应该与下一个段落紧密相连。
6、使用正确的语言和风格:论文应该使用专业术语和正确的语法。同时,选择一个适合你论文主题和范围的风格,如学术风格、科技风格等。
7、引用正确的文献:在论文中引用正确的文献是非常重要的。你应该使用正确的引文格式,并确保引用的文献是可靠的。
8、仔细校对论文:在完成论文后,仔细校对你的论文以检查拼写、语法和标点错误。同时,确保你的论文逻辑连贯、明确,并符合格式要求。
向他人寻求反馈:将你的论文交给他人阅读,以获得他人的反馈和建议。这有助于你发现论文中的问题,并进行必要的修改和完善。
以上这些技巧可以帮助你写作一篇清晰、有条理的论文。
文献党下载器():整合汇集大量中外文献数据库,每个数据库又提供了海量的文献资源。主要用于查询下载中外文献。知网:国内最大知识库,综合学科。提供中国学术文献、外文文献、学位论文、报纸、会议、年鉴、工具书、引文库、中国经济社会大数据研究平台等学术文献资源统一检索、统一导航、在线阅读和下载服务。万方:国内著名知识库之一,综合学科。涵盖期刊、会议纪要、论文、学术成果、学术会议论文的大型网络数据库。维普:期刊文献查询下载平台。读秀、超星:主要是电子书查询下载,需要下载超星阅读器。百度学术:免费学术论文搜索引擎,部分文献可直接下载。谷歌学术:免费外文学术论文搜索引擎,部分文献可直接下载。Web of Science(ISI科学引文索引):包括著名的三大引文索引数据库(SCI,SSCI,A&HCI)。ScienceDirect(Elsevier):荷兰一家全球著名的学术期刊出版商,每年出版大量的学术图书和期刊,大部分期刊被SCI、SSCI、EI收录,是世界上公认的高品位学术期刊。ProQuest:美国国会图书馆指定的收藏全美国博硕士论文的机构,ProQuest Dissertations & Theses Global(PQDT Global)是目前世界上规模最大、使用最广泛的博硕士论文数据库。SpringerLink:是全球最大的在线科学、技术和医学(STM)领域学术资源平台。主要用于外文电子书检索。PubMed: 生物医学信息检索系统,该系统通过网络途径免费提供包括MEDLINE在内的自1950年以来全世界70多个国家4300多种主要生物医学文献的书目索引和摘要,并提供部分免费和付费全文链接服务。Wiley:全球最大的学术出版商之一,面向专业人士、科研人员、教育工作者、学生、终身学习者提供必需的知识和服务。IEEE/IEE Electronic Library (IEL) 数据库:收录美国电气电子工程师学会( IEEE )和英国电气工程师学会( IEE )出版的 242 种期刊、 8706 余种会议录和近 1706 种标准的全文信息。
论文参考文献可以找的网站如下:
1、知网国内最大知识库,还有批量导出参考文献功能。
2、谷歌学术收录各个领域学术资料的免费搜索引擎。ScienceDirect收录的期刊是世界上公认的高质量学术期刊。
3、Web of Science数据库是国际公认的反映科学研究水准的数据库。检索精确到文献被收录的期刊、出版公司、作者、日期、页码等。
按照字面的意思,参考文献是文章或著作等写作过程中参考过的文献。然而,按照GB/T7714-2015《信息与文献 参考文献著录规则》的定义,文后参考文献是指:为撰写或编辑论文和著作而引用的有关文献信息资源。
根据《中国学术期刊(光盘版)检索与评价数据规范(试行)》和《中国高等学校社会科学学报编排规范(修订版)》的要求,很多刊物对参考文献和注释作出区分,将注释规定为对正文中某一内容作进一步解释或补充说明的文字,列于文末并与参考文献分列或置于当页脚地。
论文查询网站有FindaRticles文献论文搜索、钛学术文献平台、Semantic Scholar学术搜索引擎和Base Search德国比勒菲尔德学术搜索引擎。
一、FindaRticles文献论文搜索
1、平台优势:类别比较丰富,体量也比较广,涵盖了艺术与娱乐、汽车、商业与经融、计算机与技术、健康与健身、新闻与社会、科学教育、体育等各个方面刊物的上千万篇论文。
2、平台评价:检索操作简单,文献质量可能有所欠缺,但是它所拥有的文献总量达1100万篇,资料来源于杂志、定期刊物和报纸等,而且是一个适配谷歌的搜索站点。
二、钛学术文献平台
1、平台优势:拥有超广的收录视角,超强的NPL算法,目前已收录亿余篇各式文献,是国内实力极强的一站式文献检索网站。
2、平台评价:实用功能较多,包括但不仅限于丰富的检索方式、高效检索文献功能,细致的文献详情页面、分析选题等等,致力于节省同学们下载后再通过内容去分析价值的时间。
三、Semantic Scholar学术搜索引擎
1、平台优势:由微软联合创始人Paul Allen创立,其检索结果来自于期刊、学术会议资料或者是学术机构的文献。这个搜索引擎能检索到80%的免费论文文献,大约有300万份。
2、平台评价:也是和钛学术功能一样可以提供图表预览,方便研究人员省下更多筛选的工作,另外是信息筛选技术可以搜寻论文发布的会议名称、论文发布的时间,从论文文中筛选出关键词句等。
四、Base Search德国比勒菲尔德学术搜索引擎
1、平台优势:由德国比勒费尔德大学图书馆开发的一个多学科的学术搜索引擎,提供对全球异构学术资源的集成检索服务,Base整合的文献大约有160个开放资源即超过200万个文档数据信息。
2、平台评价:站面精简,查找文献比较快速,以学科资料为主。
在腾讯新闻获取全网热的,可以搜索需要的数据。
怎么找电子版七上历史大数据资料搜集是个相当繁琐与累的工作,也是投资入门的基本,良好的信息资料搜集能力有利于我们快速了解投资主体的基本情况,为后续的调研及一手资料的获得打下较好的基础。一、搜索引擎(重点掌握)搜索引擎是我们信息资料搜集的最重要的渠道之一,用搜索引擎查找信息资料需要使用恰当的关键词和一些搜索技巧。目前国内主要的搜集引擎有如下10个,近期还有较多行业型搜索冒出来,需找专业型行业资料可以使用行业型搜索引擎。由于每个搜索引擎都有一定的局限性,可以把要搜索的关键词在多个搜索引擎试一下,可能会搜出你意想不到的结果。大家对国内的引擎基本都很熟悉,尤其是百度和google,需要搜索同一主题的资料,不同的人所搜出来的结果可能就天差地别了,主要原因在于如下两点:1、搜索关键字的选择举例说明,假如我们要搜索大数据行业发展相关资料,如果我们就在百度上搜索“大数据”,结果非常多,无法进行筛选,可以对关键词进一步界定,如“大数据行业”、“大数据市场规模”、“中国大数据产业”、“大数据技术”、“大数据企业”等等,需要不停地变换搜索关键词,直到查到满意的搜索结果,在查找的过程中可以根据查找结果内容再进行对关键词进行修正,修正有些名称专业表达方式,因为最开始搜索我们表达的不一定准确。2、搜索技巧主要是针对百度、google等搜索引擎一些高级搜索技巧。常用技巧主要有如下几个方面:(1)文件类型搜索:使用filetype,如在百度或google中键入“filetype:pdf 大数据”搜索出有关大数据内容pdf内容,而且这些文档基本都是可直接下载。还可以变换为其他的如“filetype:doc”、“filetype:ppt”、“filetype:xls”等等,注意其中的冒号为英文的冒号,一定要变换为英文冒号。(2)定位于哪个网站上搜索:使用site,如在百度或google中键入“大数据空格site:”,则在搜索有关大数据的一些资料信息,这个特别适用针对某些信息可能在哪些网站上出现的一个快速搜索方法,注意冒号也是英文的,网站名称也不用加www。(3)精确匹配搜索:使用“”,如在百度中键入“大数据行业”,表示搜索“大数据行业”五个必须联在一起的,如果不加“”,搜到的为大数据及行业两个词并列显示结果,没有这么精确匹配。(4)限制性的网页搜索:使用intitle,如在百度键入“intitie:大数据”,限定于搜索标题中含有“大数据”网页,如果输入“intitie:大数据市场规模”限定于搜索标题中含有“大数据”和“市场规模”的网页。3、搜索引擎推荐1) 虽然还是Beta版,但个人已觉得现在已经是很好很强大了,Google学术搜索滤掉了普通搜索结果中大量的垃圾信息,排列出文章的不同版本以及被其它文章的引用次数。略显不足的是,它搜索出来的结果没有按照权威度(譬如影响因子、引用次数)依次排列,在中国搜索出来的,前几页可能大部分为中文的一些期刊的文章。2) Scirus 是目前互联网上最全面、综合性最强的科技文献搜索引擎之一,由Elsevier科学出版社开发,用于搜索期刊和专利,效果很不错!Scirus覆盖的学科 范围包括:农业与生物学,天文学,生物科学,化学与化工,计算机科学,地球与行星科学,经济、金融与管理科学,工程、能源与技术,环境科学,语言学,法 学,生命科学,材料科学,数学,医学,神经系统科学,药理学,物理学,心理学,社会与行为科学,社会学等。3) BASE是德国比勒费尔德(Bielefeld)大学图书馆开发的一个多学科的学术搜索引擎,提供对全球异构学术资源的集成检索服务。它整合了德国比勒费尔德大学图书馆的图书馆目录和大约160个开放资源(超过200 万个文档)的数据。4) Vascoda是一个交叉学科门户网站的原型,它注重特定主题的聚合,集成了图书馆的收藏、文献数据库和附加的学术内容。5) 与google比较了一下发现,能搜索到一些google搜索不到的好东东 。它界面简洁,功能强大,速度快,YAHOO、网易都采用了它的搜索技术。各位可以一试。6) Google在同一水平的搜索引擎。是推出的,Webresult部分是基于Google的,所以保证和Google在同一水平,另外增加了Amazon的在书本内搜索的功能和个性化功能:主要是可以记录你的搜索历史。现在还是Beta,不过试用后感觉很好,向大家推荐一试 ,不过缺憾是现在书本内搜索没有中文内容。7) 严格意义上讲不是搜索引擎,是连接搜索引擎和网络用户的信息立交桥。新一代的搜索引擎应运而生,Ixquick meta-search正是目前最具光芒的新星。但是对于大多数国内用户来说,Ixquick还很陌生。Ixquick众多独特的功能我不一一介绍了,只介绍我们最关心的,搜索数据库密码。使用方法:先进入Ixquick,以“Proquest”数据库为例。填入Proquest Username Password History Online后点击search,看看出来的结果,第一页中第6个,proquest的username和password赫然在目,别急,再看第4个结 果“HB Thompson Subscription Online Databases”,即,进入 后发现这是一个密码页,选择Magazines& Journals栏,就有 EBSCO、Electric Library Elementary、Electric LibraryElementary、ProQuest Platinum (in school)、ProQuest Platinum(remote)等众多数据库的密码,都有uesrname和password,随便试一下EBSCO,OK,成功登陆。8) cmu的作品,对搜索的内容进行分类,这样可以有效地做出选择,比较有特色。可实现分类检索,检索速度也很好,如EBSCO 密码几分钟就可找一大堆 .,User ID:mountain,Password: ridge,这个密码可以试试。9) 一个检索免费paper的好工具。进入网页以后,可以看到他有三个功能,driectory web article,其中article对我们很有帮助,你可以尝试输入你要找的文章,会有很多发现的!10) 现点击后或跳转到 ,在此搜索引擎里可以搜索到超过千万种化学品信息或相应的供应商,与Chemblink有点相似,但提供的化学品理化信息没有Chemblink详细,与其不同的是该搜索引擎可提供化学品结构式搜索(主页上有在线绘制化学结构式的搜索框)。11) OJOSE (Online JournalSearch Engine,在线期刊搜索引擎)是一个强大的免费科学搜索引擎,通过OJOSE,你能查找、下载或购买到近60个数据库的资源。但是感觉操作比较复杂。12) 一个关于计算机和信息科学的搜索引擎。13) 专家个人主页搜索引擎。14) 里面的搜索引擎功能由google提供,搜索结果与google一样,如果google无法登陆,可以用这个网站代替。二、数据库数据库是研究人员重要的数据来源之一,目前券商、基金研究研究机构都购买有商业数据库,目前研究用的数据库主要分为两大类,一是商业数据库,二是学术数据库。1、商业数据库商业数据库大多为金融投资所用,主要分为国内与国外数据库两大类。1)国内商业数据库国内数据库主要有如万德、恒生聚源、锐思数据库、CSMAR数据库、巨潮数据库等。目前万德数据库主要定位于国内高端客户,市场占有率较高,80%左右,当然其售价较高。恒生聚源也定位为机构客户,性价比较高,售价要比万德便宜的多。CSMAR数据库定位于学术与高校,其中金融数据比较全,强大。锐思数据库定位于学术,质量一般。巨潮数据库为深交所旗下数据库,有一定的特殊优势。2)国外商业数据库国外数据库主要有彭博、路透社、CEIC、OECD、Haver Database、Thomson Financial One Banker等,国外数据库中彭博是比较全也大的,在国内销售也较好,但是售价奇贵。一般不做国际市场研究,大多用不到国外数据库,毕竟国外数据库公司对国内的行业数据及公司数据不如本土数据库公司的做得好。2、学术数据库学术数据库基本为高校、研究机构所用,也分为国内与国外两大类,学术数据库中一些学术论文、行业数据、统计年鉴还是有用的,缺点就是其中有些数据的相对较旧,无法做到实时更新。1)国内学术数据库中国知网:国内最大学术数据库,包括期刊、学位论文、统计年鉴等。万方数据:仅次于中国知网,包括期刊、学位论文等。人大复印资料:期刊、论文等。维普:期刊、论文等。中经网:有较多行业研究报告,宏观数据较全。国研网:数据较为权威,有些报告可以一看。上海公共研发平台:可以注册,人工审核,内包含较多数据库。2)国外学术数据库EBSCO:较全的一个数据库,内包含较多的商业数据,好用Elsevier:学术文章全,更新速度快。以上大致介绍了国内的商业及学术数据库,但这些数据库都是通过收费或学校账号才能使用,对于平时临时研究用的一些人,没有必要去购买,下面介绍一些免费可用的数据库。3)免费可用的数据库数据汇: 国内的宏观数据,国外的也有一部分,可以导出来,免费好用。数据圈: 免费共享平台,行业研究报告,统计年鉴等
用大数据工具检索二十四史屈直软件工程师,世界说|硅谷直说专栏作者来自专栏硅谷直说Demo在做介绍之前,先展示一下我做出来的二十四史搜索主页。这个网站貌似需要科学上网,而且不支持手机登录。如果能看到登录页面的话,用户名是guest,密码是guestguest。Elastic项目是开源的,github地址是:quzhi1/ChineseHistoricalSource我们看一下这个网站界面:在搜索栏输入任何关键词,都会显示相关史料。我们试一下。首先搜索”项羽“,我们看到,左边就是含有“项羽”两个字的史料段落,一共有267段。右边是“项羽”两个字在二十四史中出现的次数分布。《史记》里出现最多,占比。其次是《汉书》,占比。其他史书也多多少少提到过项羽,比如《晋书》、《南史》和《魏书》。含有“项羽”两个字的史料段落含有“项羽”两个字的史料分布项羽出现在《史记》和《汉书》并不奇怪,因为两者都记录了项羽生活的年代。可为什么其他的史书也会提到项羽呢?为了回答这个问题,我们加两个筛选器,把史记和汉书排除出去。