学长讲述他论文检测的那些事

不是的，摘要也要查重，一般论文查重内容包括摘要、正文、致谢。如果是用知网系统论文查重，可以全篇上传，知网系统会自动过滤不检测内容，比如封面、声明、脚注、参考文献等。

论文查重注意事项有哪些？由清华同方所开发的知网论文查重系统经常被用于对于高校毕业生们的毕业论文审查，根据其检测出的查重率来评判论文是否存在抄袭行为，该查重系统虽然许多本科学生或者是研究生都会用到的查重工具，但是依旧有着很多人对于同方知网论文检测系统了解不够充分，今天就为大家盘点一二论文查重注意事项有哪些。论文查重注意事项注意清楚透彻的了解论文查重结果：知网查重完毕后，都会给出一份该篇论文的详细查重报告，其中内容很多。清楚的明白报告内容所指含义才能清楚自己论文的情况。在报告上显示的文章中黄色字体则代表论文中的引用部分，而红色字体则意味着该部分文字高度相似，而论文的总复制比是包括红色和黄色部分内容的文字占论文总字数的比值，对于论文降重，重复部分和引用部分都是需要修改的。论文查重并不会对论文中的所有内容全部查重，其查重内容往往限于文字，而论文中所包含的图片、公式编辑器、word域代码，知网对于这些内容是不查重的，由此我们在论文写作过程中可以善用公式、图片等形式去表达相似的内容。注意图表内容也是会查重的，对于一些研究数据，论文中常常以图表形式来提现，对于Word或者是Excel编辑的图表，知网查重是能检测查重的，如果借鉴了他人论文数据，则该图表在查重报告中是定会标红显示的。以上就是论文查重注意事项的具体内容，论文查重并非难事，只要掌握方法和查重的规律，一次性通过亦是是没有问题的。

目前，高校对于硕博士论文,需要通过抄袭检测系统的检测才能算过关。对本科生来说，大部分学校也采取抽查的方式对本科论文进行检测。抄袭过多，一经查出超过30%,后果严重。轻者延期毕业，重者取消学位。辛辛苦苦读个大学，学位报销了多不爽。但是，软件毕竟是人工设置的一种机制，里面内嵌了检测算法，我们只要摸清其中的机理，通过简单的修改，就能成功通过检测。本文是在网络收集的资料。整理了最重要的部分，供大家参考。论文抄袭检测算法：1.论文的段落与格式论文检测基本都是整篇文章上传，上传后，论文检测软件首先进行部分划分，上交的最终稿件格式对抄袭率有很大影响。不同段落的划分可能造成几十个字的小段落检测不出来。因此，我们可以通过划分多的小段落来降低抄袭率。2.数据库论文检测，多半是针对已发表的毕业论文，期刊文章，还有会议论文进行匹配的，有的数据库也包含了网络的一些文章。这里给大家透露下，很多书籍是没有包含在检测数据库中的。之前朋友从一本研究性的著作中摘抄了大量文字，也没被查出来。就能看出，这个方法还是有效果的。3.章节变换很多同学改变了章节的顺序，或者从不同的文章中抽取不同的章节拼接而成的文章，对抄袭检测的结果影响几乎为零。所以论文抄袭检测大师建议大家不要以为抄袭了几篇文章，或者几十篇文章就能过关。4.标注参考文献参考别人的文章和抄袭别人的文章在检测软件中是如何界定的。其实很简单，我们的论文中加了参考文献的引用符号，但是在抄袭检测软件中。都是统一看待，软件的阀值一般设定为1%，例如一篇文章有5000字,文章的1%就是50字，如果抄袭了多于50，即使加了参考文献，也会被判定为抄袭。5.字数匹配论文抄袭检测系统相对比较严格，只要多于20单位的字数匹配一致，就被认定为抄袭，但是前提是满足第4点，参考文献的标注。论文抄袭修改方法：首先是词语变化。文章中的专业词汇可以保留，尽量变换同义词；其次，改变文中的描述方式，例如倒装句、被动句、主动句；打乱段落的顺序，抄袭原文时分割段落，并重组。通过上述方法，能有效降低抄袭率。下面举几个例子，大家可以参考下：例句A：本文以设备利用率最大化为目标函数,采用整数编码与实数编码相结合的遗传算法,研究了HFS的构建问题。本文提出的染色体编码方法及相应的遗传操作方法可实现研究对象的全局随机寻优。通过对car系列标准算例的研究,显示了本文提出方法具有较高的计算重复性和计算效率。修改A：本文研究了HFS问题的构建，通过遗传算法并结合整数与实数编码，目标函数为最大化设备利用率来求解。本文的染色体编码方法与对应的遗传算法操作可有效提高算法的全局搜索能力。通过对一些列基准算例的研究，验证了本文算法的有效性，并具有较高的计算重复性和较高的运算效率。例句B：由于房地产商品的地域性强，房地产开发企业在进行不同区域投资时，通常需要建立项目公司，此时就会面临建立分公司还是子公司的选择。子公司是一个独立的法人，而分公司则不是独立法人，它们在税收利益方面存在差异。子公司是独立法人，在设立区域被视为纳税人，通常要承担与该区域其它公司一样的全面纳税义务；分公司不是独立的法人实体，在设立分公司的所在区域不被视为纳税人，只承担有限的纳税义务，分公司发生的利润与亏损要与总公司合并计算。修改B：房地产开发企业在不同区域进行投资时，由于此类商品的地域性强，因此需要建立项目公司。此时，企业需要选择建立分公司还是子公司。主要的区别是子公司具有独立的法人，分公司则不是独立法人。其次，在税收利益方面，由于分公司不是独立的法人实体，在设立分公司的所在区域不被视为纳税人，只承担纳税义务，总公司需要合并计算分公司的利润与亏损；而子公司是独立法人，在所在区域被视为法人实体，需要承担与区域其他公司一样的全面纳税义务。修改抄袭的方法不外乎这些，这里更建议同学们，先熟悉你所看的参考论文，关闭文档，用自己的话写出来，这样就不会受参考文献的太多影响。有同学这里就提出问题了，学校用的检测系统是知网的学术不端检测系统，不是淘宝几元钱买的万方数据检测。其实，各个检测系统的算法区别并不大，只是数据库有多有少，如果你没有太多，什么系统都不用怕。既然你抄了，得到检测报告的同时，先好好修改自己的文章。抄了之后，改相拟度，可以这样去头去尾留中间，意同词不同。一、查重原理1、知网学位论文检测为整篇上传，格式对检测结果可能会造成影响，需要将最终交稿格式提交检测，将影响降到最小，此影响为几十字的小段可能检测不出。对于3万字符以上文字较多的论文是可以忽略的。对比数据库为：中国学术期刊网络出版总库，中国博士学位论文全文数据库/中国优秀硕士学位论文全文数据库，国重要会议论文全文数据库，中国重要报纸全文数据库，中国专利全文数据库，个人比对库，其他比对库。部分书籍不在知网库，检测不到。2、上传论文后，系统会自动检测该论文的章节信息，如果有自动生成的目录信息，那么系统会将论文按章节分段检测，否则会自动分段检测。3、有部分同学反映说自己在段落中明明引用或者抄袭了其他文献的段落或句子，为什么没有检测出来，这是正常的。中国知网对该套检测系统的灵敏度设置了一个阀值，该阀值为5%，以段落计，低于5%的抄袭或引用是检测不出来的，这种情况常见于大段落中的小句或者小概念。举个例子：假如检测段落1有10000字，那么引用单篇文献500字以下，是不会被检测出来的。实际上这里也告诉同学们一个修改的方法，就是对段落抄袭千万不要选一篇文章来引用，尽可能多的选择多篇文献，一篇截取几句，这样是不会被检测出来的。4、一篇论文的抄袭怎么才会被检测出来？知网论文检测的条件是连续13个字相似或抄袭都会被红字标注，但是必须满足3里面的前提条件：即你所引用或抄袭的A文献文字总和在你的各个检测段落中要达到5%。二、快速通过论文查重的七大方法方法一：外文文献翻译法查阅研究领域外文文献，特别是高水平期刊的文献，比如Science，Nature，WaterRes等，将其中的理论讲解翻译成中文，放在自己的论文中。优点：1、每个人语言习惯不同，翻译成的汉语必然不同。因此即使是同一段文字，不同人翻译了之后，也不会出现抄袭的情况。2、外文文献的阅读，可以提升自身英语水平，拓展专业领域视野。缺点：英文不好特别是专业英文不好的同学实施起来比较费劲。方法二：变化措辞法将别人论文里的文字，或按照意思重写，或变换句式结构，更改主被动语态，或更换关键词，或通过增减。当然如果却属于经典名句，还是按照经典的方法加以引用。优点：1．将文字修改之后，按照知网程序和算法，只要不出现连续13个字重复，以及关键词的重复，就不会被标红。2．对论文的每字每句都了如指掌，烂熟于心，答辩时亦会如鱼得水。缺点：逐字逐句的改，费时费力。方法三：减头去尾，中间换语序将别人论文里的文字，头尾换掉中间留下，留下的部分改成被动句，句式和结构就会发生改变，再自行修改下语病后，即可顺利躲过查重。优点：方便快捷，可以一大段一大段的修改。缺点中文没学好的，会很费劲，要想半天。方法四：转换图片法将别人论文里的文字，截成图片，放在自己的论文里。因为知网查重系统目前只能查文字，而不能查图片和表格，因此可以躲过查重。优点：比改句序更加方便快捷。缺点：用顺手了容易出现整页都是图片的情况，会影响整个论文的字数统计。方法五：插入文档法将某些参考引用来的文字通过word文档的形式插入到论文中。优点：此法比方法四更甚一筹，因为该方法日后还可以在所插入的文档里进行重新编辑，而图片转换法以后就不便于再修改了。缺点：还没发现。方法六：插入空格法将文章中所有的字间插入空格，然后将空格字间距调到最小。因为查重的根据是以词为基础的，空格切断了词语，自然略过了查重系统。优点：从查重系统的原理出发，可靠性高。缺点：工作量极大，课可以考虑通过宏完成，但宏的编制需要研究。方法七：自己原创法自己动手写论文，在写作时，要么不原文复制粘贴；要么正确的加上引用。优点：基本上绝对不会担心查重不通过，哪怕这个查重系统的阈值调的再低。缺点：如果说优缺点的话，就是写完一篇毕业论文，可能会死掉更多的脑细胞。呵呵。。。知网系统计算标准详细说明：1．看了一下这个系统的介绍，有个疑问，这套系统对于文字复制鉴别还是不错的，但对于其他方面的内容呢，比如数据，图表，能检出来吗？检不出来的话不还是没什么用吗？学术不端的各种行为中，文字复制是最为普遍和严重的，目前本检测系统对文字复制的检测已经达到相当高的水平，对于图表、公式、数据的抄袭和篡改等行为的检测，目前正在研发当中，且取得了比较大的进展，欢迎各位继续关注本检测系统的进展并多提批评性及建设性意见和建议。2．按照这个系统39%以下的都是显示黄色,那么是否意味着在可容忍的限度内呢?最近看到对上海大学某教师的国家社科基金课题被撤消的消息,原因是其发表的两篇论文有抄袭行为,分别占到25%和30%. 请明示超过多少算是警戒线？百分比只是描述检测文献中重合文字所占的比例大小程度，并不是指该文献的抄袭严重程度。只能这么说，百分比越大，重合字数越多，存在抄袭的可能性越大。是否属于抄袭及抄袭的严重程度需由专家审查后决定。3．如何防止学位论文学术不端行为检测系统成为个人报复的平台？这也是我们在认真考虑的事情，目前这套检测系统还只是在机构一级用户使用。我们制定了一套严格的管理流程。同时，在技术上，我们也采取了多种手段来最大可能的防止恶意行为，包括一系列严格的身份认证，日志记录等。4．最小检测单位是句子，那么在每句话里改动一两个字就检测不出来了么？我们对句子也有相应的处理，有一个句子相似性的算法。并不是句子完全一样才判断为相同。句子有句子级的相似算法，段落有段落级的相似算法，计算一篇文献，一段话是否与其他文献文字相似，是在此基础上综合得出的。5．如果是从相关书籍上摘下来的原话，但是此话已经被数据库中的相关文献也抄了进去，也就是说前面的文章也从相关书籍上摘了相同的话，但是我的论文中标注的这段话来自相关的书籍，这个算不算学术抄袭？检测系统不下结论，是不是抄袭最后还有人工审查这一关，所以，如果是您描述的这种情况，专家会有相应判断。我们的系统只是提供各种线索和依据，让人能够快速掌握检测文献的信息。6．知网检测系统的权威性？学术不端文献检测系统并不下结论，即检测系统并不对检测文献定性，只是将检测文献中与其他已发表文献中的雷同部分陈列出来，列出客观事实，而这篇检测文献是否属于学术不端，需专家做最后的审查确认。一篇论文的抄袭怎么才会被检测出来？知网论文检测的条件是连续13个字相似或抄袭都会被红字标注，但是必须满足3里面的前提条件：即你所引用或抄袭的A文献文字总和在你的各个检测段落中要达到5%。论文查重修改的规律：1、如果是引用，在引用标号后，不要轻易使用句号，如果写了句号，句号后面的就是剽窃了（尽管自已认为是引用），所以，引用没有结束前，尽量使用分号。有些人将引用的上标放在了句号后面，这是不对的，应该在句号之前。2、可以将文字转换为表格，将表格边框隐藏。3、如果你看的外文的多，由外文自己翻译过来引用的，个人认为，不需要尾注，就可以当做自己的，因为查重的数据库只是字符的匹配，无法做到中文和英文的匹配。4、查重是一个匹配的过程，是以句为单位，如果一句话重复了，就很容易判定重复了，所以：的确是经典的句子，就用上标的尾注的方式，在参考文献中表达出来，或者是用：原文章作者《名字》和引号的方式，将引用的内容框出来。引号内的东西，系统会识别为引用如果是一般的引用，就采用罗嗦法，将原句中省略的主语、谓语、等等添加全，反正哪怕多一个字，就是胜利，也可以采用横刀法，将一些句子的成分，去除，用一些代词替代。或者是用洋鬼子法，将原文中的洋名，是中文的，就直接用英文，是英文的直接用中文，或是哦中文的全姓名，就用中文的名，如果是中文的名，就找齐了，替换成中文的姓名。故意在一些缩写的英文边上，加上（注释）(画蛇添足法），总之，将每句话都可以变化一下，哪怕增加一个字或减少一个字，都是胜利了。特别注意标点符号，变化变化，将英文的复合句，变成两个或多个单句，等等，自己灵活掌握。因为真正写一篇论文，很罕见地都是自己的，几乎不可能，但大量引用别人的东西，说明你的综合能力强，你已经阅读了大量的资料，这就是一个过程，一个学习、总结的过程。所有的一切，千万别在版面上让导师责难，这是最划不来的。导师最讨厌版面不规范的，因为他只负责内容，但又不忍心因为版面问题自己的弟子被轰出来。5、下面这一条我傻妞试过的，决对牛B：将别人的文字和部分你自己的文字，选中，复制（成为块，长方形），另外在桌面建一个空文件，将内容，复制到文件中，存盘，关闭。将这个文件的图标选中，复制，在你的正文中的位置上，直接黏贴，就变成了图片了，不能编辑的。这个操作事实上是将内容的文件作为一个对象插入的，所以是图片。这个操作事实上是将内容的文件作为一个对象插入的。所以是图片。以上那些东西再次总结一下：查重是一个匹配的过程，是以句为单位，如果一句话重复了，就很容易判定重复了，所以：1）如果的确是经典的句子，就用上标的尾注的方式，在参考文献中表达出来。2）如果是一般的引用，就采用罗嗦法，将原句中省略的主语、谓语、等等添加全，反正哪怕多一个字，就是胜利。3）也可以采用横刀法，将一些句子的成分，去除，用一些代词替代。4）或者是用洋鬼子法，将原文中的洋名，是中文的，就直接用英文，是英文的直接用中文，或是中文的全姓名，就用中文的名，如果是中文的名，就找齐了，替换成中文的姓名。5）故意在一些缩写的英文边上，加上（注释）(画蛇添足法），总之，将每句话都可以变化一下，哪怕增加一个字或减少一个字，都是胜利了。6）如果是引用，在引用标号后，不要轻易使用句号，如果写了句号，句号后面的就是剽窃了（尽管自已认为是引用），所以，引用没有结束前，尽量使用分号。有些人将引用的上标放在了句号后面，这是不对的，应该在句号之前。7）可以将文字转换为表格、表格基本是查重不了的，文字变成图形、表格变成图形，一目了然，绝对不会检查出是重复剽窃了。论文查重修改学校的要求：1、论文题目：要求准确、简练、醒目、新颖。2、目录：目录是论文中主要段落的简表。（短篇论文不必列目录）3、提要：是文章主要内容的摘录，要求短、精、完整。字数少可几十字，多不超过三百字为宜。4、关键词或主题词：关键词是从论文的题名、提要和正文中选取出来的，是对表述论文的中心内容有实质意义的词汇。关键词是用作机系统标引论文内容特征的词语，便于信息系统汇集，以供读者检索。每篇论文一般选取3-8个词汇作为关键词，另起一行，排在“提要”的左下方。主题词是经过规范化的词，在确定主题词时，要对论文进行主题，依照标引和组配规则转换成主题词表中的规范词语。5、论文正文：（1）引言：引言又称前言、序言和导言，用在论文的开头。引言一般要概括地写出作者意图，说明选题的目的和意义, 并指出论文写作的范围。引言要短小精悍、紧扣主题。〈2）论文正文：正文是论文的主体，正文应包括论点、论据、论证过程和结论。主体部分包括以下内容：a.提出-论点；b.分析问题-论据和论证；c.解决问题-论证与步骤；d.结论。6、一篇论文的参考文献是将论文在和写作中可参考或引证的主要文献资料，列于论文的末尾。参考文献应另起一页，标注方式按《GB7714-87文后参考文献著录规则》进行。中文：标题--作者--出版物信息（版地、版者、版期）：作者--标题--出版物信息所列参考文献的要求是：（1）所列参考文献应是正式出版物，以便读者考证。（2）所列举的参考文献要标明序号、著作或文章的标题、作者、出版物信息。

大学毕业生论文查重应该要注意什么呢?现在很多同学都比较重视毕业论文的查重，因为这是与毕业有直接关系的，在一定程度上能不能顺利毕业，毕业论文查重是非常关键的一点，但是很多同学在进行毕业论文查重时，总有一些方面没有注意到，那么与您分享一些有关毕业论文查重的注意事项：1、注意引用和致谢引用与致谢是非常容易被检测出重复的，所以如何合理引用很重要，因为有些论文的内容只是研究的项目不一样，但是一些相关资料还是有许多相同的地方。咱们拿实验项目研究为例，一位同学研究蛋白质，脂肪等方面的含量，另一位同学研究糖类，维生素C等方面的含量，都是研究的同一个东西，但只是具体研究的内容不太一样。所以同学们在引用和致谢方面要多加注意!不要几位同学的引用和致谢出现雷同，相似! 2、注意公式和表格 PDF转换为word时，无法转换公式，所以论文查重检测的时候是没有公式的。但是，现在的论文查重技术已经达到了一个较高的水平，有些论文检测系统是可以对论文公式和表格进行检测的，所以同学们要多注意公式和表格喔! 3、注意语序的调整现在的查重检测技术不仅只是针对几个词或一个句子检测，而是针对上下文内容来确定达到一定语义水平的内容。系统可以自动识别论文内容，比如说：目录、正文、参考文献等，在一定程度上也可以快速定位和进行重复内容标注。如果修改只是简单的调整语句顺序，这个方法是行不通的，查重要能够快速判定重复。另外，还有一点需要大家注意的是，参考年代很久远的书籍时要多注意，不管是其内容的可参考性还是说查重方面，都是要大家注意的。

硕士学位论文检测的那些事

研究生毕业在论文经过导师评审后，盲审前还有一到工序，就是学位论文查重。很多硕士学生第一次接触论文查重，不知道硕士论文查重内容都包括哪些部分。

论文存在严重逻辑错误的，涉嫌抄袭的会被撤销学位1、硕士毕业后论文抽检（已获得硕士学位）不会判定为不合格，只会判定为是否抄袭。2、如果论文判定为抄袭则会被取消学位证。3、如果只是判定为论文质量或者水平不高则不会被取消学位证，因为这不是学生的问题而是指导老师和答辩老师的问题。主要检查重复率

硕士论文抽检每年进行一次，抽检具体范围授予硕士学位的论文。每篇硕士学位论文聘请3位外省同行专家进行评审。根据学位授予单位和学科硕士学位授予规模情况，按3-5%的抽检比例，确定抽检论文的数量。 3位专家中有2位以上（含2位）的专家评议意见为“不合格”的学位论文，将认定为“存在问题的学位论文”。3位专家中有1位专家评议意见为“不合格”的学位论文，将再送2位同行专家进行复评。复评中出现1位及以上专家评议意见为“不合格”，则该篇论文被认定为“存在问题学位论文”。

扩展部分：

中国知网，由《中国学术期刊（光盘版）》电子杂志社有限公司主办。导航内容覆盖自然科学、工程技术、农业、哲学、医学、人文社会科学等各个领域，囊括了基础研究、工程技术、行业指导、党政工作、文化生活、科学普及等各种层次的期刊。收录期刊大部分回溯至创刊，最早的回溯到1915年。读者可直接浏览期刊基本信息，按期查找期刊文章[2]。

硕士论文查重最严重的部分应该是摘要部分，因为在这样一个部分我们需要论述很多技术发展的内容，这就需要我们已经有很多的参考文献。

硕士论文查重时，会先检查格式。如果格式不正确，有些部分无法准确识别，会对最终查重结果产生不良影响。所以，你最好在提交论文查重之前先浏览一下，是否严格按照学校规定的标准对论文进行了编辑和编排；然后，论文的题目要新颖有新意，因为论文查重系统会从论文题目开始；然后是抽象的关键词部分，概括性强，能用简洁的文字表达论文的主题内容。关键词一般为3~8个字，是论文的主要索引词；正文部分是最重要的部分，是查重最重要的部分，也是投入写作精力最多的部分；最后是感谢和附录，字数也比较少。请注意不要重复用词，用词要表达正常。对于论文的参考相关文献研究部分，如果格式不正确，也是会查重到计算进重复率的，如果格式标注正确的话，那就会自动模式识别出来不查重。知道了我们这些查重的内容了之后，就能够得到更好的有明确教学目标的进行具有针对性修改毕业论文了，也可以实现有效的避免出现很多工作内容被查重出来。

论文答辩的那些事

要熟悉论文，要自然大方！不要紧张！

对于工科类的：答辩就一天，那天你把图啊什么的放在画板上，答辩老师会根据你的图来问你问题，不同的图不一样，但总体来说都会问一些专业课的知识，比如机械设计的，和理论的，如果有液压部分内容的话也会问，如果有电的部分内容的也会问，主要是先让你讲明白你做的东西的工作原理！！！然后是问你一些小部分的结构为什么要这么做的原因，导师还看说明书，里面的格式很主要，内容一般不会很仔细的看，主要是前面的综述，还有后面的结尾...其实答辩很简单的，一般都能过的...

毕业答辩常见问题一：你选择这个论文题材的原因是什么？我们可以结合个人的实际情况以及论文写作两个方面来进行表述，保证语言清晰，逻辑合理。例如这样回答：“因为平常自身比较喜欢这方面的内容、时常关注该研究领域的相关事宜，结合了当前政治新闻和发展趋势，受导师课题影响，参与相关研究课题等。这一部分容易加分但是也容易减分，为了表现出自身的特点和优势，所以我们应该将这一部分内容表述清楚到位。毕业答辩常见问题二：论文的研究背景是什么？这个问题与第一个问题有异曲同工之妙，同学们也可以按照第一个问题的答案来进行回答。毕业答辩常见问题三：论文的核心观点是什么或者这么问”论文的主题是什么“？这是答辩听审老师最常见的问的问题，而且答案很简单。用自己的话高度概括论文的核心，尽可能全面、准确、简洁的表达出来，不少于3句，不超过5句。毕业答辩常见问题四：本篇论文采用了哪些研究方法？首先明确指出所用的研究方法，然后结合具体内容进行讲述，也就是举例说明。毕业答辩常见问题五：你所研究问题是采用什么方法解决的，使用了什么解决方案？这个问题应该结合实际情况来进行说明，如果有具体的结论或方法的学生，可以分点解释说明。毕业答辩常见问题六：论文在哪些方面有哪些创新？这时，老师们想知道你的论文和别人的有什么不同，有什么亮点，建议同学们举例说明，分点作答，这样显得逻辑清晰、调理清楚，而且这个问题答辩老师一般都会问到，所以同学们要做好准备。最后学术堂总结：在答辩的时候一定要迅速回应。如果是你不知道问题，你可以向老师请教，千万不要出现冷场的情况，那样你的导师会很尴尬的。答辩时一定要谦虚，虽然你的论文完成得十分出色，但是这些成果暂时的、是没有获得认可结论。

我答辩的时候，首先是要阐述论文主要写的什么，结构思路什么的。我们就把摘要标题读读的。然后老师针对论文的具体内容提问，我写的是企业的盈余管理，就问我盈余管理的目的是什么，说说我的看法，盈余管理的利弊。就这样，一共问了三个问题。不一定要背，可以照着读的，但是一定要很熟悉，问到的时候能很快的找到地方读。只要不是闷不吭声或牛头不对马嘴的，都能过的。另外，如果是实证型的论文，可能会问到论文中具体的图表和数字，那个就比较难了。

目标检测的相关论文有那些

原文： Scalable Object Detection using Deep Neural Networks——学术范最近，深度卷积神经网络在许多图像识别基准上取得了最先进的性能，包括ImageNet大规模视觉识别挑战(ILSVRC-2012)。在定位子任务中获胜的模型是一个网络，它预测了图像中每个对象类别的单个边界框和置信度得分。这样的模型捕获了围绕对象的整幅图像上下文，但如果不天真地复制每个实例的输出数量，就无法处理图像中同一对象的多个实例。在这篇论文中提出了一个显著性启发的神经网络检测模型，它预测了一组与类无关的边界框，每个框有一个分数，对应于它包含任何感兴趣的对象的可能性。该模型自然地为每个类处理数量可变的实例，并允许在网络的最高级别上进行跨类泛化。目标检测是计算机视觉的基本任务之一。一个解决这个问题的通用范例是训练在子图像上操作的对象检测器，并在所有的场所和尺度上以详尽的方式应用这些检测器。这一范例被成功地应用于经过区别训练的可变形零件模型(DPM)中，以实现检测任务的最新结果。对所有可能位置和尺度的穷举搜索带来了计算上的挑战。随着类数量的增加，这个挑战变得更加困难，因为大多数方法都训练每个类单独的检测器。为了解决这个问题，人们提出了多种方法，从检测器级联到使用分割提出少量的对象假设。关于对象检测的文献非常多，在本节中，我们将重点讨论利用类不可知思想和解决可伸缩性的方法。许多提出的检测方法都是基于基于部件的模型，最近由于有区别学习和精心设计的特征，已经取得了令人印象深刻的性能。然而,这些方法依赖于在多个尺度上详尽地应用零件模板，这是非常昂贵的。此外，它们在类的数量上是可伸缩的，这对像ImageNet这样的现代数据集来说是一个挑战。为了解决前一个问题，Lampert等人使用分支绑定策略来避免计算所有可能的对象位置。为了解决后一个问题，Song et al.使用了一个低维部件基，在所有对象类中共享。基于哈希算法的零件检测也取得了良好的结果。另一种不同的工作，与我们的工作更接近，是基于对象可以本地化的想法，而不必知道它们的类。其中一些方法建立在自底向上无阶级分割[9]的基础上。通过这种方式得到的片段可以使用自上而下的反馈进行评分。基于同样的动机，Alexe等人使用一种廉价的分类器对对象假设是否为对象进行评分，并以这种方式减少了后续检测步骤的位置数量。这些方法可以被认为是多层模型，分割作为第一层，分割分类作为后续层。尽管它们编码了已证明的感知原理，但我们将表明，有更深入的模型，充分学习可以导致更好的结果。最后，我们利用了DeepLearning的最新进展，最引人注目的是Krizhevsky等人的工作。我们将他们的边界盒回归检测方法扩展到以可扩展的方式处理多个对象的情况。然而，基于dnn的回归已经被Szegedy等人应用到对象掩模中。最后一种方法实现了最先进的检测性能，但由于单个掩模回归的成本，不能扩展到多个类。我们的目标是通过预测一组表示潜在对象的边界盒来实现一种与类无关的可扩展对象检测。更准确地说，我们使用了深度神经网络(DNN)，它输出固定数量的包围盒。此外，它为每个盒子输出一个分数，表示这个盒子包含一个对象的网络信任度。为了形式化上述思想，我们将i-thobject框及其相关的置信度编码为最后一网层的节点值: Bounding box: 我们将每个框的左上角和右下角坐标编码为四个节点值，可以写成vectorli∈R4。这些坐标是归一化的w. r. t.图像尺寸，以实现图像绝对尺寸的不变性。每个归一化坐标是由最后一层的线性变换产生的。 Confidence: 置信度:包含一个对象的盒子的置信度得分被编码为单个节点valueci∈[0,1]。这个值是通过最后一个隐藏层的线性变换产生的，后面跟着一个sigmoid。我们可以组合边界盒位置sli,i∈{1，…K}为一个线性层。同样，我们可以将所有置信区间ci,i∈{1，…K}作为一个s型层的输出。这两个输出层都连接到最后一个隐藏层在推理时，我们的算法生成kbound盒。在我们的实验中，我们使用ek = 100和K= 200。如果需要，我们可以使用置信分数和非最大抑制在推理时获得较少数量的高置信框。这些盒子应该代表对象。因此，它们可以通过后续的分类器进行分类，实现目标检测。由于盒子的数量非常少，我们可以提供强大的分类器。在我们的实验中，我们使用另一个dnn进行分类。我们训练一个DNN来预测每个训练图像的边界框及其置信度得分，以便得分最高的框与图像的groundtruth对象框很好地匹配。假设对于一个特定的训练例子，对象被标记为boundingboxesgj,j∈{1，…，M}。在实践中，pre- dictionary的数量远远大于groundtruthboxm的数量。因此，我们试图只优化与地面真实最匹配的预测框子集。我们优化他们的位置，以提高他们的匹配度，最大化他们的信心。与此同时，我们将剩余预测的置信度最小化，这被认为不能很好地定位真实对象。为了达到上述目的，我们为每个训练实例制定一个分配问题。Wexij∈{0,1}表示赋值:xij= 1，如果第i个预测被赋值给第j个真对象。这项任务的目标可以表示为其中，我们使用标准化边界框坐标之间的el2距离来量化边界框之间的不同。此外，我们希望根据分配x优化盒子的可信度。最大化指定预测的置信度可以表示为最终的损失目标结合了匹配损失和信心损失受式1的约束。α平衡了不同损失条款的贡献。对于每个训练例子，我们通过解决一个最佳的赋值x*的预测到真实的盒子约束执行赋值解决方案。这是二部匹配的一种变体，是一种多项式复杂度匹配。在我们的应用程序中，匹配是非常便宜的——每幅图像中标记的对象的数量少于一打，而且在大多数情况下只有很少的对象被标记。然后，通过反向传播优化网络参数。例如，反向传播算法的一阶导数计算w、r、t、l和c 尽管上述定义的损失在原则上是足够的，但三次修改使其有可能更快地达到更好的准确性。第一个修改是对地面真实位置进行聚类，并找到这样的聚类/质心，我们可以使用这些聚类/质心作为每个预测位置的先验。因此，鼓励学习算法为每个预测位置学习一个残差到一个先验。第二个修改涉及到在匹配过程中使用这些先验:不是将N个groundtruth位置与K个预测进行匹配，而是在K个先验和groundtruth之间找到最佳匹配。一旦匹配完成，就会像之前一样计算目标的置信度。此外，位置预测损失也不变:对于任何一对匹配的(目标，预测)位置，其损失定义为groundtruth和对应于匹配先验的坐标之间的差值。我们把使用先验匹配称为先验匹配，并假设它促进了预测的多样化。需要注意的是，尽管我们以一种与类无关的方式定义了我们的方法，但我们可以将它应用于预测特定类的对象盒。要做到这一点，我们只需要在类的边框上训练我们的模型。此外，我们可以预测每个类的kbox。不幸的是，这个模型的参数数量会随着类的数量线性增长。此外，在一个典型的设置中，给定类的对象数量相对较少，这些参数中的大多数会看到很少有相应梯度贡献的训练示例。因此，我们认为我们的两步过程——首先本地化，然后识别——是一个更好的选择，因为它允许使用少量参数利用同一图像中多个对象类型的数据我们使用的本地化和分类模型的网络架构与[10]使用的网络架构相同。我们使用Adagrad来控制学习速率衰减，128的小批量，以及使用多个相同的网络副本进行并行分布式训练，从而实现更快的收敛。如前所述，我们在定位损失中使用先验——这些是使用训练集上的均值来计算的。我们还使用α = 来平衡局部化和置信度损失。定位器可以输出用于推断的种植区以外的坐标。坐标被映射和截断到最后的图像区域。另外，使用非最大抑制对盒进行修剪，Jaccard相似度阈值为。然后，我们的第二个模型将每个边界框分类为感兴趣的对象或“背景”。为了训练我们的定位器网络，我们从训练集中生成了大约3000万幅图像，并对训练集中的每幅图像应用以下步骤。最后，样品被打乱。为了训练我们的本地化网络，我们通过对训练集中的每一幅图像应用以下步骤，从训练集中生成了大约3000万幅图像。对于每幅图像，我们生成相同数量的平方样本，使样本总数大约为1000万。对于每幅图像，样本被桶状填充，这样，对于0 - 5%、5 - 15%、15 - 50%、50 - 100%范围内的每个比例，都有相同数量的样本，其中被包围框覆盖的比例在给定范围内。训练集和我们大多数超参数的选择是基于过去使用非公开数据集的经验。在下面的实验中，我们没有探索任何非标准数据生成或正则化选项。在所有的实验中，所有的超参数都是通过对训练集。 Pascal Visual Object Classes (VOC)挑战是最常用的对象检测算法基准。它主要由复杂的场景图像组成，其中包含了20种不同的对象类别的边界框。在我们的评估中，我们关注的是2007版VOC，为此发布了一个测试集。我们通过培训VOC 2012展示了结果，其中包含了大约。11000张图片。我们训练了一个100框的定位器和一个基于深度网络的分类器。我们在一个由1000万作物组成的数据集上训练分类器，该数据集重叠的对象至少为 jaccard重叠相似度。这些作物被标记为20个VOC对象类中的一个。•2000万负作物与任何物体盒最多有个Jaccard相似度。这些作物被贴上特殊的“背景”类标签。体系结构和超参数的选择遵循。在第一轮中，定位器模型应用于图像中最大-最小中心方形作物。作物的大小调整到网络输入大小is220×220。单次通过这个网络，我们就可以得到上百个候选日期框。在对重叠阈值为的非最大抑制后，保留评分最高的前10个检测项，并通过21路分类器模型分别通过网络进行分类。最终的检测分数是给定盒子的定位分数乘以分类器在作物周围的最大方形区域上评估的分数的乘积。这些分数通过评估，并用于计算精确查全曲线。首先，我们分析了本地化器在隔离状态下的性能。我们给出了被检测对象的数量，正如Pascal检测标准所定义的那样，与生成的包围框的数量相对比。在图1中，我们展示了使用VOC2012进行训练所获得的结果。此外，我们通过使用图像的最大中心面积(max-center square crop)作为输入以及使用两个尺度(second scale)来给出结果:最大中心面积(max-center crop)的第二个尺度(select3×3windows的大小为图像大小的60%)正如我们所看到的，当使用10个边界框的预算时，我们可以用第一个模型本地化的对象，用第二个模型本地化48%的对象。这显示出比其他报告的结果更好的性能，例如对象度算法达到42%[1]。此外，这个图表显示了在不同分辨率下观察图像的重要性。虽然我们的算法通过使用最大中心作物获得了大量的对象，但当使用更高分辨率的图像作物时，我们获得了额外的提升。进一步，我们用21-way分类器对生成的包围盒进行分类，如上所述。表1列出了VOC 2007的平均精度(APs)。达到的平均AP是，与先进水平相当。注意，我们的运行时间复杂度非常低——我们只使用top10框。示例检测和全精度召回曲线分别如图2和图3所示。值得注意的是，可视化检测是通过仅使用最大中心方形图像裁剪，即使用全图像获得的。然而，我们设法获得了相对较小的对象，例如第二行和第二列的船，以及第三行和第三列的羊。在本工作中，我们提出了一种新的方法来定位图像中的对象，该方法可以预测多个边界框的时间。该方法使用深度卷积神经网络作为基本特征提取和学习模型。它制定了一个能够利用可变数量的groundtruth位置的多箱定位成本。在“一个类一个箱”方法的情况下，对1000个盒子进行非max-suppression，使用与给定图像中感兴趣的DeepMulti-Box方法相同的准则，并学习在未见图像中预测这些位置。我们在VOC2007和ILSVRC-2012这两个具有挑战性的基准上给出了结果，在这两个基准上，所提出的方法具有竞争力。此外，该方法能够很好地预测后续分类器将探测到的位置。我们的结果表明，deepmultibox的方法是可扩展的，甚至可以在两个数据集之间泛化，就能够预测感兴趣的定位，甚至对于它没有训练的类别。此外，它能够捕获同一类物体的多种情况，这是旨在更好地理解图像的算法的一个重要特征。在未来，我们希望能够将定位和识别路径折叠到一个单一的网络中，这样我们就能够在一个通过网络的一次性前馈中提取位置和类标签信息。即使在其当前状态下，双通道过程(本地化网络之后是分类网络)也会产生5-10个网络评估，每个评估的速度大约为1个CPU-sec(现代机器)。重要的是，这个数字并不与要识别的类的数量成线性关系，这使得所提出的方法与类似dpm的方法非常有竞争力。

对于目标检测方向并不是特别熟悉，本文记录一下RCNN, fast-RCNN, faster-RCNN, mask-RCNN这4篇有关目标检测的论文笔记和学习心得。

R-CNN的意思就是Region based，主要思路就是根据一张图像，提取多个region，再将每个Region输入CNN来进行特征的提取。因此RCNN就可以分为 Region proposals , Feature extraction 两个主要部分，提取的特征就可以输入任意一个分类器来进行分类。模型的流程图如下：

在训练的时候，首先使用的是已经训练好的CNN网络作为特征提取器，但是由于预训练是在分类数据集上，因此在应用到检测之前要做finetune。也就是说，为了将用ImageNet数据集训练的网络应用到新的任务（检测），新的数据集（region）上，作者将原来的CNN最后的1000类的fc层，更改为了层，代表待检测的物体的类别数。然后，对于所有的region，如果它和ground truth的重叠率大于，就认为是正类。对于分类器的训练，作者发现选择多大的IoU来区分正类和负类非常关键。并且，对于每一类，都会训练一个分类器。

框的回归非常重要，在对每一个region proposal使用分类器进行打分评价之后，作者使用一个回归器来预测一个新的框作为结果。这个回归器使用的特征是从CNN中提取的特征。回归器的训练中，输入是 region proposal 的和ground truth的，目标是学习一种变换，使得region proposal通过该变换能够接近ground truth。同时，希望这种变换拥有尺度不变性，也就是说尺度变化的话，变换不会改变。如下图所示，每一个regressor会学习一组参数，特征输入是pool 5的特征输出，拟合的目标是。

Fast-RCNN 主要解决的问题是在RCNN中对于每一个region proposal都进行特征提取，会产生非常多的冗余计算，因此可以先对一张图像进行特征提取，再根据region proposal在相应的特征上进行划分得到对应region的特征（映射关系）。这样便可以实现共享计算提高速度，但是与SPPnets不同，SPPnets在一副图像得到对应的特征后，从这张图像的特征上proposal对应的部分，采用空间金字塔池化，如下图：

RoI pooling的方法很简单，类似于空间金字塔pooling，它将proposal部分对应卷积层输出的特征（称之为RoI，因为用于做pooling的特征是 region of interest，也就是我们感兴趣的区域）划分成块，然后对每一块求最大值，最终得到了一个的特征图。可以看出，它只是空间金字塔pooling的一部分。但是SPP-nets的空间金字塔也是可以求导的，那么它到底不好在哪里呢？因为当每一个RoI都可能来源于不同的图像的时候（R-CNN和SPPnets的训练策略是从一个batch的不同图像中，分别挑选一个proposal region），SPPNets的训练非常地低效，这种低效来源于在SPPnets的训练中，每个RoI的感受野都非常地大，很可能对应了原图的整个图像，因此，得到的特征也几乎对应了整张图像，所以输入的图像也就很大。为了提高效率，Fast-RCNN首先选取个图像，再从每个图像上选择个RoI，这样的效率就比从每个图像提取一个RoI提高了倍。

为了将分类和框回归结合起来，作者采用了多任务的loss，来进行联合的训练。具体来说就是将分类的loss和框回归的loss结合起来。网络的设计上非常直接，就是将RoI得到的特征接几个FC层后，分别接不同的输出层。对应于分类部分，特征会接一个softmax输出，用于分类，对于框回归部分，会接一个输出4维特征的输出层，然后分别计算loss，用于反向传播。loss的公式如下：

回归的target可以参考前面的R-CNN部分。

notes

为什么比fast还fast呢？主要原因是在这篇论文中提出了一个新的层：RPN（region proposal networks）用于替代之前的selective search。这个层还可以在GPU上运算来提高速度。 RPN的目的：

为了能够进行region proposal，作者使用了一个小的网络，在基础的卷积层输出的特征上进行滑动，这个网络输入大小为，输入后会映射（用的卷积）为一个固定长度的特征向量，然后接两个并联的fc层（用的卷积层代替），这两个fc层，一个为box-regressoin，一个为box-classification。如下图：

在每一个滑动窗口（可以参考），为了考虑到尽可能多的框的情况，作者设计了anchors来作为region proposal。anchors就是对于每一个滑动窗口的中心位置，在该位置对应的原图位置的基础上，按照不同的尺度，长宽比例框出个不同的区域。然后根据这些anchors对应的原始图像位置以及区域，和ground truth，就可以给每一个滑动窗口的每一个anchor进行标记，也就是赋予label，满足一定条件标记为正类（比如和ground truth重叠大于一个值），一定条件为负类。对于正类，就可以根据ground truth和该anchor对应的原图的区域之间的变换关系（参考前面的R-CNN的框回归），得到回归器中的目标，用于训练。也就是论文中的loss function部分：

自然地，也就要求RPN的两个并联的FC层一个输出2k个值用于表示这k个anchor对应的区域的正类，负类的概率，另一个输出4k个值，用于表示框回归的变换的预测值。

对于整个网络的训练，作者采用了一种叫做 4-step Alternating Training 的方法。具体可以参考论文。

与之前的检测任务稍有不同，mask r-cnn的任务是做instance segmentation。因此，它需要对每一个像素点进行分类。与Faster R-CNN不同，Faster R-CNN对每一个候选框产生两个输出，一个是类别，一个是bounding box的offset。Mask R-CNN新增加了一个输出，作为物体的mask。这个mask类似于ps中的蒙版。

与Faster R-CNN类似的是，Mask R-CNN同样采用RPN来进行Region Proposal。但是在之后，对于每一个RoI，mask r-cnn还输出了一个二值化的mask。

不像类别，框回归，输出都可以是一个向量，mask必须保持一定的空间信息。因此，作者采用FCN来从每个RoI中预测一个的mask。

由于属于像素级别的预测问题，就需要RoI能够在进行特征提取的时候保持住空间信息，至少在像素级别上能够对应起来。因此，传统的取最大值的方法就显得不合适。 RoI Pooling，经历了两个量化的过程：第一个：从roi proposal到feature map的映射过程。第二个：从feature map划分成7*7的bin，每个bin使用max pooling。

为此，作者使用了RoIAlign。如下图

为了避免上面提到的量化过程

可以参考

作者使用ResNet作为基础的特征提取的网络。对于预测类别，回归框，mask的网络使用如下图结构：

整体看完这几篇大佬的论文，虽说没有弄清楚每一个实现细节，但是大体上了解了算法的思路。可以看出，出发点都源于深度神经网络在特征提取上的卓越能力，因此一众大神试图将这种能力应用在检测问题中。从R-CNN中简单地用于特征提取，到为了提高速度减少计算的Fast R-CNN，再到为了将region proposal集成进入整个模型中，并且利用GPU加速的RPN，也就是Faster R-CNN。再到为了应用于instance segmentation任务中，设计的RoIAlign和mask。包括bounding box regression，pooling层的设计，训练方法的选择，loss的设计等等细节，无一不体现了大师们的思考和创造力。可能在我们这些“拿来”者的眼中，这些方法都显得“理所应当”和巧妙，好用，但是，它们背后隐藏的选择和这些选择的思考却更值得我们学习。以及，对待每一个问题，如何设计出合理的解决方案，以及方案的效率，通用性，更是应该我们努力的方向。

有一个月没更博客了，捂脸 o(￣=￣)d

端午回家休息了几天，6月要加油~

回到正文，HOG是很经典的一种图像特征提取方法，尤其是在行人识别领域被应用的很多。虽然文章是2005年发表在CVPR上的，但近十年来还没有被淹没的文章真的是很值得阅读的研究成果了。

key idea：局部物体的形状和外观可以通过局部梯度或者边缘的密度分布所表示。

主要步骤：

上图为论文中提供的图，个人觉得我在参考资料中列出的那篇博客中给出的图可能更好理解一些。

具体细节：关于每一个过程的详细解释还是在这篇博客中已经写得很清楚了，这里就不再搬运了。

文章中数据集的图像大小均为：64*128, block大小为16x16， block stride为8x8，cell size为8x8，bins=9（直方图等级数）；

获取到每张图的特征维度后，再用线性SVM训练分类器即可。

下图为作者而给出的示例图：

这两篇博客写的都很好，推荐阅读一波。

毕业论文的那些事儿

最容易出现的问题就是重复率高，现在对本科生的论文要求更严格了，不仅要写足字数，选好论题，精准叙述，最重要的就是要原创，查重率要低于百分之二十。

毕业论文常见的问题通常都是写作的过程中出现的语法问题，还有标点符号的错误，这是最明显的错误

1、论文题目：要求准确、简练、醒目、新颖。2、目录：目录是论文中主要段落的简表。（短篇论文不必列目录）3、提要：是文章主要内容的摘录，要求短、精、完整。字数少可几十字，多不超过三百字为宜。4、关键词或主题词：关键词是从论文的题名、提要和正文中选取出来的，是对表述论文的中心内容有实质意义的词汇。关键词是用作机系统标引论文内容特征的词语，便于信息系统汇集，以供读者检索。每篇论文一般选取3-8个词汇作为关键词，另起一行，排在“提要”的左下方。主题词是经过规范化的词，在确定主题词时，要对论文进行主题，依照标引和组配规则转换成主题词表中的规范词语。5、论文正文：（1）引言：引言又称前言、序言和导言，用在论文的开头。引言一般要概括地写出作者意图，说明选题的目的和意义, 并指出论文写作的范围。引言要短小精悍、紧扣主题。〈2）论文正文：正文是论文的主体，正文应包括论点、论据、论证过程和结论。主体部分包括以下内容：a.提出-论点；b.分析问题-论据和论证；c.解决问题-论证与步骤；d.结论。6、一篇论文的参考文献是将论文在和写作中可参考或引证的主要文献资料，列于论文的末尾。参考文献应另起一页，标注方式按《GB7714-87文后参考文献著录规则》进行。中文：标题--作者--出版物信息（版地、版者、版期）：作者--标题--出版物信息所列参考文献的要求是：（1）所列参考文献应是正式出版物，以便读者考证。（2）所列举的参考文献要标明序号、著作或文章的标题、作者、出版物信息。

毕业论文常见的问题通常都是写作的过程中出现的语法问题，还有标点符号的错误，这是最明显的错误，是需要我们严格控制的问题。

首页

> 学术期刊知识库

学长讲述他论文检测的那些事