卷积神经网络毕设难。根据查询相关资料信息显示,毕业设计对于每个学生而言都是一种十分痛苦的渡劫仪式,包括卷积神经网络。完成一个实现图像分类任务的卷积神经网络的项目,包括训练数量和用于识别后期还加了批量识别图片的需求两个部分。
你的论文准备往什么方向写,选题老师审核通过了没,有没有列个大纲让老师看一下写作方向? 老师有没有和你说论文往哪个方向写比较好?写论文之前,一定要写个大纲,这样老师,好确定了框架,避免以后论文修改过程中出现大改的情况!!学校的格式要求、写作规范要注意,否则很可能发回来重新改,你要还有什么不明白或不懂可以问我,希望你能够顺利毕业,迈向新的人生。 (一)选题毕业论文(设计)题目应符合本专业的培养目标和教学要求,具有综合性和创新性。本科生要根据自己的实际情况和专业特长,选择适当的论文题目,但所写论文要与本专业所学课程有关。(二)查阅资料、列出论文提纲题目选定后,要在指导教师指导下开展调研和进行实验,搜集、查阅有关资料,进行加工、提炼,然后列出详细的写作提纲。(三)完成初稿根据所列提纲,按指导教师的意见认真完成初稿。(四)定稿初稿须经指导教师审阅,并按其意见和要求进行修改,然后定稿。一般毕业论文题目的选择最好不要太泛,越具体越好,而且老师希望学生能结合自己学过的知识对问题进行分析和解决。不知道你是否确定了选题,确定选题了接下来你需要根据选题去查阅前辈们的相关论文,看看人家是怎么规划论文整体框架的;其次就是需要自己动手收集资料了,进而整理和分析资料得出自己的论文框架;最后就是按照框架去组织论文了。你如果需要什么参考资料和范文我可以提供给你。还有什么不了解的可以直接问我,希望可以帮到你,祝写作过程顺利毕业论文选题的方法: 一、尽快确定毕业论文的选题方向 在毕业论文工作布置后,每个人都应遵循选题的基本原则,在较短的时间内把选题的方向确定下来。从毕业论文题目的性质来看,基本上可以分为两大类:一类是社会主义现代化建设实践中提出的理论和实际问题;另一类是专业学科本身发展中存在的基本范畴和基本理论问题。大学生应根据自己的志趣和爱好,尽快从上述两大类中确定一个方向。二、在初步调查研究的基础上选定毕业论文的具体题目在选题的方向确定以后,还要经过一定的调查和研究,来进一步确定选题的范围,以至最后选定具体题目。下面介绍两种常见的选题方法。 浏览捕捉法 :这种方法就是通过对占有的文献资料快速地、大量地阅读,在比较中来确定论文题目地方法。浏览,一般是在资料占有达到一定数量时集中一段时间进行,这样便于对资料作集中的比较和鉴别。浏览的目的是在咀嚼消化已有资料的过程中,提出问题,寻找自己的研究课题。这就需要对收集到的材料作一全面的阅读研究,主要的、次要的、不同角度的、不同观点的都应了解,不能看了一些资料,有了一点看法,就到此为止,急于动笔。也不能“先入为主”,以自己头脑中原有的观点或看了第一篇资料后得到的看法去决定取舍。而应冷静地、客观地对所有资料作认真的分析思考。在浩如烟海,内容丰富的资料中吸取营养,反复思考琢磨许多时候之后,必然会有所发现,这是搞科学研究的人时常会碰到的情形。 浏览捕捉法一般可按以下步骤进行: 第一步,广泛地浏览资料。在浏览中要注意勤作笔录,随时记下资料的纲目,记下资料中对自己影响最深刻的观点、论据、论证方法等,记下脑海中涌现的点滴体会。当然,手抄笔录并不等于有言必录,有文必录,而是要做细心的选择,有目的、有重点地摘录,当详则详,当略则略,一些相同的或类似的观点和材料则不必重复摘录,只需记下资料来源及页码就行,以避免浪费时间和精力。 第二步,是将阅读所得到的方方面面的内容,进行分类、排列、组合,从中寻找问题、发现问题,材料可按纲目分类,如分成: 系统介绍有关问题研究发展概况的资料; 对某一个问题研究情况的资料; 对同一问题几种不同观点的资料; 对某一问题研究最新的资料和成果等等。 第三步,将自己在研究中的体会与资料分别加以比较,找出哪些体会在资料中没有或部分没有;哪些体会虽然资料已有,但自己对此有不同看法;哪些体会和资料是基本一致的;哪些体会是在资料基础上的深化和发挥等等。经过几番深思熟虑的思考过程,就容易萌生自己的想法。把这种想法及时捕捉住,再作进一步的思考,选题的目标也就会渐渐明确起来。
列固为了减小摩擦的是( )独讨论某一点的隶属度毫无意义。对 错 (1). 小的混酥面坯制品
计算机毕业设计 基于Python的SIFT和KCF的运动目标匹配与跟踪 毕业论文+项目源码 基于Python决策树算法的学生学习行为数据分析 设计报告+代码及数据 基于Sring+bootstrap+MySQL的住房公积金管理系统 课程报告+项目源码及数据库文件 基于C++的即时通信软件设计 毕业论文+项目源码 基于JavaWeb+MySQL的图书管理系统 课程报告+项目源码及数据库文件 基于Android Studio+Android SDK的手机通讯录管理软件设计 课程报告+项目源码 基于JSP+MySQL的校园网上订餐系统 毕业论文+项目源码及数据库文件 基于AndroidStudio的花艺分享平台APP设计 报告+源码及APK文件 基于Python的酒店评论情感分析 课程报告+答辩PPT+项目源码 基于QT的教务选课管理系统设计与实现 毕业论文+项目源码 基于Android+Springboot+Mybatis+Mysql的个人生活APP设计 说明书+项目源码 基于Vue.js+Go的Web3D宇宙空间数据可视化系统 设计报告+前后端源码及数据 基于java+android+SQLite的保健型果饮在线销售APP设计 毕业论文+源码数据库及APK文件 基于Vue.js+SpringBoot+MyBatis+MySQL的高校综合资源发布分享社交二手平台 毕业论文+项目源码及数据库文件+演示视频 基于Delphi+MySQL的大学生竞赛发布及组队系统 设计报告+源码数据库及可执行文件+使用说明书 基于Android的名片信息管理系统设计与实现 毕业论文+任务书+外文翻译及原文+演示视频+项目源码 基于Python的电影数据可视化分析系统 设计报告+答辩PPT+项目源码 基于JavaWeb的企业公司管理系统设计与实现 毕业论文+答辩PPT+演示视频+项目源码 高校成绩管理数据库系统的设计与实现 毕业论文+项目源码 基于JavaWeb的家庭食谱管理系统设计与实现 毕业论文+项目源码及数据库文件 基于Python+SQLSERVER的快递业务管理系统的设计与实现 毕业论文+项目源码及数据库文件 基于Python的语音词频提取云平台 设计报告+设计源码 在推荐系统中引入 Serendipity 的算法研究 毕业论文+参考文献+项目源码 基于Html+Python+Django+Sqlite的机票预订系统 毕业论文+项目源码及数据库文件 基于Python的卷积神经网络的猫狗图像识别系统 课程报告+项目源码 基于C++的云安全主动防御系统客户端服务端设计 毕业论文+项目源码 基于JavaSSM的学生成绩管理APP系统设计与实现 毕业论文+答辩PPT+前后台源码及APK文件 基于JavaSwing+MySQL的清朝古代名人数据管理系统设计 毕业论文+任务书+项目源码及数据库文件 基于Python_Django的社会实践活动管理系统设计与实现 毕业论文 基于Servlet WebSocket MySQL实现的网络在线考试系统 毕业论文+项目源码 基于JavaWEB+MySQL的学生成绩综合管理系统 毕业论文+项目源码及数据库文件 基于SpringBoot+Vue和MySQL+Redis的网络课程平台设计与实现 毕业论文+任务书+开题报告+中期报告+初稿+前后台项目源码 基于Java的毕业设计题目收集系统 课程报告+项目源码 基于Java+Python+html的生产者与消费者算法模拟 毕业论文+任务书+项目源码 基于JavaWeb+MySQL的学院党费缴费系统 毕业论文+项目源码及数据库文件 基于Java+MySQL的学生成绩管理系统 毕业论文+任务书+答辩PPT+项目源码及数据库文件 基于Java+MySQL的学生和客户信息管理系统 课程报告+项目源码及数据库文件 基于Java的长整数加减法算法设计 毕业论文+项目源码 基于vue+MySQL的毕业设计网上选题系统 毕业论文+项目源码 基于背景建模和FasterR-CNN的视频前景和目标检测 毕业论文+答辩PPT+项目源码 基于Python的智能视频分析之人数统计的多种实现 毕业论文+答辩PPT+项目源码 基于C#+SQL server的校园卡消费信息管理系统 毕业论文+项目源码及数据库文件
1、刍议网络信息技术教育的一些思索2、浅谈网络犯罪3、网络招聘现状模式分析4、应用无线网络技术组建局域网的常见问题分析5、中国网络经济和电子商务问题探析6、net在事务处理的应用探讨7、电子商务下物流模式的探讨8、电子商务信息安全技术研究9、商品类型对网上购物偏好性别差异的影响10、一种电子商务信息安全保障机制 毕业论文答辩的一般程序: 1.学员必须在论文答辩会举行之前半个月,将经过指导老师审定并签署过意见的毕业论文一式三份连同提纲、草稿等交给答辩委员会,答辩委员会的主答辩老师在仔细研读毕业论文的基础上,拟出要提问的问题,然后举行答辩会。2.在答辩会上,先让学员用15分钟左右的时间概述论文的标题以及选择该论题的原因,较详细地介绍论文的主要论点、论据和写作体会。3.主答辩老师提问。主答辩老师一般提三个问题。老师提问完后,有的学校规定,可以让学生独立准备15—20分钟后,再来当场回答,可以是对话式的,也可以是主答辩老师一次性提出三个问题,学员在听清楚记下来后,按顺序逐一作出回答。根据学员回答的具体情况,主答辩老师和其他答辩老师随时可以有适当的插问。4.学员逐一回答完所有问题后退场,答辩委员会集体根据论文质量和答辩情况,商定通过还是不通过,并拟定成绩和评语。5.召回学员,由主答辩老师当面向学员就论文和答辩过程中的情况加以小结,肯定其优点和长处,指出其错误或不足之处,并加以必要的补充和指点,同时当面向学员宣布通过或不通过。至于论文的成绩,一般不当场宣布。相关书籍
基于Python的SIFT和KCF的运动目标匹配与跟踪 毕业论文+项目源码基于Python决策树算法的学生学习行为数据分析 设计报告+代码及数据基于Sring+bootstrap+MySQL的住房公积金管理系统 课程报告+项目源码及数据库文件基于C++的即时通信软件设计 毕业论文+项目源码
你可以到七七计算机毕业论文的毕业设计题目列表中找一份。有完整的论文和源码等,很详细
白行健(右)此前获COO金牌第一名
高中生开始研究图神经网络
白行健的论文为《基于自适应性图卷积神经网络的暴力用户检测》,目前已经成功入围总决赛。
文章提出了⼀种新的⾃适应图卷积神经⽹络模型(Adaptive Graph Convolutional Neural Networks,简称AdaGCN),在传统的GCN模型的基础上进⾏了改进和创新。为了解决参数增加带来的模型难以训练和过拟合情况,文章引入了标签平滑假设,对边权的训练施加了额外的监督,从⽽实现了和GCN模型的⾃然结合。
白行健的数据集包含了10万余名Twitter⽤户和200余万条社交关系,其中⼤约5千名⽤户被标记是否为暴⼒⽤户。实验结果表明,AdaGCN的AUC得分为0.80,F1得分为0.47,得分⾼于所有对⽐⽅法,包括传统的GCN模型, 图注意⼒⽹络 (GAT),标签传播算法(LPA),⽀持向量机(SVM)等等。此外, AdaGCN模型的结果具有最低的标准差,这表明AdaGCN模型具有很强的稳定性。 在线社交平台可以利⽤本⽂提出的⽅法来更好地评估、检测暴⼒⽤户,防⽌暴⼒⽤户伤害他⼈ 并传播仇恨⾔论。 同时,⾃适应图卷积神经⽹络模型也可以⽤来评估不同类型的暴⼒⾔论造成的社会影响。
开挂的学霸少年
此次入围丘成桐奖之前,白行健从2018年开始多次参加相关竞赛获得好成绩:
白行健(右)
在生活方面,白行健也有很多其他尝试,他目前就读北京师范⼤学附属实验中学国际部⾼三,对数学和计算机科学非常感兴趣,担任学校计算机社社长和⼈⽂社社长。
图 | 微博
而今年的丘成桐中学科学奖中,白行健选择用图神经网络为切入点,对网络暴力用户进行检测。很大一部分原因也是身边有好友经历过网络暴力:
“2018年2⽉10⽇,⼀个名叫Ted Senior的22岁男孩在林地上吊⾃杀,原因是⼀些⼈在社交媒体上恶意地分享和评判他与⼀名⼥孩的聊天内容。在我身 边,我的同学好友在学校论坛发表观点,但是遭受匿名的辱骂和攻击,这种羞辱让他感到⾮常痛苦。我深深地被这些可恨的⾏为和可怕的后果所触动。计算机科学带来了信息时代,社交⽹络改变了我们的⽣活,我们期望技术会让世界更美好。但没有什么是尽善尽美的。⽹络暴⼒是信息技术⽆意中带来的⼀个问题,我渴望找到⼀种⽅法来发现和控制它们。”
而目前对于网络暴力, 目前已经有不少基于深度学习的网络欺凌模型。比如Instagram去年推出 「增强版的评论过滤器」 ,通过对照片、文字的检测分析,对其中的恶意行为采取过滤等措施。、
Facebook和Twitter也推出了类似的举措来限制其平台上的欺凌行为。Twitter在去年十月制定了一个时间表,以便从其平台中删除裸露和仇恨图像等内容。去年Facebook添加了一些工具,允许用户一次隐藏或删除多条评论,并允许用户代表朋友或家人报告欺凌或骚扰。
科技的发展真实的改变着我们的生活,我们享受其便利、承受其弊端。而像白行健这样的年轻人将越来越早的进入改变世界的行列,用技术影响着我们。
看来未来不仅仅是「同辈压力」了,「后辈压力」也追着我们跑来了。毕竟当你还在拼命打排位的时候,高中生已经论文已经发起来了......
感受野(receptive field或者field of view)是卷积神经网络中的一个基本概念。与全连接层中每个输出值都与全部输入特征值有关不同的是,卷积层的一个输出值只与一部分的输入特征值有关。输入特征值中与输出特征值有关的部分就是它的感受野。 对于处于中心位置的特征值,对于输出的影响会更大,根据实验结果在一个接受野的影响分布是高斯分布。由此也引入了一个 有效感受野 的概念,因为高斯分布在中心位置强度更高,然后逐渐向周围递减。
我们想用数学的方法来描述一个接收野中的每个输入像素对网络上一个单元层的输出的影响程度,并研究这种影响是如何在输出单元的接收野内分布的。为了简化符号,我们只考虑每层上的一个信道,但是对于具有更多输入和输出的卷积层,可以很容易地得到类似的结果通道。 假设每层上的像素用(i,j)索引,其中心位于(0,0)。表示第层的第(i,j)个像素为 ,其中 作为网络的输入, 作为第n层的输出。我们要测量每个 对 贡献了多少。我们将这个中央输出单元的有效感受野(ERF)定义为包含任何输入像素且对其影响不可忽略的区域单位。 本文采用偏导数 ,j来度量 随 有多大的变化;因此,它是 相对于 重要性的自然度量。然而,这种度量不仅取决于网络的权值,而且在大多数情况下也依赖于输入,因此我们的大多数结果都是期望值大于输入分布。 偏导数 可以用反向传播法计算。在标准设置中,反向传播传播相对于某个损耗函数的误差梯度。假设我们有一个任意的损失函数l,根据链式规则,我们有 我们可以设置误差梯度 和 ,然后将这个梯度从那里传播回网络。得到的 ,相当于期望的\partial{y_{0,0}}}{\partial {x^0_{i,j}}。这里我们使用无显式损失函数的反向传播过程,并且该过程可以用标准神经网络轻松实现工具。 在下面我们首先考虑线性网络,其中这个导数不依赖于输入,而纯粹是网络权重和(i,j),它清楚地显示了感受野中像素的影响是如何分布的。然后我们继续考虑更现代的架构设计,并讨论非线性激活、dropout、子采样、空洞卷积和跳跃连接对ERF的影响。 2.1最简单的情况:权值都等于1的卷积层 考虑使用k×k卷积核的步长为1的卷积层的情况,每层一个单通道,无非线性,叠加成一个深线性CNN。在这个分析中,我们忽略了所有层上的偏差。我们首先分析权值都等于1的卷积核。(推理过程公式好多,看原文吧……)
在本节中,我们将实证研究各种深层CNN架构的ERF。我们首先使用人工构造的CNN模型来验证我们分析中的理论结果。然后,我们提出了在实际数据集上训练深层cnn时ERF如何变化的观察结果。对于所有ERF研究,我们在输出平面的中心放置一个梯度信号1,在其他任何地方放置0,然后通过网络反向传播该梯度,得到输入的梯度。 3.1验证理论结果 我们首先在人工构建的CNN中验证我们的理论结果。为了计算ERF我们使用随机输入,对于所有随机权重网络,我们进行适当的随机初始化。在本节中,我们验证以下内容结果:
ERF是高斯分布的 。如图所示在图1中,我们可以观察到均匀加权卷积核和随机加权,没有非线性激活卷积核的完美高斯形状,以及随机加权非线性激活的卷积核的近似高斯形状。加上ReLU非线性使得分布的高斯性变小,因为ERF的分布也取决于输入。另一个原因是ReLU单元的一半输入输出正好为零,而且很容易为输出平面上的中心像素设置零输出,这意味着感受野的路径无法到达输出,因此梯度都为零。在这里,ERF在不同的传输种子下平均运行20次。下图显示了具有20层随机权值、具有不同非线性的网络的ERF。在这里,结果是不同的随机权重以及不同的随机输入平均运行的100次的结果。在这种情况下,感受野更像高斯分布。
绝对增长和 相对收缩 。图2中,我们给出了ERF尺寸的改变和ERF相对于理论RF的比例随卷积层数的变化。ERF大小的最佳拟合线在对数域的斜率为0.56,而ERF比值的拟合线斜率为-0.43。这表明ERF大小对于 呈线性增长,ERF比率对于 呈线性缩小。注意这里我们使用2个标准偏差作为ERF大小的测量值,即任何大于中心点1−95.45%的像素都被视为ERF。ERF大小由ERF中像素数目的平方根表示,而理论RF大小是平方的边长,在该边长中,所有像素对输出像素的影响都是非零的,无论多么小。所有实验是在超过20次的结果上平均得到的。
3.2在训练过程中ERF是如何演变的 在这一部分中,我们将研究分类CNN和语义分割CNN最顶层的单元ERF在训练过程中是如何演变的。对于这两个任务,我们采用了 ResNet架构,它广泛地使用了skip-connection。分析表明,该网络的ERF应明显小于理论感受野。这是我们最初观察到的。有趣的是,随着网络的学习,ERF变得更大,并且在训练结束时,ERF明显大于初始ERF。 对于分类任务,我们在CIFAR-10数据集上训练了一个包含17个残差块的ResNet。在训练结束时,该网络的测试准确率达到89%。请注意,在这个实验中,我们没有使用池或降采样,而是专门关注具有跳过连接的体系结构。网络的精确度虽然不是最先进的,但仍然相当高。在图3中,我们显示了在训练开始时(随机初始化权重)和训练结束时,当达到最佳验证精度时,32×32图像空间上的有效感受野。请注意,我们网络的理论接收场实际上是74×74,大于图像大小,但是ERF仍然可以完全填充图像。比较训练前后的结果,我们发现有效感受野有所增加很明显。 对于语义分割任务利用CamVid数据集进行城市场景分割。我们训练了一个“前端”模型,它是一个纯粹的卷积网络,它预测输出的分辨率略低。该网络与VGG网络在许多以前的著作中所起的作用相同。我们训练了一个ResNet,16个残差块交错,每个子采样操作的因子为2。由于这些子采样操作,输出是输入大小的1/16。对于这个模型,顶层卷积层单元的理论感受野为505×505。然而,如图3所示,在训练开始时,ERF只得到直径为100的部分。我们再次观察到,在训练过程中,ERF的尺寸增大,最后达到直径约为150的直径。
上述分析表明ERF只占理论接收野的一小部分,这对于需要较大接收能力的任务是不可取的领域。 新的初始化。 一增加有效感受野的简单方法是控制初始权重。我们提出了一种新的随机权值初始化方案,使得卷积核中心的权值具有较小的尺度,而外部的权值较大,这使得中心的集中度向外围扩散。实际上,我们可以用任何初始化方法对网络进行初始化,然后根据中心低标度、外标度高的分布来调整权重。 在极端情况下,我们可以优化w(m)以使ERF大小最大化,或者等价地使等式(前面推公式部分里的公式)中的方差最大化。解决这个优化问题的结果是在卷积核的4个角上平均地设置权重,而其他地方都是0。但是,使用此解决方案进行随机权重初始化过于激进,并且将大量权重保留为0会使学习变慢。这种想法的温和版本通常是有效的更好。 我们用这种初始化方法训练了一个用于CIFAR-10分类任务的CNN,使用了几种随机种子。在一些情况下,与更标准的初始化相比,我们的训练速度提高了30%。但总的来说,这种方法的好处并不总是如此很重要。 我们请注意,无论我们如何改变w(m),有效感受野仍然是高斯分布的,因此上述建议只解决了问题部分。 改变构架。 一个潜在的更好的方法是对cnn进行架构上的更改,这可能会改变在更基本的方面。例如,我们不用将CNN中的每个单元连接到本地矩形卷积窗口,而是可以使用相同的连接数将每个单元稀疏地连接到下层的一个较大区域。空洞卷积属于这一类,但我们可以进一步推进,并使用不类似网格的稀疏连接。
与生物神经的联系网络。 在我们的分析表明,深部CNN中的有效接收场实际上比我们以前想象的要慢得多。这表明即使经过许多卷积层,仍然保留了许多局部信息。这一发现与深层生物网络中一些长期持有的相关概念相矛盾。哺乳动物视觉系统的一个普遍特征是分为“什么”和“哪里”路径。沿着what或where路径进行,连通性的性质逐渐改变:感受野大小增加,空间组织变得松散,直到没有明显的视网膜色素组织;视网膜脱离意味着单个神经元对视野中的面部等物体做出反应。然而,如果ERF比RF小,这表明表示可以保留位置信息,同时也提出了一个有趣的问题,即这些区域在发育过程中的大小变化。 我们的分析的第二个相关影响是,它表明卷积网络可能会自动地产生一种中心凹表现形式。人类视网膜中央凹只在中心像素附近提取高分辨率信息。等分辨率的子场的排列使得它们的大小随着距中心的距离而增大固定。在视网膜的外围,低分辨率的信息是从图像的较大区域提取的。一些神经网络已经明确地构造了这种形式的表示。然而,由于卷积网络形成高斯感受野,其底层表示自然会有这种感受野特性。 与之前研究的联系。 虽然CNN中的感受野尚未得到深入研究,一些人在计算方差如何通过网络演化方面进行了类似的分析。他们开发了一个很好的卷积层初始化方案,遵循的原则是方差在经过网络。 研究人员为了理解神经网络是如何工作的,我们还利用了可视化技术。[14] 展示了使用自然图像先验的重要性,以及卷积层的激活将代表什么。[22]使用反褶积网络来显示图像中像素点与被激活神经元之间的关系。[23]对感受野进行了实证研究,并将其作为定位的提示。也有可视化研究使用梯度上升技术[4]产生有趣的图像,如[15]。这些都集中在单位激活或特征图上,而不是我们在这里研究的有效感受野。
本文对CNN的感受野进行了细致的研究,并对有效感受野大小进行了初步探讨。特别地,我们已经证明了在感受野内的影响分布是渐近高斯的,有效感受野只占整个理论感受野的一小部分。实证结果与我们建立的理论相呼应。我们认为这只是有效感受野研究的一个开始,它为深入了解CNN提供了一个新的视角。在未来的研究中,我们希望更多地研究在实践中影响有效感受野的因素以及如何更好地控制这些因素。
这两天在公司做PM实习,主要是自学一些CV的知识,以了解产品在解决一些在图像识别、图像搜索方面的问题,学习的主要方式是在知网检索了6.7篇国内近3年计算机视觉和物体识别的硕博士论文。由于时间关系,后面还会继续更新图片相似度计算(以图搜图)等方面的学习成果 将这两天的学习成果在这里总结一下。你将会看到计算机视觉在解决特定物体识别问题(主要是卷积神经网络CNNs)的基础过程和原理,但这里不会深入到技术的实现层面。
计算机视觉(Computer vision)是一门研究如何使机器“看”的科学,更进一步的说,就是指用摄影机和计算机代替人眼对目标进行识别、跟踪和测量等机器视觉,并进一步做图像处理,用计算机处理成为更适合人眼观察或传送给仪器检测的图像。 ————维基百科 通常而言,计算机视觉的研究包括三个层次: (1)底层特征的研究: 这一层次的研究主要聚焦如何高效提取出图像对象具有判别性能的特征,具体的研究内容通常包括:物体识别、字符识别等 (2)中层语义特征的研究: 该层次的研究在于在识别出对象的基础上,对其位置、边缘等信息能够准确区分。现在比较热门的:图像分割;语义分割;场景标注等,都属于该领域的范畴 (3)高层语义理解: 这一层次建立在前两层的基础上,其核心在于“理解”一词。 目标在于对复杂图像中的各个对象完成语义级别的理解。这一层次的研究常常应用于:场景识别、图像摘要生成及图像语义回答等。 而我研究的问题主要隶属于底层特征和中层语义特征研究中的物体识别和场景标注问题。
人类的视觉工作模式是这样的: 首先,我们大脑中的神经元接收到大量的信息微粒,但我们的大脑还并不能处理它们。 于是接着神经元与神经元之间交互将大量的微粒信息整合成一条又一条的线。 接着,无数条线又整合成一个个轮廓。 最后多个轮廓累加终于聚合我们现在眼前看到的样子。 计算机科学受到神经科学的启发,也采用了类似的工作方式。具体而言,图像识别问题一般都遵循下面几个流程
(1)获取底层信息。获取充分且清洁的高质量数据往往是图像识别工作能否成功的关键所在 (2)数据预处理工作,在图像识别领域主要包括四个方面的技术:去噪处理(提升信噪比)、图像增强和图像修复(主要针对不够清晰或有破损缺失的图像);归一化处理(一方面是为了减少开销、提高算法的性能,另一方面则是为了能成功使用深度学习等算法,这类算法必须使用归一化数据)。 (3)特征提取,这一点是该领域的核心,也是本文的核心。图像识别的基础是能够提取出足够高质量,能体现图像独特性和区分度的特征。 过去在10年代之前我们主要还是更多的使用传统的人工特征提取方法,如PCA\LCA等来提取一些人工设计的特征,主要的方法有(HOG、LBP以及十分著名的SIFT算法)。但是这些方法普遍存在(a)一般基于图像的一些提层特征信息(如色彩、纹理等)难以表达复杂的图像高层语义,故泛化能力普遍比较弱。(b)这些方法一般都针对特定领域的特定应用设计,泛化能力和迁移的能力大多比较弱。 另外一种思路是使用BP方法,但是毕竟BP方法是一个全连接的神经网络。这以为这我们非常容易发生过拟合问题(每个元素都要负责底层的所有参数),另外也不能根据样本对训练过程进行优化,实在是费时又费力。 因此,一些研究者开始尝试把诸如神经网络、深度学习等方法运用到特征提取的过程中,以十几年前深度学习方法在业界最重要的比赛ImageNet中第一次战胜了SIFT算法为分界线,由于其使用权重共享和特征降采样,充分利用了数据的特征。几乎每次比赛的冠军和主流都被深度学习算法及其各自改进型所占领。其中,目前使用较多又最为主流的是CNN算法,在第四部分主要也研究CNN方法的机理。
上图是一个简易的神经网络,只有一层隐含层,而且是全连接的(如图,上一层的每个节点都要对下一层的每个节点负责。)具体神经元与神经元的作用过程可见下图。
在诸多传统的神经网络中,BP算法可能是性能最好、应用最广泛的算法之一了。其核心思想是:导入训练样本、计算期望值和实际值之间的差值,不断地调整权重,使得误差减少的规定值的范围内。其具体过程如下图:
一般来说,机器学习又分成浅层学习和深度学习。传统的机器学习算法,如SVM、贝叶斯、神经网络等都属于浅层模型,其特点是只有一个隐含层。逻辑简单易懂、但是其存在理论上缺乏深度、训练时间较长、参数很大程度上依赖经验和运气等问题。 如果是有多个隐含层的多层神经网络(一般定义为大于5层),那么我们将把这个模型称为深度学习,其往往也和分层训练配套使用。这也是目前AI最火的领域之一了。如果是浅层模型的问题在于对一个复杂函数的表示能力不够,特别是在复杂问题分类情况上容易出现分类不足的弊端,深度网络的优势则在于其多层的架构可以分层表示逻辑,这样就可以用简单的方法表示出复杂的问题,一个简单的例子是: 如果我们想计算sin(cos(log(exp(x)))), 那么深度学习则可分层表示为exp(x)—>log(x)—>cos(x)—>sin(x)
图像识别问题是物体识别的一个子问题,其鲁棒性往往是解决该类问题一个非常重要的指标,该指标是指分类结果对于传入数据中的一些转化和扭曲具有保持不变的特性。这些转化和扭曲具体主要包括了: (1)噪音(2)尺度变化(3)旋转(4)光线变化(5)位移
该部分具体的内容,想要快速理解原理的话推荐看[知乎相关文章] ( ), 特别是其中有些高赞回答中都有很多动图和动画,非常有助于理解。 但核心而言,CNN的核心优势在于 共享权重 以及 感受野 ,减少了网络的参数,实现了更快的训练速度和同样预测结果下更少的训练样本,而且相对于人工方法,一般使用深度学习实现的CNN算法使用无监督学习,其也不需要手工提取特征。
CNN算法的过程给我的感觉,个人很像一个“擦玻璃”的过程。其技术主要包括了三个特性:局部感知、权重共享和池化。
CNN中的神经元主要分成了两种: (a)用于特征提取的S元,它们一起组成了卷积层,用于对于图片中的每一个特征首先局部感知。其又包含很关键的阈值参数(控制输出对输入的反映敏感度)和感受野参数(决定了从输入层中提取多大的空间进行输入,可以简单理解为擦玻璃的抹布有多大) (b)抗形变的C元,它们一起组成了池化层,也被称为欠采样或下采样。主要用于特征降维,压缩数据和参数的数量,减小过拟合,同时提高模型的容错性。 (c*)激活函数,及卷积层输出的结果要经过一次激励函数才会映射到池化层中,主要的激活函数有Sigmoid函数、Tanh函数、ReLU、Leaky ReLU、ELU、Maxout等。
也许你会抱有疑问,CNN算法和传统的BP算法等究竟有什么区别呢。这就会引出区域感受野的概念。在前面我们提到,一个全连接中,较高一层的每个神经元要对低层的每一个神经元负责,从而导致了过拟合和维度灾难的问题。但是有了区域感受野和,每个神经元只需要记录一个小区域,而高层会把这些信息综合起来,从而解决了全连接的问题。
了解区域感受野后,你也许会想,区域感受野的底层神经元具体是怎么聚合信息映射到上一层的神经元呢,这就要提到重要的卷积核的概念。这个过程非常像上面曾提到的“神经元与神经元的联系”一图,下面给大家一个很直观的理解。
上面的这个过程就被称为一个卷积核。在实际应用中,单特征不足以被系统学习分类,因此我们往往会使用多个滤波器,每个滤波器对应1个卷积核,也对应了一个不同的特征。比如:我们现在有一个人脸识别应用,我们使用一个卷积核提取出眼睛的特征,然后使用另一个卷积核提取出鼻子的特征,再用一个卷积核提取出嘴巴的特征,最后高层把这些信息聚合起来,就形成了分辨一个人与另一个人不同的判断特征。
现在我们已经有了区域感受野,也已经了解了卷积核的概念。但你会发现在实际应用中还是有问题: 给一个100 100的参数空间,假设我们的感受野大小是10 10,那么一共有squar(1000-10+1)个,即10的六次方个感受野。每个感受野中就有100个参数特征,及时每个感受野只对应一个卷积核,那么空间内也会有10的八次方个次数,,更何况我们常常使用很多个卷积核。巨大的参数要求我们还需要进一步减少权重参数,这就引出了权重共享的概念。 用一句话概括就是,对同一个特征图,每个感受野的卷积核是一样的,如这样操作后上例只需要100个参数。
池化是CNN技术的最后一个特性,其基本思想是: 一块区域有用的图像特征,在另一块相似的区域中很可能仍然有用。即我们通过卷积得到了大量的边缘EDGE数据,但往往相邻的边缘具有相似的特性,就好像我们已经得到了一个强边缘,再拥有大量相似的次边缘特征其实是没有太大增量价值的,因为这样会使得系统里充斥大量冗余信息消耗计算资源。 具体而言,池化层把语义上相似的特征合并起来,通过池化操作减少卷积层输出的特征向量,减少了参数,缓解了过拟合问题。常见的池化操作主要包括3种: 分别是最大值池化(保留了图像的纹理特征)、均值池化(保留了图像的整体特征)和随机值池化。该技术的弊端是容易过快减小数据尺寸,目前趋势是用其他方法代替池化的作用,比如胶囊网络推荐采用动态路由来代替传统池化方法,原因是池化会带来一定程度上表征的位移不变性,传统观点认为这是一个优势,但是胶囊网络的作者Hinton et al.认为图像中位置信息是应该保留的有价值信息,利用特别的聚类评分算法和动态路由的方式可以学习到更高级且灵活的表征,有望冲破目前卷积网络构架的瓶颈。
CNN总体来说是一种结构,其包含了多种网络模型结构,数目繁多的的网络模型结构决定了数据拟合能力和泛化能力的差异。其中的复杂性对用户的技术能力有较高的要求。此外,CNN仍然没有很好的解决过拟合问题和计算速度较慢的问题。
该部分的核心参考文献: 《深度学习在图像识别中的应用研究综述》郑远攀,李广阳,李晔.[J].计算机工程与应用,2019,55(12):20-36. 深度学习技术在计算机图像识别方面的领域应用研究是目前以及可预见的未来的主流趋势,在这里首先对深度学习的基本概念作一简介,其次对深度学习常用的结构模型进行概述说明,主要简述了深度信念网络(DBN)、卷积神经网络(CNN)、循环神经网络(RNN)、生成式对抗网络(GAN)、胶囊网络(CapsNet)以及对各个深度模型的改进模型做一对比分析。
深度学习按照学习架构可分为生成架构、判别架构及混合架构。 其生成架构模型主要包括: 受限波尔兹曼机、自编码器、深层信念网络等。判别架构模型主要包括:深层前馈网络、卷积神经网络等。混合架构模型则是这两种架构的集合。深度学习按数据是否具有标签可分为非监督学习与监督学习。非监督学习方法主要包括:受限玻尔兹曼机、自动编码器、深层信念网络、深层玻尔兹曼机等。 监督学习方法主要包括:深层感知器、深层前馈网络、卷积神经网络、深层堆叠网络、循环神经网络等。大量实验研究表明,监督学习与非监督学习之间无明确的界限,如:深度信念网络在训练过程中既用到监督学习方法又涉及非监督学习方法。
[1]周彬. 多视图视觉检测关键技术及其应用研究[D].浙江大学,2019. [2]郑远攀,李广阳,李晔.深度学习在图像识别中的应用研究综述[J].计算机工程与应用,2019,55(12):20-36. [3]逄淑超. 深度学习在计算机视觉领域的若干关键技术研究[D].吉林大学,2017. [4]段萌. 基于卷积神经网络的图像识别方法研究[D].郑州大学,2017. [5]李彦冬. 基于卷积神经网络的计算机视觉关键技术研究[D].电子科技大学,2017. [6]李卫. 深度学习在图像识别中的研究及应用[D].武汉理工大学,2014. [7]许可. 卷积神经网络在图像识别上的应用的研究[D].浙江大学,2012. [8]CSDN、知乎、机器之心、维基百科
计算机论文计算机网络在电子商务中的应用摘要:随着计算机网络技术的飞进发展,电子商务正得到越来越广泛的应用。由于电子商务中的交易行为大多数都是在网上完成的, 因此电子商务的安全性是影响趸易双方成败的一个关键因素。本文从电子商务系统对计算机网络安全,商务交易安全性出发,介绍利用网络安全枝术解决安全问题的方法。关键词:计算机网络,电子商务安全技术一. 引言近几年来.电子商务的发展十分迅速 电子商务可以降低成本.增加贸易机会,简化贸易流通过程,提高生产力,改善物流和金流、商品流.信息流的环境与系统 虽然电子商务发展势头很强,但其贸易额所占整个贸易额的比例仍然很低。影响其发展的首要因素是安全问题.网上的交易是一种非面对面交易,因此“交易安全“在电子商务的发展中十分重要。可以说.没有安全就没有电子商务。电子商务的安全从整体上可分为两大部分.计算机网络安全和商务交易安全。计算机网络安全包括计算机网络设备安全、计算机网络系统安全、数据库安全等。其特征是针对计算机网络本身可能存在的安全问题,实施网络安全增强方案.以保证计算机网络自身的安全性为目标。商务安全则紧紧围绕传统商务在Interne'(上应用时产生的各种安全问题.在计算机网络安全的基础上.如何保障电子商务过程的顺利进行。即实现电子商务的保密性.完整性.可鉴别性.不可伪造性和不可依赖性。二、电子商务网络的安全隐患1窃取信息:由于未采用加密措施.数据信息在网络上以明文形式传送.入侵者在数据包经过的网关或路由器上可以截获传送的信息。通过多次窃取和分析,可以找到信息的规律和格式,进而得到传输信息的内容.造成网上传输信息泄密2.篡改信息:当入侵者掌握了信息的格式和规律后.通过各种技术手段和方法.将网络上传送的信息数据在中途修改 然后再发向目的地。这种方法并不新鲜.在路由器或者网关上都可以做此类工作。3假冒由于掌握了数据的格式,并可以篡改通过的信息,攻击者可以冒充合法用户发送假冒的信息或者主动获取信息,而远端用户通常很难分辨。4恶意破坏:由于攻击者可以接入网络.则可能对网络中的信息进行修改.掌握网上的机要信息.甚至可以潜入网络内部.其后果是非常严重的。三、电子商务交易中应用的网络安全技术为了提高电子商务的安全性.可以采用多种网络安全技术和协议.这些技术和协议各自有一定的使用范围,可以给电子商务交易活动提供不同程度的安全保障。1.防火墙技术。防火墙是目前主要的网络安全设备。防火墙通常使用的安全控制手段主要有包过滤、状态检测、代理服务 由于它假设了网络的边界和服务,对内部的非法访问难以有效地控制。因此.最适合于相对独立的与外部网络互连途径有限、网络服务种类相对集中的单一网络(如常见的企业专用网) 防火墙的隔离技术决定了它在电子商务安全交易中的重要作用。目前.防火墙产品主要分为两大类基于代理服务方式的和基于状态检测方式的。例如Check Poim Fi rewalI-1 4 0是基于Unix、WinNT平台上的软件防火墙.属状态检测型 Cisco PIX是硬件防火墙.也属状态检测型。由于它采用了专用的操作系统.因此减少了黑客利用操作系统G)H攻击的可能性:Raptor完全是基于代理技术的软件防火墙 由于互联网的开放性和复杂性.防火墙也有其固有的缺点(1)防火墙不能防范不经由防火墙的攻击。例如.如果允许从受保护网内部不受限制地向外拨号.一些用户可以形成与Interne'(的直接连接.从而绕过防火墙:造成一个潜在的后门攻击渠道,所以应该保证内部网与外部网之间通道的唯一性。(2)防火墙不能防止感染了病毒的软件或文件的传输.这只能在每台主机上装反病毒的实时监控软件。(3)防火墙不能防止数据驱动式攻击。当有些表面看来无害的数据被邮寄或复制到Interne'(主机上并被执行而发起攻击时.就会发生数据驱动攻击.所以对于来历不明的数据要先进行杀毒或者程序编码辨证,以防止带有后门程序。2.数据加密技术。防火墙技术是一种被动的防卫技术.它难以对电子商务活动中不安全的因素进行有效的防卫。因此.要保障电子商务的交易安全.就应当用当代密码技术来助阵。加密技术是电子商务中采取的主要安全措施, 贸易方可根据需要在信息交换的阶段使用。目前.加密技术分为两类.即对称加密/对称密钥加密/专用密钥加密和非对称加密/公开密钥加密。现在许多机构运用PKI(punickey nfrastructur)的缩写.即 公开密钥体系”)技术实施构建完整的加密/签名体系.更有效地解决上述难题.在充分利用互联网实现资源共享的前提下从真正意义上确保了网上交易与信息传递的安全。在PKI中.密钥被分解为一对(即一把公开密钥或加密密钥和一把专用密钥或解密密钥)。这对密钥中的任何一把都可作为公开密钥(加密密钥)通过非保密方式向他人公开.而另一把则作为专用密钥{解密密钥)加以保存。公开密钥用于对机密�6�11生息的加密.专用密钥则用于对加信息的解密。专用密钥只能由生成密钥对的贸易方掌握.公开密钥可广泛发布.但它只对应用于生成该密钥的贸易方。贸易方利用该方案实现机密信息交换的基本过程是 贸易方甲生成一对密钥并将其中的一把作为公开密钥向其他贸易方公开:得到该公开密钥的贸易方乙使用该密钥对机密信息进行加密后再发送给贸易方甲 贸易方甲再用自己保存的另一把专用密钥对加密后的信息进行解密。贸易方甲只能用其专用密钥解密由其公开密钥加密后的任何信息。3.身份认证技术。身份认证又称为鉴别或确认,它通过验证被认证对象的一个或多个参数的真实性与有效性 来证实被认证对象是否符合或是否有效的一种过程,用来确保数据的真实性。防止攻击者假冒 篡改等。一般来说。用人的生理特征参数f如指纹识别、虹膜识别)进行认证的安全性很高。但目前这种技术存在实现困难、成本很高的缺点。目前,计算机通信中采用的参数有口令、标识符 密钥、随机数等。而且一般使用基于证书的公钥密码体制(PK I)身份认证技术。要实现基于公钥密码算法的身份认证需求。就必须建立一种信任及信任验证机制。即每个网络上的实体必须有一个可以被验证的数字标识 这就是 数字证书(Certifi2cate)”。数字证书是各实体在网上信息交流及商务交易活动中的身份证明。具有唯一性。证书基于公钥密码体制.它将用户的公开密钥同用户本身的属性(例如姓名,单位等)联系在一起。这就意味着应有一个网上各方都信任的机构 专门负责对各个实体的身份进行审核,并签发和管理数字证书,这个机构就是证书中心(certificate authorities.简称CA}。CA用自己的私钥对所有的用户属性、证书属性和用户的公钥进行数字签名,产生用户的数字证书。在基于证书的安全通信中.证书是证明用户合法身份和提供用户合法公钥的凭证.是建立保密通信的基础。因此,作为网络可信机构的证书管理设施 CA主要职能就是管理和维护它所签发的证书 提供各种证书服务,包括:证书的签发、更新 回收、归档等。4.数字签名技术。数字签名也称电子签名 在信息安全包括身份认证,数据完整性、不可否认性以及匿名性等方面有重要应用。数字签名是非对称加密和数字摘要技术的联合应用。其主要方式为:报文发送方从报文文本中生成一个1 28b it的散列值(或报文摘要),并用自己的专用密钥对这个散列值进行加密 形成发送方的数字签名:然后 这个数字签名将作为报文的附件和报文一起发送给报文的接收方 报文接收方首先从接收到的原始报文中计算出1 28bit位的散列值(或报文摘要).接着再用发送方的公开密钥来对报文附加的数字签名进行解密 如果两个散列值相同 那么接收方就能确认该数字签名是发送方的.通过数字签名能够实现对原始报文的鉴别和不可抵赖性。四、结束语电子商务安全对计算机网络安全与商务安全提出了双重要求.其复杂程度比大多数计算机网络都高。在电子商务的建设过程中涉及到许多安全技术问题 制定安全技术规则和实施安全技术手段不仅可以推动安全技术的发展,同时也促进安全的电子商务体系的形成。当然,任何一个安全技术都不会提供永远和绝对的安全,因为网络在变化.应用在变化,入侵和破坏的手段也在变化,只有技术的不断进步才是真正的安全保障。参考文献:[1]肖满梅 罗兰娥:电子商务及其安全技术问题.湖南科技学院学报,2006,27[2]丰洪才 管华 陈珂:电子商务的关键技术及其安全性分析.武汉工业学院学报 2004,2[3]阎慧 王伟:宁宇鹏等编著.防火墙原理与技术[M]北京:机械工业出版杜 2004
网络会计论文参考文献
现如今,许多人都有过写论文的经历,对论文都不陌生吧,借助论文可以有效提高我们的写作水平。你知道论文怎样才能写的好吗?以下是我精心整理的网络会计论文参考文献,仅供参考,欢迎大家阅读。
[1]邢赢文.基于BP神经网络的电子元件行业上市公司财务风险预警研究[D].辽宁师范大学,2015.
[2]吕岳林.基于时间阈值的SF公司快递超网络优化研究[D].燕山大学,2015.
[3]林楠.O2O背景下传统零售业的盈利模式创新研究[D].中国海洋大学,2015.
[4]崔欢欢.公众网络诉求与政府会计信息质量相关性的实证研究[D].山东财经大学,2016.
[5]吴小满.ST跨境电商企业物流运输成本控制研究[D].湘潭大学,2014.
[6]周姣岚.服务型制造业网络的成本控制及优化[D].广西科技大学,2015.
[7]赵广坤.可优宝贝网络商城融资方案研究[D].河北工业大学,2015.
[8]赵圆.电商网络融资模式优化及风险管控研究[D].北方工业大学,2016.
[9]宋杨.远程教育环境下多模式财务管理系统研究与应用[D].北京理工大学,2015.
[10]钟文韬.肉类加工企业销售物流成本问题研究[D].吉林大学,2016.
[11]张婉婷.我国P2P网络借贷平台内部风险控制机制研究[D].吉林大学,2016.
[12]范超群.芜湖市电子商务企业融资模式研究[D].安徽大学,2016.
[13]汪灏.中国P2P网络借贷平台财务风险研究[D].安徽大学,2016.
[14]蔡翠.B2C网上超市成本管理研究[D].江苏大学,2016.
[15]章锦华.J电子商务企业成本控制研究[D].江苏大学,2016.
[16]张妍.服装网络定制个性化服务成本及定价模型研究[D].上海工程技术大学,2016.
[17]李佳琦.电子商务下B2C企业会计收入确认时点研究[D].吉林财经大学,2016.
[18]杨洁.第三方互联网交易平台服务费定价机制研究[D].重庆理工大学,2016.
[19]黄义成.CQ公司XBRL网络财务报告应用问题研究[D].西安石油大学,2016.
[20]罗浩.O2O商业模式下的交易成本问题研究[D].兰州财经大学,2016.
[21]张婷.“互联网+”神州租车的盈利模式及财务效果研究[D].兰州财经大学,2016.
[22]陈沈升.网络交易C2C模式的税收征管问题研究[D].黑龙江大学,2016.
[23]钟明君.高维因果网与高校资产管理的模糊推理研究[D].华南理工大学,2016.
[24]文勇堂.基于贝叶斯网络方法的通信设备企业财务风险预警研究[D].辽宁大学,2016.
[25]徐文静.电商环境下协同配送模式的协同效率及成本节约值分配研究[D].西南交通大学,2016.
[26]陈维煌.基于灰色神经网络的农业上市公司财务预警实证研究[D].湖南农业大学,2015.
[27]苏伟.市场竞争环境下供电企业购售电风险分析及应对研究[D].华北电力大学,2016.
[28]张文梦.C2C模式电子商务的税收征管问题与对策研究[D].首都经济贸易大学,2016.
[29]纪彩峰.B2C电商零售企业成本控制研究[D].首都经济贸易大学,2016.
[30]胡芳.基于B2C模式下D电子商务企业内部控制研究[D].北京林业大学,2016.
[31]熊亚楠.电子商务平台企业价值创造驱动因素与传导机理研究[D].广西大学,2016.
[32]何珊.基于RBF神经网络的高端装备制造业财务风险预警研究[D].湖南大学,2016.
[33]江楠.考呀呀线上会计培训的品牌营销策略研究[D].江西师范大学,2016.
[34]杨芬.互联网金融对商业银行盈利能力及风险影响的实证研究[D].湖南大学,2016.
[35]沈威.互联网金融对商业银行盈利能力的影响研究[D].湖南大学,2015.
[36]黄诚.苏宁云商营运资金管理的OPM策略分析[D].安徽工业大学,2016.
[37]戴宙松.P2P网络借贷相关会计核算问题研究[D].长安大学,2015.
[38]贺书品.B2C电子商务经营模式下的.W公司财务分析与评价[D].长沙理工大学,2015.
[39]饶萌.网络环境下差异化会计信息披露系统构建研究[D].长沙理工大学,2015.
[40]李芳.煤炭资源开发项目融资决策研究[D].中国矿业大学,2016.
[41]郝震.B2C电子商务企业盈利模式分析[D].河北经贸大学,2015.
[42]彭菁菁.Black-Scholes与DCF模型在B2B商务企业价值评估中的互补应用[D].云南大学,2015.
[43]张腾.电子商务环境下的财务风险控制[D].云南大学,2015.
[44]张美琳.电子商务平台上的个体商铺价值评估[D].云南大学,2015.
[45]高喆.基于BP神经网络模型的制造业上市公司财务预警研究[D].北京交通大学,2015.
[46]康爱冰.中国第三方网络支付对商业银行盈利影响研究[D].北京交通大学,2015.
[47]贺璐.基于XBRL网络财务报告持续审计研究[D].山西财经大学,2015.
[48]李祖福.我国生物医药上市企业盈利能力评价研究[D].华南理工大学,2015.
[49]樊华.基于BP神经网络的矿业上市公司财务风险预警研究[D].中国地质大学,2015.
[50]安校良.基于灰色神经网络的制造业上市公司财务危机预警研究[D].兰州大学,2015.
[51]顾永明.电子商务零售企业价值评估[D].昆明理工大学,2015.
[52]邬蕊竹.基于复杂网络的云会计AIS可信需求演化传播影响[D].重庆理工大学,2015.
[53]陈诚.基于复杂网络的云会计AIS产品可信性结构及其演化研究[D].重庆理工大学,2015.
[54]王涛.通信工程项目施工的成本管理[D].西安建筑科技大学,2015.
[55]冯康进.电网企业集团财务报表自动生成及数据挖掘应用研究[D].华北电力大学,2015.
[56]李玉.跨境电子商务创业企业绩效影响因素实证分析[D].江西师范大学,2015.
[57]李博泉.人民币升值背景下上市外贸企业财务风险预警体系研究[D].江苏科技大学,2015.
[58]邵欣欣.顾客视角的网络品牌资产影响因素研究[D].西安工程大学,2015.
[59]赵伟.基于BP神经网络的电力企业上市公司财务风险管理研究[D].华北电力大学,2015.
[60]李砚砚.基于无标度网络的制造网格资源配置研究[D].南京邮电大学,2015.
[61]彭一俫.中国B2C电子商务企业的交易成本研究[D].华北电力大学,2015.
[62]黄勇军.知识管理理论视野下网络课程设计探索[D].湖南师范大学,2015.
[63]邹松庆.基于作业成本法的烟草物流企业的成本控制[D].陕西科技大学,2014.
[64]王骏海.电动汽车充换电网络规划的技术经济评价研究[D].华北电力大学,2014.
[65]郝青.遗传算法优化BP神经网络的制造业上市公司财务预警研究[D].河北大学,2014.
[66]刘魏星.网络时代我国电子商务企业财务模式研究[D].陕西科技大学,2014.
[67]孙卓琳.网络零售企业财务风险控制研究[D].财政部财政科学研究所,2014.
[68]刘振坤.云会计环境下基于社会网络的会计信息失真影响研究[D].重庆理工大学,2014.
[69]曹彤.山东省制造业上市公司财务风险预警研究[D].西北农林科技大学,2014.
[70]王威.基于F2C的物流配送网络成本优化理论与方法研究[D].中南大学,2014.
[71]黄良润.县域小微企业的融资方案设计[D].安徽财经大学,2014.
[72]蒋蔚.基于供应链的电子商务企业成本控制研究[D].西南石油大学,2014.
[73]王培培.基于商业银行复杂资金网络富节点同配性及弱连接强度机制研究[D].中国海洋大学,2014.
[74]陈锡江.企业社会责任成本研究[D].西南财经大学,2010.
[75]邵露.网络环境下的会计凭证研究[D].石河子大学,2014.
[76]马雪萍.基于网络DEA的河北省煤炭企业绩效评价研究[D].河北工程大学,2014.
[77]陈丹萍.B2C电子商务企业物流成本控制探析[D].江西财经大学,2014.
[78]冯元勇.电子商务环境下家电行业资产结构与经营绩效关系研究[D].广东工业大学,2014.
[79]孟爽.高技术服务创新网络发展视角下的中国南车税收负担研究[D].湖南大学,2014.
[80]程姗姗.复杂贸易网络对外贸交易成本的影响[D].湖南大学,2014.
[81]何婷.基于XBRL的网络财务报告应用研究[D].新疆财经大学,2014.
[82]刘聪.会计网络培训需求研究[D].浙江财经大学,2015.
[83]刘艳红.运营能力对O2O初创企业融资的影响分析[D].华南理工大学,2015.
[84]杨燕.网络会计信息系统构建相关问题的研究[D].中国海洋大学,2012.
[85]邢婧.基于XBRL的网络财务报告应用问题研究[D].山西财经大学,2014.
[86]王培培.网络会计信息系统安全对策研究[D].山西财经大学,2014.
[87]卢建勋.基于XBRL网络财务报告的持续审计研究[D].山东财经大学,2013.
[88]张泽南.基于XBRL网络财务报告及其在我国应用研究[D].兰州大学,2013.
[89]郑保生.基于XBRL的网络财务报告的应用效果评价研究[D].河南理工大学,2013.
[90]马菁.XBRL网络财务报告的应用研究[D].西南财经大学,2013.
[91]陈秀伟.基于XBRL的网络财务报告模式研究[D].安徽财经大学,2012.
[92]李梦.基于XBRL的网络财务报告在我国的应用研究[D].沈阳大学,2012.
[93]焦珊珊.基于网络环境下的会计信息披露研究[D].长安大学,2013.
[94]陈治奎.企业逆向物流网络成本优化与决策研究[D].山东理工大学,2012.
[95]秦晓静.“银行-企业”资金融通网络演化机理分析[D].太原科技大学,2012.
[96]陈敏.基于偏最小二乘BP神经网络的财务预警研究[D].黑龙江八一农垦大学,2012.
[97]刘凯.网络财务报告决定因素研究[D].兰州商学院,2012.
[98]张书娟.网络财务信息披露对公司财务绩效作用研究[D].首都经济贸易大学,2012.
[99]付冉冉.我国XBRL网络财务报告应用研究[D].山东财经大学,2012.
[100]彭翎.基于生产实践和神经网络相结合的醋纤企业制造成本分析[D].云南大学,2012.
[101]郑园.基于价值网络的经济型酒店战略成本管理研究[D].武汉理工大学,2012.
[102]钟灵芝.基于神经网络模型的我国外贸上市企业财务预警的研究[D].天津大学,2012.
[103]毛建.川投化工网络费用报销系统的设计与实现[D].电子科技大学,2013.
[104]薛婷.网络财务报告的决策导向特征及其实现路径研究[D].西安石油大学,2012.
[105]姜博.网络环境下会计信息系统内部控制架构研究[D].东北财经大学,2012.
[106]邵丽.基于新通道的中国进口原油运输网络优化研究[D].大连海事大学,2012.
[107]余姝纬.XBRL网络财务报告模式应用评价研究[D].陕西科技大学,2012.
[108]王丹丹.基于BP神经网络中国医药行业上市公司财务危机预警研究[D].安徽大学,2012.
[109]孙祖妮.基于成本动因BP神经网络的铁路物流货运成本预测[D].北京交通大学,2012.
[1]徐静.我国企业社会责任会计信息披露探析[J].企业导报.2012(15):22-25.
[2]张明霞.李云鹏.企业社会责任会计信息披露问题研究[J].经济研究导刊.2011(20):40-43.
[3]路秀平.任会来.我国社会责任会计信息披露模式现实选择[J].会计之友(上旬刊).2012(12):89-92.
[4]马海波.英美社会责任会计信息披露特色比较研究[J].财会学习.2012(10):18-22.
[5]陈长宏.陈环.张科.论食品质量与食品安全性[J].现代农业科技.2013(12):112-114.
[6]黎勇平.企业社会责任会计信息披露与企业市场价值的相关性研究[J].南华大学2012:33-34.
[7]刘勇.我国企业社会责任会计信息披露研究[D].西北大学,2013.
[8]周新颖.我国煤炭行业上市公司社会责任会计信息披露研究[D].南华大学,2011.
[9]刘尚林.公梅.企业社会责任会计信息披露模式的选择[J].财会月刊.2009(36):68-71.
[10]金曼.我国社会责任会计核算体系的研究[D].上海海事大学,2013.
基于MATLAB的数字识别计算机与信息工程学院 本科生毕业论文 基于BP神经网络的手写数字识别算法的设计与实现 班 级: 13汉班 学 号: 姓 名: 江晓雪 指导教师: 李艳玲 2017 年 3 月 31 日 毕 业 论 文 目 录 1 绪论1 1.1 图像识别的提出1 1.2 图像识别的现状与发展趋势1 2 BP神经网络的概述2 3 手写体数字识别的实现过程4 3.1 整体线路图4 3.2 算法流程5 3.3 图像预处理10 3.4 结果分析10 4 结论11 参考文献12 全文共 13 页 4834 字 基于BP神经网络的手写数字识别算法的设计与实现 计算机与信息工程学院 2013级汉班 江晓雪 指导教师 李艳玲 副教授 摘要 本文实现了基于MATLAB关于神经网络的手写数字识别算法的设计过程,采用神经网络中反向传播神经网络(即BP神经网络)对手写数字的识别,由MATLAB对图片进行读入、灰度化以及二值化等处理,通过神经网络进行训练和测试。实验证明:该神经网络对手写数字的识别可以达到95.65%。 关键词 手写数字识别;BP神经网络;MATLAB语言 1 绪论 1.1 图像识别的提出 图像识别在信息技术发达的今天已经占据了很重要的地位,在我们实际生活中也有很多应用。所谓的图像识别,就是指通过计算机对图像进行相应的处理、分析,来达到识别不同模型的目标和任务的一种技术。对于它的提出,简单的来说,它的发展经历了三个阶段:第一个是文字识别 、第二个是数字图像处理与识别、第三个是物体识别。第一种相对来说比较简单,它的研究是从1950年开始的,一般情况是识别字母、符号和数字,无论是印刷体识别还是手写体识别,它的应用都非常广泛,但是也伴随着,这个识别的过程会更加的耗时、费力,无论是人力还是物力,都会有很大的损失;第二种就是我们所说的数字图像处理与识别,在图片的识别过程中,图片识别会有一定的误差,也会带来小小的麻烦;第三就是物体识别,而物体的识别主要指的是:在三维世界中,对于个体、环境的感知和认识进行识别,这不同于二维世界的认知,相对来说是更高级的计算机图像识别,它是以二维世界中对数字图像和模拟图像处理的办法为依据,进行更高一级的,并且结合了现代人工智能技术等学科的研究目标,研究成果已经被广泛的应用在各种工业探测机器人上,为人们的安全提供了很大的帮助。 1.2 图像识别的现状与发展趋势 随着网络的发达、电子的信息化,图像识别的应用已经非常广泛,而主要的研究工作也包括各行各业,整理以下几点对其应用的广泛度进行说明: ⒈在生物学中,对生物的原型进行研究。从生物的脑细胞结构、物体解剖等其他科学研究的方向对生物的体系结构、神经结构、神经细胞组织等生物的原型结构及其功能机理进行研究,增强对生物学更加全面的理解。 ⒉在实际应用中,建立我们需要的理论模型。根据需要应用的信息在生物学中的应用,建立需要的生物原型,也可以建立类似神经元、神经网络这样不可见的理论模型,以便可以让其更加有效的应用在生活中。建立我们生活中不能直观表现的事物模型,以便我们可以更方便的、更直观的理解事物的本质。 ⒊在信息时代中,建立网络模型以及算法研究。就是通过上面所说的,建立相应的理论模型,在这个基础上加以理解,建立我们所需要的网络模型,实现计算机应用,主要应用在网络学习算法的研究,这方面的研究工作也被人们称为技术模型研究。 ⒋信息时代的发展,让我们在生活中有很多的应用,例如:完成某种函数图像的绘制以及对其变化的形式进行分析、对图片信号的处理、模式识别等功能,建立需要的应用系统、制造机器人等等。 通过上面的说明,也就是说从开始根据生物学原理的应用,直到建立需要的神经网络模型,最后应用到图像识别当中,可以看出其模型的建立是在生活中实例的基础上,其可靠性和准确性是显而易见的,这样就大大的增加了可信度,与此同时,也减少了工作中不必要的麻烦与困扰。而在网络信息发达的今天,人类在基本粒子、宇宙空间、生命起源等科学领域方面都已经显现出很高的兴趣度,而这其中难免会有图像提取后的处理工作,所以图像识别的应用就会越来越广泛。 2 BP神经网络的概述 反向传播(Back-Propagation,BP)学习算法简称BP算法,采用BP算法的前馈型神经网络简称BP网络。BP网络是多层感知器的一种,它具备多层感知器的特点,同时也有自己的特点。多层感知器包括输入层、隐藏层、输出层,其中隐藏层可以有多个,而我们BP网络中隐藏层只有一个,其简单构造如图所示: 图1 多层感知器结构图 而我们用到的BP网络中的具体信号流如图所示,它有一个反向传播的过程,这也是对传播进行调整,使精确度更高的一种办法。如图所示,其中有两种信号流通: 图2 多层感知器的信号流 第一:函数信号 简单来说就是信号进入输入层,然后通过隐藏层到达输入层,通过输出层输出所得值,就可以完成一个函数信号。 第二:误差信号 误差信号就是在逆向的传播的过程中传输的信号。其中,有两个重要参数。一个是函数信号即sigmoid函数,还有一个就是权值的梯度运算即梯度向量。(注:sigmoid函数、权重的修正函数,如图所示。) (1) (2) 通过对两个参数的调整,完成整个算法的应用。 3 手写体数字识别的实现过程 3.1 整体线路图 整体流程图如图3所示: 图像测试 损失函数的设计与应用 可视化测试数据 神经网络的设计与训练 sigmoid函数 图3 整体流程图 部分文件调用流程图如图4所示: sigmoid checkNNGradients nnCostFunction 第八部分:实现正规化 第八部分:训练NN fmincg nnCostFunction sigmoidGradient sigmoid nnCostFunction sigmoidGradient randInitializeWeights checkNNGradients debugInitializeWeights nnCostFunction computeNumericalGradient 第五部分:sigmoid函数 第六部分:初始化参数 第七部分:实现反向传播 第三部分:前馈网络 第四部分:前馈正规化 图4 整体流程图 3.2 算法流程
对工程研究,原理(How)往往来自于别的领域,CNN的图像识别是启发自视觉神经(一种被研究的最透彻的神经结构)研究的发现,人民发现人的视觉就是这么工作的,然后试着用它在机器上实现,当有足够快的电脑和多的数据时,人们兴奋的发现可以做高质量的图像识别。原理的解释通常要晚一些。但是抽象的解释并不难:把信息一层层的抽象,最底下是像素,中间是各种特征,越往上越抽象(边,圆,胡子,高鼻梁...)。研究科学不光是看论文:你拿一副照片贴着眼睛看,慢慢拿远大概可以帮助理解。
原文: Scalable Object Detection using Deep Neural Networks——学术范 最近,深度卷积神经网络在许多图像识别基准上取得了最先进的性能,包括ImageNet大规模视觉识别挑战(ILSVRC-2012)。在定位子任务中获胜的模型是一个网络,它预测了图像中每个对象类别的单个边界框和置信度得分。这样的模型捕获了围绕对象的整幅图像上下文,但如果不天真地复制每个实例的输出数量,就无法处理图像中同一对象的多个实例。在这篇论文中提出了一个显著性启发的神经网络检测模型,它预测了一组与类无关的边界框,每个框有一个分数,对应于它包含任何感兴趣的对象的可能性。该模型自然地为每个类处理数量可变的实例,并允许在网络的最高级别上进行跨类泛化。 目标检测是计算机视觉的基本任务之一。一个解决这个问题的通用范例是训练在子图像上操作的对象检测器,并在所有的场所和尺度上以详尽的方式应用这些检测器。这一范例被成功地应用于经过区别训练的可变形零件模型(DPM)中,以实现检测任务的最新结果。对所有可能位置和尺度的穷举搜索带来了计算上的挑战。随着类数量的增加,这个挑战变得更加困难,因为大多数方法都训练每个类单独的检测器。为了解决这个问题,人们提出了多种方法,从检测器级联到使用分割提出少量的对象假设。 关于对象检测的文献非常多,在本节中,我们将重点讨论利用类不可知思想和解决可伸缩性的方法。 许多提出的检测方法都是基于基于部件的模型,最近由于有区别学习和精心设计的特征,已经取得了令人印象深刻的性能。然而,这些方法依赖于在多个尺度上详尽地应用零件模板,这是非常昂贵的。此外,它们在类的数量上是可伸缩的,这对像ImageNet这样的现代数据集来说是一个挑战。 为了解决前一个问题,Lampert等人使用分支绑定策略来避免计算所有可能的对象位置。为了解决后一个问题,Song et al.使用了一个低维部件基,在所有对象类中共享。基于哈希算法的零件检测也取得了良好的结果。 另一种不同的工作,与我们的工作更接近,是基于对象可以本地化的想法,而不必知道它们的类。其中一些方法建立在自底向上无阶级分割[9]的基础上。通过这种方式得到的片段可以使用自上而下的反馈进行评分。基于同样的动机,Alexe等人使用一种廉价的分类器对对象假设是否为对象进行评分,并以这种方式减少了后续检测步骤的位置数量。这些方法可以被认为是多层模型,分割作为第一层,分割分类作为后续层。尽管它们编码了已证明的感知原理,但我们将表明,有更深入的模型,充分学习可以导致更好的结果。 最后,我们利用了DeepLearning的最新进展,最引人注目的是Krizhevsky等人的工作。我们将他们的边界盒回归检测方法扩展到以可扩展的方式处理多个对象的情况。然而,基于dnn的回归已经被Szegedy等人应用到对象掩模中。最后一种方法实现了最先进的检测性能,但由于单个掩模回归的成本,不能扩展到多个类。 我们的目标是通过预测一组表示潜在对象的边界盒来实现一种与类无关的可扩展对象检测。更准确地说,我们使用了深度神经网络(DNN),它输出固定数量的包围盒。此外,它为每个盒子输出一个分数,表示这个盒子包含一个对象的网络信任度。 为了形式化上述思想,我们将i-thobject框及其相关的置信度编码为最后一网层的节点值: Bounding box: 我们将每个框的左上角和右下角坐标编码为四个节点值,可以写成vectorli∈R4。这些坐标是归一化的w. r. t.图像尺寸,以实现图像绝对尺寸的不变性。每个归一化坐标是由最后一层的线性变换产生的。 Confidence: 置信度:包含一个对象的盒子的置信度得分被编码为单个节点valueci∈[0,1]。这个值是通过最后一个隐藏层的线性变换产生的,后面跟着一个sigmoid。 我们可以组合边界盒位置sli,i∈{1,…K}为一个线性层。同样,我们可以将所有置信区间ci,i∈{1,…K}作为一个s型层的输出。这两个输出层都连接到最后一个隐藏层 在推理时,我们的算法生成kbound盒。在我们的实验中,我们使用ek = 100和K= 200。如果需要,我们可以使用置信分数和非最大抑制在推理时获得较少数量的高置信框。这些盒子应该代表对象。因此,它们可以通过后续的分类器进行分类,实现目标检测。由于盒子的数量非常少,我们可以提供强大的分类器。在我们的实验中,我们使用另一个dnn进行分类。 我们训练一个DNN来预测每个训练图像的边界框及其置信度得分,以便得分最高的框与图像的groundtruth对象框很好地匹配。假设对于一个特定的训练例子,对象被标记为boundingboxesgj,j∈{1,…,M}。在实践中,pre- dictionary的数量远远大于groundtruthboxm的数量。因此,我们试图只优化与地面真实最匹配的预测框子集。我们优化他们的位置,以提高他们的匹配度,最大化他们的信心。与此同时,我们将剩余预测的置信度最小化,这被认为不能很好地定位真实对象。为了达到上述目的,我们为每个训练实例制定一个分配问题。Wexij∈{0,1}表示赋值:xij= 1,如果第i个预测被赋值给第j个真对象。这项任务的目标可以表示为 其中,我们使用标准化边界框坐标之间的el2距离来量化边界框之间的不同。此外,我们希望根据分配x优化盒子的可信度。最大化指定预测的置信度可以表示为 最终的损失目标结合了匹配损失和信心损失 受式1的约束。α平衡了不同损失条款的贡献。 对于每个训练例子,我们通过解决一个最佳的赋值x*的预测到真实的盒子 约束执行赋值解决方案。这是二部匹配的一种变体,是一种多项式复杂度匹配。在我们的应用程序中,匹配是非常便宜的——每幅图像中标记的对象的数量少于一打,而且在大多数情况下只有很少的对象被标记。然后,通过反向传播优化网络参数。例如,反向传播算法的一阶导数计算w、r、t、l和c 尽管上述定义的损失在原则上是足够的,但三次修改使其有可能更快地达到更好的准确性。第一个修改是对地面真实位置进行聚类,并找到这样的聚类/质心,我们可以使用这些聚类/质心作为每个预测位置的先验。因此,鼓励学习算法为每个预测位置学习一个残差到一个先验。 第二个修改涉及到在匹配过程中使用这些先验:不是将N个groundtruth位置与K个预测进行匹配,而是在K个先验和groundtruth之间找到最佳匹配。一旦匹配完成,就会像之前一样计算目标的置信度。此外,位置预测损失也不变:对于任何一对匹配的(目标,预测)位置,其损失定义为groundtruth和对应于匹配先验的坐标之间的差值。我们把使用先验匹配称为先验匹配,并假设它促进了预测的多样化。 需要注意的是,尽管我们以一种与类无关的方式定义了我们的方法,但我们可以将它应用于预测特定类的对象盒。要做到这一点,我们只需要在类的边框上训练我们的模型。此外,我们可以预测每个类的kbox。不幸的是,这个模型的参数数量会随着类的数量线性增长。此外,在一个典型的设置中,给定类的对象数量相对较少,这些参数中的大多数会看到很少有相应梯度贡献的训练示例。因此,我们认为我们的两步过程——首先本地化,然后识别——是一个更好的选择,因为它允许使用少量参数利用同一图像中多个对象类型的数据 我们使用的本地化和分类模型的网络架构与[10]使用的网络架构相同。我们使用Adagrad来控制学习速率衰减,128的小批量,以及使用多个相同的网络副本进行并行分布式训练,从而实现更快的收敛。如前所述,我们在定位损失中使用先验——这些是使用训练集上的均值来计算的。我们还使用α = 0.3来平衡局部化和置信度损失。定位器可以输出用于推断的种植区以外的坐标。坐标被映射和截断到最后的图像区域。另外,使用非最大抑制对盒进行修剪,Jaccard相似度阈值为0.5。然后,我们的第二个模型将每个边界框分类为感兴趣的对象或“背景”。为了训练我们的定位器网络,我们从训练集中生成了大约3000万幅图像,并对训练集中的每幅图像应用以下步骤。最后,样品被打乱。为了训练我们的本地化网络,我们通过对训练集中的每一幅图像应用以下步骤,从训练集中生成了大约3000万幅图像。对于每幅图像,我们生成相同数量的平方样本,使样本总数大约为1000万。对于每幅图像,样本被桶状填充,这样,对于0 - 5%、5 - 15%、15 - 50%、50 - 100%范围内的每个比例,都有相同数量的样本,其中被包围框覆盖的比例在给定范围内。训练集和我们大多数超参数的选择是基于过去使用非公开数据集的经验。在下面的实验中,我们没有探索任何非标准数据生成或正则化选项。在所有的实验中,所有的超参数都是通过对训练集。 Pascal Visual Object Classes (VOC)挑战是最常用的对象检测算法基准。它主要由复杂的场景图像组成,其中包含了20种不同的对象类别的边界框。在我们的评估中,我们关注的是2007版VOC,为此发布了一个测试集。我们通过培训VOC 2012展示了结果,其中包含了大约。11000张图片。我们训练了一个100框的定位器和一个基于深度网络的分类器。 我们在一个由1000万作物组成的数据集上训练分类器,该数据集重叠的对象至少为0.5 jaccard重叠相似度。这些作物被标记为20个VOC对象类中的一个。•2000万负作物与任何物体盒最多有0.2个Jaccard相似度。这些作物被贴上特殊的“背景”类标签。体系结构和超参数的选择遵循。 在第一轮中,定位器模型应用于图像中最大-最小中心方形作物。作物的大小调整到网络输入大小is220×220。单次通过这个网络,我们就可以得到上百个候选日期框。在对重叠阈值为0.5的非最大抑制后,保留评分最高的前10个检测项,并通过21路分类器模型分别通过网络进行分类。最终的检测分数是给定盒子的定位分数乘以分类器在作物周围的最大方形区域上评估的分数的乘积。这些分数通过评估,并用于计算精确查全曲线。 首先,我们分析了本地化器在隔离状态下的性能。我们给出了被检测对象的数量,正如Pascal检测标准所定义的那样,与生成的包围框的数量相对比。在图1中,我们展示了使用VOC2012进行训练所获得的结果。此外,我们通过使用图像的最大中心面积(max-center square crop)作为输入以及使用两个尺度(second scale)来给出结果:最大中心面积(max-center crop)的第二个尺度(select3×3windows的大小为图像大小的60%)正如我们所看到的,当使用10个边界框的预算时,我们可以用第一个模型本地化45.3%的对象,用第二个模型本地化48%的对象。这显示出比其他报告的结果更好的性能,例如对象度算法达到42%[1]。此外,这个图表显示了在不同分辨率下观察图像的重要性。虽然我们的算法通过使用最大中心作物获得了大量的对象,但当使用更高分辨率的图像作物时,我们获得了额外的提升。进一步,我们用21-way分类器对生成的包围盒进行分类,如上所述。表1列出了VOC 2007的平均精度(APs)。达到的平均AP是0.29,与先进水平相当。注意,我们的运行时间复杂度非常低——我们只使用top10框。示例检测和全精度召回曲线分别如图2和图3所示。值得注意的是,可视化检测是通过仅使用最大中心方形图像裁剪,即使用全图像获得的。然而,我们设法获得了相对较小的对象,例如第二行和第二列的船,以及第三行和第三列的羊。 在本工作中,我们提出了一种新的方法来定位图像中的对象,该方法可以预测多个边界框的时间。该方法使用深度卷积神经网络作为基本特征提取和学习模型。它制定了一个能够利用可变数量的groundtruth位置的多箱定位成本。在“一个类一个箱”方法的情况下,对1000个盒子进行非max-suppression,使用与给定图像中感兴趣的DeepMulti-Box方法相同的准则,并学习在未见图像中预测这些位置。 我们在VOC2007和ILSVRC-2012这两个具有挑战性的基准上给出了结果,在这两个基准上,所提出的方法具有竞争力。此外,该方法能够很好地预测后续分类器将探测到的位置。我们的结果表明,deepmultibox的方法是可扩展的,甚至可以在两个数据集之间泛化,就能够预测感兴趣的定位,甚至对于它没有训练的类别。此外,它能够捕获同一类物体的多种情况,这是旨在更好地理解图像的算法的一个重要特征。 在未来,我们希望能够将定位和识别路径折叠到一个单一的网络中,这样我们就能够在一个通过网络的一次性前馈中提取位置和类标签信息。即使在其当前状态下,双通道过程(本地化网络之后是分类网络)也会产生5-10个网络评估,每个评估的速度大约为1个CPU-sec(现代机器)。重要的是,这个数字并不与要识别的类的数量成线性关系,这使得所提出的方法与类似dpm的方法非常有竞争力。
这两天在公司做PM实习,主要是自学一些CV的知识,以了解产品在解决一些在图像识别、图像搜索方面的问题,学习的主要方式是在知网检索了6.7篇国内近3年计算机视觉和物体识别的硕博士论文。由于时间关系,后面还会继续更新图片相似度计算(以图搜图)等方面的学习成果 将这两天的学习成果在这里总结一下。你将会看到计算机视觉在解决特定物体识别问题(主要是卷积神经网络CNNs)的基础过程和原理,但这里不会深入到技术的实现层面。
计算机视觉(Computer vision)是一门研究如何使机器“看”的科学,更进一步的说,就是指用摄影机和计算机代替人眼对目标进行识别、跟踪和测量等机器视觉,并进一步做图像处理,用计算机处理成为更适合人眼观察或传送给仪器检测的图像。 ————维基百科 通常而言,计算机视觉的研究包括三个层次: (1)底层特征的研究: 这一层次的研究主要聚焦如何高效提取出图像对象具有判别性能的特征,具体的研究内容通常包括:物体识别、字符识别等 (2)中层语义特征的研究: 该层次的研究在于在识别出对象的基础上,对其位置、边缘等信息能够准确区分。现在比较热门的:图像分割;语义分割;场景标注等,都属于该领域的范畴 (3)高层语义理解: 这一层次建立在前两层的基础上,其核心在于“理解”一词。 目标在于对复杂图像中的各个对象完成语义级别的理解。这一层次的研究常常应用于:场景识别、图像摘要生成及图像语义回答等。 而我研究的问题主要隶属于底层特征和中层语义特征研究中的物体识别和场景标注问题。
人类的视觉工作模式是这样的: 首先,我们大脑中的神经元接收到大量的信息微粒,但我们的大脑还并不能处理它们。 于是接着神经元与神经元之间交互将大量的微粒信息整合成一条又一条的线。 接着,无数条线又整合成一个个轮廓。 最后多个轮廓累加终于聚合我们现在眼前看到的样子。 计算机科学受到神经科学的启发,也采用了类似的工作方式。具体而言,图像识别问题一般都遵循下面几个流程
(1)获取底层信息。获取充分且清洁的高质量数据往往是图像识别工作能否成功的关键所在 (2)数据预处理工作,在图像识别领域主要包括四个方面的技术:去噪处理(提升信噪比)、图像增强和图像修复(主要针对不够清晰或有破损缺失的图像);归一化处理(一方面是为了减少开销、提高算法的性能,另一方面则是为了能成功使用深度学习等算法,这类算法必须使用归一化数据)。 (3)特征提取,这一点是该领域的核心,也是本文的核心。图像识别的基础是能够提取出足够高质量,能体现图像独特性和区分度的特征。 过去在10年代之前我们主要还是更多的使用传统的人工特征提取方法,如PCA\LCA等来提取一些人工设计的特征,主要的方法有(HOG、LBP以及十分著名的SIFT算法)。但是这些方法普遍存在(a)一般基于图像的一些提层特征信息(如色彩、纹理等)难以表达复杂的图像高层语义,故泛化能力普遍比较弱。(b)这些方法一般都针对特定领域的特定应用设计,泛化能力和迁移的能力大多比较弱。 另外一种思路是使用BP方法,但是毕竟BP方法是一个全连接的神经网络。这以为这我们非常容易发生过拟合问题(每个元素都要负责底层的所有参数),另外也不能根据样本对训练过程进行优化,实在是费时又费力。 因此,一些研究者开始尝试把诸如神经网络、深度学习等方法运用到特征提取的过程中,以十几年前深度学习方法在业界最重要的比赛ImageNet中第一次战胜了SIFT算法为分界线,由于其使用权重共享和特征降采样,充分利用了数据的特征。几乎每次比赛的冠军和主流都被深度学习算法及其各自改进型所占领。其中,目前使用较多又最为主流的是CNN算法,在第四部分主要也研究CNN方法的机理。
上图是一个简易的神经网络,只有一层隐含层,而且是全连接的(如图,上一层的每个节点都要对下一层的每个节点负责。)具体神经元与神经元的作用过程可见下图。
在诸多传统的神经网络中,BP算法可能是性能最好、应用最广泛的算法之一了。其核心思想是:导入训练样本、计算期望值和实际值之间的差值,不断地调整权重,使得误差减少的规定值的范围内。其具体过程如下图:
一般来说,机器学习又分成浅层学习和深度学习。传统的机器学习算法,如SVM、贝叶斯、神经网络等都属于浅层模型,其特点是只有一个隐含层。逻辑简单易懂、但是其存在理论上缺乏深度、训练时间较长、参数很大程度上依赖经验和运气等问题。 如果是有多个隐含层的多层神经网络(一般定义为大于5层),那么我们将把这个模型称为深度学习,其往往也和分层训练配套使用。这也是目前AI最火的领域之一了。如果是浅层模型的问题在于对一个复杂函数的表示能力不够,特别是在复杂问题分类情况上容易出现分类不足的弊端,深度网络的优势则在于其多层的架构可以分层表示逻辑,这样就可以用简单的方法表示出复杂的问题,一个简单的例子是: 如果我们想计算sin(cos(log(exp(x)))), 那么深度学习则可分层表示为exp(x)—>log(x)—>cos(x)—>sin(x)
图像识别问题是物体识别的一个子问题,其鲁棒性往往是解决该类问题一个非常重要的指标,该指标是指分类结果对于传入数据中的一些转化和扭曲具有保持不变的特性。这些转化和扭曲具体主要包括了: (1)噪音(2)尺度变化(3)旋转(4)光线变化(5)位移
该部分具体的内容,想要快速理解原理的话推荐看[知乎相关文章] ( ), 特别是其中有些高赞回答中都有很多动图和动画,非常有助于理解。 但核心而言,CNN的核心优势在于 共享权重 以及 感受野 ,减少了网络的参数,实现了更快的训练速度和同样预测结果下更少的训练样本,而且相对于人工方法,一般使用深度学习实现的CNN算法使用无监督学习,其也不需要手工提取特征。
CNN算法的过程给我的感觉,个人很像一个“擦玻璃”的过程。其技术主要包括了三个特性:局部感知、权重共享和池化。
CNN中的神经元主要分成了两种: (a)用于特征提取的S元,它们一起组成了卷积层,用于对于图片中的每一个特征首先局部感知。其又包含很关键的阈值参数(控制输出对输入的反映敏感度)和感受野参数(决定了从输入层中提取多大的空间进行输入,可以简单理解为擦玻璃的抹布有多大) (b)抗形变的C元,它们一起组成了池化层,也被称为欠采样或下采样。主要用于特征降维,压缩数据和参数的数量,减小过拟合,同时提高模型的容错性。 (c*)激活函数,及卷积层输出的结果要经过一次激励函数才会映射到池化层中,主要的激活函数有Sigmoid函数、Tanh函数、ReLU、Leaky ReLU、ELU、Maxout等。
也许你会抱有疑问,CNN算法和传统的BP算法等究竟有什么区别呢。这就会引出区域感受野的概念。在前面我们提到,一个全连接中,较高一层的每个神经元要对低层的每一个神经元负责,从而导致了过拟合和维度灾难的问题。但是有了区域感受野和,每个神经元只需要记录一个小区域,而高层会把这些信息综合起来,从而解决了全连接的问题。
了解区域感受野后,你也许会想,区域感受野的底层神经元具体是怎么聚合信息映射到上一层的神经元呢,这就要提到重要的卷积核的概念。这个过程非常像上面曾提到的“神经元与神经元的联系”一图,下面给大家一个很直观的理解。
上面的这个过程就被称为一个卷积核。在实际应用中,单特征不足以被系统学习分类,因此我们往往会使用多个滤波器,每个滤波器对应1个卷积核,也对应了一个不同的特征。比如:我们现在有一个人脸识别应用,我们使用一个卷积核提取出眼睛的特征,然后使用另一个卷积核提取出鼻子的特征,再用一个卷积核提取出嘴巴的特征,最后高层把这些信息聚合起来,就形成了分辨一个人与另一个人不同的判断特征。
现在我们已经有了区域感受野,也已经了解了卷积核的概念。但你会发现在实际应用中还是有问题: 给一个100 100的参数空间,假设我们的感受野大小是10 10,那么一共有squar(1000-10+1)个,即10的六次方个感受野。每个感受野中就有100个参数特征,及时每个感受野只对应一个卷积核,那么空间内也会有10的八次方个次数,,更何况我们常常使用很多个卷积核。巨大的参数要求我们还需要进一步减少权重参数,这就引出了权重共享的概念。 用一句话概括就是,对同一个特征图,每个感受野的卷积核是一样的,如这样操作后上例只需要100个参数。
池化是CNN技术的最后一个特性,其基本思想是: 一块区域有用的图像特征,在另一块相似的区域中很可能仍然有用。即我们通过卷积得到了大量的边缘EDGE数据,但往往相邻的边缘具有相似的特性,就好像我们已经得到了一个强边缘,再拥有大量相似的次边缘特征其实是没有太大增量价值的,因为这样会使得系统里充斥大量冗余信息消耗计算资源。 具体而言,池化层把语义上相似的特征合并起来,通过池化操作减少卷积层输出的特征向量,减少了参数,缓解了过拟合问题。常见的池化操作主要包括3种: 分别是最大值池化(保留了图像的纹理特征)、均值池化(保留了图像的整体特征)和随机值池化。该技术的弊端是容易过快减小数据尺寸,目前趋势是用其他方法代替池化的作用,比如胶囊网络推荐采用动态路由来代替传统池化方法,原因是池化会带来一定程度上表征的位移不变性,传统观点认为这是一个优势,但是胶囊网络的作者Hinton et al.认为图像中位置信息是应该保留的有价值信息,利用特别的聚类评分算法和动态路由的方式可以学习到更高级且灵活的表征,有望冲破目前卷积网络构架的瓶颈。
CNN总体来说是一种结构,其包含了多种网络模型结构,数目繁多的的网络模型结构决定了数据拟合能力和泛化能力的差异。其中的复杂性对用户的技术能力有较高的要求。此外,CNN仍然没有很好的解决过拟合问题和计算速度较慢的问题。
该部分的核心参考文献: 《深度学习在图像识别中的应用研究综述》郑远攀,李广阳,李晔.[J].计算机工程与应用,2019,55(12):20-36. 深度学习技术在计算机图像识别方面的领域应用研究是目前以及可预见的未来的主流趋势,在这里首先对深度学习的基本概念作一简介,其次对深度学习常用的结构模型进行概述说明,主要简述了深度信念网络(DBN)、卷积神经网络(CNN)、循环神经网络(RNN)、生成式对抗网络(GAN)、胶囊网络(CapsNet)以及对各个深度模型的改进模型做一对比分析。
深度学习按照学习架构可分为生成架构、判别架构及混合架构。 其生成架构模型主要包括: 受限波尔兹曼机、自编码器、深层信念网络等。判别架构模型主要包括:深层前馈网络、卷积神经网络等。混合架构模型则是这两种架构的集合。深度学习按数据是否具有标签可分为非监督学习与监督学习。非监督学习方法主要包括:受限玻尔兹曼机、自动编码器、深层信念网络、深层玻尔兹曼机等。 监督学习方法主要包括:深层感知器、深层前馈网络、卷积神经网络、深层堆叠网络、循环神经网络等。大量实验研究表明,监督学习与非监督学习之间无明确的界限,如:深度信念网络在训练过程中既用到监督学习方法又涉及非监督学习方法。
[1]周彬. 多视图视觉检测关键技术及其应用研究[D].浙江大学,2019. [2]郑远攀,李广阳,李晔.深度学习在图像识别中的应用研究综述[J].计算机工程与应用,2019,55(12):20-36. [3]逄淑超. 深度学习在计算机视觉领域的若干关键技术研究[D].吉林大学,2017. [4]段萌. 基于卷积神经网络的图像识别方法研究[D].郑州大学,2017. [5]李彦冬. 基于卷积神经网络的计算机视觉关键技术研究[D].电子科技大学,2017. [6]李卫. 深度学习在图像识别中的研究及应用[D].武汉理工大学,2014. [7]许可. 卷积神经网络在图像识别上的应用的研究[D].浙江大学,2012. [8]CSDN、知乎、机器之心、维基百科