手写体数字识别算法研究论文

转载1 引言手写体数字识别是文字识别中的一个研究课题，是多年来的研究热点，也是模式识别领域中最成功的应用之一。由于识别类型较少，在实际生活中有深远的应用需求，一直得到广泛的重视。近年来随着计算机技术和数字图像处理技术的飞速发展，数字识别在电子商务、机器自动输入等场合已经获得成功的实际应用。尽管人们对手写数字的研究己从事了很长时间的研究，并己取得了很多成果，但到目前为止，机器的识别本领还无法与人的认知能力相比，这仍是一个有难度的开放问题，所以对手写数字识别的进一步研究，寻求如何更高效更准确更节能地实现手写数字的自动录入和识别的解决方案对提高经济效益、推动社会发展都有深远的意义。近年来, 人工神经网技术发展十分迅速, 它具有模拟人类部分形象思维的能力, 为模式识别开辟了新的途径, 成了模拟人工智能的一种重要方法，特别是它的信息并行分布式处理能力和自学习功能等显著优点, 更是激起了人们对它的极大的兴趣。BP（Back Propagation）网络是神经网络中一种，是1986年由Rumelhart和McCelland为首的科学家小组提出，是一种按误差逆传播算法训练的多层前馈网络，可以很好地解决非线性问题，在函数逼近、模式识别和数据压缩等方面都有很广泛的应用。我们在认真地研究了神经网络的基本原理和机制的基础上, 结合手写体数字识别这一具体课题, 提出了用BP神经网络方法来实现手写体数字识别的方案。2 手写体数字识别概述手写数字识别简述模式识别是六十年代初迅速发展起来的一门学科。由于它研究的是如何用机器来实现人及某些动物对事物的学习、识别和判断能力，因而受到了很多科技领域研究人员的注意，成为人工智能研究的一个重要方面。字符识别是模式识别的一个传统研究领域。从50年代开始，许多的研究者就在这一研究领域开展了广泛的探索，并为模式识别的发展产生了积极的影响。手写体数字识别是多年来的研究热点也是字符识别中的一个特别问题。手写体数字识别在特定的环境下，如邮政编码自动识别系统，税表和银行支票自动处理系统等一般情况。当涉及到数字识别时，人们往往要求识别器有很高的识别可靠性，特别是有关金额的数字识别时，如支票中填写的金额部分，更是如此。因此针对这类问题的处理系统设计的关键环节之一就是设计出高可靠性和高识别率的手写体数字识别方法。这个领域取得了飞速的发展，部分是由于更好的学习算法，部分是由于更优良的训练集。美国国家科学学会（NIST）建立了一个包含60000个经过标注的数字的数据库，它已经成为对新的学习算法进行比较的性能测试标准。然而可以说还没有哪个手写体数字识别器达到完美的识别效果。在过去的数十年中，研究者们提出了许许多多的识别方法，按使用的特征不同，这些方法可以分为两类:基于结构特征的方法和基于统计特征的方法。统计特征通常包括点密度的测量、矩、特征区域等。结构特征通常包括园、端点、交叉点、笔划、轮廓等，一般来说，两类特征各有优势。例如，使用统计特征的分类器易于训练，而且对于使用统计特征的分类器，在给定的训练集上能够得到相对较高的识别率;而结构特征的主要优点之一是能描述字符的结构，在识别过程中能有效地结合几何和结构的知识，因此能够得到可靠性较高的识别结果。本文针对手写数字识别选用BP神经网络这种基于传统统计学基础上的分类方法，用于分割和识别，并取得了较好的识别效果。手写数字识别的一般过程手写体数字识别的过程如图2-1所示，一般分为预处理、特征提取、数字串的分割、分类器、等模块。原始图像是通过光电扫描仪，CCD器件或电子传真机等获得的二维图像信号。预处理包括对原始图像的去噪、倾斜校正或各种滤波处理。手写体数字具有随意性，其字符大小、字间距、字内距变化很大，分割难度较大。手写数字串的分割是其中最重要的环节，是制约识别率的瓶颈所在。去噪是预处理中极重要的环节。系统面对的是从实际环境中切分出的字符图像，可能有粘连的边框、随机的墨点、切分不正确引入的其他字符笔划等使前景点增加的噪声，还可能有断线等使背景增加的噪声，目前适应各种环境的通用去噪算法还不成熟。预处理中的规格化也不仅仅是同比例的放缩，它不仅要保持拓扑不变，更要最大限度地突出所取特征。在众多应用环境中，特征提取、分类器、多分类器集成是整个识别系统的核心。大体上来说特征可以分为结构特征和统计特征两类。由于分类器的选择取决于所提取的特征，因此相应的识别方法便有结构方法和统计方法。总之，从手写体数字识别原理可见，手写体数字识别技术主要包括以下几点:1）图像预处理，包括彩色图像转成灰度图像、二值化，归一化，滤除干扰噪声等;2）基于数字图像的特征选择和提取;3）数字串的分割;4）模式分类识别。其中，第二和第四部分是手写数字识别的重点，直接关系到识别的准确率和效率，也是本论文研究的重点所在。结果图2-1 识别流程手写数字识别的一般方法及比较手写数字识别在学科上属于模式识别和人工智能的范畴。在过去的四十年中，人们提出了很多办法获取手写字符的关键特征，提出了许多识别方法和识别技术。这些手段分两大类:全局分析和结构分析。多年的研究实践表明，对于完全没有限制的手写数字，几乎可以肯定:没有一种简单的方案能达到很高的识别率和识别精度，因此，最近这方面的努力向着更为成熟、复杂、综合的方向发展。研究工作者努力把新的知识运用到预处理，特征提取，分类当中。近年来，人工智能中专家系统方法、人工神经网络方法已应用于手写数字识别。在手写数字识别的研究中，神经网络技术和多种方法的综合是值得重视的方向。针对模式特征的不同选择及其判别决策方法的不同，可将模式识别方法大致分为5大类这5种识别方法均可实现手写数字识别，但它们特点不同，必须根据条件进行选择。（1）统计模式法这是以同类模式具有相同属性为基础的识别方法。用来描述事物属性的参量叫做待征，它可以通过模式的多个样本的测量值统计分析后按一定准则来提取。例如:在手写数字识别系统中，我们可以把每个数字的图形分为若干个小方块(图)，然后统计每一小方块中的黑像素构成一个多维特征矢量，作为该数字的特征。必须注意的是:在选择特征时，用于各类模式的特征应该把同类模式的各个样本聚集在一起，而使不同类模式的样本尽量分开，以保证识别系统能具有足够高的识别率。（2）句法结构方法在形式语言和自动机的基础上产生了句法结构这一方法。其基本原理是:对每一个模式都用一个句法来表示，而对一个待识别的未知样本，通过抽取该样本的基元来构造该样本的句子，然后分析此句子满足什么样的句法，从而推断出他该属于哪个模式类。这种方法的优点是它能反映模式的结构特征，而且对模式的结构特征变换不敏感，因此比较适合联机识别。但是由于抽取字符的基元比较困难，因而不是特别适合用于脱机识别，同时这一方法的理论基础还不可靠，抗干扰能力比较弱。（3）逻辑特征法就是其特征的选择对一类模式识别问题来说是独一无二的，即在一类问题中只有1个模式具有某1种(或某1组合的)逻辑特征，此方法律立了关于知识表示及组织，目标搜索及匹配的完整体系;对需通过众多规则的推理达到识别目标的问题，有很好的效果，但当样品有缺损，背景不清晰，规则不明确甚至有歧义时，效果不好。（4）模糊模式方法就是在模式识别过程中引入了模糊集的概念，由于隶属度函数作为样品与模板相似程度的量度，故能反映整体的、主要的特性，模糊模式有相当不匀称的抗干扰与畸变，从而允许样品有相当程度的干扰与畸变，但准确合理的隶属度函数往往难以建立。目前有学者在研究，并将其引入神经网络方法形成模糊神经网络识别系统。（5）神经网络方法就是使用人工神经网络方法实现模式识别。可处理某些环境信息十分复杂，背景知识不清楚，推理规则不明确的问题，允许样品有较大的缺损、畸变。神经网络方法的缺点是其模型在不断丰富完善中，目前能识别的模式类不够多，神经网络方法允许样品有较大的缺损和畸变，其运行速度快，自适应性能好，具有较高的分辨率。上述几种识别方法各有特点。结构法比较直观，能较好反映事物的结构特性：问题是基元的提取很不容易，各基元的关系也比较复杂，抗干扰性能也较差。统计法用计算机来抽取特征，比较方便，抗干扰性能强；缺点是没有充分利用模式的结构特性。神经网络方法由于处理的并行性，可以快速同时处理大容量的数据，工作时具有高速度和潜在超高速，并且，网络的最终输出是由所有神经元共同作用的结果，一个神经元的错误对整体的影响很小，所以其容错性也非常的好。基于以上的考虑，本文的手写数字识别采用了神经网络的方法。3 图像预处理与特征提取手写体图像数据在没有进行一定的图像预处理和特征提取之前，不能立即应用到程序中进行神经网络训练和字符识别工作。从图像处理角度来说，手写体的字符识别对字符是不是有颜色是不关心的，而对此图像的清晰度是很关心的。所以在图像进行一系列的图像处理工作是很有必要的。图像的预处理是正确、有效提取图像特征的基础，有效的图像特征作为网络的输入值才能进行正确的神经网络训练和最终得到正确、有效的网络权重。数字图像预处理灰度化处理彩色图像包含了大量的颜色信息，不但在存储上开销很大，在处理上也会降低系统的执行速度，因此在对图像进行识别等处理中经常将彩色图像转变为灰度图像，以加快处理速度。由彩色转换为灰度的过程称为灰度化处理。灰度图像就是只有强度信息而没有颜色信息的图像，存储灰度图像只需要一个数据矩阵，矩阵每个元素表示对应位置像素的灰度值。彩色图像的像素色为RGB(R，G，B)，灰度图像的像素色为RGB(r，r，r) ，R，G，B可由彩色图像的颜色分解获得。而R，G，B的取值范围是0-255，所以灰度的级别只有256级。灰度化的处理方法主要有如下三种:最大值法、平均值法和加权平均值法。本文用到的加权平均值法来处理，即更换每个像素的颜色索引(即按照灰度映射表换成灰度值)。权重选择参数为：红：绿：蓝：例如某像素点颜色对应的灰度值计算公式为:NewPixColor?(BYTE)(0299*Red?*Green?*Blue) 系统输入的源图像支持3通道或者4通道图像，支持Format24bppRgb, format32bppRgb, Format32bppArgb和Format8bppIndex这4种像素格式。二值化处理二值图像是指整幅图像画面内仅黑、白二值的图像。在数字图像处理中，二值图像占有非常重要的地位。在实际的识别系统中，进行图像二值变换的关键是要确定合适的阈值，使得字符与背景能够分割开来，二值变换的结果图像必须要具备良好的保形性，不丢掉有用的形状信息，不会产生额外的空缺等等。采用二值图像进行处理，能大大地提高处理效率。二值化的关键在于阈值的选取，阈值的选取方法主要有三类：全局阈值法、局部阈值法、动态阈值法。全局阀值二值化方法是根据图像的直方图或灰度的空间分布确定一个阀值，并根据该阀值实现灰度图像到二值化图像的转化。全局阀值方法的优点在于算法简单，对于目标和背景明显分离、直方图分布呈双峰的图像效果良好，但对输入图像量化噪声或不均匀光照等情况抵抗能力差，应用受到极大限制。局部阀值法则是由像素灰度值和像素周围点局部灰度特性来确定像素的阀值的。Bernsen算法是典型的局部阀值方法，非均匀光照条件等情况虽然影响整体图像的灰度分布却不影响局部的图像性质，局部阀值法也存在缺点和问题，如实现速度慢、不能保证字符笔划连通性、以及容易出现伪影现象等。动态阀值法的阀值选择不仅取决于该像素灰度值以及它周围像素的灰度值，而且还和该像素的坐标位置有关，由于充分考虑了每个像素邻域的特征，能更好的突出背景和目标的边界，使相距很近的两条线不会产生粘连现象。在图像分割二值化中，自动闽值选取问题是图像分割的关键所在。事实证明，闽值的选择的恰当与否对分割的效果起着决定性的作用。本文采用全局阈值的方法，实现将图像二值化的功能。如果某个像素的值大于等于阈值，该像素置为白色；否则置为黑色。系统程序目前仅支持8bpp灰度图像的转换，阈值介于0~255之间，程序中取220。去离散噪声原始图像可能夹带了噪声，去噪声是图像处理中常用的手法。通常去噪用滤波的方法，比如中值滤波、均值滤波，本文中去除离散噪声点采用中值滤波的方法。中值滤波法是一种非线性平滑技术，它将每一象素点的灰度值设置为该点某邻域窗口内的所有象素点灰度值的中值，让周围的像素值接近的真实值，从而消除孤立的噪声点。字符分割在识别时系统只能根据每个字符的特征来进行判断，为了最终能准确识别手写体数字，必须将单个字符从处理后的图像中逐个提取分离出来。具体做法是将图像中待识别的字符逐个分离出来并返回存放各个字符的位置信息的链表。当把图像分割完成后，从一定意义上来说便是形成了不同的小图，每一张小图就是一个数字，才能对这些小图进行尺寸大小一致的调整。细化图像特征提取特征提取是字符识别中的一个重要组成部分，是模式识别的核心之一。经过预处理后，根据识别方法的要求抽取图像特征，作为识别的依据。一般而言，选择的特征一方面要求能够足够代表这个图像模式，另一方面要求它们的数量尽可能少，这样能有效地进行分类和较小的计算量。特征提取的好坏会直接影响其识别的分类效果，进而影响识别率，因此特征选择是模式识别的关键。但是，目前还没有一个有效的、一般的抽取、选择特征的方法。抽取、选择特征的方法都是面对问题的，因此针对不同的识别问题往往有不止一种的抽取、选择特征的方法。

基于MATLAB的数字识别计算机与信息工程学院本科生毕业论文基于BP神经网络的手写数字识别算法的设计与实现班级： 13汉班学号：姓名：江晓雪指导教师：李艳玲 2017 年 3 月 31 日毕业论文目录 1 绪论1 图像识别的提出1 图像识别的现状与发展趋势1 2 BP神经网络的概述2 3 手写体数字识别的实现过程4 整体线路图4 算法流程5 图像预处理10 结果分析10 4 结论11 参考文献12 全文共 13 页 4834 字基于BP神经网络的手写数字识别算法的设计与实现计算机与信息工程学院 2013级汉班江晓雪指导教师李艳玲副教授摘要本文实现了基于MATLAB关于神经网络的手写数字识别算法的设计过程，采用神经网络中反向传播神经网络(即BP神经网络)对手写数字的识别，由MATLAB对图片进行读入、灰度化以及二值化等处理，通过神经网络进行训练和测试。实验证明：该神经网络对手写数字的识别可以达到。关键词手写数字识别；BP神经网络；MATLAB语言 1 绪论图像识别的提出图像识别在信息技术发达的今天已经占据了很重要的地位，在我们实际生活中也有很多应用。所谓的图像识别，就是指通过计算机对图像进行相应的处理、分析，来达到识别不同模型的目标和任务的一种技术。对于它的提出，简单的来说，它的发展经历了三个阶段：第一个是文字识别、第二个是数字图像处理与识别、第三个是物体识别。第一种相对来说比较简单，它的研究是从1950年开始的，一般情况是识别字母、符号和数字，无论是印刷体识别还是手写体识别，它的应用都非常广泛，但是也伴随着，这个识别的过程会更加的耗时、费力，无论是人力还是物力，都会有很大的损失；第二种就是我们所说的数字图像处理与识别，在图片的识别过程中，图片识别会有一定的误差，也会带来小小的麻烦；第三就是物体识别，而物体的识别主要指的是：在三维世界中，对于个体、环境的感知和认识进行识别，这不同于二维世界的认知，相对来说是更高级的计算机图像识别，它是以二维世界中对数字图像和模拟图像处理的办法为依据，进行更高一级的，并且结合了现代人工智能技术等学科的研究目标，研究成果已经被广泛的应用在各种工业探测机器人上，为人们的安全提供了很大的帮助。图像识别的现状与发展趋势随着网络的发达、电子的信息化，图像识别的应用已经非常广泛，而主要的研究工作也包括各行各业，整理以下几点对其应用的广泛度进行说明： ⒈在生物学中，对生物的原型进行研究。从生物的脑细胞结构、物体解剖等其他科学研究的方向对生物的体系结构、神经结构、神经细胞组织等生物的原型结构及其功能机理进行研究，增强对生物学更加全面的理解。 ⒉在实际应用中，建立我们需要的理论模型。根据需要应用的信息在生物学中的应用，建立需要的生物原型，也可以建立类似神经元、神经网络这样不可见的理论模型，以便可以让其更加有效的应用在生活中。建立我们生活中不能直观表现的事物模型，以便我们可以更方便的、更直观的理解事物的本质。 ⒊在信息时代中，建立网络模型以及算法研究。就是通过上面所说的，建立相应的理论模型，在这个基础上加以理解，建立我们所需要的网络模型，实现计算机应用，主要应用在网络学习算法的研究，这方面的研究工作也被人们称为技术模型研究。 ⒋信息时代的发展，让我们在生活中有很多的应用，例如：完成某种函数图像的绘制以及对其变化的形式进行分析、对图片信号的处理、模式识别等功能，建立需要的应用系统、制造机器人等等。通过上面的说明，也就是说从开始根据生物学原理的应用，直到建立需要的神经网络模型，最后应用到图像识别当中，可以看出其模型的建立是在生活中实例的基础上，其可靠性和准确性是显而易见的，这样就大大的增加了可信度，与此同时，也减少了工作中不必要的麻烦与困扰。而在网络信息发达的今天，人类在基本粒子、宇宙空间、生命起源等科学领域方面都已经显现出很高的兴趣度，而这其中难免会有图像提取后的处理工作，所以图像识别的应用就会越来越广泛。 2 BP神经网络的概述反向传播(Back-Propagation，BP)学习算法简称BP算法，采用BP算法的前馈型神经网络简称BP网络。BP网络是多层感知器的一种，它具备多层感知器的特点，同时也有自己的特点。多层感知器包括输入层、隐藏层、输出层，其中隐藏层可以有多个，而我们BP网络中隐藏层只有一个，其简单构造如图所示：图1 多层感知器结构图而我们用到的BP网络中的具体信号流如图所示，它有一个反向传播的过程，这也是对传播进行调整，使精确度更高的一种办法。如图所示，其中有两种信号流通：图2 多层感知器的信号流第一：函数信号简单来说就是信号进入输入层，然后通过隐藏层到达输入层，通过输出层输出所得值，就可以完成一个函数信号。第二：误差信号误差信号就是在逆向的传播的过程中传输的信号。其中，有两个重要参数。一个是函数信号即sigmoid函数，还有一个就是权值的梯度运算即梯度向量。(注：sigmoid函数、权重的修正函数，如图所示。) (1) (2) 通过对两个参数的调整，完成整个算法的应用。 3 手写体数字识别的实现过程整体线路图整体流程图如图3所示：图像测试损失函数的设计与应用可视化测试数据神经网络的设计与训练 sigmoid函数图3 整体流程图部分文件调用流程图如图4所示： sigmoid checkNNGradients nnCostFunction 第八部分：实现正规化第八部分：训练NN fmincg nnCostFunction sigmoidGradient sigmoid nnCostFunction sigmoidGradient randInitializeWeights checkNNGradients debugInitializeWeights nnCostFunction computeNumericalGradient 第五部分：sigmoid函数第六部分：初始化参数第七部分：实现反向传播第三部分：前馈网络第四部分：前馈正规化图4 整体流程图算法流程

你这问题属于数字图像中手写数字识别的实现的问题可以归类为数字图像处理（Digital Image Processing）我见到过很多文章介绍这个的有一篇标题叫做手写数字识别系统研究与实现的硕士论文你看看用的是BP算法

手写字体识别研究论文

题目摘要（150—200字之间）关键字（3到5个）正文参考文献

属于。这属于信息的智能化处理。属于人工智能的自然语言处理应用领域。自然语言处理主要应用于机器翻译、手写输入、自动摘要、观点提取、文本分类、问题回答、文本语义对比、语音识别、中文OCR等方面。自然语言处理研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法，融语言学、计算机科学、数学于一体。因此这一领域的研究将涉及自然语言，即人们日常使用的语言，所以它与语言学的研究有着密切的联系，但又有重要的区别，即它是计算机科学的一部分。

法学手写论文格式篇一法学类自考论文的写作格式非常重要，如果说我们对论文的要求是对军人的要求，它就像军人的服装，有些许凌乱，就不是一个合格的军人。所以同学们应当充分重视论文的格式，这是论文顺利通过的前提。下面就简要谈谈论文写作的大致格式。一、学位论文的一般格式学位论文一般应依次包括下述几部分： 1.封面：封面和封底在大家交费的时候已经发给大家，按照上面所列项目打印或者填写。 2. 论文评语：已经发给大家。 3.版权声明：根据教务的要求看是否应当附上，如果需要教务会给出统一格式和内容。 4.内容摘要：内容摘要要求在300字左右，应简要说明本论文的目的、内容、方法、成果和结论。要突出论文的创新之处。语言力求精炼、准确。在本页的最下方另起一行，注明本文的关键词(一般3—5个)。本页不应有题目。 5.目录：既是论文的提纲，也是论文组成部分的小标题。应当有页码，最少具体到二级目录。可以根据情况具体到三级或四级目录。目录页也不要出现题目。 6.正文：A、题目，放在第一页(前述2、3、4单独编页，正文重新编页)正中间。注意，这个题目是除了封面外整篇论文中惟一出现题目的地方，另外，这一页不要写作者名称，整篇论文中仅仅出现的作者姓名就是在封面上。 B、引言(或序言、导言)：内容应包括本课题对学术发展、经济建设、社会进步的理论意义和现实意义，国内外相关研究成果述评，本论文所要解决的问题，论文运用的主要理论和方法、基本思路和行文结构等。引言放在题目下。本科论文也可以没有引言，根据老师要求具体调整。 C、论文主体：注意，一般一级标题为“一、”“二、”“三、”……，二级标题为“(一)”“(二)”“(三)”……，三级标题为“1、”“2、”“3、”……，四级标题为“(1)”“(2)”“(3)”……。注意，有括号不要出现顿号，反之亦然。 7.结语：论文结论要明确、精炼、完整、准确，突出自己的创造性成果或新见解。应严格区分本人的研究成果与他人的科研成果的界限。建议大家一般不要写结论，因为有时候我们的论文常常没有很简洁的结论，所以用结语较好。另外结语部分也可没有。 8.注释：可采用脚注或尾注的方式，按照本学科国内外通行的范式，逐一注明本文引用或参考、借用的资料数据出处及他人的研究成果和观点，严禁掠人之美和抄袭剽窃。一般要求大家采用脚注而不要采用尾注。很多同学不会用word中自动插入的方式加脚注，会让自己走些弯路，要多问同学，多问老师。 9. 参考文献：列于文末(通篇正文之后)。外文用原文，不必译成中文。文献是期刊时，一般书写格式为：作者、篇名、期刊名、年月、卷号、期数。文献是图书时，一般书写格式为：作者、书名、出版单位、年月、版次。参考文献不同于脚注和尾注。 10.作者的致谢、后记或说明等：一律列于论文末尾。后记可有可无，我问的几个老师都建议打击没有后记。 11.封底二、学位论文的打印和装订要求论文定稿一定不要自己用订书钉等方式自行装订，而要找专门的装订地方。比如北大校内几十家复印店，基本都可以。特别提醒一些不在北京写论文的同学，不妨让在北京同学帮帮忙或者亲自来北京。 1.学位论文要用规范的汉字打印。封面统一用北大统一印制的封面。论文一律打印(封面部分请参考各老师要求)，用A4纸张。 2.学位论文一律在左侧装订。要求装订、剪切整齐，便于使用。 3. 文章题目一般为三号黑体字，可以分为1或2行居中打印。注释一般为小五，正文等采用四号或小四号宋体字，具体参照各老师要求。 4.页面设置：页边距：上：，下：，左：，右：. 行间距：22磅(操作：格式→段落→行距→固定值→设置值22磅) 字间距：加宽1磅(操作：格式→字体→间距→加宽→磅值1磅) 页眉根据各专业老师的要求设置，如果没有要求最好什么都没有。页码居页面底端靠右排列。以上仅是一些简单的介绍，具体情况根据老师的要求可能还要有部分变动。建议同学们多问多学。最后预祝同学们论文写作顺利! 手写论文格式篇二一、总的要求首先论文稿应具有真实性、科学性和实用性，突出报道其研究成果和教育教学经验。同时要求选题新颖，论点鲜明，论据充分，数据可靠，结论准确，层次分明，文字简练，并校对清楚，尤其必须准确使用标点符号，英文应隔行打印。作者文责自负，请自留底稿，采用或未被采用的稿件均一律不退。二、关于标题论文的标题应简明且确切地反映论文内容，一般不用副标题。切忌口号式或广告词式的标题，尽可能不用代号。文题以不超过 20字为宜。若稿件采用中英文题目、摘要、关键词和作者拼音名，其中、英文必须一致。三、关于署名作者单位名称应包含省、市、区、县名，在单位名称后用圆括弧写明邮政编码，空一格后接写作者姓名。不同单位的多作者稿应另起行写明第二或第三作者的单位名称、邮编、姓名。四、关于摘要属经验介绍，心得体会之类的短稿一般不要求写摘要，但属科研项目的研究成果报告，调查分析报告之类的稿件必须有摘要，均采用结构式文摘或以300字左右为宜。五、关于关键词通常为三至八个关键词，采用教育教学标准主题词，若规定标准词表中无该词关键词：3一8个关键词，采用教育教学标准主题词，若规定标准词表中无该词的可使用自由词。六、图表处理凡文字能说明的内容尽量不用表和图，正文、表、图三者中的数据不应重复。统计表应另纸绘出附在稿件中，以便于审阅。表或图应各有表题、图题，同时必须有相应的表序号和图序号。采用三线表或王字表，表中数据务必核实，纵横之和一致，表中需说明的问题采用*，2个以上依次用*，**，***表示，置于表的下方，加“注……”。图的坐标要设计准确，刻度均匀，坐标轴上有数值，不使用箭头。须用绘图笔和硫酸纸绘制，曲线应均匀圆滑，图面清洁，图中数字和符号应打印后填入，纵横坐标应同时有量及单位。切记不要在方格稿纸上绘图。七、关于名词的使用文中使用的名词应注意全稿前后统一，必须使用全国自然科学、社会科学名词委员会公布的各科名词，所用专用名词不要随意缩写，如所用名词过长，而文中又需多次使用，则应在第一次引用时在全名后加圆括号注明缩写。医学手写论文格式篇三科研论文是作者的科学思维' 通过科学实践所获得的科研成果进行总结归纳后' 按论点和论据所写成的论证性文章。一篇优秀论文既要求内容丰富、新颖、科学性强' 又要富有理论性和实践性' 且文字通顺' 层次清楚' 逻辑性强。科研论文的写作格式一般包括如下内容: ①题目; ②作者; ③摘要; ④关键词; ⑤引言; ⑥正文(材料、方法、结果和讨论); ⑦致谢; ⑧ 参考文献。为了使论文的书写更加规范化和格式化' 现对这八项内容写作的要求和需注意的问题分述于下。一. 题目题目是文章最重要和最先看到的部分' 应能吸引读者' 并给人以最简明的提示。 1.应尽量做到简洁明了并紧扣文章的主题，要突出论文中特别有独创性、有特色的内容，使之起到画龙点睛' 启迪读者兴趣的作用。 2.字数不应太多' 一般不宜超过20个字。 3.应尽量避免使用化学结构式、数学公式或不太为同行所熟悉的符号、简称、缩写以及商品名称等。题目中尽量不要用标点符号。 4.必要时可用副标题来做补充说明，副标题应在正题下加括号或破折号另行书写。 5.若文章属于“资助课题”项目' 可在题目的右上角加注释角号(如 ※、#等)' 并在脚注处(该文左下角以横线分隔开)书写此角号及其加注内容。 6.为了便于对外交流' 应附有英文题名' 所有字母均用大写，放在中文摘要与关键词的下面。二. 作者署名是论文的必要组成部分' 要能反映实际情况。 1.作者应是论文的撰写者' 是指直接参与了全部或部分主要工作' 对该项研究作出实质性贡献' 并能对论文的内容和学术问题负责者。 2.研究工作主要由个别人设计完成的' 署以个别人的姓名; 合写论文的署名应按论文工作贡献的多少顺序排列; 学生的毕业论文应注明指导老师的姓名和职称。作者的姓名应给出全名。 3.作者的下一行要写明所在的工作单位(应写全称)，并注上邮政编码。 4.为了便于了解与交流' 论文的最后应附有通迅作者的详细通讯地址、电话、传真以及电子信箱地址。三. 摘要摘要是科研论文主要内容的简短、扼要而连贯的重述，必须将论文本身新的、最具特色的内容表达出来(重点是结果和结论)。 1.具体写法有“结构式摘要” 和“非结构式摘要”两种，前者一般分成目的、方法、结果和结论四个栏目，规定250字左右;后者不分栏目' 规定不超过150个字，目前国内大多数的医学、药学期刊都采用“结构式摘要”。 2.摘要具有独立性和完整性，结果要求列出主要数据及统计学显著性。 3.一般以第三人称的语气写，避免用“本文”、“我们”、“本研究”等作为文摘的开头。四.关键词关键词也叫索引词' 主要为了图书情报工作者编写索引' 也为了读者通过关键词查阅需要的论文。 1.关键词是从论文中选出来用以表示全文主题内容的单词或术语，要求尽量使用《医学主题词表》(MeSH) 中所列的规范性词(称叙词或主题词)。 2.关键词一般选取3～8个词' 并标注与中文一一相对应的英文关键词。每个词之间应留有空格以区别之。 3.关键词通常位于摘要之后，引言之前。五.引言引言(导言、序言)作为论文的开端' 起纲领的作用，主要回答“为什么研究”这个课题。 1.引言的内容主要介绍论文的研究背景、目的、范围' 简要说明研究课题的意义以及前人的主张和学术观点' 已经取得的成果以及作者的意图与分析依据'包括论文拟解决的问题、研究范围和技术方案等。 2.引言应言简意赅' 不要等同于文摘或成为文摘的注释。如果在正文中采用比较专业化的术语或缩写词时' 最好先在引言中定义说明。 3.字数一般在300字以内。六. 正文正文是科研论文的主体' 包括材料、方法、结果、讨论四部分内容' 其中某些部分(特别是方法和结果)还需列出小标题' 以使层次更加清晰。 1.材料材料是科学研究的物质基础' 需要详细说明研究的对象、药品试剂、仪器设备等。 (1)如属动物实验研究' 材料中需说明实验动物的名称、种类、品系、分级、数量、性别、年(月)龄、体重、健康状态、分组方法、每组的例数等;如属用药的临床观察' 应说明观察对象的例数、性别、年龄、职业、病例种类、症状体征、诊断标准、分组方法、治疗措施、临床观察指标及疗效判定标准(如痊愈、显效、好转、无效的标准)等。 (2)说明受试药的来源、批号、配制方法等，中药应注明学名、来源，粗提物应标明有效部位或成分的含量和初步的质量标准，若是作者本实验室自行提取的应简述提取过程。 (3)标明主要仪器设备的生产单位、名称、型号、主要参数与精密度等。 (4)标明主要药品、试剂的名称(尽量用国际通用的化学名' 不用商品名)、成分、批号、纯度、用量、生产单位、出厂日期及配制方法等。 2.方法 (1)采用已有报道的方法只要注明文献的出处即可，不必详述其过程;若为有创意的方法' 要详细介绍创新之处，便于读者依此重复验证;若是对常规方法作出改进的' 应具体描述改进部分及改进的理由' 同时也要注明原法的文献出处。 (2)对于实验条件可变因素的控制方法(如放射免疫法的质量控制)要加以详细说明' 以显示本文结果的可靠性和准确性。 (3)实验研究论文要设立阴性对照组和阳性药物对照组，前者一般采用溶剂作为对照，后者选用被公认的、确有疗效的药物，以验证实验方法的可靠性。 (4)在进行药效学和毒理学研究时，通常要设高、中、低三个剂量组，以体现出药物的量-效关系。 (5)实验设计时应考虑到每组有足够的样本数以满足统计学处理的需要，一般地说，小动物(如大、小鼠)每组至少8～10只，大动物(如狗)每组至少4～6只。同时应说明数据处理的统计学方法，统计学处理结果一般用P>、P<、P<三档表示。 3.结果试验结果是论文的核心部分' 这一部分要求将研究中所得到的各种数据进行分析、归纳' 并将经统计学处理后的结果用文字或图表的形式予以表达。 (1)表格 ①表格设计要清晰、简练、规范。每个表格除有栏头、表身外，还要有表序(如表1、表2、表3……)和表题' 表题与表序居中写' 中间空一格将两者分开。在正文中要明确提及见表×。 ②表随文放' 一般应列在“见表×”文字的自然段落的下面。 ③表格一般采用三线表。 ④表题应有自明性。若表中数据均用“均数±标准差”表示，则在表题的后面注上( ±S);若表中各组的例数相等，则在表题后面统一注上(n=X)，若例数不等应另加一列，分别注上各组的例数;表中计量单位若一致' 可写在表题的后面'若不一致应分别写在每个栏头之下' 不加括号。 ⑤表内阿拉伯数字上下各行的个位数对齐' 未发现的数据用“-”表示' 未测或无此项用空白表示' 实测结果为零用“0”表示。 (2)插图 ①图包括示意图、曲线图、照片图等。 ②图要求大小比例适中' 粗细均匀' 数字清晰' 照片黑白对比分明。与表一样图也要随文字放' 先见文字' 后见图。 ③每幅图都要有图序和图题' 通常写在图的下方。图题要有自明性。 (3)结果处理时要尊重事实' 要求结果中的数据精确完整、可靠无误，同时要注意不应忽视偶然发生的现象和数据。 (4)药物的临床疗效研究结果，要注意交待与药物有关的全部信息' 如疗效、毒副作用及注意事项等。 4.讨论讨论是结果的逻辑延伸，是全文的综合、判断、推理' 从感性提升到理性认识的过程' 也是作者充分运用自已对该领域所掌握的知识' 联系本课题的实践' 提出新见解、阐明新观点之处。 (1)讨论应从结果出发' 紧扣题目' 不宜离题发挥。具体地说应对本实验所观察到的结果' 分析其理论和实践意义' 能否证实有关假说的正确性' 找出结果中的内在规律' 与自己过去的或其他作者的结果及其理论解释进行比较' 分析异同及其可能原因' 根据自己的或参考别人的材料提出新见解。 (2)讨论中应该运用一分为二的观点，正确地分析和评价自己工作中可能存在的不足之处和教训' 例如本研究所用方法是否有局限性等; 提出今后研究方向及本结果可能的推广应用的设想' 这往往对读者的思路有所启发。 (3)篇幅较长的讨论' 应分项目编写' 每个项目应集中论述一个中心内容'并冠以序码。讨论的中心内容应与正文各部分' 特别是结果部分相呼应。讨论中不应过细重复以上各部分的数据。 (4)为体现讨论的客观性' 写作时一般采用第三人称语气。 (5)讨论切忌写成文献综述，更不应简单地重复实验结果，而是从理论上有选择地对研究结果进行分析、比较、解释、推理' 对主要问题' 特别是本研究创新、独到之处加以充分发挥，提出新的假说' 揭示有待进一步研究的问题及今后的研究方向。七.致谢凡不具备前述作者资格' 但对本研究作过指导、帮助的人或机构'均应加以感谢，但必须得到被致谢人的同意后才能署其姓名。致谢一般单独成段'放在正文的后面。八.参考文献参考文献要求引用作者亲自阅读过的、最主要的文献' 包括公开发表的出版物、专利及其他有关档案资料' 内部讲义及未发表的著作不宜作为参考文献著录。 1.论文所列参考文献一般不超过10条' 综述不超过30条。 2.文内标注法: 著录时按文中引用文献出现的先后顺序用阿拉伯数字连续编号' 直接引用作者全文的' 文献序号置于作者姓氏右上角方括号内。 3.文献序号作正文叙述的直接补语时' 应与正文同号的数字并排' 不用上角码标注。如: 实验方法见文献〔2〕或据文献〔2〕报道。 4.著录格式 (1)杂志: 序号(顶格). 作者' 文章名，刊物名' 年、卷(期)、起始页码。如：刘康' 季晖' 李绍平等. 三种大鼠骨质疏松模型的比较. 中国骨质疏松杂志' 1998' 4(4):13～18 (2)书: 序号(顶格)著者，书名，版次，出版地，出版者' 出版年，起讫页码。如：徐叔云，卞如濂，陈修主编. 药理实验方法学第三版北京人民卫生出版社 2002: 911～916 5.著录规则 (1)作者: 3名或少于3名者全部写出' 并用逗号分隔' 3名以上写前3人的姓名' 后加“等”或“etal”。集体作者要写全称。 (2)刊名: 中文均写全称' 外文缩写可按美国医学索引《InderMedicus》的格式。 (3)版次(本): 第一版不标注' 其它版次用阿拉伯数著录。如“第2版”'“2nd”。猜你喜欢： 1. 2017年毕业论文格式字体要求 2. 学术论文的格式及字体要求 3. 毕业论文参考文献字体格式大小 4. 个人学术论文格式范文 5. 通用论文标准格式要求 6. 大学生论文标准格式

格式：

第一部分：封面

封面 :封面是一篇论文的门面，所以要简洁明了。封面应该写明毕业论文，字体为“宋体二号”。名称下面依次是论文题目、作者、学院、专业、学号、班级、指导老师，字体为"宋体小二号"，格式居中对齐，有下划线，字体均为黑色(下同)。

题目：题目应简洁、明确、有概括性，字数不宜超过20个字（不同院校可能要求不同）。本专科毕业论文一般无需单独的题目页，硕博士毕业论文一般需要单独的题目页，展示院校、指导教师、答辩时间等信息。英文部分一般需要使用Times New Roman字体。

第三部分；摘要和关键词

摘要：要有高度的概括力，语言精练、明确，中文摘要约100—200字（不同院校可能要求不同）。字体为宋体三号，需要加粗。摘要正文为宋体小四号。

关键词：从论文标题或正文中挑选3～5个（不同院校可能要求不同）最能表达主要内容的词作为关键词。关键词之间需要用分号或逗号分开。关键词为宋体小四号加粗字体需要顶格写，关键词正文为宋体小四号不加粗字体。

第四部分；目录

目录：写出目录，标明页码。正文各一级二级标题（根据实际情况，也可以标注更低级标题）、参考文献、附录、致谢等。目录两字用宋体三号加粗字体，需要居中。目录中的一级二级标题处用宋体小四号字体不需要加粗，一般用电脑生成.

第五部分；主体部分

正文：专科毕业论文正文字数一般应在5000字以上，本科文学学士毕业论文通常要求8000字以上，硕士论文可能要求在3万字以上（不同院校可能要求不同）。

毕业论文正文：包括前言、本论、结论三个部分。

①前言（引言）是论文的开头部分，主要说明论文写作的目的、现实意义、对所研究问题的认识，并提出论文的中心论点等。前言要写得简明扼要，篇幅不要太长。

②本论是毕业论文的主体，包括研究内容与方法、实验材料、实验结果与分析（讨论）等。在本部分要运用各方面的研究方法和实验结果，分析问题，论证观点，尽量反映出自己的科研能力和学术水平。

③结论是毕业论文的收尾部分，是围绕本论所作的结束语。其基本的要点就是总结全文，加深题意。

（一）各级标题与正文

一级标题用宋体三号字，空两格，加粗

二级标题用宋体四号字，空两个字符，加粗

三、四级标题用宋体小四号，空两个字符，加粗

正文用宋体小四号，行间距采用倍行距

（二)正文中的图表

正文中图、表均需编排序号，图、表题目以及说明用宋体五号字体

第六部分；注释

注释：在论文写作过程中，有些问题需要在正文之外加以阐述和说明。

注释标题用宋体四号，居中

注释序号用①、②、③等。宋体五号

注释是图书时，格式；作者、书名、出版社、出版日期、版次、页码。

注释是刊期时，格式；作者、文章题目、期刊名称、期刊号、页码。

第七部分；致谢

致谢：简述自己通过做毕业论文的体会，并应对指导教师和协助完成论文的有关人员表示谢意。

致谢标题用宋体三号加粗字体，需居中。内容用四号字体，不加粗

第八部分；参考文献

参考文献：在毕业论文末尾要列出在论文中参考过的所有专著、论文及其他资料，所列参考文献可以按文中参考或引证的先后顺序排列，也可以按照音序排列（正文中则采用相应的哈佛式参考文献标注而不出现序号）。

参考文献内容用（宋体、五号；英文用Times New Roman字体）

1、专著、论文集、报告、学位论文：

【序号】作者（前3名)，文献名，出版社所在地：出版社、出版年、起始页—终止页.

2、期刊论文:

【序号】作者（前3名)，论文名，刊名，出版年，卷（期）：起始页—终止页

3、电子文献

【序号】作者（前3名)，电子文献名，电子文献出处或可获得地址，发表或更新日期。

第九部分：附录

附录：对于一些不宜放在正文中，但有参考价值的内容，可编入附录中。有时也常将个人简介附于文后。格式同正文

扩展资料

发表论文的过程

投稿-审稿-用稿通知-办理相关费用-出刊-邮递样刊

一般作者先了解期刊，选定期刊后，找到投稿方式，部分期刊要求书面形式投稿。大部分是采用电子稿件形式。

2、发表论文审核时间

一般普通刊物（省级、国家级）审核时间为一周，高质量的杂志，审核时间为14-20天。

核心期刊审核时间一般为4个月，须经过初审、复审、终审三道程序。

3、期刊的级别问题

国家没有对期刊进行级别划分。但各单位一般根据期刊的主管单位的级别来对期刊划为省级期刊和国家级期刊。省级期刊主管单位是省级单位。国家级期刊主管单位是国家部门或直属部门。

发表论文作用

论文是指进行各个学术领域在经过研究后描述学术研究成果的文章。它既是对研究的学术问题进行探讨的一种手段，又是对学术研究成果进行交流的一种工具。不同的人发表论文的作用也不同：

1、评职称（晋升职称）：研究生毕业需要；教师、医护人员、科研院所的人员、企业员工等晋升高一级的职称时，发表期刊论文是作为一项必须的参考指标。

2、申报基金、课题：教育、科技、卫生系统每年申报的国家自然科学基金项目、其它各种基金项目、各种研究课题时，发表论文是作为基金或课题完成的一种研究成果的结论性展示。

3、世界性基础领域的研究，比如在医学、数学、物理、化学、生命科学等领域开展的基础性研究，公开发表论文是对最新科技科学研究成果、研究方法的一种展示和报道。以推动整个社会的科技进步等。

论文作用

所谓撰写教育科研论文，就是在调查研究或实验的基础上，经过分析论证的深化认识过程，把研究成果文字化，形成论文或报告。

撰写教育科研论文是中小学教育科研活动的一个重要环节，其作用在于：

⑴显示研究的水平与价值

⑵提高研究者的研究水平；

撰写科研论文，不仅是反映科研成果的问题，而且也是个深化科研成果和发展科研成果的问题，在撰写科研论文过程中，对实验研究过程所取得的大量材料进行去粗取精，实现由感性认识向理性认识的飞跃和升华，使研究活动得到深化，使人们的认识得到深化。

⑶推广经验，交流认识

教育科研过程，是人们获得直接经验的过程。这种经过精心设计、精心探索而获得的直接经验不仅对直接参加者来说是十分宝贵的，而且对于所有教育工作者，对于人类整体认识的提高和发展都是十分宝贵的。

正如恩格斯所指出：“现代自然科学已经把全部思维内容起源于经验这一命题加以扩展，以至把它的旧的形而上学的限制和公式完全推翻了。

由于它承认了获得性的遗传，它便把经验的主体从个体扩大到类，每一个体都必须亲自去经验，这不再是必要的了；它的个体经验，在某种程度上可以由它的历代祖先的经验的结果来代替。”（《马克思恩格斯选集》3卷564页）可见，为了不同空间、不同时间人们交流认识，承接认识成果，必须搞好论文撰写。

⑷推动教育科研活动自身不断完善

教育科研活动是个探索未知领域的活动，并无既定模式和途径可循，在一定意义上可以讲，教育科研活动均属创造性活动。为了保证教育科研活动越发卓有成效，为了给进一步开展教育科研活动提供可靠依据，在每一科研活动终端都撰写报告或论文是十分必要的。

参考资料来源：百度百科-毕业论文

参考资料来源：百度百科-论文

手写数字识别研究论文

上一篇文章中的LeNet-5是第一个广为人知的经典CNN网络，但那是20年前提出的CNN网络，最成功的案例是解决了手写数字识别的问题，当时被广泛应用于邮局/银行的手写邮编/支票数字自动识别系统。但直到2012年之前，在这14年间，CNN网络在图像识别领域的地位逐渐被其他分类模型如SVM取代。其中主要的原因有（事后诸葛亮......）：

经过十几年的发展，以上制约CNN网络发展的主要限制因素一个个被解决，结果在2012年的ImageNet竞赛中，继LeNet-5之后的第二个经典CNN网络—AlexNet横空出世。以超出第二名10%以上的top-5准确率，勇夺ImageNet2012分类比赛的冠军，从此，深度学习重新回到人们的视野，并一发不可收拾。

下面从一些直观的数据比较1998年的LeNet-5和2012年的AlexNet的区别：

AlexNet网络结构如下图所示：

论文中由于使用了2块GPU，将网络结构布置成了上下两部分，看着很不方便，上图是在网上找的简易版本。

下面总结AlexNet的主要特点：

. 使引入Relu激活函数减轻深度网络难以训练的问题

关于CNN网络的激活函数的讨论，SigAI公众号这篇文章总结的挺好：

另外，下面这篇论文对深度网络难以训练的问题进行了分析：

之前的CNN网络，包括前面著名的LeNet-5，都使用tanh/Sigmoid作为激活函数，这类激活函数具有饱和性，在训练深层网络时会造成梯度消失问题，而AlexNet引入了非饱和的Relu激活函数，有效地缓解了梯度消失问题。

. 解决深度网络的过拟合问题

一方面，近几年来，人们越来越意识到构建庞大的数据集的重要性，于是出现了像ImageNet这样超过1500万张标注图片，2200多种类别的数据集，ILSVRC2012中，AlexNet使用了150万张图片的庞大训练集，使得拥有6000万个参数的AlexNet也没出现严重过拟合问题；

另外，AlexNet在训练时使用了数据增强（data augmentation）策略，相当于进一步扩大了训练数据集；

最后，AlexNet在全连接层部分引入了一个dropout层，同样能有效防止模型出现过拟合。

. 计算能力问题

尽管AlexNet的模型复杂度很大，但其利用了英伟达GPU强大的计算能力，在GPU面前，模型复杂度不是问题。

从模型的设计思路来看，其实AlexNet遵循了LeNet-5的思想，即使用交替的卷积层和池化层用于提取图像的高级语义特征，同时降低特征尺寸。然后使用全连接层/MLP作为分类层。

但是，在细节部分，ALexNet引入了很多新的元素，用于解决以上提到的CNN网络遇到的诸多问题，使得CNN网络开始重新散发光芒。

#include""intmain(){longnum;inti=1;printf("请输入数字：");scanf("%d",&num);while(num/10>0){num=num/10;i++;}printf("%d",i);return0;}你要的是种计算数字长度的吗？如果不是，给我百度里发消息。

前沿

人工智能的浪潮已经席卷全球，深度学习（Deep Learning）和人工智能（Artificial Intelligence, AI）等词汇也不断地充斥在我们身边。人工智能的发展是一个三起两落的变化，90年代期间，知识推理>神经网络>机器学习；2005年左右，机器学习>知识（语义网）>神经网络;而从2017年之后，基于深度学习的神经网络>知识（知识图谱）>机器学习。

卷积神经网络（convolutional neural network, CNN）作为深度学习中的代表，最早的灵感是来源于1961年Hubel和Wiesel两位神经生物学家，在对猫视觉皮层细胞的实验中，发现大脑可视皮层是分层的（CNN中的分层网络结构与其如出一辙）。深度学习作为机器学习（ML）的一个子领域，由于计算机能力的提高和大量数据的可用性，得到了戏剧性的复苏。但是，深度学习是否能等同或代表人工智能，这一点笔者认为有待商榷，深度学习可以认为是目前人工智能发展阶段的重要技术。由于本文主要撰写关于深度学习的入门实战，关于细节概念不做深入研究，下面笔者从实际案例，介绍深度学习处理图像的大致流程。

以手写识别数字为例，作为深度学习的入门项目，本文以Keras深度学习库为基础。其中使用的tensorflow等模块需要提前配置好，同时注意模型，图片保存、载入的文件路径问题。在自己的计算机上运行时，需要创建或修改。下面的流程包括：使用Keras载入MNIST数据集，构建Lenet训练网络模型，使用Keras进行模型的保存、载入，使用Keras实现对手写数字数据集的训练和预测，最后画出误差迭代图。

手写数字数据集介绍：

手写数字识别几乎是深度学习的入门数据集了。在keras中内置了MNIST数据集，其中测试集包含60000条数据，验证集包含10000条数据，为单通道的灰度图片，每张图片的像素大小为28 28.一共包含10个类别，为数字0到9。

导入相关模块：

载入MNIST数据集

Keras可实现多种神经网络模型，并可以加载多种数据集来评价模型的效果，下面我们使用代码自动加载MNIST数据集。

显示MNIST训练数据集中的前面6张图片：

数据的预处理

首先，将数据转换为4维向量[samples][width][height][pixels]，以便于后面模型的输入

为了使模型训练效果更好，通常需要对图像进行归一化处理

最后，原始MNIST数据集的数据标签是0-9，通常要将其表示成one-hot向量。如训练数据标签为1，则将其转化为向量[0,1,0,0,0,0,0,0,0,0]

模型的建立与计算

训练模型的参数设置：

本文使用Lenet网络架构，下面定义Lenet网络结构，若要更改网络结构，如用VGGNet，GoogleNet，Inception，ResNets或自己构建不同的网络结构，可以直接在这一块函数内进行修改。

再附上两个经典的模型：

VGG16:

GoogleNet：

设置优化方法，loss函数，并编译模型：

本文使用生成器以节约内存：

结果分析

作出训练阶段的损失、精确度迭代图，本文将epoch设置为10，已达到的准确率（代码、图像如下所示）。

公众号：帕帕科技喵

欢迎关注与讨论~

手写体数字识别毕业论文

全班同学们并排站方方圆圆并排站同把前后位置看方方顺数是第七圆圆倒数是第三全 0回答 15 秒钟前一个数除以7商是18.有除数，

基于MATLAB的数字识别计算机与信息工程学院本科生毕业论文基于BP神经网络的手写数字识别算法的设计与实现班级： 13汉班学号：姓名：江晓雪指导教师：李艳玲 2017 年 3 月 31 日毕业论文目录 1 绪论1 图像识别的提出1 图像识别的现状与发展趋势1 2 BP神经网络的概述2 3 手写体数字识别的实现过程4 整体线路图4 算法流程5 图像预处理10 结果分析10 4 结论11 参考文献12 全文共 13 页 4834 字基于BP神经网络的手写数字识别算法的设计与实现计算机与信息工程学院 2013级汉班江晓雪指导教师李艳玲副教授摘要本文实现了基于MATLAB关于神经网络的手写数字识别算法的设计过程，采用神经网络中反向传播神经网络(即BP神经网络)对手写数字的识别，由MATLAB对图片进行读入、灰度化以及二值化等处理，通过神经网络进行训练和测试。实验证明：该神经网络对手写数字的识别可以达到。关键词手写数字识别；BP神经网络；MATLAB语言 1 绪论图像识别的提出图像识别在信息技术发达的今天已经占据了很重要的地位，在我们实际生活中也有很多应用。所谓的图像识别，就是指通过计算机对图像进行相应的处理、分析，来达到识别不同模型的目标和任务的一种技术。对于它的提出，简单的来说，它的发展经历了三个阶段：第一个是文字识别、第二个是数字图像处理与识别、第三个是物体识别。第一种相对来说比较简单，它的研究是从1950年开始的，一般情况是识别字母、符号和数字，无论是印刷体识别还是手写体识别，它的应用都非常广泛，但是也伴随着，这个识别的过程会更加的耗时、费力，无论是人力还是物力，都会有很大的损失；第二种就是我们所说的数字图像处理与识别，在图片的识别过程中，图片识别会有一定的误差，也会带来小小的麻烦；第三就是物体识别，而物体的识别主要指的是：在三维世界中，对于个体、环境的感知和认识进行识别，这不同于二维世界的认知，相对来说是更高级的计算机图像识别，它是以二维世界中对数字图像和模拟图像处理的办法为依据，进行更高一级的，并且结合了现代人工智能技术等学科的研究目标，研究成果已经被广泛的应用在各种工业探测机器人上，为人们的安全提供了很大的帮助。图像识别的现状与发展趋势随着网络的发达、电子的信息化，图像识别的应用已经非常广泛，而主要的研究工作也包括各行各业，整理以下几点对其应用的广泛度进行说明： ⒈在生物学中，对生物的原型进行研究。从生物的脑细胞结构、物体解剖等其他科学研究的方向对生物的体系结构、神经结构、神经细胞组织等生物的原型结构及其功能机理进行研究，增强对生物学更加全面的理解。 ⒉在实际应用中，建立我们需要的理论模型。根据需要应用的信息在生物学中的应用，建立需要的生物原型，也可以建立类似神经元、神经网络这样不可见的理论模型，以便可以让其更加有效的应用在生活中。建立我们生活中不能直观表现的事物模型，以便我们可以更方便的、更直观的理解事物的本质。 ⒊在信息时代中，建立网络模型以及算法研究。就是通过上面所说的，建立相应的理论模型，在这个基础上加以理解，建立我们所需要的网络模型，实现计算机应用，主要应用在网络学习算法的研究，这方面的研究工作也被人们称为技术模型研究。 ⒋信息时代的发展，让我们在生活中有很多的应用，例如：完成某种函数图像的绘制以及对其变化的形式进行分析、对图片信号的处理、模式识别等功能，建立需要的应用系统、制造机器人等等。通过上面的说明，也就是说从开始根据生物学原理的应用，直到建立需要的神经网络模型，最后应用到图像识别当中，可以看出其模型的建立是在生活中实例的基础上，其可靠性和准确性是显而易见的，这样就大大的增加了可信度，与此同时，也减少了工作中不必要的麻烦与困扰。而在网络信息发达的今天，人类在基本粒子、宇宙空间、生命起源等科学领域方面都已经显现出很高的兴趣度，而这其中难免会有图像提取后的处理工作，所以图像识别的应用就会越来越广泛。 2 BP神经网络的概述反向传播(Back-Propagation，BP)学习算法简称BP算法，采用BP算法的前馈型神经网络简称BP网络。BP网络是多层感知器的一种，它具备多层感知器的特点，同时也有自己的特点。多层感知器包括输入层、隐藏层、输出层，其中隐藏层可以有多个，而我们BP网络中隐藏层只有一个，其简单构造如图所示：图1 多层感知器结构图而我们用到的BP网络中的具体信号流如图所示，它有一个反向传播的过程，这也是对传播进行调整，使精确度更高的一种办法。如图所示，其中有两种信号流通：图2 多层感知器的信号流第一：函数信号简单来说就是信号进入输入层，然后通过隐藏层到达输入层，通过输出层输出所得值，就可以完成一个函数信号。第二：误差信号误差信号就是在逆向的传播的过程中传输的信号。其中，有两个重要参数。一个是函数信号即sigmoid函数，还有一个就是权值的梯度运算即梯度向量。(注：sigmoid函数、权重的修正函数，如图所示。) (1) (2) 通过对两个参数的调整，完成整个算法的应用。 3 手写体数字识别的实现过程整体线路图整体流程图如图3所示：图像测试损失函数的设计与应用可视化测试数据神经网络的设计与训练 sigmoid函数图3 整体流程图部分文件调用流程图如图4所示： sigmoid checkNNGradients nnCostFunction 第八部分：实现正规化第八部分：训练NN fmincg nnCostFunction sigmoidGradient sigmoid nnCostFunction sigmoidGradient randInitializeWeights checkNNGradients debugInitializeWeights nnCostFunction computeNumericalGradient 第五部分：sigmoid函数第六部分：初始化参数第七部分：实现反向传播第三部分：前馈网络第四部分：前馈正规化图4 整体流程图算法流程

手势识别算法研究论文

领域自适应：多用于文本分类，属于直推式迁移学习，直推式迁移学习定义：给定一个源域和相应的学习任务，一个目标域和相应的学习任务，直推式学习旨在利用源域和目标域中相同的知识来提高目标域中的目标预测函数。《基于深度学习的体态与手势感知计算关键技术研究》基于深度学习的肌电手势识别：并不需要任何附加信息或手工设计的特征提取器，基于高密度肌电信号（HD-sEMG），使用二维阵列电极采集的肌电信号，使得肌肉活动产生的电势场在时间和空间上的变化可被多个紧密分布在皮肤表面的电极同时记录下来。HD-sEMG中的肌电信号描绘了位于电极覆盖区域内的肌肉活动的时空分布，同时HD-sEMG的瞬时值呈现了在特定时间点肌肉活动所涉及的生理过程的相对全局的测量。瞬时HD-sEMG内部可区分出不同手势模式，可以将采集到的HD-Semg描绘出电势在空间的分布，其对应的热度图即为肌电图像，肌电图像中的像素数（分辨率）由其采集设备中的电极阵列决定，即电极的数量及其电极间距离（例如，具有16行8列的电极网格可W采集8*16像素的肌电图像）。主要是将原始肌电信号值从（-1，1）映射到（0，255），即，其中x是原始肌电信号，I是肌电图像。构建一个8层CNN结构，网络的前两个卷积层用于提取公共的底层图片特征，作者发现瞬时肌电图像在不同的空间位置上表现出不同的视觉特征。在不同手势中，肌电图像在中部偏下以及顶部的条状区域上亮度较强，提出在3，4层加入局部连接结构（受人脸识别前沿工作的启发），因为局部连接层在不同空间位置上的卷积模板的权重不共享，可以更好的提取图片上不同位置的特征。并依据单个窗口内每帧识别出的手势标签中所占比例最高的标签，因为上述实验仅适用于肌电幅值较大的数据进行训练和测试可以获得较高的手势识别准确率，因此需要对肌电信号采用全波整流和低通滤波（全波整流和低通滤波是被广泛采用的肌电信号幅值估计方法），以获取更好的肌电信号。基于深度领域自适应的肌电手势识别：当训练集和测试集的肌电信号来自不同的采集会话的情况。因为电极位移，肌肉疲劳，电极和皮肤之间的阻抗变化等因素的干扰，肌电信号与采集会话高度相关，已经训练好的手势分类器直接被应用在新的会话时通常准确率较低。因为肌电信号的分布在不同的会话之间变化很大，所以来自不同会话的基于瞬时肌电信号的手势识别可以相应地表示为多源领域自适应问题。当标定数据未标记时，该论文采用自适应批量归一化（AdaBN, Adaptive Batch Normalization）对手势分类器进行适配。假设用于区分不同手势的知识存储在每个层的权重中，AdaBN不需要适配数据的手势标签，而是随着无标签的适配数据的增加，逐步更新少量的网络参数。给定输入U，BN将其转换为V，其中第i个输入特征的转换公式为： l在训练阶段，每个BN层对于每个源域的均值统计量和方差统计量是独立计算的。因为训练阶段的BN对每个数据批次独立计算统计量，所以只需要确保每个数据批次中的样本来自同一个会话。 l识别阶段，对于给定的未标记数据A，AdaBN执行正向传播算法，更新参数。该方法准确率：单幅，150毫秒窗口，而另一种算法特征集（150毫秒窗口）和线性判断：。随机选择未标记的测试集的子集（，，1%，5%，10%）进行深度领域自适应，之后再评测整个测试集上的手势识别的准确率。最后观测到大约5%的适配数据后准确率达到巅峰，适配数据20000帧，在CSL-HDEMG的2048赫兹的采样率下大约10秒。并且适配算法并不需要观测到所有种类的手势，从27种选择5个和13个进行适配，最终结果分别是（），（）另一种方法是肌电地势（sEMG topography），定义为肌电信号在时间上的二维平均强度图，其中每个像素是某个通道的肌电信号在特定时间窗口内的均方根，用于手势识别。《Revealing Critical Channels and Frequency Bands for Emotion Recognition from EEG with Deep Belief Network》在基于脑电信号的情感识别任务中，多通道脑电信号存在不相关的脑电信号，这不仅会引起噪声，还会降低系统对情感识别能力。该论文提出一种新的深度信念网（DBN）来检查用于情感识别的关键EEG信道和频段。主要从行为和生理反应进行情感分析，因为EEG与表情手势相比，具有较高的准确性和客观评价性。该论文采用ESI神经扫描系统，从62通道电极帽以采样率为1000Hz记录脑电信号。每个实验有15个测试，每个测试包括15s提示，45s测试及反馈，5s休息。盖论文一共评价了30个实验。先下采样原始脑电数据到200Hz，之后使用到50Hz的带通滤波器滤除噪声和伪影，之后采用之前提出的微分熵（differential entropy）特征[1][2]，对于固定长度的脑电信号，微分熵相当于一定频段内的对数能量谱。此前已经证明微分熵在低频和高频能量之间具有识别EEG模式的能力，因此在五个频段计算微分熵特征（δ：1-3Hz，θ：4 – 7Hz，α：8-13Hz，β：14-30Hz，γ：31-50Hz），使用256点的短时傅里叶变换，并将特征归一化到0-1。利用五个频段的去噪后的62通道的特征作为输入，DBN达到的准确率和标准差，本论文通过分析经过训练的DBN的权重分布来检验关键通道和频带，权重对于识别情感模型是很重要的，因为对于学习任务贡献较大的神经元权值将增加，不相关的神经元权值趋于随机分布，图1为权重在第一层神经网络训练后的分布，可以看出主要在beta和gamma波的权重最大，这说明此频带包含更重要的鉴别信息。从图2中我们可以看出侧颞区和前额脑区相比其他脑区在beta和gamma频带更容易激活。因此可以得出结论，在识别积极，中性和负面情绪时侧颞叶和前额叶通道是关键通道，beta和gamma是关键频带。如图3所示，依据脑区中权重分布的特点，设计了四种不同的电极放置剖面，包括4通道，6通道，9通道和12通道，其中4通道的最佳平均精度和标准差为，而所有62通道的最佳平均精度和标准差为，这说明四个相对电极阻轮廓（four profiles of relative electrode sets）FT7,T7,FT8,T8是辨别情感特征的电极。 [1]Duan R N, Zhu J Y, Lu B L. Differential entropyfeature for EEG-based emotion classification[C]// International Ieee/embsConference on Neural Engineering. IEEE, 2013:81-84. [2]Zheng W L, Zhu J Y, Peng Y, et al. EEG-based emotionclassification using deep belief networks[C]// IEEE International Conference onMultimedia and Expo. IEEE, 2014:1-6. 脑电论文（大脑解码：行为，情绪）： Real-time naive learning of neural correlates in ECoG Electrophysiology 神经实时朴素学习相关的皮层电生理地址： A Deep Learning Method for Classification of EEG Data Based on MotorImagery 基于运动表象的脑电数据分类的深度学习方法地址： Affective state recognition from EEG with deep belief networks 基于深层信念网络的脑电情感状态识别地址： A Novel Semi-Supervised Deep Learning Framework for Affective StateRecognition on EEG Signals 一种用于脑电信号情感状态识别的半监督深度学习框架地址： Revealing critical channels and frequency bands for emotion recognitionfrom EEG with deep belief network 用深层信念网络揭示脑电情感识别的关键通道和频带地址： EEG-based emotion recognition using deep learning network withprincipal component based covariate shift adaptation 基于深度学习网络的主成分协移自适应的脑电情感识别地址： Classifying EEG recordings of rhythm perception 节律性脑电记录分类地址： Using Convolutional Neural Networks to Recognize Rhythm Stimuli from Electroencephalography Recordings利用卷积神经网络识别脑电记录中的节律刺激地址： Convolutional neural network with embedded Fourier transform for EEGclassification 基于嵌入傅立叶变换的卷积神经网络在脑电信号分类中的应用地址： Continuous emotion detection using EEG signals and facial expressions 基于脑电信号和表情的连续情绪检测地址： ‘Deep Feature Learning for EEG Recordings 脑电记录的深部特征学习地址：异常分类论文（阿兹海默症，癫痫，睡眠阶段检测）： Classification of Electrocardiogram Signals with Deep Belief Networks 基于深层信念网络的心电信号分类 Modeling electroencephalography waveforms with semi-supervised deepbelief nets: fast classification and anomaly measurement 半监督深信网模拟脑电波形：快速分类和异常测量 Deep belief networks used on high resolution multichannelelectroencephalography data for seizure detection 用于癫痫检测的基于高分辨率多道脑电图数据的深度信念网地址： Deep Learning in the EEG Diagnosis of Alzheimer’s Disease 深层学习在阿尔茨海默病脑电诊断中的应用 Sleep stage classification using unsupervised feature learning 基于无监督特征学习的睡眠阶段分类 Classification of patterns of EEG synchronization for seizureprediction 癫痫发作的脑电同步模式分类地址： Recurrent neural network based prediction of epileptic seizures inintra-and extracranial EEG 基于递归神经网络的颅内外脑电癫痫发作预测 EEG-based lapse detection with high temporal resolution 基于脑电信号的高时间分辨率检测地址：

题目太多了。。。。来拿走。

你的计算机科学与技术论文准备往什么方向写，选题老师审核通过了没，有没有列个大纲让老师看一下写作方向？老师有没有和你说论文往哪个方向写比较好？写论文之前，一定要写个大纲，这样老师，好确定了框架，避免以后论文修改过程中出现大改的情况！！学校的格式要求、写作规范要注意，否则很可能发回来重新改，你要还有什么不明白或不懂可以问我，希望你能够顺利毕业，迈向新的人生。论文选题的具体方法有哪些在选题的方向确定以后，还要经过一定的调查和研究，来进一步确定选题的范围，以至最后选定具体题目。下面介绍两种常见的选题方法。1、浏览捕捉法这种方法就是通过对占有的文献资料快速地、大量地阅读，在比较中来确定题目的方法。浏览捕捉法一般可按以下步骤进行：第一步、广泛地浏览资料。在浏览中要注意勤作笔录，随时记下资料的纲目，记下资料中对自己影响最深刻的观点、论据、论证方法等，记下脑海中涌现的点滴体会。第二步、是将阅读所得到的方方面面的内容，进行分类、排列、组合，从中寻找问题、发现问题，材料可按纲目分类。第三步、将自己在研究中的体会与资料分别加以比较，找出哪些体会在资料中没有或部分没有。 2、追溯验证法这是一种先有拟想，然后再通过阅读资料加以验证来确定选题的方法。追溯可从以下几方面考虑：第一步、看自己的“拟想”是否对别人的观点有补充作用，自己的“拟想”别人没有论及或者论及得较少。第二步、如果自己的“拟想”虽然别人还没有谈到，但自己尚缺乏足够的理由来加以论证，考虑到写作时间的限制，那就应该中止，再作重新构思。第三步、看“拟想”是否与别人重复。如果自己的想法与别人完全一样，就应马上改变“拟想”，再作考虑；如果自己的想法只是部分的与别人的研究成果重复，就应再缩小范围，在非重复方面深入研究。第四步、要善于捕捉一闪之念，抓住不放，深入研究。在阅读文献资料或调查研究中，有时会突然产生一些思想火花。

近年来机器人辅助外科手术的出现，引起了医学界乃至全世界的关注。什么是手术机器人呢？手术机器人不是机器人在做手术，而是手术机器人系统由经验丰富的外科医生操控机械手臂，来达到手术的目的。医生在机器人手术系统控制台上操作机械臂，被系统精确无误的实时传递，同时在患者体内微小的器械进行手术。医生采用手术机器人辅助手术，可以使手术更加精准、创伤更小、患者恢复更快。

远程手术机器人主要应用于远程手术，比如达芬奇机器人（da Vinci）。远程机器人手术系统主要由控制台和操作臂两部分组成。控制台是机器人手术系统的核心，由计算机系统、手术操作监视器。机器人控制监视器、操作手柄和输入输出设备等组成。术者坐在控制台前，通过机器人的控制监视设定器械动作幅度，张开角度的大小、器械闭合后锁定与否等，利用操作手柄进行操作。手术前需对操作臂活动范围进行设定。术者的手术操作转化为电信号，传导给机器人的操作臂，从而实现远程手术。

2001年7月《自然》杂志报道了世界首例从美国纽约到法国Strasbourg的跨大西洋腹腔镜胆囊切除术也获得了成功，这是远程手术的一个里程碑，标志着外科手术跨时代的飞跃。现今远程手术机器人手术已应用于心脏外科、普通外科、泌尿外科、妇产科和骨科，具有普通腔镜或开放手术无法替代的优点：1、可进行精细操作，计算机系统可将术者在操作台上易于完成的大幅度动作通过缩小传输到机器人双臂手柄上，并可将术者的动作进行高频波过滤，消除器械的抖动和震颤，使操作更平稳准确。2、术者可坐在舒适的椅子上从容进行手术操作，不易疲劳3、手术通常由术者一人就可以完成。有时需1位洗手护士或助手医师，帮助安装、更换手术器械，协助止血，术后卸载器械装置等。

美国食品和药物监管局将远程手术机器人定为二类器械（那些被滥用或错用会造成亚种伤害的器械）来监管，因为它的控制信号都是依靠来自电脑的电磁脉冲。此外，远程手术的机器人操作手术时，术者使用的是机器人手柄或特制的器械，需要一段时间学习和训练，才能获得一种间接的触觉的反馈，否则压力过大会造成局部组织的损伤。在其他安全问题上，如黑客网络攻击造成互联网传输的中断、远程传输速度慢造成图像滞后，也会影响手术的精确性等等。由此可见，紧急应付措施及机器人操作的精确性和敏感性应该纳入术前考虑的问题。

对于特别脆弱的组织，医生在第一次远程 "触摸 "时可能已经施加了过大的压力。而正是考虑到这个问题，美国德克萨斯农工大学的一个团队创造了这个实验性的新系统。在其目前的形式下，它结合了光学距离传感器，应用于机器人抓取器的手指内侧，由人类操作者远程控制。当该设备闭上手指抓取物体时，传感器会测量自己和该物体之间的距离递减。这些数据会被传送到操作者佩戴的控制手套上，控制手套会向他们的指尖发出温和的电脉冲。这些脉冲的频率会随着操作者的手指越来越接近物体而增加。因此，操作者可以在实际接触物品之前，精细地调节他们即将施加到物品上的压力大小。

远程手术机器人的关键设备之一是互联网系统。互联网网速会影响图像的传输速度，进而影响手术的精确性。研究表明，600毫秒以内的滞后，在现实中对手术的影响是微乎其微。现在5G网络已经逐渐在普及，图像传输的滞后必将得到解决。

相比之下，互联网的稳定性则是关键的问题，如何保证互联网故障不会发生、服务器遭受黑客恶意攻击，是目前尚待解决的问题。加密在机器人和人类操作员之间流动的数据包将有助于防止某些类型的网络攻击。但是，对于使用无关数据阻碍系统的拒绝服务攻击，它无效。对于视频，加密还存在导致精细操作中不可接受的延迟的风险。为此，华盛顿大学（UW）电气工程团队开发“操作员签名”的概念，该概念利用特定外科医生或其他遥控操作员与机器人交互的方式来创建独特的生物识别签名。通过跟踪特定操作员应用于控制台仪器的力和扭矩以及他或她与机器人工具的相互作用，研究人员开发了一种新方法来验证该人的身份并验证操作员是他或她声称的人。

相信在不久的将来，随着机器人手术器械和手术技术的不断成熟和完善，信息网络技术的飞速发展，远程手术机器人必将越来越完善，能够帮助外科医生减少手术过程中的意外伤害，不断造福于人类。

“我们要消除众生的困苦和匮乏，带给他们愉悦和美丽。”——医疗机器人工程师

远程机器人系统已经允许外科医生在一个地方控制另一个地方的机器人手术工具，因此他们可以在远处进行手术。然而，一种新的近距离感应系统可以使这种手术比以往更安全、更精确。

在典型的远程机器人手术设置中，外科医生在视频屏幕上查看切口，移动手指在远程手术室中相应地移动机器人操纵器 "手指 "或其他器械。这种技术不仅可以让外科医生在一个城市给另一个城市的病人做手术，而且还可以在外科医生自己的位置上给病人做手术，帮助他们在做精细手术时，抚平手部的颤动。因此，这些系统通常都包含了触觉反馈功能，操作者可以通过指尖上的振动来感受到他们对病人身体组织施加的力的大小。

也就是说，对于特别脆弱的组织，医生在第一次远程 "触摸 "时可能已经施加了过大的压力。而正是考虑到这个问题，美国德克萨斯农工大学的一个团队创造了这个实验性的新系统。在其目前的形式下，它结合了光学距离传感器，应用于机器人抓取器的手指内侧，由人类操作者远程控制。当该设备闭上手指抓取物体时，传感器会测量自己和该物体之间的距离递减。

这些数据会被传送到操作者佩戴的控制手套上，控制手套会向他们的指尖发出温和的电脉冲。这些脉冲的频率会随着操作者的手指越来越接近物体而增加。因此，操作者可以在实际接触物品之前，精细地调节他们即将施加到物品上的压力大小。

在实验室测试中，11名志愿者使用该系统远程完成了一个物体抓取任务。每个人只在抓取器的视频引导下完成了两次，另外两次是在视频和触觉反馈的引导下完成的。当反馈被利用后，他们能够减少约70%的初始接触力。最终，研究人员希望这项技术能够在远程机器人手术中最大限度地降低患者的风险，并且以不分散注意力的方式进行。

“我们的目标是想出一种能够在不增加这项任务所需的主动思考负担的情况下，提高近距离估计的准确性的解决方案。”首席科学家Hangue Park说。“当我们的技术准备好在手术环境中使用后，医生将能够直观地知道他们的机器人手指离底层结构有多远，这意味着他们可以保持积极的专注于优化患者的手术结果。”

一篇关于这项研究的论文最近发表在《科学报告》杂志上。

从新型冠状病毒肺炎疫情开始到现在，中国是世界上疫情控制做得最好的国家。不过，关联境外输入的零星小规模偶发疫情持续不断，一旦疫情出现必然导致隔离发生，医院作为战疫主战场，影响许多需要医疗救助的病人。幸运的是，5G技术推动的远程医疗快速发展，尤其VR/AR技术立体呈现病人器官、组织病变形态，允许医生远程清晰诊断病人的病灶；手势识别精准定位医生的动作与病人身体的位置，远程控制医疗设备为病人诊疗、手术，为远程病人带来曙光。

一、远程医疗“VR/AR+手势识别”方案落地性强

自从5G诞生，云计算速度延迟的基础设施障碍没了，我们落地远程医疗就要考虑三方面因素：一是精度，医疗的精度必须高到离谱，有初科技手势控制精度能达到级别；二是立体，医生也是人，有正常的交互习惯，建立VR/AR病人器官、组织模型，最大化接近人体并看得更清楚；三是成本，类似一针药100多万的产品没有普及价值，这是一个软件算法配合硬件的方案，软件算法效率提升可以降低硬件成本，进而降低整体成本，实现“普通摄像头+深度学习”方案，大数据进一步训练，精准度越来越高。

首先来讲，基于计算机视觉的手势识别的技术方案优势明显，从医生动作信息输入到VR/AR模型做出反馈，这是一个动态过程，降低了硬件的束缚，为实时手术提供了可行性，而且，手势识别降低了硬件的依赖，让医生的手避免被其他物体遮挡，顺应医生视觉习惯，而且识别精度比医生手术刀微弱抖动还小，技术的落地基础有了。

其次，人体是一个三维立体结构，而手势识别也是三维立体识别，VR/AR模型呈现也是三维立体。这过程类似增强CT、MR或造影支持，从机器视觉获取人体三维模型信息到VR/AR模型立体呈现，呈现在医生眼前的就是一个立体的病人器官、组织，并清晰展示病灶情况，此时，医生远程诊断病人情况，需要手术的情况下，也可以借助远程专用VR/AR模型为基础的手术平台，实现两地病人与医生的链接，完成远程手术，为来不及远程运送的急重症病人提供新的希望。

最后，任何科技的产生都是为了造福大众，成本的高企无法适应市场需求，进行最优方案降低成本也是必须考虑的因素。目前来讲，基于机器视觉的手势识别方案分为两种“一种是用深度摄像头，一种是用一个或者多个普通摄像头实现。而其中深度摄像头的方案又分为两种，TOF（Time of Flight，光飞时间）和结构光。”而不同方案的差别就像人的一只眼睛、两只眼睛看到景深层次不同，但是一只眼睛借助已有信息、关键提示等其他辅助软条件也可以达到预定效果，而普通摄像头信息延迟低于TOF数倍、拍摄角度大于TOF很多，虽然提高算法要求，但是降低综合成本，更及时、全面获取信息，也更适应医疗场景需求。

二、远程医疗VR/AR硬件低成本、高精度手势识别技术可行

在手势识别应用于VR/AR硬件方面，有初科技有落地项目进行实际验证，并把成本分成不同方案进行呈现，当然，包括最低成本的实现方案。

对于医疗来讲，高精度就是病人的生命，有初科技实现识别精度，为远程精准医疗提供技术可行性。实现手势识别依赖“摄像头+算法”的合理方案，得益于机器视觉和深度学习技术的发展，我们利用普通摄像头实现高精度的手势识别，对于应用的落地是一大利好。

而且，手势识别的高精度摆脱穿戴设备也是一大突破，一个穿戴设备套在手上，增加一层交互传感的误差，这个误差远远大于手术刀的误差，这一点无手套、无标记的手势识别也是有初科技的优势。

对于医疗来讲，延迟和视角是高精度的间接影响因素，却直接影响着医生对病人的治疗。利用现有SLAM摄像头实现手势识别，大部分用于SLAM的摄像头均为鱼眼或者广角灰度摄像头，在实现的精度上，用同样的计算资源或者用同样复杂度模型的话，基于深度的或者灰度的摄像头能够做到精度最高，RGB的精度反而相对会弱一些，因此，直接在SLAM的相机上实现手势识别的精度也能够达到比较满意的效果。

在成本、延迟、广角都占据优势的条件下，SLAM相机进一步加速“普通摄像头+深度学习”方案落地，也可能是未来的主流方案，等待临床数据去训练和验证。

三、远程医疗“最自然交互”手势识别成为VR/AR选择

最好的交互就是没有交互，当下的交互方式都是人适应机器，这样就容易导致用户的操作失误，医生的操作失误就会导致病人的生命危险，所以，交互方式适应人才是最佳方案。

人类诞生语言前，手势识最原始、最自然的交流方式，成为人的一种习惯、潜意识，出错率大大降低，而手势识别就是基于最自然的交互，适应医生的习惯，让医生全身心投入治疗，而不是分心于交互习惯。

而无论具有高度三维立体沉浸感的VR/AR，还是交互自然而生的手势控制，模仿人体日常生活中的行为方式，如挥手、握手、击掌、猜拳、抓取……动态追踪手势进行实时识别，保障动作识别的及时性、准确性。

为了提高真实手术场景的触感，基于VR/AR定制手术刀、镊子等设备，实现手势的触觉反馈体验，进一步感知手部复杂自由度的姿态和意图，未来手势识别成为VR/AR设备主流交互方式指日可待。

首页

> 期刊论文知识库

手写体数字识别算法研究论文