对工程研究,原理(How)往往来自于别的领域,CNN的图像识别是启发自视觉神经(一种被研究的最透彻的神经结构)研究的发现,人民发现人的视觉就是这么工作的,然后试着用它在机器上实现,当有足够快的电脑和多的数据时,人们兴奋的发现可以做高质量的图像识别。原理的解释通常要晚一些。但是抽象的解释并不难:把信息一层层的抽象,最底下是像素,中间是各种特征,越往上越抽象(边,圆,胡子,高鼻梁...)。研究科学不光是看论文:你拿一副照片贴着眼睛看,慢慢拿远大概可以帮助理解。
本质上是模式识别,把现实的东西抽象成计算机能够理解的数字。如果一个图片是256色的,那么图像的每一个像素点,都是0到255中间的一个值,这样你可以把一个图像转换成一个矩阵。如何去识别这个矩阵中的模式?用一个相对来讲很小的矩阵在这个大的矩阵中从左到右,从上到下扫一遍,每一个小矩阵区块内,你可以统计0到255每种颜色出现的次数,以此来表达这一个区块的特征。这样通过这一次“扫描”,你得到了另一个由很多小矩阵区块特征组成的矩阵。这一个矩阵比原始的矩阵要小吧?那就对了!然后对这个小一点的矩阵,再进行一次上面的步骤,进行一次特征“浓缩”,用另一个意思来讲,就是把它抽象化。最后经过很多次的抽象化,你会将原始的矩阵变成一个 1 维乘 1 维的矩阵,这就是一个数字。而不同的图片,比如一个猫,或者一个狗,一个熊,它们最后得到的这个数字会不同。于是你把一个猫,一个狗,一个熊都抽象成了一个数字,比如 , , ,这就达到让计算机来直接辨别的目的了。人脸,表情,年龄,这些原理都是类似的,只是初始的样本数量会很大,最终都是通过矩阵将具体的图像抽象成了数字,因为计算机只认识数字。但是抽象的函数,会有所不同,达到的效果也会不同。
这两天在公司做PM实习,主要是自学一些CV的知识,以了解产品在解决一些在图像识别、图像搜索方面的问题,学习的主要方式是在知网检索了篇国内近3年计算机视觉和物体识别的硕博士论文。由于时间关系,后面还会继续更新图片相似度计算(以图搜图)等方面的学习成果 将这两天的学习成果在这里总结一下。你将会看到计算机视觉在解决特定物体识别问题(主要是卷积神经网络CNNs)的基础过程和原理,但这里不会深入到技术的实现层面。
计算机视觉(Computer vision)是一门研究如何使机器“看”的科学,更进一步的说,就是指用摄影机和计算机代替人眼对目标进行识别、跟踪和测量等机器视觉,并进一步做图像处理,用计算机处理成为更适合人眼观察或传送给仪器检测的图像。 ————维基百科 通常而言,计算机视觉的研究包括三个层次: (1)底层特征的研究: 这一层次的研究主要聚焦如何高效提取出图像对象具有判别性能的特征,具体的研究内容通常包括:物体识别、字符识别等 (2)中层语义特征的研究: 该层次的研究在于在识别出对象的基础上,对其位置、边缘等信息能够准确区分。现在比较热门的:图像分割;语义分割;场景标注等,都属于该领域的范畴 (3)高层语义理解: 这一层次建立在前两层的基础上,其核心在于“理解”一词。 目标在于对复杂图像中的各个对象完成语义级别的理解。这一层次的研究常常应用于:场景识别、图像摘要生成及图像语义回答等。 而我研究的问题主要隶属于底层特征和中层语义特征研究中的物体识别和场景标注问题。
人类的视觉工作模式是这样的: 首先,我们大脑中的神经元接收到大量的信息微粒,但我们的大脑还并不能处理它们。 于是接着神经元与神经元之间交互将大量的微粒信息整合成一条又一条的线。 接着,无数条线又整合成一个个轮廓。 最后多个轮廓累加终于聚合我们现在眼前看到的样子。 计算机科学受到神经科学的启发,也采用了类似的工作方式。具体而言,图像识别问题一般都遵循下面几个流程
(1)获取底层信息。获取充分且清洁的高质量数据往往是图像识别工作能否成功的关键所在 (2)数据预处理工作,在图像识别领域主要包括四个方面的技术:去噪处理(提升信噪比)、图像增强和图像修复(主要针对不够清晰或有破损缺失的图像);归一化处理(一方面是为了减少开销、提高算法的性能,另一方面则是为了能成功使用深度学习等算法,这类算法必须使用归一化数据)。 (3)特征提取,这一点是该领域的核心,也是本文的核心。图像识别的基础是能够提取出足够高质量,能体现图像独特性和区分度的特征。 过去在10年代之前我们主要还是更多的使用传统的人工特征提取方法,如PCA\LCA等来提取一些人工设计的特征,主要的方法有(HOG、LBP以及十分著名的SIFT算法)。但是这些方法普遍存在(a)一般基于图像的一些提层特征信息(如色彩、纹理等)难以表达复杂的图像高层语义,故泛化能力普遍比较弱。(b)这些方法一般都针对特定领域的特定应用设计,泛化能力和迁移的能力大多比较弱。 另外一种思路是使用BP方法,但是毕竟BP方法是一个全连接的神经网络。这以为这我们非常容易发生过拟合问题(每个元素都要负责底层的所有参数),另外也不能根据样本对训练过程进行优化,实在是费时又费力。 因此,一些研究者开始尝试把诸如神经网络、深度学习等方法运用到特征提取的过程中,以十几年前深度学习方法在业界最重要的比赛ImageNet中第一次战胜了SIFT算法为分界线,由于其使用权重共享和特征降采样,充分利用了数据的特征。几乎每次比赛的冠军和主流都被深度学习算法及其各自改进型所占领。其中,目前使用较多又最为主流的是CNN算法,在第四部分主要也研究CNN方法的机理。
上图是一个简易的神经网络,只有一层隐含层,而且是全连接的(如图,上一层的每个节点都要对下一层的每个节点负责。)具体神经元与神经元的作用过程可见下图。
在诸多传统的神经网络中,BP算法可能是性能最好、应用最广泛的算法之一了。其核心思想是:导入训练样本、计算期望值和实际值之间的差值,不断地调整权重,使得误差减少的规定值的范围内。其具体过程如下图:
一般来说,机器学习又分成浅层学习和深度学习。传统的机器学习算法,如SVM、贝叶斯、神经网络等都属于浅层模型,其特点是只有一个隐含层。逻辑简单易懂、但是其存在理论上缺乏深度、训练时间较长、参数很大程度上依赖经验和运气等问题。 如果是有多个隐含层的多层神经网络(一般定义为大于5层),那么我们将把这个模型称为深度学习,其往往也和分层训练配套使用。这也是目前AI最火的领域之一了。如果是浅层模型的问题在于对一个复杂函数的表示能力不够,特别是在复杂问题分类情况上容易出现分类不足的弊端,深度网络的优势则在于其多层的架构可以分层表示逻辑,这样就可以用简单的方法表示出复杂的问题,一个简单的例子是: 如果我们想计算sin(cos(log(exp(x)))), 那么深度学习则可分层表示为exp(x)—>log(x)—>cos(x)—>sin(x)
图像识别问题是物体识别的一个子问题,其鲁棒性往往是解决该类问题一个非常重要的指标,该指标是指分类结果对于传入数据中的一些转化和扭曲具有保持不变的特性。这些转化和扭曲具体主要包括了: (1)噪音(2)尺度变化(3)旋转(4)光线变化(5)位移
该部分具体的内容,想要快速理解原理的话推荐看[知乎相关文章] ( ), 特别是其中有些高赞回答中都有很多动图和动画,非常有助于理解。 但核心而言,CNN的核心优势在于 共享权重 以及 感受野 ,减少了网络的参数,实现了更快的训练速度和同样预测结果下更少的训练样本,而且相对于人工方法,一般使用深度学习实现的CNN算法使用无监督学习,其也不需要手工提取特征。
CNN算法的过程给我的感觉,个人很像一个“擦玻璃”的过程。其技术主要包括了三个特性:局部感知、权重共享和池化。
CNN中的神经元主要分成了两种: (a)用于特征提取的S元,它们一起组成了卷积层,用于对于图片中的每一个特征首先局部感知。其又包含很关键的阈值参数(控制输出对输入的反映敏感度)和感受野参数(决定了从输入层中提取多大的空间进行输入,可以简单理解为擦玻璃的抹布有多大) (b)抗形变的C元,它们一起组成了池化层,也被称为欠采样或下采样。主要用于特征降维,压缩数据和参数的数量,减小过拟合,同时提高模型的容错性。 (c*)激活函数,及卷积层输出的结果要经过一次激励函数才会映射到池化层中,主要的激活函数有Sigmoid函数、Tanh函数、ReLU、Leaky ReLU、ELU、Maxout等。
也许你会抱有疑问,CNN算法和传统的BP算法等究竟有什么区别呢。这就会引出区域感受野的概念。在前面我们提到,一个全连接中,较高一层的每个神经元要对低层的每一个神经元负责,从而导致了过拟合和维度灾难的问题。但是有了区域感受野和,每个神经元只需要记录一个小区域,而高层会把这些信息综合起来,从而解决了全连接的问题。
了解区域感受野后,你也许会想,区域感受野的底层神经元具体是怎么聚合信息映射到上一层的神经元呢,这就要提到重要的卷积核的概念。这个过程非常像上面曾提到的“神经元与神经元的联系”一图,下面给大家一个很直观的理解。
上面的这个过程就被称为一个卷积核。在实际应用中,单特征不足以被系统学习分类,因此我们往往会使用多个滤波器,每个滤波器对应1个卷积核,也对应了一个不同的特征。比如:我们现在有一个人脸识别应用,我们使用一个卷积核提取出眼睛的特征,然后使用另一个卷积核提取出鼻子的特征,再用一个卷积核提取出嘴巴的特征,最后高层把这些信息聚合起来,就形成了分辨一个人与另一个人不同的判断特征。
现在我们已经有了区域感受野,也已经了解了卷积核的概念。但你会发现在实际应用中还是有问题: 给一个100 100的参数空间,假设我们的感受野大小是10 10,那么一共有squar(1000-10+1)个,即10的六次方个感受野。每个感受野中就有100个参数特征,及时每个感受野只对应一个卷积核,那么空间内也会有10的八次方个次数,,更何况我们常常使用很多个卷积核。巨大的参数要求我们还需要进一步减少权重参数,这就引出了权重共享的概念。 用一句话概括就是,对同一个特征图,每个感受野的卷积核是一样的,如这样操作后上例只需要100个参数。
池化是CNN技术的最后一个特性,其基本思想是: 一块区域有用的图像特征,在另一块相似的区域中很可能仍然有用。即我们通过卷积得到了大量的边缘EDGE数据,但往往相邻的边缘具有相似的特性,就好像我们已经得到了一个强边缘,再拥有大量相似的次边缘特征其实是没有太大增量价值的,因为这样会使得系统里充斥大量冗余信息消耗计算资源。 具体而言,池化层把语义上相似的特征合并起来,通过池化操作减少卷积层输出的特征向量,减少了参数,缓解了过拟合问题。常见的池化操作主要包括3种: 分别是最大值池化(保留了图像的纹理特征)、均值池化(保留了图像的整体特征)和随机值池化。该技术的弊端是容易过快减小数据尺寸,目前趋势是用其他方法代替池化的作用,比如胶囊网络推荐采用动态路由来代替传统池化方法,原因是池化会带来一定程度上表征的位移不变性,传统观点认为这是一个优势,但是胶囊网络的作者Hinton et al.认为图像中位置信息是应该保留的有价值信息,利用特别的聚类评分算法和动态路由的方式可以学习到更高级且灵活的表征,有望冲破目前卷积网络构架的瓶颈。
CNN总体来说是一种结构,其包含了多种网络模型结构,数目繁多的的网络模型结构决定了数据拟合能力和泛化能力的差异。其中的复杂性对用户的技术能力有较高的要求。此外,CNN仍然没有很好的解决过拟合问题和计算速度较慢的问题。
该部分的核心参考文献: 《深度学习在图像识别中的应用研究综述》郑远攀,李广阳,李晔.[J].计算机工程与应用,2019,55(12):20-36. 深度学习技术在计算机图像识别方面的领域应用研究是目前以及可预见的未来的主流趋势,在这里首先对深度学习的基本概念作一简介,其次对深度学习常用的结构模型进行概述说明,主要简述了深度信念网络(DBN)、卷积神经网络(CNN)、循环神经网络(RNN)、生成式对抗网络(GAN)、胶囊网络(CapsNet)以及对各个深度模型的改进模型做一对比分析。
深度学习按照学习架构可分为生成架构、判别架构及混合架构。 其生成架构模型主要包括: 受限波尔兹曼机、自编码器、深层信念网络等。判别架构模型主要包括:深层前馈网络、卷积神经网络等。混合架构模型则是这两种架构的集合。深度学习按数据是否具有标签可分为非监督学习与监督学习。非监督学习方法主要包括:受限玻尔兹曼机、自动编码器、深层信念网络、深层玻尔兹曼机等。 监督学习方法主要包括:深层感知器、深层前馈网络、卷积神经网络、深层堆叠网络、循环神经网络等。大量实验研究表明,监督学习与非监督学习之间无明确的界限,如:深度信念网络在训练过程中既用到监督学习方法又涉及非监督学习方法。
[1]周彬. 多视图视觉检测关键技术及其应用研究[D].浙江大学,2019. [2]郑远攀,李广阳,李晔.深度学习在图像识别中的应用研究综述[J].计算机工程与应用,2019,55(12):20-36. [3]逄淑超. 深度学习在计算机视觉领域的若干关键技术研究[D].吉林大学,2017. [4]段萌. 基于卷积神经网络的图像识别方法研究[D].郑州大学,2017. [5]李彦冬. 基于卷积神经网络的计算机视觉关键技术研究[D].电子科技大学,2017. [6]李卫. 深度学习在图像识别中的研究及应用[D].武汉理工大学,2014. [7]许可. 卷积神经网络在图像识别上的应用的研究[D].浙江大学,2012. [8]CSDN、知乎、机器之心、维基百科
原文: Scalable Object Detection using Deep Neural Networks——学术范 最近,深度卷积神经网络在许多图像识别基准上取得了最先进的性能,包括ImageNet大规模视觉识别挑战(ILSVRC-2012)。在定位子任务中获胜的模型是一个网络,它预测了图像中每个对象类别的单个边界框和置信度得分。这样的模型捕获了围绕对象的整幅图像上下文,但如果不天真地复制每个实例的输出数量,就无法处理图像中同一对象的多个实例。在这篇论文中提出了一个显著性启发的神经网络检测模型,它预测了一组与类无关的边界框,每个框有一个分数,对应于它包含任何感兴趣的对象的可能性。该模型自然地为每个类处理数量可变的实例,并允许在网络的最高级别上进行跨类泛化。 目标检测是计算机视觉的基本任务之一。一个解决这个问题的通用范例是训练在子图像上操作的对象检测器,并在所有的场所和尺度上以详尽的方式应用这些检测器。这一范例被成功地应用于经过区别训练的可变形零件模型(DPM)中,以实现检测任务的最新结果。对所有可能位置和尺度的穷举搜索带来了计算上的挑战。随着类数量的增加,这个挑战变得更加困难,因为大多数方法都训练每个类单独的检测器。为了解决这个问题,人们提出了多种方法,从检测器级联到使用分割提出少量的对象假设。 关于对象检测的文献非常多,在本节中,我们将重点讨论利用类不可知思想和解决可伸缩性的方法。 许多提出的检测方法都是基于基于部件的模型,最近由于有区别学习和精心设计的特征,已经取得了令人印象深刻的性能。然而,这些方法依赖于在多个尺度上详尽地应用零件模板,这是非常昂贵的。此外,它们在类的数量上是可伸缩的,这对像ImageNet这样的现代数据集来说是一个挑战。 为了解决前一个问题,Lampert等人使用分支绑定策略来避免计算所有可能的对象位置。为了解决后一个问题,Song et al.使用了一个低维部件基,在所有对象类中共享。基于哈希算法的零件检测也取得了良好的结果。 另一种不同的工作,与我们的工作更接近,是基于对象可以本地化的想法,而不必知道它们的类。其中一些方法建立在自底向上无阶级分割[9]的基础上。通过这种方式得到的片段可以使用自上而下的反馈进行评分。基于同样的动机,Alexe等人使用一种廉价的分类器对对象假设是否为对象进行评分,并以这种方式减少了后续检测步骤的位置数量。这些方法可以被认为是多层模型,分割作为第一层,分割分类作为后续层。尽管它们编码了已证明的感知原理,但我们将表明,有更深入的模型,充分学习可以导致更好的结果。 最后,我们利用了DeepLearning的最新进展,最引人注目的是Krizhevsky等人的工作。我们将他们的边界盒回归检测方法扩展到以可扩展的方式处理多个对象的情况。然而,基于dnn的回归已经被Szegedy等人应用到对象掩模中。最后一种方法实现了最先进的检测性能,但由于单个掩模回归的成本,不能扩展到多个类。 我们的目标是通过预测一组表示潜在对象的边界盒来实现一种与类无关的可扩展对象检测。更准确地说,我们使用了深度神经网络(DNN),它输出固定数量的包围盒。此外,它为每个盒子输出一个分数,表示这个盒子包含一个对象的网络信任度。 为了形式化上述思想,我们将i-thobject框及其相关的置信度编码为最后一网层的节点值: Bounding box: 我们将每个框的左上角和右下角坐标编码为四个节点值,可以写成vectorli∈R4。这些坐标是归一化的w. r. t.图像尺寸,以实现图像绝对尺寸的不变性。每个归一化坐标是由最后一层的线性变换产生的。 Confidence: 置信度:包含一个对象的盒子的置信度得分被编码为单个节点valueci∈[0,1]。这个值是通过最后一个隐藏层的线性变换产生的,后面跟着一个sigmoid。 我们可以组合边界盒位置sli,i∈{1,…K}为一个线性层。同样,我们可以将所有置信区间ci,i∈{1,…K}作为一个s型层的输出。这两个输出层都连接到最后一个隐藏层 在推理时,我们的算法生成kbound盒。在我们的实验中,我们使用ek = 100和K= 200。如果需要,我们可以使用置信分数和非最大抑制在推理时获得较少数量的高置信框。这些盒子应该代表对象。因此,它们可以通过后续的分类器进行分类,实现目标检测。由于盒子的数量非常少,我们可以提供强大的分类器。在我们的实验中,我们使用另一个dnn进行分类。 我们训练一个DNN来预测每个训练图像的边界框及其置信度得分,以便得分最高的框与图像的groundtruth对象框很好地匹配。假设对于一个特定的训练例子,对象被标记为boundingboxesgj,j∈{1,…,M}。在实践中,pre- dictionary的数量远远大于groundtruthboxm的数量。因此,我们试图只优化与地面真实最匹配的预测框子集。我们优化他们的位置,以提高他们的匹配度,最大化他们的信心。与此同时,我们将剩余预测的置信度最小化,这被认为不能很好地定位真实对象。为了达到上述目的,我们为每个训练实例制定一个分配问题。Wexij∈{0,1}表示赋值:xij= 1,如果第i个预测被赋值给第j个真对象。这项任务的目标可以表示为 其中,我们使用标准化边界框坐标之间的el2距离来量化边界框之间的不同。此外,我们希望根据分配x优化盒子的可信度。最大化指定预测的置信度可以表示为 最终的损失目标结合了匹配损失和信心损失 受式1的约束。α平衡了不同损失条款的贡献。 对于每个训练例子,我们通过解决一个最佳的赋值x*的预测到真实的盒子 约束执行赋值解决方案。这是二部匹配的一种变体,是一种多项式复杂度匹配。在我们的应用程序中,匹配是非常便宜的——每幅图像中标记的对象的数量少于一打,而且在大多数情况下只有很少的对象被标记。然后,通过反向传播优化网络参数。例如,反向传播算法的一阶导数计算w、r、t、l和c 尽管上述定义的损失在原则上是足够的,但三次修改使其有可能更快地达到更好的准确性。第一个修改是对地面真实位置进行聚类,并找到这样的聚类/质心,我们可以使用这些聚类/质心作为每个预测位置的先验。因此,鼓励学习算法为每个预测位置学习一个残差到一个先验。 第二个修改涉及到在匹配过程中使用这些先验:不是将N个groundtruth位置与K个预测进行匹配,而是在K个先验和groundtruth之间找到最佳匹配。一旦匹配完成,就会像之前一样计算目标的置信度。此外,位置预测损失也不变:对于任何一对匹配的(目标,预测)位置,其损失定义为groundtruth和对应于匹配先验的坐标之间的差值。我们把使用先验匹配称为先验匹配,并假设它促进了预测的多样化。 需要注意的是,尽管我们以一种与类无关的方式定义了我们的方法,但我们可以将它应用于预测特定类的对象盒。要做到这一点,我们只需要在类的边框上训练我们的模型。此外,我们可以预测每个类的kbox。不幸的是,这个模型的参数数量会随着类的数量线性增长。此外,在一个典型的设置中,给定类的对象数量相对较少,这些参数中的大多数会看到很少有相应梯度贡献的训练示例。因此,我们认为我们的两步过程——首先本地化,然后识别——是一个更好的选择,因为它允许使用少量参数利用同一图像中多个对象类型的数据 我们使用的本地化和分类模型的网络架构与[10]使用的网络架构相同。我们使用Adagrad来控制学习速率衰减,128的小批量,以及使用多个相同的网络副本进行并行分布式训练,从而实现更快的收敛。如前所述,我们在定位损失中使用先验——这些是使用训练集上的均值来计算的。我们还使用α = 来平衡局部化和置信度损失。定位器可以输出用于推断的种植区以外的坐标。坐标被映射和截断到最后的图像区域。另外,使用非最大抑制对盒进行修剪,Jaccard相似度阈值为。然后,我们的第二个模型将每个边界框分类为感兴趣的对象或“背景”。为了训练我们的定位器网络,我们从训练集中生成了大约3000万幅图像,并对训练集中的每幅图像应用以下步骤。最后,样品被打乱。为了训练我们的本地化网络,我们通过对训练集中的每一幅图像应用以下步骤,从训练集中生成了大约3000万幅图像。对于每幅图像,我们生成相同数量的平方样本,使样本总数大约为1000万。对于每幅图像,样本被桶状填充,这样,对于0 - 5%、5 - 15%、15 - 50%、50 - 100%范围内的每个比例,都有相同数量的样本,其中被包围框覆盖的比例在给定范围内。训练集和我们大多数超参数的选择是基于过去使用非公开数据集的经验。在下面的实验中,我们没有探索任何非标准数据生成或正则化选项。在所有的实验中,所有的超参数都是通过对训练集。 Pascal Visual Object Classes (VOC)挑战是最常用的对象检测算法基准。它主要由复杂的场景图像组成,其中包含了20种不同的对象类别的边界框。在我们的评估中,我们关注的是2007版VOC,为此发布了一个测试集。我们通过培训VOC 2012展示了结果,其中包含了大约。11000张图片。我们训练了一个100框的定位器和一个基于深度网络的分类器。 我们在一个由1000万作物组成的数据集上训练分类器,该数据集重叠的对象至少为 jaccard重叠相似度。这些作物被标记为20个VOC对象类中的一个。•2000万负作物与任何物体盒最多有个Jaccard相似度。这些作物被贴上特殊的“背景”类标签。体系结构和超参数的选择遵循。 在第一轮中,定位器模型应用于图像中最大-最小中心方形作物。作物的大小调整到网络输入大小is220×220。单次通过这个网络,我们就可以得到上百个候选日期框。在对重叠阈值为的非最大抑制后,保留评分最高的前10个检测项,并通过21路分类器模型分别通过网络进行分类。最终的检测分数是给定盒子的定位分数乘以分类器在作物周围的最大方形区域上评估的分数的乘积。这些分数通过评估,并用于计算精确查全曲线。 首先,我们分析了本地化器在隔离状态下的性能。我们给出了被检测对象的数量,正如Pascal检测标准所定义的那样,与生成的包围框的数量相对比。在图1中,我们展示了使用VOC2012进行训练所获得的结果。此外,我们通过使用图像的最大中心面积(max-center square crop)作为输入以及使用两个尺度(second scale)来给出结果:最大中心面积(max-center crop)的第二个尺度(select3×3windows的大小为图像大小的60%)正如我们所看到的,当使用10个边界框的预算时,我们可以用第一个模型本地化的对象,用第二个模型本地化48%的对象。这显示出比其他报告的结果更好的性能,例如对象度算法达到42%[1]。此外,这个图表显示了在不同分辨率下观察图像的重要性。虽然我们的算法通过使用最大中心作物获得了大量的对象,但当使用更高分辨率的图像作物时,我们获得了额外的提升。进一步,我们用21-way分类器对生成的包围盒进行分类,如上所述。表1列出了VOC 2007的平均精度(APs)。达到的平均AP是,与先进水平相当。注意,我们的运行时间复杂度非常低——我们只使用top10框。示例检测和全精度召回曲线分别如图2和图3所示。值得注意的是,可视化检测是通过仅使用最大中心方形图像裁剪,即使用全图像获得的。然而,我们设法获得了相对较小的对象,例如第二行和第二列的船,以及第三行和第三列的羊。 在本工作中,我们提出了一种新的方法来定位图像中的对象,该方法可以预测多个边界框的时间。该方法使用深度卷积神经网络作为基本特征提取和学习模型。它制定了一个能够利用可变数量的groundtruth位置的多箱定位成本。在“一个类一个箱”方法的情况下,对1000个盒子进行非max-suppression,使用与给定图像中感兴趣的DeepMulti-Box方法相同的准则,并学习在未见图像中预测这些位置。 我们在VOC2007和ILSVRC-2012这两个具有挑战性的基准上给出了结果,在这两个基准上,所提出的方法具有竞争力。此外,该方法能够很好地预测后续分类器将探测到的位置。我们的结果表明,deepmultibox的方法是可扩展的,甚至可以在两个数据集之间泛化,就能够预测感兴趣的定位,甚至对于它没有训练的类别。此外,它能够捕获同一类物体的多种情况,这是旨在更好地理解图像的算法的一个重要特征。 在未来,我们希望能够将定位和识别路径折叠到一个单一的网络中,这样我们就能够在一个通过网络的一次性前馈中提取位置和类标签信息。即使在其当前状态下,双通道过程(本地化网络之后是分类网络)也会产生5-10个网络评估,每个评估的速度大约为1个CPU-sec(现代机器)。重要的是,这个数字并不与要识别的类的数量成线性关系,这使得所提出的方法与类似dpm的方法非常有竞争力。
白行健(右)此前获COO金牌第一名
高中生开始研究图神经网络
白行健的论文为《基于自适应性图卷积神经网络的暴力用户检测》,目前已经成功入围总决赛。
文章提出了⼀种新的⾃适应图卷积神经⽹络模型(Adaptive Graph Convolutional Neural Networks,简称AdaGCN),在传统的GCN模型的基础上进⾏了改进和创新。为了解决参数增加带来的模型难以训练和过拟合情况,文章引入了标签平滑假设,对边权的训练施加了额外的监督,从⽽实现了和GCN模型的⾃然结合。
白行健的数据集包含了10万余名Twitter⽤户和200余万条社交关系,其中⼤约5千名⽤户被标记是否为暴⼒⽤户。实验结果表明,AdaGCN的AUC得分为,F1得分为,得分⾼于所有对⽐⽅法,包括传统的GCN模型, 图注意⼒⽹络 (GAT),标签传播算法(LPA),⽀持向量机(SVM)等等。此外, AdaGCN模型的结果具有最低的标准差,这表明AdaGCN模型具有很强的稳定性。 在线社交平台可以利⽤本⽂提出的⽅法来更好地评估、检测暴⼒⽤户,防⽌暴⼒⽤户伤害他⼈ 并传播仇恨⾔论。 同时,⾃适应图卷积神经⽹络模型也可以⽤来评估不同类型的暴⼒⾔论造成的社会影响。
开挂的学霸少年
此次入围丘成桐奖之前,白行健从2018年开始多次参加相关竞赛获得好成绩:
白行健(右)
在生活方面,白行健也有很多其他尝试,他目前就读北京师范⼤学附属实验中学国际部⾼三,对数学和计算机科学非常感兴趣,担任学校计算机社社长和⼈⽂社社长。
图 | 微博
而今年的丘成桐中学科学奖中,白行健选择用图神经网络为切入点,对网络暴力用户进行检测。很大一部分原因也是身边有好友经历过网络暴力:
“2018年2⽉10⽇,⼀个名叫Ted Senior的22岁男孩在林地上吊⾃杀,原因是⼀些⼈在社交媒体上恶意地分享和评判他与⼀名⼥孩的聊天内容。在我身 边,我的同学好友在学校论坛发表观点,但是遭受匿名的辱骂和攻击,这种羞辱让他感到⾮常痛苦。我深深地被这些可恨的⾏为和可怕的后果所触动。计算机科学带来了信息时代,社交⽹络改变了我们的⽣活,我们期望技术会让世界更美好。但没有什么是尽善尽美的。⽹络暴⼒是信息技术⽆意中带来的⼀个问题,我渴望找到⼀种⽅法来发现和控制它们。”
而目前对于网络暴力, 目前已经有不少基于深度学习的网络欺凌模型。比如Instagram去年推出 「增强版的评论过滤器」 ,通过对照片、文字的检测分析,对其中的恶意行为采取过滤等措施。、
Facebook和Twitter也推出了类似的举措来限制其平台上的欺凌行为。Twitter在去年十月制定了一个时间表,以便从其平台中删除裸露和仇恨图像等内容。去年Facebook添加了一些工具,允许用户一次隐藏或删除多条评论,并允许用户代表朋友或家人报告欺凌或骚扰。
科技的发展真实的改变着我们的生活,我们享受其便利、承受其弊端。而像白行健这样的年轻人将越来越早的进入改变世界的行列,用技术影响着我们。
看来未来不仅仅是「同辈压力」了,「后辈压力」也追着我们跑来了。毕竟当你还在拼命打排位的时候,高中生已经论文已经发起来了......
基于Python的SIFT和KCF的运动目标匹配与跟踪 毕业论文+项目源码基于Python决策树算法的学生学习行为数据分析 设计报告+代码及数据基于Sring+bootstrap+MySQL的住房公积金管理系统 课程报告+项目源码及数据库文件基于C++的即时通信软件设计 毕业论文+项目源码
你的论文准备往什么方向写,选题老师审核通过了没,有没有列个大纲让老师看一下写作方向? 老师有没有和你说论文往哪个方向写比较好?写论文之前,一定要写个大纲,这样老师,好确定了框架,避免以后论文修改过程中出现大改的情况!!学校的格式要求、写作规范要注意,否则很可能发回来重新改,你要还有什么不明白或不懂可以问我,希望你能够顺利毕业,迈向新的人生。 (一)选题毕业论文(设计)题目应符合本专业的培养目标和教学要求,具有综合性和创新性。本科生要根据自己的实际情况和专业特长,选择适当的论文题目,但所写论文要与本专业所学课程有关。(二)查阅资料、列出论文提纲题目选定后,要在指导教师指导下开展调研和进行实验,搜集、查阅有关资料,进行加工、提炼,然后列出详细的写作提纲。(三)完成初稿根据所列提纲,按指导教师的意见认真完成初稿。(四)定稿初稿须经指导教师审阅,并按其意见和要求进行修改,然后定稿。一般毕业论文题目的选择最好不要太泛,越具体越好,而且老师希望学生能结合自己学过的知识对问题进行分析和解决。不知道你是否确定了选题,确定选题了接下来你需要根据选题去查阅前辈们的相关论文,看看人家是怎么规划论文整体框架的;其次就是需要自己动手收集资料了,进而整理和分析资料得出自己的论文框架;最后就是按照框架去组织论文了。你如果需要什么参考资料和范文我可以提供给你。还有什么不了解的可以直接问我,希望可以帮到你,祝写作过程顺利毕业论文选题的方法: 一、尽快确定毕业论文的选题方向 在毕业论文工作布置后,每个人都应遵循选题的基本原则,在较短的时间内把选题的方向确定下来。从毕业论文题目的性质来看,基本上可以分为两大类:一类是社会主义现代化建设实践中提出的理论和实际问题;另一类是专业学科本身发展中存在的基本范畴和基本理论问题。大学生应根据自己的志趣和爱好,尽快从上述两大类中确定一个方向。二、在初步调查研究的基础上选定毕业论文的具体题目在选题的方向确定以后,还要经过一定的调查和研究,来进一步确定选题的范围,以至最后选定具体题目。下面介绍两种常见的选题方法。 浏览捕捉法 :这种方法就是通过对占有的文献资料快速地、大量地阅读,在比较中来确定论文题目地方法。浏览,一般是在资料占有达到一定数量时集中一段时间进行,这样便于对资料作集中的比较和鉴别。浏览的目的是在咀嚼消化已有资料的过程中,提出问题,寻找自己的研究课题。这就需要对收集到的材料作一全面的阅读研究,主要的、次要的、不同角度的、不同观点的都应了解,不能看了一些资料,有了一点看法,就到此为止,急于动笔。也不能“先入为主”,以自己头脑中原有的观点或看了第一篇资料后得到的看法去决定取舍。而应冷静地、客观地对所有资料作认真的分析思考。在浩如烟海,内容丰富的资料中吸取营养,反复思考琢磨许多时候之后,必然会有所发现,这是搞科学研究的人时常会碰到的情形。 浏览捕捉法一般可按以下步骤进行: 第一步,广泛地浏览资料。在浏览中要注意勤作笔录,随时记下资料的纲目,记下资料中对自己影响最深刻的观点、论据、论证方法等,记下脑海中涌现的点滴体会。当然,手抄笔录并不等于有言必录,有文必录,而是要做细心的选择,有目的、有重点地摘录,当详则详,当略则略,一些相同的或类似的观点和材料则不必重复摘录,只需记下资料来源及页码就行,以避免浪费时间和精力。 第二步,是将阅读所得到的方方面面的内容,进行分类、排列、组合,从中寻找问题、发现问题,材料可按纲目分类,如分成: 系统介绍有关问题研究发展概况的资料; 对某一个问题研究情况的资料; 对同一问题几种不同观点的资料; 对某一问题研究最新的资料和成果等等。 第三步,将自己在研究中的体会与资料分别加以比较,找出哪些体会在资料中没有或部分没有;哪些体会虽然资料已有,但自己对此有不同看法;哪些体会和资料是基本一致的;哪些体会是在资料基础上的深化和发挥等等。经过几番深思熟虑的思考过程,就容易萌生自己的想法。把这种想法及时捕捉住,再作进一步的思考,选题的目标也就会渐渐明确起来。
计算机毕业设计 基于Python的SIFT和KCF的运动目标匹配与跟踪 毕业论文+项目源码 基于Python决策树算法的学生学习行为数据分析 设计报告+代码及数据 基于Sring+bootstrap+MySQL的住房公积金管理系统 课程报告+项目源码及数据库文件 基于C++的即时通信软件设计 毕业论文+项目源码 基于JavaWeb+MySQL的图书管理系统 课程报告+项目源码及数据库文件 基于Android Studio+Android SDK的手机通讯录管理软件设计 课程报告+项目源码 基于JSP+MySQL的校园网上订餐系统 毕业论文+项目源码及数据库文件 基于AndroidStudio的花艺分享平台APP设计 报告+源码及APK文件 基于Python的酒店评论情感分析 课程报告+答辩PPT+项目源码 基于QT的教务选课管理系统设计与实现 毕业论文+项目源码 基于Android+Springboot+Mybatis+Mysql的个人生活APP设计 说明书+项目源码 基于的Web3D宇宙空间数据可视化系统 设计报告+前后端源码及数据 基于java+android+SQLite的保健型果饮在线销售APP设计 毕业论文+源码数据库及APK文件 基于的高校综合资源发布分享社交二手平台 毕业论文+项目源码及数据库文件+演示视频 基于Delphi+MySQL的大学生竞赛发布及组队系统 设计报告+源码数据库及可执行文件+使用说明书 基于Android的名片信息管理系统设计与实现 毕业论文+任务书+外文翻译及原文+演示视频+项目源码 基于Python的电影数据可视化分析系统 设计报告+答辩PPT+项目源码 基于JavaWeb的企业公司管理系统设计与实现 毕业论文+答辩PPT+演示视频+项目源码 高校成绩管理数据库系统的设计与实现 毕业论文+项目源码 基于JavaWeb的家庭食谱管理系统设计与实现 毕业论文+项目源码及数据库文件 基于Python+SQLSERVER的快递业务管理系统的设计与实现 毕业论文+项目源码及数据库文件 基于Python的语音词频提取云平台 设计报告+设计源码 在推荐系统中引入 Serendipity 的算法研究 毕业论文+参考文献+项目源码 基于Html+Python+Django+Sqlite的机票预订系统 毕业论文+项目源码及数据库文件 基于Python的卷积神经网络的猫狗图像识别系统 课程报告+项目源码 基于C++的云安全主动防御系统客户端服务端设计 毕业论文+项目源码 基于JavaSSM的学生成绩管理APP系统设计与实现 毕业论文+答辩PPT+前后台源码及APK文件 基于JavaSwing+MySQL的清朝古代名人数据管理系统设计 毕业论文+任务书+项目源码及数据库文件 基于Python_Django的社会实践活动管理系统设计与实现 毕业论文 基于Servlet WebSocket MySQL实现的网络在线考试系统 毕业论文+项目源码 基于JavaWEB+MySQL的学生成绩综合管理系统 毕业论文+项目源码及数据库文件 基于SpringBoot+Vue和MySQL+Redis的网络课程平台设计与实现 毕业论文+任务书+开题报告+中期报告+初稿+前后台项目源码 基于Java的毕业设计题目收集系统 课程报告+项目源码 基于Java+Python+html的生产者与消费者算法模拟 毕业论文+任务书+项目源码 基于JavaWeb+MySQL的学院党费缴费系统 毕业论文+项目源码及数据库文件 基于Java+MySQL的学生成绩管理系统 毕业论文+任务书+答辩PPT+项目源码及数据库文件 基于Java+MySQL的学生和客户信息管理系统 课程报告+项目源码及数据库文件 基于Java的长整数加减法算法设计 毕业论文+项目源码 基于vue+MySQL的毕业设计网上选题系统 毕业论文+项目源码 基于背景建模和FasterR-CNN的视频前景和目标检测 毕业论文+答辩PPT+项目源码 基于Python的智能视频分析之人数统计的多种实现 毕业论文+答辩PPT+项目源码 基于C#+SQL server的校园卡消费信息管理系统 毕业论文+项目源码及数据库文件
原文: Scalable Object Detection using Deep Neural Networks——学术范 最近,深度卷积神经网络在许多图像识别基准上取得了最先进的性能,包括ImageNet大规模视觉识别挑战(ILSVRC-2012)。在定位子任务中获胜的模型是一个网络,它预测了图像中每个对象类别的单个边界框和置信度得分。这样的模型捕获了围绕对象的整幅图像上下文,但如果不天真地复制每个实例的输出数量,就无法处理图像中同一对象的多个实例。在这篇论文中提出了一个显著性启发的神经网络检测模型,它预测了一组与类无关的边界框,每个框有一个分数,对应于它包含任何感兴趣的对象的可能性。该模型自然地为每个类处理数量可变的实例,并允许在网络的最高级别上进行跨类泛化。 目标检测是计算机视觉的基本任务之一。一个解决这个问题的通用范例是训练在子图像上操作的对象检测器,并在所有的场所和尺度上以详尽的方式应用这些检测器。这一范例被成功地应用于经过区别训练的可变形零件模型(DPM)中,以实现检测任务的最新结果。对所有可能位置和尺度的穷举搜索带来了计算上的挑战。随着类数量的增加,这个挑战变得更加困难,因为大多数方法都训练每个类单独的检测器。为了解决这个问题,人们提出了多种方法,从检测器级联到使用分割提出少量的对象假设。 关于对象检测的文献非常多,在本节中,我们将重点讨论利用类不可知思想和解决可伸缩性的方法。 许多提出的检测方法都是基于基于部件的模型,最近由于有区别学习和精心设计的特征,已经取得了令人印象深刻的性能。然而,这些方法依赖于在多个尺度上详尽地应用零件模板,这是非常昂贵的。此外,它们在类的数量上是可伸缩的,这对像ImageNet这样的现代数据集来说是一个挑战。 为了解决前一个问题,Lampert等人使用分支绑定策略来避免计算所有可能的对象位置。为了解决后一个问题,Song et al.使用了一个低维部件基,在所有对象类中共享。基于哈希算法的零件检测也取得了良好的结果。 另一种不同的工作,与我们的工作更接近,是基于对象可以本地化的想法,而不必知道它们的类。其中一些方法建立在自底向上无阶级分割[9]的基础上。通过这种方式得到的片段可以使用自上而下的反馈进行评分。基于同样的动机,Alexe等人使用一种廉价的分类器对对象假设是否为对象进行评分,并以这种方式减少了后续检测步骤的位置数量。这些方法可以被认为是多层模型,分割作为第一层,分割分类作为后续层。尽管它们编码了已证明的感知原理,但我们将表明,有更深入的模型,充分学习可以导致更好的结果。 最后,我们利用了DeepLearning的最新进展,最引人注目的是Krizhevsky等人的工作。我们将他们的边界盒回归检测方法扩展到以可扩展的方式处理多个对象的情况。然而,基于dnn的回归已经被Szegedy等人应用到对象掩模中。最后一种方法实现了最先进的检测性能,但由于单个掩模回归的成本,不能扩展到多个类。 我们的目标是通过预测一组表示潜在对象的边界盒来实现一种与类无关的可扩展对象检测。更准确地说,我们使用了深度神经网络(DNN),它输出固定数量的包围盒。此外,它为每个盒子输出一个分数,表示这个盒子包含一个对象的网络信任度。 为了形式化上述思想,我们将i-thobject框及其相关的置信度编码为最后一网层的节点值: Bounding box: 我们将每个框的左上角和右下角坐标编码为四个节点值,可以写成vectorli∈R4。这些坐标是归一化的w. r. t.图像尺寸,以实现图像绝对尺寸的不变性。每个归一化坐标是由最后一层的线性变换产生的。 Confidence: 置信度:包含一个对象的盒子的置信度得分被编码为单个节点valueci∈[0,1]。这个值是通过最后一个隐藏层的线性变换产生的,后面跟着一个sigmoid。 我们可以组合边界盒位置sli,i∈{1,…K}为一个线性层。同样,我们可以将所有置信区间ci,i∈{1,…K}作为一个s型层的输出。这两个输出层都连接到最后一个隐藏层 在推理时,我们的算法生成kbound盒。在我们的实验中,我们使用ek = 100和K= 200。如果需要,我们可以使用置信分数和非最大抑制在推理时获得较少数量的高置信框。这些盒子应该代表对象。因此,它们可以通过后续的分类器进行分类,实现目标检测。由于盒子的数量非常少,我们可以提供强大的分类器。在我们的实验中,我们使用另一个dnn进行分类。 我们训练一个DNN来预测每个训练图像的边界框及其置信度得分,以便得分最高的框与图像的groundtruth对象框很好地匹配。假设对于一个特定的训练例子,对象被标记为boundingboxesgj,j∈{1,…,M}。在实践中,pre- dictionary的数量远远大于groundtruthboxm的数量。因此,我们试图只优化与地面真实最匹配的预测框子集。我们优化他们的位置,以提高他们的匹配度,最大化他们的信心。与此同时,我们将剩余预测的置信度最小化,这被认为不能很好地定位真实对象。为了达到上述目的,我们为每个训练实例制定一个分配问题。Wexij∈{0,1}表示赋值:xij= 1,如果第i个预测被赋值给第j个真对象。这项任务的目标可以表示为 其中,我们使用标准化边界框坐标之间的el2距离来量化边界框之间的不同。此外,我们希望根据分配x优化盒子的可信度。最大化指定预测的置信度可以表示为 最终的损失目标结合了匹配损失和信心损失 受式1的约束。α平衡了不同损失条款的贡献。 对于每个训练例子,我们通过解决一个最佳的赋值x*的预测到真实的盒子 约束执行赋值解决方案。这是二部匹配的一种变体,是一种多项式复杂度匹配。在我们的应用程序中,匹配是非常便宜的——每幅图像中标记的对象的数量少于一打,而且在大多数情况下只有很少的对象被标记。然后,通过反向传播优化网络参数。例如,反向传播算法的一阶导数计算w、r、t、l和c 尽管上述定义的损失在原则上是足够的,但三次修改使其有可能更快地达到更好的准确性。第一个修改是对地面真实位置进行聚类,并找到这样的聚类/质心,我们可以使用这些聚类/质心作为每个预测位置的先验。因此,鼓励学习算法为每个预测位置学习一个残差到一个先验。 第二个修改涉及到在匹配过程中使用这些先验:不是将N个groundtruth位置与K个预测进行匹配,而是在K个先验和groundtruth之间找到最佳匹配。一旦匹配完成,就会像之前一样计算目标的置信度。此外,位置预测损失也不变:对于任何一对匹配的(目标,预测)位置,其损失定义为groundtruth和对应于匹配先验的坐标之间的差值。我们把使用先验匹配称为先验匹配,并假设它促进了预测的多样化。 需要注意的是,尽管我们以一种与类无关的方式定义了我们的方法,但我们可以将它应用于预测特定类的对象盒。要做到这一点,我们只需要在类的边框上训练我们的模型。此外,我们可以预测每个类的kbox。不幸的是,这个模型的参数数量会随着类的数量线性增长。此外,在一个典型的设置中,给定类的对象数量相对较少,这些参数中的大多数会看到很少有相应梯度贡献的训练示例。因此,我们认为我们的两步过程——首先本地化,然后识别——是一个更好的选择,因为它允许使用少量参数利用同一图像中多个对象类型的数据 我们使用的本地化和分类模型的网络架构与[10]使用的网络架构相同。我们使用Adagrad来控制学习速率衰减,128的小批量,以及使用多个相同的网络副本进行并行分布式训练,从而实现更快的收敛。如前所述,我们在定位损失中使用先验——这些是使用训练集上的均值来计算的。我们还使用α = 来平衡局部化和置信度损失。定位器可以输出用于推断的种植区以外的坐标。坐标被映射和截断到最后的图像区域。另外,使用非最大抑制对盒进行修剪,Jaccard相似度阈值为。然后,我们的第二个模型将每个边界框分类为感兴趣的对象或“背景”。为了训练我们的定位器网络,我们从训练集中生成了大约3000万幅图像,并对训练集中的每幅图像应用以下步骤。最后,样品被打乱。为了训练我们的本地化网络,我们通过对训练集中的每一幅图像应用以下步骤,从训练集中生成了大约3000万幅图像。对于每幅图像,我们生成相同数量的平方样本,使样本总数大约为1000万。对于每幅图像,样本被桶状填充,这样,对于0 - 5%、5 - 15%、15 - 50%、50 - 100%范围内的每个比例,都有相同数量的样本,其中被包围框覆盖的比例在给定范围内。训练集和我们大多数超参数的选择是基于过去使用非公开数据集的经验。在下面的实验中,我们没有探索任何非标准数据生成或正则化选项。在所有的实验中,所有的超参数都是通过对训练集。 Pascal Visual Object Classes (VOC)挑战是最常用的对象检测算法基准。它主要由复杂的场景图像组成,其中包含了20种不同的对象类别的边界框。在我们的评估中,我们关注的是2007版VOC,为此发布了一个测试集。我们通过培训VOC 2012展示了结果,其中包含了大约。11000张图片。我们训练了一个100框的定位器和一个基于深度网络的分类器。 我们在一个由1000万作物组成的数据集上训练分类器,该数据集重叠的对象至少为 jaccard重叠相似度。这些作物被标记为20个VOC对象类中的一个。•2000万负作物与任何物体盒最多有个Jaccard相似度。这些作物被贴上特殊的“背景”类标签。体系结构和超参数的选择遵循。 在第一轮中,定位器模型应用于图像中最大-最小中心方形作物。作物的大小调整到网络输入大小is220×220。单次通过这个网络,我们就可以得到上百个候选日期框。在对重叠阈值为的非最大抑制后,保留评分最高的前10个检测项,并通过21路分类器模型分别通过网络进行分类。最终的检测分数是给定盒子的定位分数乘以分类器在作物周围的最大方形区域上评估的分数的乘积。这些分数通过评估,并用于计算精确查全曲线。 首先,我们分析了本地化器在隔离状态下的性能。我们给出了被检测对象的数量,正如Pascal检测标准所定义的那样,与生成的包围框的数量相对比。在图1中,我们展示了使用VOC2012进行训练所获得的结果。此外,我们通过使用图像的最大中心面积(max-center square crop)作为输入以及使用两个尺度(second scale)来给出结果:最大中心面积(max-center crop)的第二个尺度(select3×3windows的大小为图像大小的60%)正如我们所看到的,当使用10个边界框的预算时,我们可以用第一个模型本地化的对象,用第二个模型本地化48%的对象。这显示出比其他报告的结果更好的性能,例如对象度算法达到42%[1]。此外,这个图表显示了在不同分辨率下观察图像的重要性。虽然我们的算法通过使用最大中心作物获得了大量的对象,但当使用更高分辨率的图像作物时,我们获得了额外的提升。进一步,我们用21-way分类器对生成的包围盒进行分类,如上所述。表1列出了VOC 2007的平均精度(APs)。达到的平均AP是,与先进水平相当。注意,我们的运行时间复杂度非常低——我们只使用top10框。示例检测和全精度召回曲线分别如图2和图3所示。值得注意的是,可视化检测是通过仅使用最大中心方形图像裁剪,即使用全图像获得的。然而,我们设法获得了相对较小的对象,例如第二行和第二列的船,以及第三行和第三列的羊。 在本工作中,我们提出了一种新的方法来定位图像中的对象,该方法可以预测多个边界框的时间。该方法使用深度卷积神经网络作为基本特征提取和学习模型。它制定了一个能够利用可变数量的groundtruth位置的多箱定位成本。在“一个类一个箱”方法的情况下,对1000个盒子进行非max-suppression,使用与给定图像中感兴趣的DeepMulti-Box方法相同的准则,并学习在未见图像中预测这些位置。 我们在VOC2007和ILSVRC-2012这两个具有挑战性的基准上给出了结果,在这两个基准上,所提出的方法具有竞争力。此外,该方法能够很好地预测后续分类器将探测到的位置。我们的结果表明,deepmultibox的方法是可扩展的,甚至可以在两个数据集之间泛化,就能够预测感兴趣的定位,甚至对于它没有训练的类别。此外,它能够捕获同一类物体的多种情况,这是旨在更好地理解图像的算法的一个重要特征。 在未来,我们希望能够将定位和识别路径折叠到一个单一的网络中,这样我们就能够在一个通过网络的一次性前馈中提取位置和类标签信息。即使在其当前状态下,双通道过程(本地化网络之后是分类网络)也会产生5-10个网络评估,每个评估的速度大约为1个CPU-sec(现代机器)。重要的是,这个数字并不与要识别的类的数量成线性关系,这使得所提出的方法与类似dpm的方法非常有竞争力。
MobileNet V1 (2017)
(1)MobileNets基于一种流线型结构使用深度可分离卷积来构造轻型权重深度神经网络,核心部件就是 深度可分离卷积
(2)MobileNet是一种基于深度可分离卷积的模型,深度可分离卷积是一种将标准卷积分解成深度卷积以及一个1x1的卷积即逐点卷积
(3)深度卷积针对每个单个输入通道应用单个滤波器进行滤波,然后逐点卷积应用1x1的卷积操作来结合所有深度卷积得到的输出
(4)对深度卷积,它的卷积核厚度不是输入张量的通道数,而是1,输出通道就是卷积核数目。经典卷积的卷积核厚度默认是图片的通道数
(5)可分离卷积tf内置函数:
公式计算:
MobileNet V2 (2018)
(1)Mobilenet V2实在Mobilenet V1的基础上发展而来,V2 主要引入了两个改动:Linear Bottleneck 和 Inverted Residual Blocks。两个改动分别对应V1和Resnet
(2)MobileNetV1遗留的问题
(3) 对比 MobileNet V1 与 V2 的微结构
(4) 对比 ResNet 与 MobileNet V2 的微结构
MobileNet V3 (2019)
论文地址:
(1)具体的内容可以看论文,这里我只是重点说明其中的激活函数改进(swish/h-swish)和网络结构改进(bneck)
(2)激活函数:作者发现一种新出的激活函数swish x 能有效改进网络精度
但就是计算量太大了,于是作者对这个函数进行了数值近似:
近似结果:
(3)网络结构:在大体思路上引用mobilenet v2的结构pw-dw-pw,其中激活函数添加了h-swish,同时在v2基础上添加了Squeeze excitation layer,具体的设置可查阅论文中的网络参数图对照,
其中Squeeze excitation layer
Squeeze excitation layer是引入基于squeeze and excitation结构的轻量级注意力模型SENet
论文:《Squeeze-and-Excitation Networks》
论文链接:
这两天在公司做PM实习,主要是自学一些CV的知识,以了解产品在解决一些在图像识别、图像搜索方面的问题,学习的主要方式是在知网检索了篇国内近3年计算机视觉和物体识别的硕博士论文。由于时间关系,后面还会继续更新图片相似度计算(以图搜图)等方面的学习成果 将这两天的学习成果在这里总结一下。你将会看到计算机视觉在解决特定物体识别问题(主要是卷积神经网络CNNs)的基础过程和原理,但这里不会深入到技术的实现层面。
计算机视觉(Computer vision)是一门研究如何使机器“看”的科学,更进一步的说,就是指用摄影机和计算机代替人眼对目标进行识别、跟踪和测量等机器视觉,并进一步做图像处理,用计算机处理成为更适合人眼观察或传送给仪器检测的图像。 ————维基百科 通常而言,计算机视觉的研究包括三个层次: (1)底层特征的研究: 这一层次的研究主要聚焦如何高效提取出图像对象具有判别性能的特征,具体的研究内容通常包括:物体识别、字符识别等 (2)中层语义特征的研究: 该层次的研究在于在识别出对象的基础上,对其位置、边缘等信息能够准确区分。现在比较热门的:图像分割;语义分割;场景标注等,都属于该领域的范畴 (3)高层语义理解: 这一层次建立在前两层的基础上,其核心在于“理解”一词。 目标在于对复杂图像中的各个对象完成语义级别的理解。这一层次的研究常常应用于:场景识别、图像摘要生成及图像语义回答等。 而我研究的问题主要隶属于底层特征和中层语义特征研究中的物体识别和场景标注问题。
人类的视觉工作模式是这样的: 首先,我们大脑中的神经元接收到大量的信息微粒,但我们的大脑还并不能处理它们。 于是接着神经元与神经元之间交互将大量的微粒信息整合成一条又一条的线。 接着,无数条线又整合成一个个轮廓。 最后多个轮廓累加终于聚合我们现在眼前看到的样子。 计算机科学受到神经科学的启发,也采用了类似的工作方式。具体而言,图像识别问题一般都遵循下面几个流程
(1)获取底层信息。获取充分且清洁的高质量数据往往是图像识别工作能否成功的关键所在 (2)数据预处理工作,在图像识别领域主要包括四个方面的技术:去噪处理(提升信噪比)、图像增强和图像修复(主要针对不够清晰或有破损缺失的图像);归一化处理(一方面是为了减少开销、提高算法的性能,另一方面则是为了能成功使用深度学习等算法,这类算法必须使用归一化数据)。 (3)特征提取,这一点是该领域的核心,也是本文的核心。图像识别的基础是能够提取出足够高质量,能体现图像独特性和区分度的特征。 过去在10年代之前我们主要还是更多的使用传统的人工特征提取方法,如PCA\LCA等来提取一些人工设计的特征,主要的方法有(HOG、LBP以及十分著名的SIFT算法)。但是这些方法普遍存在(a)一般基于图像的一些提层特征信息(如色彩、纹理等)难以表达复杂的图像高层语义,故泛化能力普遍比较弱。(b)这些方法一般都针对特定领域的特定应用设计,泛化能力和迁移的能力大多比较弱。 另外一种思路是使用BP方法,但是毕竟BP方法是一个全连接的神经网络。这以为这我们非常容易发生过拟合问题(每个元素都要负责底层的所有参数),另外也不能根据样本对训练过程进行优化,实在是费时又费力。 因此,一些研究者开始尝试把诸如神经网络、深度学习等方法运用到特征提取的过程中,以十几年前深度学习方法在业界最重要的比赛ImageNet中第一次战胜了SIFT算法为分界线,由于其使用权重共享和特征降采样,充分利用了数据的特征。几乎每次比赛的冠军和主流都被深度学习算法及其各自改进型所占领。其中,目前使用较多又最为主流的是CNN算法,在第四部分主要也研究CNN方法的机理。
上图是一个简易的神经网络,只有一层隐含层,而且是全连接的(如图,上一层的每个节点都要对下一层的每个节点负责。)具体神经元与神经元的作用过程可见下图。
在诸多传统的神经网络中,BP算法可能是性能最好、应用最广泛的算法之一了。其核心思想是:导入训练样本、计算期望值和实际值之间的差值,不断地调整权重,使得误差减少的规定值的范围内。其具体过程如下图:
一般来说,机器学习又分成浅层学习和深度学习。传统的机器学习算法,如SVM、贝叶斯、神经网络等都属于浅层模型,其特点是只有一个隐含层。逻辑简单易懂、但是其存在理论上缺乏深度、训练时间较长、参数很大程度上依赖经验和运气等问题。 如果是有多个隐含层的多层神经网络(一般定义为大于5层),那么我们将把这个模型称为深度学习,其往往也和分层训练配套使用。这也是目前AI最火的领域之一了。如果是浅层模型的问题在于对一个复杂函数的表示能力不够,特别是在复杂问题分类情况上容易出现分类不足的弊端,深度网络的优势则在于其多层的架构可以分层表示逻辑,这样就可以用简单的方法表示出复杂的问题,一个简单的例子是: 如果我们想计算sin(cos(log(exp(x)))), 那么深度学习则可分层表示为exp(x)—>log(x)—>cos(x)—>sin(x)
图像识别问题是物体识别的一个子问题,其鲁棒性往往是解决该类问题一个非常重要的指标,该指标是指分类结果对于传入数据中的一些转化和扭曲具有保持不变的特性。这些转化和扭曲具体主要包括了: (1)噪音(2)尺度变化(3)旋转(4)光线变化(5)位移
该部分具体的内容,想要快速理解原理的话推荐看[知乎相关文章] ( ), 特别是其中有些高赞回答中都有很多动图和动画,非常有助于理解。 但核心而言,CNN的核心优势在于 共享权重 以及 感受野 ,减少了网络的参数,实现了更快的训练速度和同样预测结果下更少的训练样本,而且相对于人工方法,一般使用深度学习实现的CNN算法使用无监督学习,其也不需要手工提取特征。
CNN算法的过程给我的感觉,个人很像一个“擦玻璃”的过程。其技术主要包括了三个特性:局部感知、权重共享和池化。
CNN中的神经元主要分成了两种: (a)用于特征提取的S元,它们一起组成了卷积层,用于对于图片中的每一个特征首先局部感知。其又包含很关键的阈值参数(控制输出对输入的反映敏感度)和感受野参数(决定了从输入层中提取多大的空间进行输入,可以简单理解为擦玻璃的抹布有多大) (b)抗形变的C元,它们一起组成了池化层,也被称为欠采样或下采样。主要用于特征降维,压缩数据和参数的数量,减小过拟合,同时提高模型的容错性。 (c*)激活函数,及卷积层输出的结果要经过一次激励函数才会映射到池化层中,主要的激活函数有Sigmoid函数、Tanh函数、ReLU、Leaky ReLU、ELU、Maxout等。
也许你会抱有疑问,CNN算法和传统的BP算法等究竟有什么区别呢。这就会引出区域感受野的概念。在前面我们提到,一个全连接中,较高一层的每个神经元要对低层的每一个神经元负责,从而导致了过拟合和维度灾难的问题。但是有了区域感受野和,每个神经元只需要记录一个小区域,而高层会把这些信息综合起来,从而解决了全连接的问题。
了解区域感受野后,你也许会想,区域感受野的底层神经元具体是怎么聚合信息映射到上一层的神经元呢,这就要提到重要的卷积核的概念。这个过程非常像上面曾提到的“神经元与神经元的联系”一图,下面给大家一个很直观的理解。
上面的这个过程就被称为一个卷积核。在实际应用中,单特征不足以被系统学习分类,因此我们往往会使用多个滤波器,每个滤波器对应1个卷积核,也对应了一个不同的特征。比如:我们现在有一个人脸识别应用,我们使用一个卷积核提取出眼睛的特征,然后使用另一个卷积核提取出鼻子的特征,再用一个卷积核提取出嘴巴的特征,最后高层把这些信息聚合起来,就形成了分辨一个人与另一个人不同的判断特征。
现在我们已经有了区域感受野,也已经了解了卷积核的概念。但你会发现在实际应用中还是有问题: 给一个100 100的参数空间,假设我们的感受野大小是10 10,那么一共有squar(1000-10+1)个,即10的六次方个感受野。每个感受野中就有100个参数特征,及时每个感受野只对应一个卷积核,那么空间内也会有10的八次方个次数,,更何况我们常常使用很多个卷积核。巨大的参数要求我们还需要进一步减少权重参数,这就引出了权重共享的概念。 用一句话概括就是,对同一个特征图,每个感受野的卷积核是一样的,如这样操作后上例只需要100个参数。
池化是CNN技术的最后一个特性,其基本思想是: 一块区域有用的图像特征,在另一块相似的区域中很可能仍然有用。即我们通过卷积得到了大量的边缘EDGE数据,但往往相邻的边缘具有相似的特性,就好像我们已经得到了一个强边缘,再拥有大量相似的次边缘特征其实是没有太大增量价值的,因为这样会使得系统里充斥大量冗余信息消耗计算资源。 具体而言,池化层把语义上相似的特征合并起来,通过池化操作减少卷积层输出的特征向量,减少了参数,缓解了过拟合问题。常见的池化操作主要包括3种: 分别是最大值池化(保留了图像的纹理特征)、均值池化(保留了图像的整体特征)和随机值池化。该技术的弊端是容易过快减小数据尺寸,目前趋势是用其他方法代替池化的作用,比如胶囊网络推荐采用动态路由来代替传统池化方法,原因是池化会带来一定程度上表征的位移不变性,传统观点认为这是一个优势,但是胶囊网络的作者Hinton et al.认为图像中位置信息是应该保留的有价值信息,利用特别的聚类评分算法和动态路由的方式可以学习到更高级且灵活的表征,有望冲破目前卷积网络构架的瓶颈。
CNN总体来说是一种结构,其包含了多种网络模型结构,数目繁多的的网络模型结构决定了数据拟合能力和泛化能力的差异。其中的复杂性对用户的技术能力有较高的要求。此外,CNN仍然没有很好的解决过拟合问题和计算速度较慢的问题。
该部分的核心参考文献: 《深度学习在图像识别中的应用研究综述》郑远攀,李广阳,李晔.[J].计算机工程与应用,2019,55(12):20-36. 深度学习技术在计算机图像识别方面的领域应用研究是目前以及可预见的未来的主流趋势,在这里首先对深度学习的基本概念作一简介,其次对深度学习常用的结构模型进行概述说明,主要简述了深度信念网络(DBN)、卷积神经网络(CNN)、循环神经网络(RNN)、生成式对抗网络(GAN)、胶囊网络(CapsNet)以及对各个深度模型的改进模型做一对比分析。
深度学习按照学习架构可分为生成架构、判别架构及混合架构。 其生成架构模型主要包括: 受限波尔兹曼机、自编码器、深层信念网络等。判别架构模型主要包括:深层前馈网络、卷积神经网络等。混合架构模型则是这两种架构的集合。深度学习按数据是否具有标签可分为非监督学习与监督学习。非监督学习方法主要包括:受限玻尔兹曼机、自动编码器、深层信念网络、深层玻尔兹曼机等。 监督学习方法主要包括:深层感知器、深层前馈网络、卷积神经网络、深层堆叠网络、循环神经网络等。大量实验研究表明,监督学习与非监督学习之间无明确的界限,如:深度信念网络在训练过程中既用到监督学习方法又涉及非监督学习方法。
[1]周彬. 多视图视觉检测关键技术及其应用研究[D].浙江大学,2019. [2]郑远攀,李广阳,李晔.深度学习在图像识别中的应用研究综述[J].计算机工程与应用,2019,55(12):20-36. [3]逄淑超. 深度学习在计算机视觉领域的若干关键技术研究[D].吉林大学,2017. [4]段萌. 基于卷积神经网络的图像识别方法研究[D].郑州大学,2017. [5]李彦冬. 基于卷积神经网络的计算机视觉关键技术研究[D].电子科技大学,2017. [6]李卫. 深度学习在图像识别中的研究及应用[D].武汉理工大学,2014. [7]许可. 卷积神经网络在图像识别上的应用的研究[D].浙江大学,2012. [8]CSDN、知乎、机器之心、维基百科
全文链接: Convolutional Neural Networks for Sentence Classification——学术范 2012年在深度学习和卷积神经网络成为图像任务明星之后, 2014年TextCNN诞生于世,成为了CNN在NLP文本分类任务上的经典之作。 TextCNN提出的目的在于,希望将CNN在图像领域中所取得的成就复制于自然语言处理NLP任务中。 TextCNN是一种采用卷积神经网络(CNN)提取文本n-gram特征,最大池化,全连接然后进行分类的一种新型模型。它在当时对文本分类SVM老大的位置提出了挑战,虽然当时TextCNN模型效果没有完全超过SVM,但CNN的热潮使得TextCNN极受追捧,成为NLP文本分类任务的经典模型。 上论文~ 首先论文在摘要部分指出本文报告了一系列关于卷积神经网络(CNN)的实验,这些实验是在预先训练的单词向量的基础上进行的,用于句子级别的分类任务。 近年来,深度学习模型在计算机视觉和语音识别方面取得了显著的成果。在自然语言处理中,深度学习方法的大部分工作都涉及到通过神经语言模型学习单词向量表示,并对学习到的单词向量进行合成进行分类。单词向量,其中单词从一个稀疏的1- V编码(这里的V是词汇量)通过一个隐藏层投影到一个低维向量空间,本质上是一个特征提取器,在其维中编码单词的语义特征。在这种密集表示中,语义上相近的词在低维向量空间中的欧几里得距离或余弦距离也是相近的。卷积神经网络(CNN)利用卷积滤波器应用于局部特征。数据集和实验设置 使用的所有数据集:校正线性单元,过滤窗口(h)为3,4,5,每个有100个特征图,dropout率(p)为约束(s)为3,小批量大小为50。这些值是通过在SST-2开发集上的网格搜索选择的。 用从无监督神经语言模型中获得的词向量初始化是在没有大型监督训练集的情况下提高性能的一种流行方法。文中使用公开可用的word2vec向量,这些向量是从谷歌新闻中训练的1000亿个单词。向量的维数为300,并使用连续的词袋结构进行训练。在预先训练的词集中不存在的词将被随机初始化。 论文用模型的几个变体进行了实验 •CNN-rand:基线模型,其中所有单词都随机初始化,然后在训练期间修改。 •CNN-static:一个带有fromword2vec预训练向量的模型。所有单词(包括随机初始化的未知单词)都保持静态,只学习模型的其他参数。 •CNN-non-static:同上,但预训练向量对每个任务进行了微调。 •CNN-multichannel:一个具有两个词向量集的模型。每个向量集被视为一个“通道”,每个过滤器被应用于两个通道,但梯度只通过一个通道反向传播。因此,该模型能够在保持其他向量不变的情况下对一组向量进行微调。两个通道都用word2vec初始化。表2列出了模型与其他方法的对比结果,基线模型包含所有随机初始化的单词(CNN-rand),但它自己的表现并不好。 即使是一个简单的静态向量模型(CNN-static)也表现得非常好,与更复杂的深度学习模型相比,使用复杂的池化方案(Kalchbrenner et al., 2014)或要求预先计算解析树(Socheret al., 2013),其结果具有竞争力。这些结果表明,预先训练的向量是良好的,“通用的”特征提取器,可以跨数据集使用。对每个任务的预训练向量进行微调,还可以得到进一步的改进(CNN-non-static)。 多通道与单通道模型 我们最初希望多通道体系结构能够防止过拟合(通过确保学习到的向量不会离原始值太远),从而比单通道模型工作得更好,特别是在较小的数据集上。然而,结果是喜忧参半的,进一步规范微调过程的工作是有必要的。例如,在非静态部分,我们可以使用一个单独的通道,但使用允许在训练期间修改的额外维度,而不是使用一个额外的通道。 静态与非静态表示 与单通道非静态模型的情况一样,多通道模型能够对非静态通道进行微调,使其更适合当前的任务。例如,good和bad在word2vec中最相似,大概是因为它们(几乎)在语法上是等价的。但是对于SST-2数据集上经过微调的非静态信道中的向量来说,情况就不一样了(表3)。同样,good在表达情感方面可以说更接近于nice,而不是great,这确实反映在学习到的向量上。对于(随机初始化的)不属于预先训练的向量集合的标记,微调可以让它们学习更有意义的表示:网络学习到感叹号与热情的表达式有关,逗号是连接符(表3)。 结论 在目前的工作中,论文描述了一系列建立在word2vec之上的卷积神经网络实验。尽管很少对超参数进行调整,但带有一层卷积的简单CNN表现得非常好。研究结果进一步证明,无监督词向量的预训练是NLP深度学习的重要组成部分。
人工智能哪一个方向比较好写的话,我觉得应该是说它的应用方面比较好写吧,因为对于专业知识可能不太了解,但是它的使用的话应该比较简单。
工智能论文要抓住现在智能的特点。例如是语音操控还是 是手机操控。现在比较流行懒人模式,都是语音操控的比较多。
©
导语
从感知机模型,到深度神经网络的发明,都受到了生物神经系统的启发。在本周Science的一篇评论文章中,研究者认为,将深度学习与类似人脑的先天结构相结合,能够让神经网络模型更接近人类学习模型。
1950年,数学家艾伦图灵在他的论文开头提出了一个重要的问题:机器能思考吗?就此,人类展开了对人工智能的 探索 。
而目前唯一已知的、能进行复杂计算的系统就是 生物神经系统 ,这也就不奇怪——为什么人工智能领域的科学家们会将大脑神经回路视作灵感的来源。
在人工智能领域发展的早期,科学家就研究过使用类似大脑结构的电路进行智能计算。近些年,这一研究方法诞生的最伟大成果就是一个高度精简的大脑皮层回路模型: 神经网络 。
这个模型受到了大脑神经网络模型的启发。神经网络模型由多层神经元构成,可以通过调节参数权重的大小来调节这些神经元之间连接的强弱,这种结构与神经科学中的突触相对应。
深度神经网络以及相关的方法在人工智能系统的应用中已经带来了深远的变革。在计算机视觉、语音识别以及 游戏 博弈等人工智能的核心领域,神经网络都有着举足轻重的影响力,相较其它模型更甚。在应用领域,语音文本翻译以及计算机视觉这些问题中都广泛应用神经网络方法。
本文我们将会讨论,大脑神经元回路如何为神经网络方法提供新的指引和洞见,使得神经网络能够成为一种强人工智能方法。
从深度学习到强化学习
深度神经网络
深度神经网络的关键问题就是学习问题:如何通过调整神经元之间连接的权重,使得输入的数据能够得到期望的输出,方法是通过对样本的训练自动调整权重。训练样本提供了一套输入数据以及与之所对应的输出数据。深度神经网络通过调整神经元之间的权重,使得输入数据能够产生与期望相对应的输出。
一个好的学习过程,不仅仅是记住了输入样本,同时能够泛化模型,使得模型在遇到没有学习过的样本数据时,也能够得到正确的输出结果。
我们将深度神经网络模型与核磁共振成像以及生物行为数据等实证生理学方法提供的结果相比较,会发现大脑与深度神经网络模型的异同之处。与灵长类生物的视觉系统相比,这两种神经模型的早期神经反应阶段比后期阶段更为接近。这表明我们人造的深度神经网络,能够更好的处理早期神经反应阶段,后期认知过程的处理能力还比较差。
强化学习
除了深度神经网络以外,人工智能模型近期还增添了一员“大将”: 强化学习 ——大脑收到了奖励信号就能够改变行为的机制。强化学习能够表征人或者动物在全世界范围内的行为,并且接收奖励信号。研究者们已经广泛地研究了这种学习模型的大脑反应机制,并且应用到人工智能领域,特别是机器人领域。
强化学习的目标是学习一个最优策略,构建一种从状态到行动的映射,以此来优化所有时间内能获得的收益。近期的人工智能研究中已经将强化学习与深度学习相结合,特别是在诸如视频 游戏 、棋类 游戏 (国际象棋、围棋和日本将棋)等复杂的 游戏 活动中。
深度神经网络和强化学习相结合的模型产生了应为惊讶的结果:人工智能已经击败了国际围棋大师,并且仅需要4小时的训练就能够达到大师级的水平,而且并没有依赖于人类的棋谱,而是通过自我博弈达到这样的结果。
大脑神经回路(左)与深度神经网络(右)
神经网络:人工 VS. 生物
一个悬而未决的问题是:与大脑神经回路相比,当前我们所使用的深度神经网络模型结构极其简单,这样的简化是否能够捕捉到人类学习与认知的全部能力?
从神经科学引领人工智能的视角来看,我们必须承认目前取得的结果令人惊讶。与大脑皮层的神经回路相比,神经网络模型做了许多简化,同时也加入了另外一些受到脑神经科学启发的结构,比如归一化处理以及注意力模型。但是一般来说,我们所熟知的关于神经元的所有东西(结构、类型以及关联性等等特征)都被排除在了神经网络模型之外。
目前科学家们并不清楚,对于神经网络这个人工智能模型而言,哪些生物神经结构是必不可少且能发挥作用的。但是生物神经结构和深度神经网络结构的差异已经非常明显了,比如说生物神经元在形态结构、生理特征以及神经化学方面千差万别且结构复杂。典型的例子有,兴奋性椎体神经元的输入分布在复杂树突的顶部和底部;抑制性皮质神经元具有多种不同的形态,且能执行不同的功能。
神经网络模型不仅没有包含这种异质性以及其它复杂的特征,相反,人工神经网络使用了高度精简且一致统一的数学函数作为神经元。就神经元之间的连接方式而言,生物神经元也比神经网络要复杂许多,同层神经元之间的连接,局部连接与远程连接,以及皮层区不同层级之间自上而下的连接,以及可能存在局部的“规范电路”。
深度神经网络主要的成绩还是在处理现实世界中诸如语音信息和视觉信息等感知数据上。在图像视觉领域,神经网络模型最初是用来处理感知问题,例如对图像进行分割以及分类。
在这些工作的基础上加上一些扩展,我们就能够让神经网络模型处理更加复杂的问题。
例如为图像提供说明文字,利用一段简短的语言描述图片的内容,或者识别图片的内容并回答人类的提问。
非视觉问题,比如理解图片的潜在含义:幽默还是讽刺?或者通过图片理解其中的物理结构以及 社会 现象等。不仅如此,科学家们也在努力让这样的神经网络应用在自动翻译、个人辅助、医疗诊断、高级机器人以及自动驾驶等其它领域。
人们在人工智能领域的研发投入以及资金投入都与日俱增,但这同时也带来了一些的疑难问题——人工智能到底能否带来真实?能否产生和人类类似的理解能力?甚至人工智能是否会和人类智能走向完全不同的方向?这些问题都是未知的,并且人类在该领域的科学研究以及商业实践上都下了重注。
倘若当前的神经网络模型在认知能力方面被证明是有限的,那么自然研究者还需要到神经科学中去寻找启示。目前被人们所忽略的大脑神经中的种种细节是否能为构建强人工智能提供一把钥匙?我们人类大脑中哪些结构是特别重要的,这一点并没有定论。
认知能力取决于
先天结构还是后天学习?
虽然我们人类对自己大脑神经回路的理解还很有限,但我们仍然可以正视一个常见的问题——人脑神经和深度神经网络模型有着根本的不同,这种不同可能在寻找类似人类的强人工智能的道路上起到至关重要的作用。
这涉及到了一个古老的认知问题,是经验主义还是先天主义?换句话说就是:先天的认知结构和一般的学习机制二者的相互作用问题。
婴儿期视觉学习带来的启示
目前的智能模型倾向于经验主义,使用相对简单统一的网络结构,主要依靠学习过程以及大量的训练数据来提高认知能力。相比而言,生物体往往是在经过很有限的训练就能够完成复杂的任务,许多的学习任务是由先天的神经结构来完成的。换句话说,生物的学习是举一反三,而神经网络是举三反一。
比如说许多物种,诸如昆虫、鱼类、鸟类都有着一套复杂且独特的机制来执行导航任务。就人类而言,人类的婴儿出生几个月就能够进行复杂的认知工作,而这时的人类并不能接受具体的训练,相反婴儿能够本能的去识别物体,抓握物体。在视觉上,婴儿能够识别一个动画角色是否友善,这些任务显示出了一个婴儿对这个物理世界以及人类 社会 的初步理解。
大量的研究表明,快速的非监督学习是可行的,因为人类的认知系统中已经先天地具备了基本结构,这些结构有助于人类获得有意义的概念,并且增进认知技能。
与现有的深度神经网络模型相比,人类认知学习和理解能力所具有的优越性很可能是因为人类认知系统中包含着大量的先天结构。通过对婴儿期视觉学习过程的建模,体现出了先天的结构以及后天学习过程的有效结合,并且人们发现那些含义复杂的概念,既不是先天存在的也不是后天学会的。
在这个“中间路线”中,先天概念并不是被开发出来的,而是通过一些简单的原型概念随着人类的学习过程一步一步演化成复杂概念的,这个模式很难说存在明确的学习训练过程。
比如说婴儿能够注意到人的视线以及人的动作之间的关联,当人的视线以及动作朝向相反方向的时候,能够察觉到其中的错误。大脑皮层先天的特定结构能够实现这一功能,并且能对输入的信息输出报错反馈。
“中间路线”助力人工智能
我们也可以把这种先天的结构构建于人工神经网络中,使得人工神经网络的学习过程更加类似于人类。人们可以通过理解并模仿大脑的相关机制来完成这样的一个研究任务,或者从零开始开发一个全新的高效的计算学习方法。
科学家已经在这个方向上做了一些尝试。但总的来说,学习一个先天的结构与当前的学习任务并不相同,在这个问题上人类还是知之甚少。把先天结构与后天学习结合在一起,可能给神经科学和通用人工智能这两个学科都带来好处,并且能将二者结合为智能处理理论。
推荐阅读
人工智能助力神经科学:大脑空间导航方式
Nature 评论:走出实验室的神经科学
Nature人类行为:最大程度发挥神经网络认知潜力
动物如何学习?线虫神经连接组里有答案!
加入集智,一起复杂!
集智俱乐部QQ群|877391004
商务合作及投稿转载|
搜索公众号:集智俱乐部
加入“没有围墙的研究所”
让苹果砸得更猛烈些吧!
随着科学技术的发展,人工神经网络技术得到了空前的发展,并且在诸多领域得到了广泛的应用,为人工智能化的发展提供了强大的动力。以下是我整理分享的人工智能神经网络论文的相关资料,欢迎阅读!
人工神经网络的发展及应用
摘要随着科学技术的发展,人工神经网络技术得到了空前的发展,并且在诸多领域得到了广泛的应用,为人工智能化的发展提供了强大的动力。人工神经网络的发展经历了不同的阶段,是人工智能的重要组成部分,并且在发展过程中形成了自身独特的特点。文章对人工神经网络的发展历程进行回顾,并对其在各个领域的应用情况进行探讨。
关键词人工神经网络;发展;应用
随着科学技术的发展,各个行业和领域都在进行人工智能化的研究工作,已经成为专家学者研究的热点。人工神经网络就是在人工智能基础上发展而来的重要分支,对人工智能的发展具有重要的促进作用。人工神经网络从形成之初发展至今,经历了不同的发展阶段,并且在经济、生物、医学等领域得到了广泛的应用,解决了许多技术上的难题。
1人工神经网络概述
关于人工神经网络,到目前为止还没有一个得到广泛认可的统一定义,综合各专家学者的观点可以将人工神经网络简单的概括为是模仿人脑的结构和功能的计算机信息处理系统[1]。人工神经网络具有自身的发展特性,其具有很强的并行结构以及并行处理的能力,在实时和动态控制时能够起到很好的作用;人工神经网络具有非线性映射的特性,对处理非线性控制的问题时能给予一定的帮助;人工神经网络可以通过训练掌握数据归纳和处理的能力,因此在数学模型等难以处理时对问题进行解决;人工神经网络的适应性和集成性很强,能够适应不同规模的信息处理和大规模集成数据的处理与控制;人工神经网络不但在软件技术上比较成熟,而且近年来在硬件方面也得到了较大发展,提高了人工神经网络系统的信息处理能力。
2人工神经网络的发展历程
萌芽时期
在20世纪40年代,生物学家McCulloch与数学家Pitts共同发表文章,第一次提出了关于神经元的模型M-P模型,这一理论的提出为神经网络模型的研究和开发奠定了基础,在此基础上人工神经网络研究逐渐展开。1951年,心理学家Hebb提出了关于连接权数值强化的法则,为神经网络的学习功能开发进行了铺垫。之后生物学家Eccles通过实验证实了突触的真实分流,为神经网络研究突触的模拟功能提供了真实的模型基础以及生物学的依据[2]。随后,出现了能够模拟行为以及条件反射的处理机和自适应线性网络模型,提高了人工神经网络的速度和精准度。这一系列研究成果的出现为人工神经网络的形成和发展提供了可能。
低谷时期
在人工神经网络形成的初期,人们只是热衷于对它的研究,却对其自身的局限进行了忽视。Minskyh和Papert通过多年对神经网络的研究,在1969年对之前所取得的研究成果提出了质疑,认为当前研究出的神经网络只合适处理比较简单的线性问题,对于非线性问题以及多层网络问题却无法解决。由于他们的质疑,使神经网络的发展进入了低谷时期,但是在这一时期,专家和学者也并没有停止对神经网络的研究,针对他们的质疑也得出一些相应的研究成果。
复兴时期
美国的物理学家Hopfield在1982年提出了新的神经网络模型,并通过实验证明在满足一定的条件时,神经网络是能够达到稳定的状态的。通过他的研究和带动,众多专家学者又重新开始了对人工神经网络方面的研究,推动了神经网络的再一次发展[3]。经过专家学者的不断努力,提出了各种不同的人工神经网络的模型,神经网络理论研究不断深化,新的理论和方法层出不穷,使神经网络的研究和应用进入了一个崭新的时期。
稳步发展时期
随着人工神经网络研究在世界范围内的再次兴起,我国也迎来了相关理论研究的热潮,在人工神经网络和计算机技术方面取得了突破性的进展。到20世纪90年代时,国内对于神经网络领域的研究得到了进一步的完善和发展,而且能够利用神经网络对非线性的系统控制问题进行解决,研究成果显著。随着各类人工神经网络的相关刊物的创建和相关学术会议的召开,我国人工神经网络的研究和应用条件逐步改善,得到了国际的关注。
随着人工神经网络的稳步发展,逐渐建立了光学神经网络系统,利用光学的强大功能,提高了人工神经网络的学习能力和自适应能力。对非线性动态系统的控制问题,采取有效措施,提高超平面的光滑性,对其精度进行改进。之后有专家提出了关于人工神经网络的抽取算法,虽然保证了精度,但也加大了消耗,在一定程度上降低了神经网络的效率,因此在此基础上又提出了改进算法FERNN。混沌神经网络的发展也得到了相应的进步,提高了神经网络的泛化能力。
3人工神经网络的应用
在信息领域中的应用
人工神经网络在信息领域中的应用主要体现在信息处理和模式识别两个方面。由于科技的发展,当代信息处理工作越来越复杂,利用人工神经网络系统可以对人的思维进行模仿甚至是替代,面对问题自动诊断和解决,能够轻松解决许多传统方法无法解决的问题,在军事信息处理中的应用极为广泛[4]。模式识别是对事物表象的各种信息进行整理和分析,对事物进行辨别和解释的一个过程,这样对信息进行处理的过程与人类大脑的思维方式很相像。模式识别的方法可以分为两种,一种是统计模式识别,还有一种是结构模式识别,在语音识别和指纹识别等方面得到了广泛的应用。
在医学领域的应用
人工神经网络对于非线性问题处理十分有效,而人体的构成和疾病形成的原因十分复杂,具有不可预测性,在生物信号的表现形式和变化规律上也很难掌握,信息检测和分析等诸多方面都存在着复杂的非线性联系,所以应用人工神经网络决解这些非线性问题具有特殊意义[5]。目前,在医学领域中的应用涉及到理论和临床的各个方面,最主要的是生物信号的检测和自动分析以及专家系统等方面的应用。
在经济领域中的应用
经济领域中的商品价格、供需关系、风险系数等方面的信息构成也十分复杂且变幻莫测,人工神经网络可以对不完整的信息以及模糊不确定的信息进行简单明了的处理,与传统的经济统计方法相比具有其无法比拟的优势,数据分析的稳定性和可靠性更强。
在其他领域的应用
人工神经网络在控制领域、交通领域、心理学领域等方面都有很广泛的应用,能够对高难度的非线性问题进行处理,对交通运输方面进行集成式的管理,以其高适应性和优秀的模拟性能解决了许多传统方法无法解决的问题,促进了各个领域的快速发展。
4总结
随着科技的发展,人工智能系统将进入更加高级的发展阶段,人工神经网络也将得到更快的发展和更加广泛的应用。人工神经网络也许无法完全对人脑进行取代,但是其特有的非线性信息处理能力解决了许多人工无法解决的问题,在智能系统的各个领域中得到成功应用,今后的发展趋势将向着更加智能和集成的方向发展。
参考文献
[1]徐用懋,冯恩波.人工神经网络的发展及其在控制中的应用[J].化工进展,1993(5):8-12,20.
[2]汤素丽,罗宇锋.人工神经网络技术的发展与应用[J].电脑开发与应用,2009(10):59-61.
[3]李会玲,柴秋燕.人工神经网络与神经网络控制的发展及展望[J].邢台职业技术学院学报,2009(5):44-46.
[4]过效杰,祝彦知.人工神经网络的发展及其在岩土工程领域研究现状[J].河南水利,2004(1):22-23.
[5]崔永华.基于人工神经网络的河流汇流预报模型及应用研究[D].郑州大学,2006.
下一页分享更优秀的<<<人工智能神经网络论文