推荐下计算机视觉这个领域,依据学术范标准评价体系得出的近年来最重要的9篇论文吧:
(对于英语阅读有困难的同学,访问后可以使用翻译功能)
一、Deep Residual Learning for Image Recognition
摘要:Deeper neural networks are more difficult to train. We present a residual learning framework to ease the training of networks that are substantially deeper than those used previously. We explicitly reformulate the layers as learning residual functions with reference to the layer inputs, instead of learning unreferenced functions. We provide comprehensive empirical evidence showing that these residual networks are easier to optimize, and can gain accuracy from considerably increased depth. On the ImageNet dataset we evaluate residual nets with a depth of up to 152 layers—8× deeper than VGG nets [40] but still having lower complexity. An ensemble of these residual nets achieves 3.57% error on the ImageNet test set. This result won the 1st place on the ILSVRC 2015 classification task. We also present analysis on CIFAR-10 with 100 and 1000 layers. The depth of representations is of central importance for many visual recognition tasks. Solely due to our extremely deep representations, we obtain a 28% relative improvement on the COCO object detection dataset. Deep residual nets are foundations of our submissions to ILSVRC & COCO 2015 competitions1, where we also won the 1st places on the tasks of ImageNet detection, ImageNet localization, COCO detection, and COCO segmentation.
全文链接: 文献全文 - 学术范 (xueshufan.com)
二、Very Deep Convolutional Networks for Large-Scale Image Recognition
摘要:In this work we investigate the effect of the convolutional network depth on its accuracy in the large-scale image recognition setting. Our main contribution is a thorough evaluation of networks of increasing depth using an architecture with very small (3x3) convolution filters, which shows that a significant improvement on the prior-art configurations can be achieved by pushing the depth to 16-19 weight layers. These findings were the basis of our ImageNet Challenge 2014 submission, where our team secured the first and the second places in the localisation and classification tracks respectively. We also show that our representations generalise well to other datasets, where they achieve state-of-the-art results. We have made our two best-performing ConvNet models publicly available to facilitate further research on the use of deep visual representations in computer vision.
全文链接: 文献全文 - 学术范 (xueshufan.com)
三、U-Net: Convolutional Networks for Biomedical Image Segmentation
摘要:There is large consent that successful training of deep networks requires many thousand annotated training samples. In this paper, we present a network and training strategy that relies on the strong use of data augmentation to use the available annotated samples more efficiently. The architecture consists of a contracting path to capture context and a symmetric expanding path that enables precise localization. We show that such a network can be trained end-to-end from very few images and outperforms the prior best method (a sliding-window convolutional network) on the ISBI challenge for segmentation of neuronal structures in electron microscopic stacks. Using the same network trained on transmitted light microscopy images (phase contrast and DIC) we won the ISBI cell tracking challenge 2015 in these categories by a large margin. Moreover, the network is fast. Segmentation of a 512x512 image takes less than a second on a recent GPU. The full implementation (based on Caffe) and the trained networks are available at http://lmb.informatik.uni-freiburg.de/people/ronneber/u-net.
全文链接: 文献全文 - 学术范 (xueshufan.com)
四、Microsoft COCO: Common Objects in Context
摘要:We present a new dataset with the goal of advancing the state-of-the-art in object recognition by placing the question of object recognition in the context of the broader question of scene understanding. This is achieved by gathering images of complex everyday scenes containing common objects in their natural context. Objects are labeled using per-instance segmentations to aid in precise object localization. Our dataset contains photos of 91 objects types that would be easily recognizable by a 4 year old. With a total of 2.5 million labeled instances in 328k images, the creation of our dataset drew upon extensive crowd worker involvement via novel user interfaces for category detection, instance spotting and instance segmentation. We present a detailed statistical analysis of the dataset in comparison to PASCAL, ImageNet, and SUN. Finally, we provide baseline performance analysis for bounding box and segmentation detection results using a Deformable Parts Model.
全文链接: 文献全文 - 学术范 (xueshufan.com)
五、Rethinking the Inception Architecture for Computer Vision
摘要:Convolutional networks are at the core of most state of-the-art computer vision solutions for a wide variety of tasks. Since 2014 very deep convolutional networks started to become mainstream, yielding substantial gains in various benchmarks. Although increased model size and computational cost tend to translate to immediate quality gains for most tasks (as long as enough labeled data is provided for training), computational efficiency and low parameter count are still enabling factors for various use cases such as mobile vision and big-data scenarios. Here we are exploring ways to scale up networks in ways that aim at utilizing the added computation as efficiently as possible by suitably factorized convolutions and aggressive regularization. We benchmark our methods on the ILSVRC 2012 classification challenge validation set demonstrate substantial gains over the state of the art: 21:2% top-1 and 5:6% top-5 error for single frame evaluation using a network with a computational cost of 5 billion multiply-adds per inference and with using less than 25 million parameters. With an ensemble of 4 models and multi-crop evaluation, we report 3:5% top-5 error and 17:3% top-1 error on the validation set and 3:6% top-5 error on the official test set.
全文链接: 文献全文 - 学术范 (xueshufan.com)
六、Mask R-CNN
摘要:We present a conceptually simple, flexible, and general framework for object instance segmentation. Our approach efficiently detects objects in an image while simultaneously generating a high-quality segmentation mask for each instance. The method, called Mask R-CNN, extends Faster R-CNN by adding a branch for predicting an object mask in parallel with the existing branch for bounding box recognition. Mask R-CNN is simple to train and adds only a small overhead to Faster R-CNN, running at 5 fps. Moreover, Mask R-CNN is easy to generalize to other tasks, e.g., allowing us to estimate human poses in the same framework. We show top results in all three tracks of the COCO suite of challenges, including instance segmentation, bounding-box object detection, and person keypoint detection. Without tricks, Mask R-CNN outperforms all existing, single-model entries on every task, including the COCO 2016 challenge winners. We hope our simple and effective approach will serve as a solid baseline and help ease future research in instance-level recognition. Code will be made available.
全文链接: 文献全文 - 学术范 (xueshufan.com)
七、Feature Pyramid Networks for Object Detection
摘要:Feature pyramids are a basic component in recognition systems for detecting objects at different scales. But pyramid representations have been avoided in recent object detectors that are based on deep convolutional networks, partially because they are slow to compute and memory intensive. In this paper, we exploit the inherent multi-scale, pyramidal hierarchy of deep convolutional networks to construct feature pyramids with marginal extra cost. A top-down architecture with lateral connections is developed for building high-level semantic feature maps at all scales. This architecture, called a Feature Pyramid Network (FPN), shows significant improvement as a generic feature extractor in several applications. Using a basic Faster R-CNN system, our method achieves state-of-the-art single-model results on the COCO detection benchmark without bells and whistles, surpassing all existing single-model entries including those from the COCO 2016 challenge winners. In addition, our method can run at 5 FPS on a GPU and thus is a practical and accurate solution to multi-scale object detection. Code will be made publicly available.
全文链接: 文献全文 - 学术范 (xueshufan.com)
八、ORB: An efficient alternative to SIFT or SURF
摘要:Feature matching is at the base of many computer vision problems, such as object recognition or structure from motion. Current methods rely on costly descriptors for detection and matching. In this paper, we propose a very fast binary descriptor based on BRIEF, called ORB, which is rotation invariant and resistant to noise. We demonstrate through experiments how ORB is at two orders of magnitude faster than SIFT, while performing as well in many situations. The efficiency is tested on several real-world applications, including object detection and patch-tracking on a smart phone.
全文链接: 文献全文 - 学术范 (xueshufan.com)
九、DeepLab: Semantic Image Segmentation with Deep Convolutional Nets, Atrous Convolution, and Fully Connected CRFs
摘要:In this work we address the task of semantic image segmentation with Deep Learning and make three main contributions that are experimentally shown to have substantial practical merit. First , we highlight convolution with upsampled filters, or ‘atrous convolution’, as a powerful tool in dense prediction tasks. Atrous convolution allows us to explicitly control the resolution at which feature responses are computed within Deep Convolutional Neural Networks. It also allows us to effectively enlarge the field of view of filters to incorporate larger context without increasing the number of parameters or the amount of computation. Second , we propose atrous spatial pyramid pooling (ASPP) to robustly segment objects at multiple scales. ASPP probes an incoming convolutional feature layer with filters at multiple sampling rates and effective fields-of-views, thus capturing objects as well as image context at multiple scales. Third , we improve the localization of object boundaries by combining methods from DCNNs and probabilistic graphical models. The commonly deployed combination of max-pooling and downsampling in DCNNs achieves invariance but has a toll on localization accuracy. We overcome this by combining the responses at the final DCNN layer with a fully connected Conditional Random Field (CRF), which is shown both qualitatively and quantitatively to improve localization performance. Our proposed “DeepLab” system sets the new state-of-art at the PASCAL VOC-2012 semantic image segmentation task, reaching 79.7 percent mIOU in the test set, and advances the results on three other datasets: PASCAL-Context, PASCAL-Person-Part, and Cityscapes. All of our code is made publicly available online.
全文链接: 文献全文 - 学术范 (xueshufan.com)
希望对你有帮助!
目前,公认的计算机视觉三大会议分别为ICCV,ECCV,CVPR。
1、ICCV
ICCV的全称是 IEEE International Conference on Computer Vision,国际计算机视觉大会,是计算机视觉方向的三大顶级会议之一,通常每两年召开一次,2005 年 10 月曾经在北京召开。
会议收录论文的内容包括:底层视觉与感知,颜色、光照与纹理处理,分割与聚合,运动与跟踪,立体视觉与运动结构重构,基于图像的建模,基于物理的建模,视觉中的统计学习,监控,物体、事件和场景的识别,基于视觉的图形学,图片和的获取,性能评估,具体应用等。
ICCV是计算机视觉领域最高级别的会议,会议的论文集代表了计算机视觉领域最新的发展方向和水平。会议的收录率较低,以 2007 年为例,会议共收到论文1200余篇,接受的论文仅为244篇。会议的论文会被 EI 检索。
2、ECCV
ECCV的全称是Europeon Conference on Computer Vision,两年一次,是计算机视觉三大会议(另外两个是ICCV和CVPR)之一。很明显,ECCV是一个欧洲会议,欧洲人一般比较看中理论,但是从最近一次会议来看,似乎大家也开始注重应用了,oral里面的demo非常之多,演示效果很好,让人赏心悦目、叹为观止。不过欧洲的会有一个不好,就是他们的人通常英语口音很重,有些人甚至不太会说英文,所以开会和交流的时候,稍微有些费劲。
3、CVPR
CVPR的全称是Internaltional Conference on Computer Vision and Pattern Recogintion。这是一个一年一次的会议,举办地从来没有出过美国,因此想去美国旅游的同学不要错过。正如它的名字一样,这个会上除了视觉的文章,还会有不少模式识别的文章,当然两方面的结合自然也是重点。
近日,被誉为全球计算机视觉三大顶级会议之一的ECCV 2022(European Conference on Computer Vision)发布了论文录用结果。 本届ECCV论文录用率不足20%, 其中,由云工业软件企业三维家图灵实验室与国内外顶尖高校合作撰写的论文——《通过强化学习解决室内场景相机定位问题(Towards Accurate Active Camera Localization)》成功入选!
01
三维家首次入围国际顶会 技术有望率先在家居场景落地
ECCV每两年举办一次,与CVPR和ICCV并驾齐驱,被称为国际计算机视觉领域三大会议。随着AI人工智能技术的发展,计算机视觉的研究和应用逐渐深入,每届ECCV的举行都会吸引大量来自世界各地的顶尖专家学者、研究机构及企业等投稿。
而今年ECCV 2022的总投稿数超过了8170篇,接近上一届的两倍,创下 历史 新高。其中有1629篇论文中选,录用率不足20%。
此次三维家入选的论文是与山东大学、北京大学、斯坦福大学、腾讯AI lab共同完成,论文中创造性地提出利用强化学习算法解决室内场景相机定位的问题。研究结果表明,该方法优于当前最先进的马尔可夫定位方法,能有效提高在仿真场景中相机定位的精准度。
三维家图灵实验室负责人王胜表示,此次入选对于三维家来说是一次学术上的飞跃。在应用层面,该研究可以深度运用在智能设计领域,三维家旗下3D云设计等产品能加以应用和落地,呈现更真实、更优秀的视觉效果。
“在AI智能设计领域,三维家走到了世界学术最前沿。我们将利用这些最前沿的技术服务我们的用户。”王胜说到。
02
四大技术实验室 锻造三维家科研硬实力
近年来,在加快建设 科技 强国,实现高水平 科技 自立自强的战略方针下,越来越多的中国 科技 企业频频亮相国际学术顶会,让世界看见中国前沿 科技 力量的崛起。其中,三维家正逐渐走向台前,传递国产自研的云工业软件企业的信念与坚持。
创立于2013年,三维家基于人工智能、大数据、云计算等技术,以一张“图纸”贯穿家居全产业链,通过3D云设计、3D云制造、数控系统三大工业软件矩阵,帮助家居企业、从业者实现门店营销、仿真设计、生产制造全流程一体化,为消费者带来“所思即所见、所见即所得”的家居消费体验。
工业软件是一条长期主义的道路,而技术引领需要长期的研发创新。据了解,三维家拥有数百人的技术研发团队,每年投入上亿元研发资金,并设立三大实验室——阿凡达实验室专注于3D渲染技术和XR新锐技术,图灵实验室深研人工智能和大数据应用,鲁班实验室则主攻云工业建模、云工业制造核心技术难题。
定位家居行业云工业软件服务商,三维家深刻认识到要改变传统制造业重硬轻软、长期依赖国外软件的现状,不能只停留在“纸上谈兵”。2020年,三维家与中国科学技术大学数学科学学院共建“先进制造联合实验室”,推动最新产研成果在家居行业落地应用。
合作很快就取得了成效——联合实验室以知名上市企业志邦家居为试验基地,三维家和中国科大算法团队通过深度学习志邦家居的业务流程,以软件技术优化材料算法,通过多订单混合排产使板材利用率提高2%以上,真正实现降本增效。
03
让更多技术人才走向台前 代表国产工业软件发声
为激发产研活力,三维家与国内顶尖院校、专家学者保持着频繁的学术交流。去年11月,包括中国科学技术大学刘利刚教授,浙江大学冯结青教授、蔺宏伟教授等中国顶尖的应用数学、几何建模、计算机图形学领域专家学者走进三维家,与三维家研发团队深度交流,进行元宇宙下的建模技术探讨。
今年,三维家推出“元矩阵” 科技 计划——与中国科学技术大学、华南理工大学、暨南大学等顶尖学府建立更深入的链接,有望在学术交流、“产学研”合作上走得更远;与阿里云、华为云、英伟达NVIDIA等技术伙伴深化合作,让三维家在实时光追渲染、图形建模、虚拟仿真等底层技术上接连突破,构筑起坚不可摧的技术护城河。
三维家创始人、CEO蔡志森曾表示,希望把一直处于幕后的技术研发团队推向台前,向行业、学术圈发出三维家的声音。近年来,三维家技术团队频频在顶级 科技 峰会上“献出首秀”,分享技术成果。去年阿里云栖大会上,三维家3D产品负责人曹健、解决方案架构师、中科院博士周子超等均亮相发表演讲,介绍三维家在企业上云、产业数字化等方面的突破。
而在8月即将举行的QCon全球软件开发大会上,三维家技术研究院基础平台负责人陈江豪将以“webassembly技术背景下工业软件云上实战”的主题进行分享。同时,在计算机辅助设计和图形学领域的“奥斯卡”CAD&CG大会、华为HC全链接大会、英伟达GTC China等峰会上,也将看到三维家的强势发声。
结语:
科技 创新的背后,是企业对前沿技术的 探索 、对商业模式的不断打磨,和对产业场景的落地应用,这需要有长期主义的坚持。三维家正在将论文研究、产学研合作成果、自研技术优势等优先应用在家居产业,让人工智能、大数据、云计算、XR、工业建模等技术能在更多商业场景中落地,为产业发展搭建起一条数字化的“高速路”。
图像分割是图像处理与计算机视觉的基本问题之一,是图像处理图像分析的关键步骤。我整理了图像分割技术论文,欢迎阅读!
图像分割技术研究
摘要:图像分割是图像处理与计算机视觉的基本问题之一,是图像处理图像分析的关键步骤。本文介绍了基于阈值的分割方法和图像分割的图像分割性能的评价、应用现状;最后总结出图像分割的发展趋势。
关键词:图像分割、阈值、边缘检测、区域分割
中图分类号: TN957.52 文献标识码: A
1引言
随着图像分割技术研究的深入,其应用日趋广泛。凡属需要对图像目标进行提取、测量的工作都离不开图像分割。图像分割是图像处理、模式识别和人工智能等多个领域中一个十分重要且又十分困难的问题,是计算机视觉技术中首要的、重要的关键步骤。图像分割结果的好坏直接影响对计算机视觉中的图像理解。现有的方法多是为特定应用设计的,有很大的针对性和局限性,到目前为止还不存在一个通用的方法,也不存在一个判断分割是否成功的客观标准。因此,对图像分割的研究目前还缺乏一个统一的理论体系,使得图像分割的研究仍然是一个极富有挑战性的课题。
2图像分割方法
图像分割(Image Segmentation),简单地说就是将一幅数字图像分割成不同的区域,在同一区域内具有在一定的准则下可认为是相同的性质,如灰度、颜色、纹理等。而任何相邻区域之间其性质具有明显的区别。
2.1基于灰度特征的阈值分割方法
阈值分割技术是经典的、流行的图象分割方法之一,它是用一个或几个阈值将图像的灰度级分为几个部分,认为属于同一个部分的像素是同一个物体。
这类方法主要包括以下几种:
(1)单阈值法,用一个全局阈值区分背景和目标。当一幅图像的直方图具有明显的双峰时,选择两峰之间的谷底作为阈值。
(2)双阈值法,用两个阈值区分背景和目标。通过设置两个阈值,以防单阈值设置阈值过高或过低,把目标像素误归为背景像素,或把背景像素误归为目标像素。
(3)多阈值法,当存在照明不均,突发噪声等因素或背景灰度变化较大时,整幅图像不存在合适的单一阈值,单一阈值不能兼顾图像不同区域的具体情况,这时可将图像分块处理,对每一块设一个阈值。
2.2 边缘检测分割法
基于边缘检测技术可以按照处理的顺序分为并行边缘检测和串行边缘检测两大类。常见的边缘检测方法有:差分法、模板匹配法及统计方法等。由于边缘灰度变化规律一般体现为阶梯状或者脉冲状。边缘与差分值的关系可以归纳为两种情况,其一是边缘发生在差分最大值或者最小值处;其二是边缘发生在过零处。
2.3基于区域的分割方法
基于区域的分割方法利用的是图像的空间性质。该方法认为分割出来的某一区域具有相似的性质。常用的方法有区域生长法和区域分裂合并法。该类方法对含有复杂场景或自然景物等先验知识不足的图像进行分割,效果较好。
区域生长方法是把一幅图像分成许多小区域开始的,这些初始的小区域可能是小的邻域甚至是单个像素,在每个区域中,通过计算能反映一个物体内像素一致性的特征,作为区域合并的判断标准。区域合并的第一步是赋给每个区域一组参数,即特征。接下来对相邻区域的所有边界进行考查,如果给定边界两侧的特征值差异明显,那么这个边界很强,反之则弱。强边界允许继续存在,而弱边界被消除,相邻区域被合并。没有可以消除的弱边界时,区域合并过程结束,图像分割也就完成。
2.4结合特定工具的图像分割技术
20世纪80年代末以来,随着一些特殊理论的出现及其成熟,如数学形态学、分形理论、模糊数学、小波分析、模式识别、遗传算法等,大量学者致力于将新的概念、新的方法用于图像分割,有效地改善了分割效果。产生了不少新的分割算法。下面对这些算法做一些简单的概括。
2.4.1基于数学形态学的分割算法
分水岭算法是一种经典的借鉴了数学形态理论的分割方法。该方法中,将一幅图像比为一个具有不同高度值的地形,高灰度值处被认为是山脊,底灰度值处被认为是山谷,将一滴水从任一点流下,它会朝地势底的地方流动,最终聚于某一局部最底点,最后所有的水滴会分聚在不同的吸引盆地,由此,相应的图像就被分割成若干部分。分水岭算法具有运算简单、性能优良,能够较好提取运动对象轮廓、准确得到运动物体边缘的优点。但分割时需要梯度信息,对噪声较敏感。
2.4.2基于模糊数学的分割算法
目前,模糊技术在图像分割中应用的一个显著特点就是它能和现有的许多图像分割方法相结合,形成一系列的集成模糊分割技术,例如模糊聚类、模糊阈值、模糊边缘检测技术等。
这类方法主要有广义模糊算子与模糊阈值法两种分割算法。
(1)广义模糊算子在广义模糊集合的范围内对图像处理,使真正的边缘处于较低灰度级,但还有一些不是边缘的像素点的灰度也在较低灰度级中,虽然算法的计算简明,且边缘细腻,但得到的边缘图会出现断线问题。
(2)模糊阈值法引入灰度图像的模糊数学描述,通过计算图像的模糊熵来选取图像的分割阈值,后用阈值法处理图像得到边界。
2.4.3基于遗传算法的分割方法
此算法是受生物进化论思想提出的一种优化问题的解决方法,它使用参数编码集而不是参数本身,通过模拟进化,以适者生存的策略搜索函数的解空间,它是在点群中而不是在单点进行寻优。遗传算法在求解过程中使用随机转换规则而不是确定性规则来工作,它唯一需要的信息是适应值,通过对群体进行简单的复制、杂交、变异作用完成搜索过程。由于此法能进行能量函数全局最小优化搜索,且可以降低搜索空间维数,降低算法对模板初始位置的敏感,计算时间也大为减少。其缺点是容易收敛于局部最优。
2.4.4基于神经网络分割算法
人工神经网络具有自组织、自学习、自适应的性能和非常强的非线性映射能力,适合解决背景知识不清楚、推理规则不明确和比较复杂的分类问题,因而也适合解决比较复杂的图像分割问题。原则上讲,大部分分割方法都可用 ANN(attificial neural network)实现。ANN 用于分割的研究起步较晚,只有多层前馈NN,多层误差反传(BP)NN,自组织NN,Hopfield NN以及满足约束的NN(CSNN-Const raint Satisfaction Neurat Network)等得到了应用。使用一个多层前向神经网络用于图象分割,输入层神经元的数目取决于输入特征数,而输出层神经元的数目等同于分类的数目。
2.5图像分割中的其他方法
前面介绍了4大类图像分割较常用的方法,有关图像分割方法和文献很多,新方法不断产生,这些方法有的只对特定的情形有效,有的综合了几种方法,放在一起统称为第5类。
(1)标号法(labeling)是一种基于统计学的方法,这种方法将图像欲分割成的几个区域各以一个不同的标号来表示,用一定的方式对图像中的每一个像素赋以标号,标号相同的像素就合并成该标号所代表的区域。
(2)基于Snak模型的分割方法,基于Snake模型的分割是通过对能量函数的动态优化来逼近图像目标的真实轮廓的
(3)纹理分割,由于新的数学工具的引入,纹理分割技术取得了一些进展,张蓬等人将小波分析应用于纹理基元提取。
(4)基于知识的图像分割方法,直接建立在先验知识的基础上,使分割更符合实际图像的特点。该方法的难度在于知识的正确合理的表示与利用。
3图像分割性能的评价
图像分割评价主要有两个方面的内容:一是研究各分割算法在不同情况下的表现,掌握如何选择和控制其参数设置,以适应不同需要。二是分析多个分割算法在分割同一图像时的性能,比较优劣,以便在实际应用中选取合适的算法。分割评价方法分为分析法和实验法两大类。分析法是直接分析分割算法本身的原理及性能,而实验法是通过对测试图像的分割结果来评价算法的。两种方法各有优劣,由于缺乏可靠理论依据,并非所有分割算法都能够通过分析法分析其性能。每种评价方法都是出于某种考虑而提出来的,不同的评价方法只能反映分割算法性能的某一性能。另一方面,每一种分割算法的性能是由多种因素决定的,因此,有可能需要多种准则来综合评价。
4图像分割技术的发展趋势
随着神经网络、遗传算法、统计学理论、小波理论以及分形理论等在图像分割中的广泛应用,图像分割技术呈现出以下的发展趋势:(1)多种特征的融合。(2)多种分割方法的结合。(3)新理论与新方法。
参考文献
[1] [美]RC冈萨雷斯.数字图像处理(第二版)[M].阮秋琦,等译.北京:电子工业出版社,2003
[2] 章毓晋.图像分割[M].北京:科学出版社,2001.
[3] 李弼程,彭天强,彭波等.智能图像处理技术[M].北京:电子工业出版社,2004.
[4] 杨晖,曲秀杰.图像分割方法综述[J].电脑开发与应用。2005,18(3):21-23.
点击下页还有更多>>>图像分割技术论文