视觉检测设备论文

之前也是为论文苦恼了半天，网上的范文和能搜到的资料，大都不全面，一般能有个正文就不错了，而且抄袭的东西肯定不行的，关键是没有数据和分析部分，我好不容易搞出来一篇，结果还过不了审。

还好后来找到文方网，直接让专业人士帮忙，效率很高，核心的部分帮我搞定了，也给了很多参考文献资料。哎，专业的事还是要找专业的人来做啊，建议有问题参考下文方网吧

下面是之前文方网王老师发给我的题目，分享给大家：

基于深度学习的无人机地面小目标算法研究

基于视觉的智能汽车面向前方车辆的运动轨迹预测技术研究

模拟射击训练弹着点检测定位技术研究

基于深度卷积神经网络的空中目标识别算法的研究

基于可见光图像的飞行器多目标识别及位置估计

无人驾驶车辆手势指令识别研究与实现

车载毫米波雷达目标检测技术研究

基于多传感融合的四足机器人建图方法

中老年人群跌倒风险评估的数据采集系统

基于深度学习的视觉SLAM闭环检测方法研究

真实图片比较视觉搜索任务的年龄效应及对策研究

室内复杂场景下的视觉SLAM系统构建与研究

基于双目内窥镜的软组织图像三维重建

学习资源画面色彩表征影响学习注意的研究

毫米波雷达与机器视觉双模探测关键技术的研究

语义地图及其关键技术研究

多重影响因素下的语音识别系统研究

基于卷积神经网络的自主空中加油识别测量技术研究

基于视觉语义的深度估计、实例分割与重建

重复视觉危险刺激——本能恐惧反应的“二态型”调控机制研究

低成本视觉下的三维物体识别与位姿估计

面向非规则目标的3D视觉引导抓取方法及系统研究

基于物体识别地理配准的跨视频行人检测定位技术研究

基于结构光的非刚体目标快速三维重建关键技术研究

基于机器视觉的动物交互行为与认知状态分析系统

关于单目视觉实时定位与建图中的优化算法研究

动态场景下无人机SLAM在智慧城市中的关键技术研究

面向视觉SLAM的联合特征匹配和跟踪算法研究

基于深度学习的显著物体检测

基于平面波的三维超声成像方法与灵长类动物脑成像应用研究

基于物体检测和地理匹配的室内融合定位技术研究

基于多模态信息融合的人体动作识别方法研究

基于视觉惯性里程计的SLAM系统研究

基于语义信息的图像/点云配准与三维重建

基于种子点选取的点云分割算法研究

基于深度学习的场景文字检测与识别方法研究

基于运动上下文信息学习的室内视频烟雾预警算法研究

基于深度学习的垃圾分类系统设计与实现

面向手机部件的目标区域检测算法的设计与实现

电路板自动光照检测系统的设计与实现

基于机器视觉的工件识别与定位系统的设计与实现

基于深度学习的物件识别定位系统的设计与实现

基于视觉四旋翼无人机编队系统设计及实现

基于视觉惯导融合的四旋翼自主导航系统设计与实现

面向城市智能汽车的认知地图车道层生成系统

基于深度学习的智能化无人机视觉系统的设计与仿真

基于知识库的视觉问答技术研究

基于深度学习的火灾视频实时智能检测研究

结构化道路车道线检测方法研究

基于机器视觉的带式输送机动态煤量计量研究

基于深度学习的小目标检测算法研究

基于三维激光与视觉信息融合的地点检索算法研究

动态环境下仿人机器人视觉定位与运动规划方法研究

瓷砖铺贴机器人瓷砖空间定位系统研究

城市街景影像中行人车辆检测实现

基于无线信号的身份识别技术研究

基于移动机器人的目标检测方法研究

基于深度学习的机器人三维环境对象感知

基于特征表示的扩展目标跟踪技术研究

基于深度学习的目标检测方法研究

基于深度学习的复杂背景下目标检测与跟踪

动态扩展目标的高精度特征定位跟踪技术研究

掩模缺陷检测仪的图像处理系统设计

复杂场景下相关滤波跟踪算法研究

基于多层级联网络的多光谱图像显著性检测研究

基于深度结构特征表示学习的视觉跟踪研究

基于深度网络的显著目标检测方法研究

基于深度学习的电气设备检测方法研究

复杂交通场景下的视频目标检测

基于多图学习的多模态图像显著性检测算法研究

基于面部视频的非接触式心率检测研究

单幅图像协同显著性检测方法研究

轻量级人脸关键点检测算法研究

基于决策树和最佳特征选择的神经网络钓鱼网站检测研究

基于深度学习的场景文本检测方法研究

RGB-D图像显著及协同显著区域检测算法研究

多模态融合的RGB-D图像显著目标检测研究

基于协同排序模型的RGBT显著性检测研究

基于最小障碍距离的视觉跟踪研究

基于协同图学习的RGB-T图像显著性检测研究

基于图学习与标签传播优化模型的图像协同显著性目标检测

姿态和遮挡鲁棒的人脸关键点检测算法研究

基于多模态和多任务学习的显著目标检测方法研究

基于深度学习的交通场景视觉显著性区域目标检测

基于生物视觉机制的视频显著目标检测算法研究

基于场景结构的视觉显著性计算方法研究

精神分裂症患者初级视觉网络的磁共振研究

基于fMRI与TMS技术研究腹侧视觉通路中结构优势效应的加工

脑机接口游戏神经可塑性研究

基于YOLOV3算法的FL-YOLO多目标检测系统

基于深度与宽度神经网络显著性检测方法研究

基于深度学习的零件识别系统设计与研究

基于对抗神经网络的图像超分辨算法研究

基于深度学习复杂场景下停车管理视觉算法的研究与实现

镍电解状态视觉检测与分析方法研究

跨界训练对提升舞者静态平衡能力的理论与方法研究

施工现场人员类型识别方法的研究与实现

基于深度学习的自然场景文字检测方法研究

基于嵌入式的交通标志识别器的设计

基于视觉感知特性与图像特征的图像质量评价

一文带你畅游视觉关系检测(Visual Relationship Detection)

视觉关系识别/检测任务不仅需要识别出图像中的物体以及他们的位置（detection），还要识别物体之间的关系（relationship）。例子如下图所示，输入为一张图片，输出为objects和bounding boxes，以及objects之间的关系，如。

视觉关系识别是图像理解的基础，可以应用在

挑战：

这篇文章将整理与视觉关系相关的论文，并作简要的介绍。论文列表：

第一篇是比较经典的论文，提出了一个数据集VRD和一个结合语言先验的关系预测模型。

Visual Phrases只有13个类型，Scene Graph 有两万多关系，但是它平均每个对象只有大约2个谓词关系。除了这三个数据集，还有有名的 VIsual Genome 大数据集，包含99658张图片，19237个关系，标注了物体类型，位置，属性和物体间的关系（场景图），还有caption，qa。虽然数据量大了，但是数据集的标注还是会有一些没有被标注的，毕竟组合多。

思考：论文利用了语言先验word embedding，对预测起到了很大的帮助，但是先验知识可能会使得关系预测倾向于频繁的关系，而忽略了视觉方面的信息。一个解决方案是先预训练视觉模型。然而，真正合理的融合先验的方式我觉得不是简单的乘法（先验可能会误导），是一个思考的点。

**Motivation: **这篇论文的启发是来源于知识图谱中，使用转移向量（translation vector）来表示实体之间的关系（见 Trans系列的知识表示）。在视觉关系中，通过将对象的视觉特征映射到低维的关系空间中，然后用对象间的转移向量来表示对象之间的关系，比如person+ride=bike。如下图所示：

所以为了让能够接近，即相似，loss函数为

在实验中，单从在VRD数据集上的predicate预测，与上一篇论文Lu对比是没有提升的（44<47），这是这篇论文中没有说明的，是我从两篇论文的实验数据中发现的。这篇论文在另外两个任务上效果比Lu的好些，我觉得有可能是用了Faster RCNN的缘故。除了这三个任务的实验对比，还加了图像检索，zero-shot关系检测（没有Lu的好），特征重要性分析的实验。实验也表明了关系检测任务对目标检测任务的准确率的提升，不过其实很少。

更多相关的可参考原论文。

思考：论文用TransE来表示关系空间中对象与predicate的关系，如何映射到关系空间，更好的表达对象的联系，甚至predicate间的关系，是值得研究的一个点。（比如结合语言先验等，因为我觉的它的效果其实应该比不上加了语言先验的）

这篇论文跟上一篇论文类似，都是将中的subject和object映射到一个空间中，他们间的关系表示为 .上一篇是基于知识图谱embedding的TransE（NIPS2013，Translating embeddings for modeling multi-relational data），而这一篇是基于TransD（ACL2015，Knowledge graph embedding via dynamic mapping matrix）。这是一个研究的方向，怎么将object，relationship很好的在embedding空间中表示。论文的整个框架如图：

思考：这也是篇关于投射对象和关系到另一空间的论文，不过任务稍有不同，效果也比上一篇好些。同上，embedding也是可研究的一个方向。

这篇论文使用场景图scene graph来建模图片中对象以及它们的关系，任务是生成场景图：

这篇论文的亮点就是利用上下文信息以及消息传递，迭代更新以更好地预测关系。这是一个在场景图层级上的新的预测关系的方式，其消息传递方法等都是可以改进的地方，甚至结合embedding。

这篇论文的主要贡献是使用因式分解的方法来得到信息先验（a factorization scheme that yields highly informative priors），也就是关系的先验分布，即两个object间的predicate分布。这个分布是通过张量分解的方法得到，具体是：（1）张量构建Tensorize ：关系张量 , i, j是对象，k是关系，表示为关系k的矩阵的堆叠，每一个值对象i, j在数据集中有关系k的次数。张量表示可以反映objects间的内在联系，关系分布等。

最后BP训练SG网络，θ设为0.2. 在实验中，论文对比了Lu的Visual Relationship Detection with Language Priors，和Xu的Scene Graph Generation by Iterative Message Passing，都有较好的提升。

思考：这篇论文通过张量分解的方式来得到关系的先验分布，与论文Visual Relationship Detection with Language Priors用到的语言先验有着异曲同工之处，都是用predicate的先验分布来调整网络预测的关系，提升zero shot能力。不过我认为这种直接相乘的调整方式是比较粗糙的，需要更好的方式来融合先验分布与视觉上预测的分布。

这是一篇用场景上下文信息和实体间的关系来改进目标检测的论文，举个被错误检测的例子说明上下文的作用：

这篇论文做的任务不是关系预测，而是利用关系来消歧关系中的相同类的对象，其实是根据关系元组，来定位对象的位置。比如下图中需要确定人踢球是图中的哪个人，在什么位置。

论文首先用attention到对象object/subject，然后用predicate的卷积核来进行注意力的shift，同时object和subject需要结合。

这又是李飞飞团队做的工作（他们团队做了很多relationship相关的工作，语言先验那篇，迭代消息传递那篇等），做的是语句生成图像，利用了场景图表示语句中对象间的关系/联系，一个很有趣的研究，应该是第一个使用场景图的图像生成尝试了。

Sentence一般包含多个对象，以及对象间关系的描述，是比较复杂的，从上图也可以看出，直接从语句到图像效果是很差的。但是当我们把语句解析为场景图，然后再生成图像，可以更好的生成图像表示对象间的关系。具体做法大致是根据场景图做布局预测 (layout prediction) 预测对象的位置，最后结合噪声，用生成网络生成图像。具体细节这里就不啰嗦了，列一下最终效果吧。

可以看出，对象的位置基本位于正确的位置，不过生成的图像质量不是很高，所以还是有很大的改进空间的。

这篇论文是Arxiv上今年7月份的论文，利用图像中的对象间的关系和对象属性，做QA任务。关系挖掘根据图像和问题得到一系列相关的fact——关系，对象属性，然后再attention到需要的fact上，联合视觉特征最后得到最终answer。

思考：这种提取fact的方法为QA提供了高层的语义信息，也符合人的思维方式。相比于我之前调研过的方法（一文带你了解VQA ），可以认为这是知识的补充，之前的方法有的是只有类，属性信息，或者是额外的文本形式的知识，本论文的方法多了关系的检测，且用一个网络来提取高层语义用于QA，相比直接做数据增强更具解释性。不过论文没有用到那个bottom-up attention，这是我觉得可以改进的地方。

至此，有关VIsual Ralationship的相关问题，方法大家应该有个大致的了解和收获。有什么问题和想法欢迎一起交流学习。

图像识别技术论文

随着图像处理技术的迅速发展，图像识别技术的应用领域越来越广泛。我整理了图像识别技术论文，欢迎阅读!

图像识别技术研究综述

摘要：随着图像处理技术的迅速发展，图像识别技术的应用领域越来越广泛。图像识别是利用计算机对图像进行处理、分析和理解，由于图像在成像时受到外部环境的影响，使得图像具有特殊性，复杂性。基于图像处理技术进一步探讨图像识别技术及其应用前景。

关键词：图像处理;图像识别;成像

中图分类号：TP391 文献标识码：A 文章编号：1009-3044(2013)10-2446-02

图像是客观景物在人脑中形成的影像，是人类最重要的信息源，它是通过各种观测系统从客观世界中获得，具有直观性和易理解性。随着计算机技术、多媒体技术、人工智能技术的迅速发展，图像处理技术的应用也越来越广泛，并在科学研究、教育管理、医疗卫生、军事等领域已取得的一定的成绩。图像处理正显著地改变着人们的生活方式和生产手段，比如人们可以借助于图像处理技术欣赏月球的景色、交通管理中的车牌照识别系统、机器人领域中的计算机视觉等，在这些应用中，都离不开图像处理和识别技术。图像处理是指用计算机对图像进行处理，着重强调图像与图像之间进行的交换，主要目标是对图像进行加工以改善图像的视觉效果并为后期的图像识别大基础[1]。图像识别是利用计算机对图像进行处理、分析和理解，以识别各种不同模式的目标和对像的技术。但是由于获取的图像本事具有复杂性和特殊性，使得图像处理和识别技术成为研究热点。

1 图像处理技术

图像处理(image processing)利用计算机对图像进行分析，以达到所需的结果。图像处理可分为模拟图像处理和数字图像图像处理，而图像处理一般指数字图像处理。这种处理大多数是依赖于软件实现的。其目的是去除干扰、噪声，将原始图像编程适于计算机进行特征提取的形式，主要包括图像采样、图像增强、图像复原、图像编码与压缩和图像分割。

1)图像采集，图像采集是数字图像数据提取的主要方式。数字图像主要借助于数字摄像机、扫描仪、数码相机等设备经过采样数字化得到的图像，也包括一些动态图像，并可以将其转为数字图像，和文字、图形、声音一起存储在计算机内，显示在计算机的屏幕上。图像的提取是将一个图像变换为适合计算机处理的形式的第一步。

2)图像增强，图像在成像、采集、传输、复制等过程中图像的质量或多或少会造成一定的退化，数字化后的图像视觉效果不是十分满意。为了突出图像中感兴趣的部分，使图像的主体结构更加明确，必须对图像进行改善，即图像增强。通过图像增强，以减少图像中的图像的噪声，改变原来图像的亮度、色彩分布、对比度等参数。图像增强提高了图像的清晰度、图像的质量，使图像中的物体的轮廓更加清晰，细节更加明显。图像增强不考虑图像降质的原因，增强后的图像更加赏欣悦目，为后期的图像分析和图像理解奠定基础。

3)图像复原，图像复原也称图像恢复，由于在获取图像时环境噪声的影响、运动造成的图像模糊、光线的强弱等原因使得图像模糊，为了提取比较清晰的图像需要对图像进行恢复，图像恢复主要采用滤波方法，从降质的图像恢复原始图。图像复原的另一种特殊技术是图像重建，该技术是从物体横剖面的一组投影数据建立图像。

4)图像编码与压缩，数字图像的显著特点是数据量庞大，需要占用相当大的存储空间。但基于计算机的网络带宽和的大容量存储器无法进行数据图像的处理、存储、传输。为了能快速方便地在网络环境下传输图像或视频，那么必须对图像进行编码和压缩。目前，图像压缩编码已形成国际标准，如比较著名的静态图像压缩标准JPEG，该标准主要针对图像的分辨率、彩色图像和灰度图像，适用于网络传输的数码相片、彩色照片等方面。由于视频可以被看作是一幅幅不同的但有紧密相关的静态图像的时间序列，因此动态视频的单帧图像压缩可以应用静态图像的压缩标准。图像编码压缩技术可以减少图像的冗余数据量和存储器容量、提高图像传输速度、缩短处理时间。

5)图像分割技术，图像分割是把图像分成一些互不重叠而又具有各自特征的子区域，每一区域是像素的一个连续集，这里的特性可以是图像的颜色、形状、灰度和纹理等。图像分割根据目标与背景的先验知识将图像表示为物理上有意义的连通区域的集合。即对图像中的目标、背景进行标记、定位，然后把目标从背景中分离出来。目前，图像分割的方法主要有基于区域特征的分割方法、基于相关匹配的分割方法和基于边界特征的分割方法[2]。由于采集图像时会受到各种条件的影响会是图像变的模糊、噪声干扰，使得图像分割是会遇到困难。在实际的图像中需根据景物条件的不同选择适合的图像分割方法。图像分割为进一步的图像识别、分析和理解奠定了基础。

2 图像识别技术

图像识别是通过存储的信息(记忆中存储的信息)与当前的信息(当时进入感官的信息)进行比较实现对图像的识别[3]。前提是图像描述，描述是用数字或者符号表示图像或景物中各个目标的相关特征，甚至目标之间的关系，最终得到的是目标特征以及它们之间的关系的抽象表达。图像识别技术对图像中个性特征进行提取时，可以采用模板匹配模型。在某些具体的应用中，图像识别除了要给出被识别对象是什么物体外，还需要给出物体所处的位置和姿态以引导计算初工作。目前，图像识别技术已广泛应用于多个领域，如生物医学、卫星遥感、机器人视觉、货物检测、目标跟踪、自主车导航、公安、银行、交通、军事、电子商务和多媒体网络通信等。主要识别技术有：

2.1 指纹识别

指纹识别是生物识别技术中一种最实用、最可靠和价格便宜的识别手段，主要应用于身份验证。指纹识别是生物特征的一个部分，它具有不变性：一个人的指纹是终身不变的;唯一性：几乎没有两个完全相同的指纹[3]。一个指纹识别系统主要由指纹取像、预处理与特征提取、比对、数据库管理组成。目前，指纹识别技术与我们的现实生活紧密相关，如信用卡、医疗卡、考勤卡、储蓄卡、驾驶证、准考证等。

2.2 人脸识别　　目前大多数人脸识别系统使用可见光或红外图像进行人脸识别，可见光图像识别性能很容易受到光照变化的影响。在户外光照条件不均匀的情况下，其正确识别率会大大降低。而红外图像进行人脸识别时可以克服昏暗光照条件变化影响，但由于红外线不能穿透玻璃，如果待识别的对象戴有眼镜，那么在图像识别时，眼部信息全部丢失，将严重影响人脸识别的性能[4]。

2.3 文字识别

文字识别是将模式识别、文字处理、人工智能集与一体的新技术，可以自动地把文字和其他信息分离出来，通过智能识别后输入计算机，用于代替人工的输入。文字识别技术可以将纸质的文档转换为电子文档，如银行票据、文稿、各类公式和符号等自动录入，可以提供文字的处理效率，有助于查询、修改、保存和传播。文字识别方法主要有结构统计模式识别、结构模式识别和人工神经网络[5]。由于文字的数量庞大、结构复杂、字体字形变化多样，使得文字识别技术的研究遇到一定的阻碍。

3 结束语

人类在识别现实世界中的各种事物或复杂的环境是一件轻而易举的事，但对于计算机来讲进行复杂的图像识别是非常困难的[6]。在环境较为简单的情况下，图像识别技术取得了一定的成功，但在复杂的环境下，仍面临着许多问题：如在图像识别过程中的图像分割算法之间的性能优越性比较没有特定的标准，以及算法本身存在一定的局限性，这使得图像识别的最终结果不十分精确等。

参考文献：

[1] 胡爱明，周孝宽.车牌图像的快速匹配识别方法[J].计算机工程与应用，2003，39(7)：90—91.

[2] 胡学龙.数字图像处理[M].北京：电子工业出版社，2011.

[3] 范立南，韩晓微，张广渊.图像处理与模式识别[M].北京：科学出版社，2007.

[4] 晓慧，刘志镜.基于脸部和步态特征融合的身份识别[J].计算机应用，2009，1(29)：8.

[5] 陈良育，曾振柄，张问银.基于图形理解的汉子构型自动分析系统[J].计算机应用，2005，25(7)：1629-1631.

[6] Sanderson C，Paliwal K K.Information Fusion and Person Verification Using Speech & Face Information[C].IDIAP-RR 02-33，Martigny，Swizerland，2002.

点击下页还有更多>>>图像识别技术论文