之前也是为论文苦恼了半天,网上的范文和能搜到的资料,大都不全面,一般能有个正文就不错了,而且抄袭的东西肯定不行的,关键是没有数据和分析部分,我好不容易搞出来一篇,结果还过不了审。
还好后来找到文方网,直接让专业人士帮忙,效率很高,核心的部分帮我搞定了,也给了很多参考文献资料。哎,专业的事还是要找专业的人来做啊,建议有问题参考下文方网吧
下面是之前文方网王老师发给我的题目,分享给大家:
基于深度学习的无人机地面小目标算法研究
基于视觉的智能汽车面向前方车辆的运动轨迹预测技术研究
模拟射击训练弹着点检测定位技术研究
基于深度卷积神经网络的空中目标识别算法的研究
基于可见光图像的飞行器多目标识别及位置估计
无人驾驶车辆手势指令识别研究与实现
车载毫米波雷达目标检测技术研究
基于多传感融合的四足机器人建图方法
中老年人群跌倒风险评估的数据采集系统
基于深度学习的视觉SLAM闭环检测方法研究
真实图片比较视觉搜索任务的年龄效应及对策研究
室内复杂场景下的视觉SLAM系统构建与研究
基于双目内窥镜的软组织图像三维重建
学习资源画面色彩表征影响学习注意的研究
毫米波雷达与机器视觉双模探测关键技术的研究
语义地图及其关键技术研究
多重影响因素下的语音识别系统研究
基于卷积神经网络的自主空中加油识别测量技术研究
基于视觉语义的深度估计、实例分割与重建
重复视觉危险刺激——本能恐惧反应的“二态型”调控机制研究
低成本视觉下的三维物体识别与位姿估计
面向非规则目标的3D视觉引导抓取方法及系统研究
基于物体识别地理配准的跨视频行人检测定位技术研究
基于结构光的非刚体目标快速三维重建关键技术研究
基于机器视觉的动物交互行为与认知状态分析系统
关于单目视觉实时定位与建图中的优化算法研究
动态场景下无人机SLAM在智慧城市中的关键技术研究
面向视觉SLAM的联合特征匹配和跟踪算法研究
基于深度学习的显著物体检测
基于平面波的三维超声成像方法与灵长类动物脑成像应用研究
基于物体检测和地理匹配的室内融合定位技术研究
基于多模态信息融合的人体动作识别方法研究
基于视觉惯性里程计的SLAM系统研究
基于语义信息的图像/点云配准与三维重建
基于种子点选取的点云分割算法研究
基于深度学习的场景文字检测与识别方法研究
基于运动上下文信息学习的室内视频烟雾预警算法研究
基于深度学习的垃圾分类系统设计与实现
面向手机部件的目标区域检测算法的设计与实现
电路板自动光照检测系统的设计与实现
基于机器视觉的工件识别与定位系统的设计与实现
基于深度学习的物件识别定位系统的设计与实现
基于视觉四旋翼无人机编队系统设计及实现
基于视觉惯导融合的四旋翼自主导航系统设计与实现
面向城市智能汽车的认知地图车道层生成系统
基于深度学习的智能化无人机视觉系统的设计与仿真
基于知识库的视觉问答技术研究
基于深度学习的火灾视频实时智能检测研究
结构化道路车道线检测方法研究
基于机器视觉的带式输送机动态煤量计量研究
基于深度学习的小目标检测算法研究
基于三维激光与视觉信息融合的地点检索算法研究
动态环境下仿人机器人视觉定位与运动规划方法研究
瓷砖铺贴机器人瓷砖空间定位系统研究
城市街景影像中行人车辆检测实现
基于无线信号的身份识别技术研究
基于移动机器人的目标检测方法研究
基于深度学习的机器人三维环境对象感知
基于特征表示的扩展目标跟踪技术研究
基于深度学习的目标检测方法研究
基于深度学习的复杂背景下目标检测与跟踪
动态扩展目标的高精度特征定位跟踪技术研究
掩模缺陷检测仪的图像处理系统设计
复杂场景下相关滤波跟踪算法研究
基于多层级联网络的多光谱图像显著性检测研究
基于深度结构特征表示学习的视觉跟踪研究
基于深度网络的显著目标检测方法研究
基于深度学习的电气设备检测方法研究
复杂交通场景下的视频目标检测
基于多图学习的多模态图像显著性检测算法研究
基于面部视频的非接触式心率检测研究
单幅图像协同显著性检测方法研究
轻量级人脸关键点检测算法研究
基于决策树和最佳特征选择的神经网络钓鱼网站检测研究
基于深度学习的场景文本检测方法研究
RGB-D图像显著及协同显著区域检测算法研究
多模态融合的RGB-D图像显著目标检测研究
基于协同排序模型的RGBT显著性检测研究
基于最小障碍距离的视觉跟踪研究
基于协同图学习的RGB-T图像显著性检测研究
基于图学习与标签传播优化模型的图像协同显著性目标检测
姿态和遮挡鲁棒的人脸关键点检测算法研究
基于多模态和多任务学习的显著目标检测方法研究
基于深度学习的交通场景视觉显著性区域目标检测
基于生物视觉机制的视频显著目标检测算法研究
基于场景结构的视觉显著性计算方法研究
精神分裂症患者初级视觉网络的磁共振研究
基于fMRI与TMS技术研究腹侧视觉通路中结构优势效应的加工
脑机接口游戏神经可塑性研究
基于YOLOV3算法的FL-YOLO多目标检测系统
基于深度与宽度神经网络显著性检测方法研究
基于深度学习的零件识别系统设计与研究
基于对抗神经网络的图像超分辨算法研究
基于深度学习复杂场景下停车管理视觉算法的研究与实现
镍电解状态视觉检测与分析方法研究
跨界训练对提升舞者静态平衡能力的理论与方法研究
施工现场人员类型识别方法的研究与实现
基于深度学习的自然场景文字检测方法研究
基于嵌入式的交通标志识别器的设计
基于视觉感知特性与图像特征的图像质量评价
vr技术2000字论文篇二
【摘 要】VR技术是现今计算机技术领域中一项包含多种学科的一门综合科学技术,该技术已经被应用在现实中许多的领域中。
【关键词】VR技术;虚拟现实技术
1.虚拟现实技术的概念
VR技术就是虚拟现实技术,它是一种能够让现实中的人在计算机所创造的虚拟信息世界中体验与现实世界同样的事和物。它所具有多感知性、沉浸性、交互性和构想性的基本特征。这种虚拟技术集合了计算机图形图像技术、现实仿真技术、多媒体技术等等的多种科学技术。它能够模拟出人的视觉,听觉,触觉等的感官功能。使人在计算机所创造的虚拟世界中通过语言、动作等等的方式进行实时交流,可以说这种技术的发展前景是非常的广阔的。
2.虚拟现实技术的特征介绍
①多感知性的特征,是指视、力、触、运动、味、嗅等感知系统,从人类理想的虚拟现实技术的发展来说,是希望能够给完全的模拟出现实中所有的感知,但因目前的技术掌握和传感技术的限制,仅仅只能模拟出以上视、力、触、运动、味、嗅等感知系统的。
②沉浸性又称浸没感或临场感,存在感等,具体是指人以第一人称存在在虚拟世界中的真实体验。当然,以目前技术还没有达到最理想的程度。
③交互性就是指人在虚拟世界中,能够像在现实当中一样,可以通过对一些物体的抓取、使用等动作,感觉到所触碰的物体的重量,形状,色泽等一些人与物体之间的互动信息。
④构想性,即在虚拟的世界里面,将所想的物件所做的事情在虚拟世界呈现出来,这样做能达到什么样的效果,那样做又能达到什么样的效果,甚至还可以把在现实世界不可能存在的事和物都可以在虚拟世界中构想出来。
3. VR技术的应用范围
VR技术由诞生到现今已经历了几个年代,其应用范围也越来越广,如医学方面,可以提供给医生进行模拟手术,这样大大提供了现实中手术的成功几率,还有军事,科技,商业,建筑,娱乐,生活等等。
4. VR技术中涉及的相关技术
①立体视觉现实技术:人通过视觉所获取到的信息是人本身所有感觉中最多的一种感官,所以虚拟现实技术中立体显示技术占有不可或缺的重要地位。
②环境构建技术:在虚拟世界中,构件环境是一个重要的环节,要营造一个区域的环境,首先就要创造环境或建筑模块,然后在这个基础上再进行实时描绘、立体显示,从而形成一个虚拟的区域环境。
③真实感实时描绘技术:要在虚拟世界中实现与现实世界相同的事物,仅靠立体显示技术还是远远不够的,虚拟世界中必须存在真实感和实时感,简单来说就是实现一个物体的重量,质量,色泽,相对位置,遮挡关系等的技术。
④虚拟世界声音的实现技术:在虚拟世界中虽然视觉是获取信息的重要途径之一,除了视觉还有很多感官系统可以获取到周围的信息。如听觉,这种技术就是在虚拟世界中实现声音,这样人在虚拟世界里不仅能够看得到也能听得到。
5. VR技术中所涉及的硬件设备
①输入设备
与虚拟现实技术相关的硬件输入设备分成两大类:一是基于自然的交互设备,用于虚拟世界的信息输入;另一种是三维定位跟踪设备,主要用于输入设备在虚拟世界中的位置进行判定,并输送到虚拟世界当中。
虚拟世界与人实现自然交互的形式有很多,例如有数据手套,数据衣服,三维控制器,三维扫描仪等。
数据手套是一种多模式的虚拟现实硬件,通过软件编程,可进行虚拟场景中物体的抓取、移动、旋转等动作,也可以利用它的多模式性,用作一种控制场景漫游的工具。数据手套的出现,为虚拟现实系统提供了一种全新的交互手段,目前的产品已经能够检测手指的弯曲,并利用磁定位传感器来精确地定位出手在三维空间中的位置。这种结合手指弯曲度测试和空间定位测试的数据手套被称为“真实手套”,可以为用户提供一种非常真实自然的三维交互手段。
数据衣是为了让VR系统识别全身运动而设计的输入装置。数据衣对人体大约50多个不同的关节进行测量,包括膝盖、手臂、躯干和脚。通过光电转换,身体的运动信息被计算机识别。通过BOOM 显示器 和数据手套与虚拟现实交互数据衣。
②输出设备
人在虚拟世界中要体现沉浸的感觉,就必须实现现实世界中的多种感受,如是视、听、触、力、嗅、味等感官感觉,只不过以目前的虚拟技术只实现了视觉,听觉和触觉罢了。
③VR构成设备
虚拟现实世界的构成,主要的设备就是计算机本身了,虚拟世界的所有景象都是靠一个个模型造成的,而这些模型则是由计算机制作出来的。一般计算机被划分成四个部分,第一:高配置的个人计算机,专门用于普通的图形配置加速卡,实现于VR技术中的桌面式特征;第二:高性能图形工作站,就是一台高配置的图形处理计算机;第三:高度并行系统计算机;第四:分布式虚拟实现计算机等四个分类。
6. VR技术上的难点探讨
随着计算机的不断发展,人与计算机的互动性得到了非常好的提现。而这种技术则成为了VR技术建立的主要手段。但是实时现实始终一直阻挡这VR技术前进的一大难点之一,即时在理论上能够分析得到高度逼真、实时漫游的虚拟世界,但至少以目前的状况来说还达不到理论上的要求。这种理论性的技术是需要强大的硬件配置要求支撑的,比如说速度极快的图形工作计算机和三维图形加速卡等等设备,但以目前的设备来看即时最快的图形处理计算机也不能达到十分逼真的同事又是实时互动的虚拟世界。根本的原因就在于,因为引入了人与虚拟世界的互动,需要即时生成新的动态模型时,就不能达到实时的效果了,所以就不得不降低图形模块的清晰度来减少处理的时间,这样直接导致了虚拟世界的逼真在某程度上的减少,这就是所谓的景物复杂度的问题了。
图形模块的生成是虚拟世界中的重要瓶颈,虚拟世界的重要特性随着人的位置、方向的不断变更状态下感受虚拟世界的动态特性,简单来说,就是你移动一下位置和方向后所看到的即时生成的图形模块景象。有两种指标可以衡量用户沉浸在虚拟世界中的效果和程度。其一就是之前所说的动态特性;其二就是互动的延迟特性。自然动态图形的形成的帧数是30帧,至少也不能低于10帧,否则整体画面就会出现严重的不连续和调动的感觉。互动延迟是影响用户的另一个重要指标,如人在飞机上飞行时,位置的变换和方向的控制,这时系统应当即时产生相对的图形画面,期间的时间延迟应不大于0.1秒,最多也不能大于1/4秒。否则在长期的工作中,人会容易产生疲劳、烦躁或者恶心的感觉,严重地影响了“真实”的感觉。以上两种指标都以来计算机图形处理的速度。对于动态的模块图形生成而言,每帧的图形生成时间在30~50毫秒之间为较好;而对于互动性的延迟,除互动式输入及其处理时间外,其图形的生成速度也是重要的因素。而以上所叙述的因素都与图形处理的硬件组成有直接的相互关系,除此之外还有赖于应用技术的因素,如虚拟场景的复杂程度和图形模块生成所需的真实感等等。 7. VR技术在各国的研究情况
①VR技术在美国的研究现状
美国是虚拟现实技术研究的发源地,虚拟现实技术的诞生可以追溯到上世纪40年代。最初研究的虚拟现实技术只是用于美国军方对飞行驾驶员和宇航员的模拟训练。然而,随着冷战结束后美国军费大大的削减,虚拟现实技术就逐渐转为民用,目前美国在该领域的基础研究主要集中在感知、用户界面、后台软件和硬件四个方面。
上个世纪80年代,美国宇航局及美国国防部组织了一系列有关虚拟现实技术的研究,并取得了令人瞩目的研究成果,美国宇航局Ames实验室致力于一个叫“虚拟行星探索”的实验计划。现在美国宇航局已经建立了航空、卫星维护的模拟训练系统,空间站的模拟训练系统,并且已经建立了可供全国使用的模拟 教育 系统。北卡罗来纳大学的计算机专业就是进行虚拟显示技术研究最早最著名的大学。他们主要研究分子建模、航空驾驶、外科手术仿真、建筑仿真等。乔治梅森大学研制出一套在动态虚拟环境中的流体实时仿真系统。施乐公司研究中心在模拟现实技术领域中主要从事利用VRT建立未来办公室的研究,并努力设计一项基于模拟现实技术使得数据存取更容易的窗口系统。波音公司的波音777运输机采用全无纸化设计,利用所开发的虚拟现实系统将虚拟环境叠加于真实环境之上,把虚拟的模板显示在正在加工的工件上,工人根据此模板控制待加工尺寸,从而简化加工过程。
图形图像处理技术和传感器技术是以上VR项目的主要技术。就目前看,空间的动态性和时间的实时性是这项技术的最主要焦点。
②VR技术在欧洲的研究现状
在欧洲,英国在VR开发的某些方面,特别是在分布并行处理、辅助设备(包括触觉反馈)设计和应用研究方面。在欧洲来说是领先的。英国Bristol公司发现,VR应用的交点应集中在整体综合技术上,他们在软件和硬件的某些领域处于领先地位。英国ARRL公司关于远地呈现的研究实验,主要包括VR重构问题。他们的产品还包括建筑和科学可视化计算。
欧洲其它一些较发达的国家如:荷兰、德国、瑞典等也积极进行了VR的研究与应用。
瑞典的DIVE分布式虚拟交互环境,是一个基于Unix的,不同节点上的多个进程可以在同一世界中工作的异质分布式系统。
荷兰海牙TNO研究所的物理电子实验室(TNO- PEL)开发的训练和模拟系统,通过改进人机界面来改善现有模拟系统,以使用户完全介入模拟环境。
德国在VR的应用方面取得了出乎意料的成果。在改造传统产业方面,一是用于产品设计、降低成本,避免新产品开发的风险;二是产品演示,吸引客户争取定单;三是用于培训,在新生产设备投入使用前用虚拟工厂来提高工人的操作水平。2008年10月27-29日在法国举行的ACM Symposi- um on Virtual Reality Software and Technoogy大会,整体上促进了虚拟现实技术的深入发展。
③VR技术在日本的研究现状
日本的虚拟现实技术的发展在世界相关领域的研究中同样具有举足轻重的地位,它在建立大规模VR知识库和虚拟现实的游戏方面作出了很大的成就。
在东京技术学院精密和智能实验室研究了一个用于建立三维模型的人性化界面,称为SpmAR NEC公司开发了一种虚拟现实系统,用代用手来处理CAD中的三维形体模型。通过数据手套把对模型的处理与操作者的手联系起来;日本国际工业和商业部产品科学研究院开发了一种采用x、Y记录器的受力反馈装置;东京大学的高级科学研究中心的研究重点主要集中在远程控制方面,他们最近的研究项目是可以使用户控制远程摄像系统和一个模拟人手的随动机械人手臂的主从系统;东京大学广濑研究室重点研究虚拟现实的可视化问题。他们正在开发一种虚拟全息系统,用于克服当前显示和交互作用技术的局限性;日本奈良尖端技术研究生院大学教授千原国宏领导的研究小组于2004年开发出一种嗅觉模拟器,只要把虚拟空间里的水果放到鼻尖上一闻,装置就会在鼻尖处放出水果的香味,这是虚拟现实技术在嗅觉研究领域的一项突破。
④国内虚拟现实技术研究现状
在我国虚拟现实技术的研究和一些发达国家相比还有很大的一段距离,随着计算机图形学、计算机系统工程等技术的高速发展,虚拟现实技术已经得到了相当的重视,引起我国各界人士的兴趣和关注,研究与应用VR,建立虚拟环境、虚拟场景模型分布式VR系统的开发正朝着深度和广度发展。国家科委国防科工委部已将虚拟现实技术的研究列为重点攻关项目,国内许多研究机构和高校也都在进行虚拟现实的研究和应用并取得了一些不错的研究成果。
北京航空航天大学计算机系也是国内最早进行VR研究、最有权威的单位之一,其虚拟实现与可视化新技术研究室集成了分布式虚拟环境,可以提供实时三维动态数据库、虚拟现实演示环境、用于飞行员训练的虚拟现实系统、虚拟现实应用系统的开发平台等,并在以下方面取得进展:着重研究了虚拟环境中物体物理特性的表示与处理;在虚拟现实中的视觉接口方面开发出部分硬件,并提出有关算法及实现方法。
清华大学国家光盘工程研究中心所作的“布达拉宫”,采用了QuickTime技术,实现大全景VR制;浙江大学CAD&CG国家重点实验室开发了一套桌面型虚拟建筑环境实时漫游系统;哈尔滨工业大学计算机系已经成功地合成了人的高级行为中的特定人脸图像,解决了表情的合成和唇动合成技术问题,并正在研究人说话时手势和头势的动作、语音和语调的同步等。
8.学习小结和心得
虚拟现实技术是一个极具潜力的研究项目,是未来的重要技术之一。它不论在理论,软件或者硬件的领域上都依赖着很多技术,当然其中也有较多的技术只实现了理论,硬件方面还是有待完善的。不过可以遇见,在未来虚拟现实技术绝对会被广泛应用。
本论文讲述了虚拟现实技术的概念,特征,应用范围,相关的技术,涉及的设备,技术上实现的难点,各国的研究现状等。最重要的就是,我们通过对这门技术项目的学习,了解到计算机更加多方面的知识,亦同时得知了更加多与计算机之间的硬件设备知识,让我们对虚拟现实技术产生了浓厚的兴趣,日后我们会继续留意虚拟现实技术的发展状况,如有机会定必会该项技术奉献绵薄之力。
猜你喜欢:
1. 科技哲学结课论文3000字
2. 触控技术论文
3. 全息投影技术论文
4. 3d打印技术论文3000字
5. 人工智能应用技术论文
6. 网络新技术论文
随着图像处理技术的迅速发展,图像识别技术的应用领域越来越广泛。我整理了图像识别技术论文,欢迎阅读!
图像识别技术研究综述
摘要:随着图像处理技术的迅速发展,图像识别技术的应用领域越来越广泛。图像识别是利用计算机对图像进行处理、分析和理解,由于图像在成像时受到外部环境的影响,使得图像具有特殊性,复杂性。基于图像处理技术进一步探讨图像识别技术及其应用前景。
关键词:图像处理;图像识别;成像
中图分类号:TP391 文献标识码:A 文章编号:1009-3044(2013)10-2446-02
图像是客观景物在人脑中形成的影像,是人类最重要的信息源,它是通过各种观测系统从客观世界中获得,具有直观性和易理解性。随着计算机技术、多媒体技术、人工智能技术的迅速发展,图像处理技术的应用也越来越广泛,并在科学研究、教育管理、医疗卫生、军事等领域已取得的一定的成绩。图像处理正显著地改变着人们的生活方式和生产手段,比如人们可以借助于图像处理技术欣赏月球的景色、交通管理中的车牌照识别系统、机器人领域中的计算机视觉等,在这些应用中,都离不开图像处理和识别技术。图像处理是指用计算机对图像进行处理,着重强调图像与图像之间进行的交换,主要目标是对图像进行加工以改善图像的视觉效果并为后期的图像识别大基础[1]。图像识别是利用计算机对图像进行处理、分析和理解,以识别各种不同模式的目标和对像的技术。但是由于获取的图像本事具有复杂性和特殊性,使得图像处理和识别技术成为研究热点。
1 图像处理技术
图像处理(image processing)利用计算机对图像进行分析,以达到所需的结果。图像处理可分为模拟图像处理和数字图像图像处理,而图像处理一般指数字图像处理。这种处理大多数是依赖于软件实现的。其目的是去除干扰、噪声,将原始图像编程适于计算机进行特征提取的形式,主要包括图像采样、图像增强、图像复原、图像编码与压缩和图像分割。
1)图像采集,图像采集是数字图像数据提取的主要方式。数字图像主要借助于数字摄像机、扫描仪、数码相机等设备经过采样数字化得到的图像,也包括一些动态图像,并可以将其转为数字图像,和文字、图形、声音一起存储在计算机内,显示在计算机的屏幕上。图像的提取是将一个图像变换为适合计算机处理的形式的第一步。
2)图像增强,图像在成像、采集、传输、复制等过程中图像的质量或多或少会造成一定的退化,数字化后的图像视觉效果不是十分满意。为了突出图像中感兴趣的部分,使图像的主体结构更加明确,必须对图像进行改善,即图像增强。通过图像增强,以减少图像中的图像的噪声,改变原来图像的亮度、色彩分布、对比度等参数。图像增强提高了图像的清晰度、图像的质量,使图像中的物体的轮廓更加清晰,细节更加明显。图像增强不考虑图像降质的原因,增强后的图像更加赏欣悦目,为后期的图像分析和图像理解奠定基础。
3)图像复原,图像复原也称图像恢复,由于在获取图像时环境噪声的影响、运动造成的图像模糊、光线的强弱等原因使得图像模糊,为了提取比较清晰的图像需要对图像进行恢复,图像恢复主要采用滤波方法,从降质的图像恢复原始图。图像复原的另一种特殊技术是图像重建,该技术是从物体横剖面的一组投影数据建立图像。
4)图像编码与压缩,数字图像的显著特点是数据量庞大,需要占用相当大的存储空间。但基于计算机的网络带宽和的大容量存储器无法进行数据图像的处理、存储、传输。为了能快速方便地在网络环境下传输图像或视频,那么必须对图像进行编码和压缩。目前,图像压缩编码已形成国际标准,如比较著名的静态图像压缩标准JPEG,该标准主要针对图像的分辨率、彩色图像和灰度图像,适用于网络传输的数码相片、彩色照片等方面。由于视频可以被看作是一幅幅不同的但有紧密相关的静态图像的时间序列,因此动态视频的单帧图像压缩可以应用静态图像的压缩标准。图像编码压缩技术可以减少图像的冗余数据量和存储器容量、提高图像传输速度、缩短处理时间。
5)图像分割技术,图像分割是把图像分成一些互不重叠而又具有各自特征的子区域,每一区域是像素的一个连续集,这里的特性可以是图像的颜色、形状、灰度和纹理等。图像分割根据目标与背景的先验知识将图像表示为物理上有意义的连通区域的集合。即对图像中的目标、背景进行标记、定位,然后把目标从背景中分离出来。目前,图像分割的方法主要有基于区域特征的分割方法、基于相关匹配的分割方法和基于边界特征的分割方法[2]。由于采集图像时会受到各种条件的影响会是图像变的模糊、噪声干扰,使得图像分割是会遇到困难。在实际的图像中需根据景物条件的不同选择适合的图像分割方法。图像分割为进一步的图像识别、分析和理解奠定了基础。
2 图像识别技术
图像识别是通过存储的信息(记忆中存储的信息)与当前的信息(当时进入感官的信息)进行比较实现对图像的识别[3]。前提是图像描述,描述是用数字或者符号表示图像或景物中各个目标的相关特征,甚至目标之间的关系,最终得到的是目标特征以及它们之间的关系的抽象表达。图像识别技术对图像中个性特征进行提取时,可以采用模板匹配模型。在某些具体的应用中,图像识别除了要给出被识别对象是什么物体外,还需要给出物体所处的位置和姿态以引导计算初工作。目前,图像识别技术已广泛应用于多个领域,如生物医学、卫星遥感、机器人视觉、货物检测、目标跟踪、自主车导航、公安、银行、交通、军事、电子商务和多媒体网络通信等。主要识别技术有:
2.1 指纹识别
指纹识别是生物识别技术中一种最实用、最可靠和价格便宜的识别手段,主要应用于身份验证。指纹识别是生物特征的一个部分,它具有不变性:一个人的指纹是终身不变的;唯一性:几乎没有两个完全相同的指纹[3]。一个指纹识别系统主要由指纹取像、预处理与特征提取、比对、数据库管理组成。目前,指纹识别技术与我们的现实生活紧密相关,如信用卡、医疗卡、考勤卡、储蓄卡、驾驶证、准考证等。
2.2 人脸识别 目前大多数人脸识别系统使用可见光或红外图像进行人脸识别,可见光图像识别性能很容易受到光照变化的影响。在户外光照条件不均匀的情况下,其正确识别率会大大降低。而红外图像进行人脸识别时可以克服昏暗光照条件变化影响,但由于红外线不能穿透玻璃,如果待识别的对象戴有眼镜,那么在图像识别时,眼部信息全部丢失,将严重影响人脸识别的性能[4]。
2.3 文字识别
文字识别是将模式识别、文字处理、人工智能集与一体的新技术,可以自动地把文字和其他信息分离出来,通过智能识别后输入计算机,用于代替人工的输入。文字识别技术可以将纸质的文档转换为电子文档,如银行票据、文稿、各类公式和符号等自动录入,可以提供文字的处理效率,有助于查询、修改、保存和传播。文字识别方法主要有结构统计模式识别、结构模式识别和人工神经网络[5]。由于文字的数量庞大、结构复杂、字体字形变化多样,使得文字识别技术的研究遇到一定的阻碍。
3 结束语
人类在识别现实世界中的各种事物或复杂的环境是一件轻而易举的事,但对于计算机来讲进行复杂的图像识别是非常困难的[6]。在环境较为简单的情况下,图像识别技术取得了一定的成功,但在复杂的环境下,仍面临着许多问题:如在图像识别过程中的图像分割算法之间的性能优越性比较没有特定的标准,以及算法本身存在一定的局限性,这使得图像识别的最终结果不十分精确等。
参考文献:
[1] 胡爱明,周孝宽.车牌图像的快速匹配识别方法[J].计算机工程与应用,2003,39(7):90—91.
[2] 胡学龙.数字图像处理[M].北京:电子工业出版社,2011.
[3] 范立南,韩晓微,张广渊.图像处理与模式识别[M].北京:科学出版社,2007.
[4] 晓慧,刘志镜.基于脸部和步态特征融合的身份识别[J].计算机应用,2009,1(29):8.
[5] 陈良育,曾振柄,张问银.基于图形理解的汉子构型自动分析系统[J].计算机应用,2005,25(7):1629-1631.
[6] Sanderson C,Paliwal K K.Information Fusion and Person Verification Using Speech & Face Information[C].IDIAP-RR 02-33,Martigny,Swizerland,2002.
点击下页还有更多>>>图像识别技术论文
视觉关系识别/检测 任务不仅需要识别出图像中的物体以及他们的位置(detection),还要识别物体之间的关系(relationship)。例子如下图所示,输入为一张图片,输出为objects和bounding boxes,以及objects之间的关系,如
视觉关系识别是图像理解的基础,可以 应用 在
挑战:
这篇文章将整理与视觉关系相关的论文,并作简要的介绍。论文列表:
第一篇是比较经典的论文,提出了一个数据集VRD和一个结合语言先验的关系预测模型。
Visual Phrases只有13个类型,Scene Graph 有两万多关系,但是它平均每个对象只有大约2个谓词关系。除了这三个数据集,还有有名的 VIsual Genome 大数据集,包含99658张图片,19237个关系,标注了物体类型,位置,属性和物体间的关系(场景图),还有caption,qa。虽然数据量大了,但是数据集的标注还是会有一些没有被标注的,毕竟组合多。
思考:论文利用了语言先验word embedding,对预测起到了很大的帮助,但是先验知识可能会使得关系预测倾向于频繁的关系,而忽略了视觉方面的信息。一个解决方案是先预训练视觉模型。然而,真正合理的融合先验的方式我觉得不是简单的乘法(先验可能会误导),是一个思考的点。
**Motivation: **这篇论文的启发是来源于知识图谱中,使用转移向量(translation vector)来表示实体之间的关系(见 Trans系列的知识表示 )。在视觉关系中,通过将对象的视觉特征映射到低维的关系空间中,然后用对象间的转移向量来表示对象之间的关系,比如person+ride=bike。如下图所示:
所以为了让 能够接近 ,即相似,loss函数为
在实验中,单从在VRD数据集上的predicate预测,与上一篇论文Lu对比是没有提升的(44<47),这是这篇论文中没有说明的,是我从两篇论文的实验数据中发现的。这篇论文在另外两个任务上效果比Lu的好些,我觉得有可能是用了Faster RCNN的缘故。 除了这三个任务的实验对比,还加了图像检索,zero-shot关系检测(没有Lu的好),特征重要性分析的实验。实验也表明了关系检测任务对目标检测任务的准确率的提升,不过其实很少。
更多相关的可参考原论文。
思考:论文用TransE来表示关系空间中对象与predicate的关系,如何映射到关系空间,更好的表达对象的联系,甚至predicate间的关系,是值得研究的一个点。(比如结合语言先验等,因为我觉的它的效果其实应该比不上加了语言先验的)
这篇论文跟上一篇论文类似,都是将
思考:这也是篇关于投射对象和关系到另一空间的论文,不过任务稍有不同,效果也比上一篇好些。同上,embedding也是可研究的一个方向。
这篇论文使用场景图scene graph来建模图片中对象以及它们的关系,任务是生成场景图:
这篇论文的亮点就是利用上下文信息以及消息传递,迭代更新以更好地预测关系。这是一个在场景图层级上的新的预测关系的方式,其消息传递方法等都是可以改进的地方,甚至结合embedding。
这篇论文的主要贡献是使用因式分解的方法来得到信息先验(a factorization scheme that yields highly informative priors),也就是关系的先验分布,即两个object间的predicate分布。 这个分布是通过张量分解的方法得到,具体是: (1) 张量构建Tensorize :关系张量 , i, j是对象,k是关系,表示为关系k的矩阵 的堆叠,每一个值对象i, j在数据集中有关系k的次数。张量表示可以反映objects间的内在联系,关系分布等。
最后BP训练SG网络,θ设为0.2. 在实验中,论文对比了Lu的Visual Relationship Detection with Language Priors,和Xu的Scene Graph Generation by Iterative Message Passing,都有较好的提升。
思考:这篇论文通过张量分解的方式来得到关系的先验分布,与论文Visual Relationship Detection with Language Priors用到的语言先验有着异曲同工之处,都是用predicate的先验分布来调整网络预测的关系,提升zero shot能力。 不过我认为这种直接相乘的调整方式是比较粗糙的,需要更好的方式来融合先验分布与视觉上预测的分布。
这是一篇用场景上下文信息和实体间的关系来改进目标检测的论文,举个被错误检测的例子说明上下文的作用:
这篇论文做的任务不是关系预测,而是利用关系来消歧关系中的相同类的对象,其实是根据关系元组,来定位对象的位置。比如下图中需要确定人踢球是图中的哪个人,在什么位置。
论文首先用attention到对象object/subject,然后用predicate的卷积核来进行注意力的shift,同时object和subject需要结合。
这又是李飞飞团队做的工作(他们团队做了很多relationship相关的工作,语言先验那篇,迭代消息传递那篇等),做的是语句生成图像,利用了场景图表示语句中对象间的关系/联系,一个很有趣的研究,应该是第一个使用场景图的图像生成尝试了。
Sentence一般包含多个对象,以及对象间关系的描述,是比较复杂的,从上图也可以看出,直接从语句到图像效果是很差的。但是当我们把语句解析为场景图,然后再生成图像,可以更好的生成图像表示对象间的关系。 具体做法大致是根据场景图做布局预测 (layout prediction) 预测对象的位置,最后结合噪声,用生成网络生成图像。具体细节这里就不啰嗦了,列一下最终效果吧。
可以看出,对象的位置基本位于正确的位置,不过生成的图像质量不是很高,所以还是有很大的改进空间的。
这篇论文是Arxiv上今年7月份的论文,利用图像中的对象间的关系和对象属性,做QA任务。关系挖掘根据图像和问题得到一系列相关的fact——关系,对象属性,然后再attention到需要的fact上,联合视觉特征最后得到最终answer。
思考:这种提取fact的方法为QA提供了高层的语义信息,也符合人的思维方式。相比于我之前调研过的方法( 一文带你了解VQA ),可以认为这是知识的补充,之前的方法有的是只有类,属性信息,或者是额外的文本形式的知识,本论文的方法多了关系的检测,且用一个网络来提取高层语义用于QA,相比直接做数据增强更具解释性。不过论文没有用到那个bottom-up attention,这是我觉得可以改进的地方。
至此,有关VIsual Ralationship的相关问题,方法大家应该有个大致的了解和收获。有什么问题和想法欢迎一起交流学习。