红绿灯分为导向灯和圆形灯。
一般圆形灯在路口只有一盏灯,红灯亮时禁止直行和左转,可以右转弯。
导向灯市带有箭头的,可以有两个或三个,分别指示不同方向的行车和停车。按指示的灯即可,没有右转向导向灯的情况下可以视为可以右转。
第三十八条 机动车信号灯和非机动车信号灯表示:
(一)绿灯亮时,准许车辆通行,但转弯的车辆不得妨碍被放行的直行车辆、行人通行;
(二)黄灯亮时,已越过停止线的车辆可以继续通行;
(三)红灯亮时,禁止车辆通行。
在未设置非机动车信号灯和人行横道信号灯的路口,非机动车和行人应当按照机动车信号灯的表示通行。
红灯亮时,右转弯的车辆在不妨碍被放行的车辆、行人通行的情况下,可以通行。
第三十九条 人行横道信号灯表示:
(一)绿灯亮时,准许行人通过人行横道;
(二)红灯亮时,禁止行人进入人行横道,但是已经进入人行横道的,可以继续通过或者在道路中心线处停留等候。
第四十条 车道信号灯表示:
(一)绿色箭头灯亮时,准许本车道车辆按指示方向通行;
(二)红色叉形灯或者箭头灯亮时,禁止本车道车辆通行。
第四十一条 方向指示信号灯的箭头方向向左、向上、向右分别表示左转、直行、右转。
第四十二条 闪光警告信号灯为持续闪烁的黄灯,提示车辆、行人通行时注意了望,确认安全后通过。
第四十三条 道路与铁路平面交叉道口有两个红灯交替闪烁或者一个红灯亮时,表示禁止车辆、行人通行;红灯熄灭时,表示允许车辆、行人通行。
一般圆形灯在路口只有一盏灯,红灯亮时禁止直行和左转,可以右转弯,绿灯亮时可直行和左转,可以右转弯;
三盏灯要看最左端的灯绿了或有向左的绿箭头就可左转。
2022年车主翘首以盼、车企们都在争夺的产品是什么?
城市辅助驾驶 ,带自主领航的那种。
为啥?
红绿灯路口、环路、人车混行都能自主应对,设置好导航,驾驶员就能完全解放,只扮演安全员的角色。
绝大部分车主最枯燥、最疲惫的驾驶体验,解决了。
但城市道路上辅助驾驶的落地难度,绝对可以称得上目前乘用车智能驾驶量产的“圣杯”。
异形目标、不同交通标识、模糊的车道线等等对感知能力挑战巨大;违规通行目标、复杂路口的博弈…对AI的认知决策能力要求,与L2不可同日而语。
所以,量产上车城市辅助驾驶,是实力和潜力的最好证明。
不过万万没想到,量产“第一”之名,花落老牌车企 长城 汽车 ,今年年中即将上市。
而去年年底,长城旗下的多款车型,已经率先量产了高速领航辅助驾驶。
这样的速度和成果,好像“不可思议”。
但背后的“秘籍”已经不是秘密:
毫末智行 。
“非典型”自动驾驶创业公司、中国最快量产智能驾驶产品、乘用车物流车双线并举…
毫末智行这家公司成立不到3年,率先在国内实现城市领航辅助功能量产,速度和力度都让业内吃惊。
AI Day现场的火热程度可见一斑。投资人、合作伙伴、AI技术大牛纷纷到场,主办方甚至要临时添加座椅。
大家好奇的,是这家自动驾驶公司到底有什么秘密?
城市道路上的领航辅助驾驶功能,去年开始不少主机厂或无人车公司都放出过Demo。
其中还包括华为、小鹏、以及特斯拉这样的明星公司。
不过毫末智行即将量产的城市NOH功能,号称首战即有这么几个“行业之先”。
中国率先量产的城市辅助驾驶 。如果之前各家的量产上车时间表不变,下半年长城 汽车 交付的魏牌摩卡车型,将是中国用户能买到的第一款有城市领航辅助的 汽车 。
率先在多种动力形式上实现城市辅助驾驶 。魏牌摩卡,既有燃油车,也有插混车型。另外下半年上市的欧拉纯电新车,也会搭载毫末智行城市NOH。
毫末智行董事长张凯
当然,毫末城市NOH,本身也打破了自动驾驶创业公司的记录。下半年量产上车,满打满算距离成立3周年。
对于这样的量产进度,毫末智行董事长张凯给出了这样的总结:
量产当然是实力体现,但只是一部分。
真正的功夫,还要看应对城市复杂路况是不是足够“老司机”,乘坐体感够不够舒适,最重要的,安全吗?
实车体验最能说明问题。
体验路线分布在北京顺义城区核心,全长公里,包括两个环岛、6个转弯,以及十几个红绿灯。
具体路况嘛,既有通畅的城市主干道,也有人车混行、较为混乱的路口。
按照场景的简单到复杂,我们把体验下来的毫末城市NOH实际表现分成这6个要点。
红绿灯识别的难度在于不同地区交通标示标准不一,这需要后台有一个尽可能完备的数据库供系统学习。
去每一个路口采集数据样本当然不现实,毫末采取的方法是通过图像合成和迁移学习,加快技术的迭代。
这其中,主要技术难题是真实数据和合成数据的混合训练问题。
通过图像合成技术可以扩大学习的样本量,但是真实和合成数据在特征空间及概率分布不一致,导致使用有效率大打折扣。
所以毫末使用了迁移学习中领域泛化的混合迁移训练方法,利用合成数据定向弥补真实场景中缺失的数据样本及不断调整训练策略,减小二者特征空间的概率分布差异。
有了足够的数据训练,就可以对路面上不同形式的红绿灯识别。
比如,在大路口场景中,红绿灯离车辆距离很远,在图像数据上目标更小更难以识别:
所以这样的场景从感知到决策,全方位的要求都很高。
除了能准确识别车道线,并根据导航选择合适路径,NOH还会动态避让其他加塞的车辆和行人,保障安全:
对于加塞的车辆或行人,NOH会根据目标速度、路径综合判断刹车、方向调整程度,不会猛然刹停,保证安全的前提下兼顾通行效率。
而且毫末NOH对于避让行人的原则贯彻到位,即使通过无人的路口或斑马线,也会提前减速。
无保护左右转,如今并不是一个难度极高的项目。不过毫末NOH表现的亮眼之处在于能处理多车道交互的复杂路口,包括正确识别交通灯和待转区。
这样的路口难度在于尺寸较大,首先是系统需要感知识别的范围更广,目标的数量和类型更多;相应的,其他目标出现违规行为的可能性也更高。
同是领航辅助,城市场景下的车道线识别和高速难度完全不同。
城市内车道线更加密集,种类更多,形式更为复杂,而且常常有污损情况。
面对这样的挑战,毫末智行设计了BEV Transfomer。
摄像头的数据传回后,首先对2D 图像用 Resnet + FPN 进行处理,之后进行BEV映射,这部分利用交叉注意力层 (Cross Attention) 来动态确定某一帧图像中的内容在相机所属 BEV 空间中的位置。
通过多个Cross Attention,最终组成一个完整的 BEV空间。
当视觉数据完成了在BEV的投射,就天然具备了和激光雷达点云图的融合能力。
最后,系统还会综合考虑BEV的 历史 数据,加入与时间有关的特征,进一步提升识别的准确率和连续性。
环岛对于自动驾驶系统来说一直是一个巨大的挑战。其中既有较为复杂的规则,还要根据导航路线择机干净利落地切入切出。
对于感知系统来说,准确识别车道线,还包括能分清楚环路的边界,之前特斯拉FSD测试时,常发生冲上中央路基的情况。
毫末NOH除了准确感知、识别环路,并根据导航选择合适路线。而且面对环岛中其他车辆短时间内数次变道的行为,也能准确识别和合理避让。
这一点的难度其实比平直路面大得多,因为连续大曲率的弯道,对于车辆的速度、转向精度要求更高。
城市场景难,其实不在复杂的车道线和交规,而是难在随时可能发生的不可预知的场景。
这些场景也是考验一个城市领航辅助系统是不是老司机的试金石。
比如,我们的试乘车本来正常直行通过一个十字路口,结果垂直车道一辆左转 汽车 先是闯红灯抢行,使得NOH紧急停车避让:
左转绿灯亮了以后,这辆车却停在超出待转区的十字路口中央不动了…而此时我们直行的绿灯已经转红。
我们有意没有接管,想看看NOH到底会怎么办。
紧急避让保证安全后,NOH用几秒时间确认抢行车停止不动,然后系统并没有受到直行绿灯转红的影响而停在路中间,确认安全后尽快通过路口:
换成人类司机,这其实也是唯一合理且安全的处理方式。
这套方案,除了软件算法全部由毫末智行自研,硬件方案中的自动驾驶计算平台也是毫末自研,算力达到360T。
对比来看,今年大部分车厂翘首以盼等交付的英伟达Orin芯片,是256T算力。
此外,传感器方面,量产NOH方案采用12个摄像头、5个毫米波雷达、2个激光雷达以及12个超声波雷达。
这就是中国首个量产城市辅助驾驶的真实情况,你感觉它够“老司机”吗?
毫末NOH的量产速度如此之快,甚至有业内人士表示百思不得解。
毫末曾经给自己的业务方法论,起了一个颇为神秘的名字:
自动驾驶思想钢印 。
不了解《三体》也没关系,毫末智行所谓的“思想钢印”,其实就是自动驾驶公司都绕不过去的 数据闭环能力 。
一般来说,自动驾驶数据闭环万变不离其宗,关键流程都是“数据收集处理-训练-部署-再收集”的循环,以此迭代升级AI司机的能力。
涉及到数据层面,总共三个过程:收集、处理、反馈。
只不过在毫末这里,加上了两个附加条件: 低成本 和 高速度 。
对应到毫末智行数据智能体系中,分别是数据的自动化处理程度,和模型快速验证。
AI Day上毫末智行CEO 顾维灏 介绍毫末最新的数据积累和应用情况:
数据的收集问题,毫末已经解决,但要让AI明白数据含义,还需要认知过程,解决从客观世界到驾驶动作的映射。
除了从实时数据上归纳影响驾驶行为的因素,系统还需要对照更大规模的数据样本来学习规律。
所以,数据处理的核心聚焦到 快速标注 上。
为此毫末研发了一个高效标注系统,应用无监督自动标注算法,这套系统从数据标注的底层入手,对大批量数据进行自动标注,再由人工校对后反馈给系统,不断提升准确性和效率,逐渐减少人力工作量。
目前,毫末已经有超过70%的数据由系统自动标注处理。
数据处理的自动化能力建设有什么意义?
随着 未来两年毫末智能驾驶系统装机量达到百万 ,人工标注数据的成本即使按元一公里来算,也会迅速上升到数亿甚至十亿级别。
别说创业公司,国内车企自主三强每年净利也不过几十亿,这条路显然是走不通的。
所以,建立数据闭环其实不难,真正能持续下去的是“低成本获取数据”。
数据处理好之后,已经可以喂给算法进行训练,那么训练好的模型,如何验证效果?
尤其是在短时间对多个功能进行不同升级后,如果把所有版本依次拿到实车上跑一遍,然后再开发下一个版本…自动驾驶可能就永无实现之日了。
所以要把把验证工作放在仿真系统中进行。
毫末智行将每一次路测都还原为仿真中的“元宇宙”,同一场景下不同光照、不同天气,不同曝光条件都可在系统中调整,由此来模拟算法在不同工况下的表现。
这样的流程,其实也可以理解成算法迭代的自动化,对应着思想钢印中的“高速度”。
毫末智行这一套数据智能体系,叫 雪湖 ,也叫 MANA 。
痴迷《三体》的毫末工程师们以此命名,含义是像面壁者逻辑掉入雪湖后参悟黑暗森林法则一样,从MANA开始,毫末也掌了握自动驾驶的核心能力。
在MANA系统的加持下,毫末智行的“AI司机”,已经不间断训练驾驶技巧长达20万小时,虚拟驾龄已相当于人类司机2万年的驾驶时长。
毫末智行的高速、城市NOH快速上线,业内看起来好像“开挂”一般,但了解深层原因后并不匪夷所思。
本质就是高度自动化的数据智能能力,保证了AI老司机能力快速迭代的基本条件,再加上长城 汽车 的大规模量产渠道。
所以,讨论“毫末现象”的核心其实应该是:毫末智行的经验和模式,可以被其他无人车初创公司复制吗?
自动驾驶创业,毫末是最特殊的一个。
成果、技术给行业什么样的启示?至少能总结出三个方法论。
首先是 大船放小船 。
你可以说毫末智行是长城 汽车 旗下,但它却不属于长城 汽车 上市集团。
长城入股但不直接管理,让毫末智行以 科技 公司的效率和灵活性运营,不受大集团业务流程所累,激发创造力。
同时,长城 汽车 又保持了一个车圈老大哥的“大度”,允许毫末智行公开融资、IPO,团队的积极性也有了充分保障。
第二是长城 汽车 给毫末智行提供规模量产的渠道 ,这种“kick start”也是毫末智行进度惊人的基础。
更出乎意料的是,长城 汽车 没有把毫末智行的产品指定成“专供”,反而鼓励毫末团队去市场扩展其他的主机厂客户。
毫末智行董事长 张凯 在AI Day上介绍了毫末的开放合作原则:
从全栈解决方案到源代码,这6个产品层面毫末智行都可以开放合作。
这也让毫末未来的业务规模和技术迭代有了更大的空间。
最后一点,也是最重要的,是毫末智行本身的数据闭环能力 。
海量数据涌进系统,数据的存储、传输,以及数据处理的人工、时间其实都是成本,毫末智行的数据智能体系,针对每个可能的成本产生环节,都有专门的优化机制。
很难相信这是不到3年时内摸着石头过河 探索 出来的,更像是一开始就规划好的布局。
与车厂的紧密联系、数据闭环能力、大规模上量的渠道…这些是毫末智行模式最基础的3个方法论。
自动驾驶创业公司能不能复制?
当然可以。
与车厂建立紧密联系不难,事实上几乎所有老牌车企都迫切转型,有团队有技术的无人车公司不乏青睐。
所以量产渠道这个问题至少表面上看不难解决。
但深度绑定之后自身的前景和潜力会不会被限制?小船到最后会不会成大船的一块“木板”?
毕竟像长城 汽车 这样开放的车企不多,更多主机厂倾向于紧紧攥住自己的“灵魂”不撒手。
更关键的是,硬核实力够不够,能不能像毫末一样建立起一套高度自动化的低成本数据智能技术体系?
这一点,可能唯有实现那一刻才算证明。
所以,毫末智行确实给自动驾驶创业提供了另一种可以践行模式。
其他无人车创业公司可以照搬,只是要做到毫末智行的程度,实力、机遇缺一不可。
本文将对论文 Towards End-to-End Lane Detection: an Instance Segmentation Approach 进行解读。这篇论文是于2018年2月挂在arxiv上的。 文中提出了一种端到端的车道线检测算法,包括LaneNet和H-Net两个网络模型。其中,LaneNet是一种将 语义分割 和 对像素进行向量表示 结合起来的多任务模型,负责对图片中的车道线进行 实例分割 ;H-Net是由卷积层和全连接层组成的网络模型,负责预测转换矩阵H,使用转换矩阵H对属于同一车道线的像素点进行回归(我的理解是对使用坐标y对坐标x进行修正)。 根据论文中的实验结果,该算法在图森的车道线数据集上的准确率为,在NVIDIA 1080 TI上的处理速度为52FPS。 如图1所示,对于同一张输入图片,LaneNet输出实例分割的结果,为每个车道线像素分配一个车道线ID,H-Net输出一个转换矩阵H,使用转换矩阵H对车道线像素进行修正,并对修正的结果拟合出一个三阶的多项式作为预测得到的车道线。 论文中将实例分割任务拆解为 语义分割 和 聚类 两部分,如图2所示,LaneNet中decoder分为两个分支,Embedding branch对像素进行嵌入式表示,训练得到的embedding向量用于聚类,Segmentation branch负责对输入图像进行语义分割(对像素进行二分类,判断像素属于车道线还是背景)。最后将两个分支的结果进行结合得到实例分割的结果。 在设计语义分割模型时,论文主要考虑了以下两个方面: 1.在构建label时,为了处理遮挡问题,论文对被车辆遮挡的车道线和虚线进行了还原; 2. Loss使用 交叉熵 ,为了解决样本分布不均衡的问题(属于车道线的像素远少于属于背景的像素),参考论文 ENet: A Deep Neural Network Architecture for Real-Time Semantic Segmentation ,使用了boundedinverse class weight对loss进行加权: 其中,p为对应类别在总体样本中出现的概率,c是超参数(ENet论文中是,使得权重的取值区间为[1,50])。 为了区分车道线上的像素属于哪条车道,embedding_branch为每个像素初始化一个embedding向量,并且在设计loss时, 使得属于同一条车道线的像素向量距离很小,属于不同车道线的像素向量距离很大 。 这部分的loss函数是由两部分组成:方差loss(L_var)和距离loss(L_dist): 其中,x_i为像素向量,μ_c为车道线的均值向量,[x]+ = max(0,x) 为了方便在推理时对像素进行聚类,在图4中实例分割loss中设置δ_d > 6*δ_v。 在进行聚类时,首先使用mean shift聚类,使得簇中心沿着密度上升的方向移动,防止将离群点选入相同的簇中;之后对像素向量进行划分:以簇中心为圆心,以2δ_v为半径,选取圆中所有的像素归为同一车道线。重复该步骤,直到将所有的车道线像素分配给对应的车道。 LaneNet是基于 ENet 的encoder-decoder模型,如图5所示,ENet由5个stage组成,其中stage2和stage3基本相同,stage1,2,3属于encoder,stage4,5属于decoder。 如图2所示,在LaneNet中,语义分割和实例分割两个任务 共享stage1和stage2 ,并将stage3和后面的decoder层作为各自的分支(branch)进行训练;其中, 语义分割分支(branch)的输出shape为W*H*2,实例分割分支(branch)的输出shape为W*H*N,W,H分别为原图宽和高,N为embedding vector的维度;两个分支的loss权重相同。 LaneNet的输出是每条车道线的像素集合,还需要根据这些像素点回归出一条车道线。传统的做法是将图片投影到鸟瞰图中,然后使用2阶或者3阶多项式进行拟合。在这种方法中,转换矩阵H只被计算一次,所有的图片使用的是相同的转换矩阵,这会导致地平面(山地,丘陵)变化下的误差。 为了解决这个问题,论文训练了一个可以预测转置矩阵H的神经网络H-Net, 网络的输入是图片 , 输出是转置矩阵H : 由图6可以看出,转置矩阵H只有6个参数,因此H-Net的输出是一个6维的向量。H-Net由6层普通卷积网络和一层全连接网络构成,其网络结构如图7所示: Curve fitting的过程就是通过坐标y去重新预测坐标x的过程:LaneNet和H-Net是分别进行训练的。在论文的实验部分,两个模型的参数配置如下所示: • Dataset : Tusimple • Embedding dimension = 4 • δ_v= • δ_d=3 • Image size = 512*256 • Adam optimizer • Learning rate = 5e-4 • Batch size = 8 • Dataset : Tusimple • 3rd-orderpolynomial • Image size =128*64 • Adam optimizer • Learning rate = 5e-5 • Batch size = 10
Micrologix1000 PLC在交通灯控制上的应用 PLC技术及其在公路交通系统中的应用 用PLC实现智能交通控制 1 引言 据不完全统计,目前我国城市里的十字路口交通系统大都采用定时来控制(不排除繁忙路段或高峰时段用交警来取代交通灯的情况),这样必然产生如下弊端:当某条路段的车流量很大时却要等待红灯,而此时另一条是空道或车流量相对少得多的道却长时间亮的是绿灯,这种多等少的尴尬现象是未对实际情况进行实时监控所造成的,不仅让司机乘客怨声载道,而且对人力和物力资源也是一种浪费。 智能控制交通系统是目前研究的方向,也已经取得不少成果,在少数几个先进国家已采用智能方式来控制交通信号,其中主要运用GPS全球定位系统等。出于便捷和效果的综合考虑,我们可用如下方案来控制交通路况:制作传感器探测车辆数量来控制交通灯的时长。具体如下:在入路口的各个方向附近的地下按要求埋设感应线圈,当汽车经过时就会产生涡流损耗,环状绝缘电线的电感开始减少,即可检测出汽车的通过,并将这一信号转换为标准脉冲信号作为可编程控制器的控制输入,并用PLC计数,按一定控制规律自动调节红绿灯的时长。 比较传统的定时交通灯控制与智能交通灯控制,可知后者的最大优点在于减缓滞流现象,也不会出现空道占时的情形,提高了公路交通通行率,较全球定位系统而言成本更低。
内容简介: 毕业设计(论文) PLC交通灯电气控制设计,共17页,6857字 [摘 要]: 针对近年来城市交通的拥挤现象,特别是驾驶员违章严重、交通事故频发、车辆尾气污染等问题,介绍丁集计算机、信息、电子及通讯等众多高新技术手段于一体的智能交通指挥中心控制系统.该系统的安装及使用,大大缓解了城市道路堵塞现象、提高了道路的通行能力.减少了驾驶员违章的次数,抑制了交通事故的发生,同时对减轻车辆尾气排放,从而降低环境污染都起到了不可低估的作用. 分析了现代城市交通控制与管理问题的现状,结合城乡交通的实际情况阐述了交通灯控制系统的工作原理,给出了一种简单实用的城市交通灯控制系统的硬件电路设计方案。 [关键词]: 交通控制 交通灯 PLC控制机下载地址
用PLC实现智能交通控制 1 引言 据不完全统计,目前我国城市里的十字路口交通系统大都采用定时来控制(不排除繁忙路段或高峰时段用交警来取代交通灯的情况),这样必然产生如下弊端:当某条路段的车流量很大时却要等待红灯,而此时另一条是空道或车流量相对少得多的道却长时间亮的是绿灯,这种多等少的尴尬现象是未对实际情况进行实时监控所造成的,不仅让司机乘客怨声载道,而且对人力和物力资源也是一种浪费。 智能控制交通系统是目前研究的方向,也已经取得不少成果,在少数几个先进国家已采用智能方式来控制交通信号,其中主要运用GPS全球定位系统等。出于便捷和效果的综合考虑,我们可用如下方案来控制交通路况:制作传感器探测车辆数量来控制交通灯的时长。具体如下:在入路口的各个方向附近的地下按要求埋设感应线圈,当汽车经过时就会产生涡流损耗,环状绝缘电线的电感开始减少,即可检测出汽车的通过,并将这一信号转换为标准脉冲信号作为可编程控制器的控制输入,并用PLC计数,按一定控制规律自动调节红绿灯的时长。 比较传统的定时交通灯控制与智能交通灯控制,可知后者的最大优点在于减缓滞流现象,也不会出现空道占时的情形,提高了公路交通通行率,较全球定位系统而言成本更低。 2 车辆的存在与通过的检测 (1) 感应线圈(电感式传感器) 电感式传感器其主要部件是埋设在公路下十几厘米深处的环状绝缘电线(特别适合新铺道路,可用混凝土直接预埋,老路则需开挖再埋)。当有高频电流通过电感时,公路面上就会形成如图1(a)中虚线所形成的高频磁场。当汽车进入这一高频磁场区时,汽车就会产生涡流损耗,环状绝缘电线的电感开始减少。当汽车正好在该感应线圈的正上方时,该感应线圈的电感减到最小值。当汽车离开这高频磁场区时,该感应线圈电感逐渐复原到初始状态。由于电感变化该感应线圈中流动的高频电流的振幅(本论文所涉及的检测工作方式)和相位发生变化,因此,在环的始端连接上检测相位或振幅变化的检测器,就可得到汽车通过的电信号。若将环状绝缘电线作为振荡电路的一部分,则只要检测振荡频率的变化即可知道汽车的存在和通过。 电感式传感器的高频电流频率为60kHz,尺寸为 2×3m,电感约为100μH.这种传感器可检测的电感变化率在%以上[1,2]。 电感式传感器安装在公路下面,从交通安全和美观考虑, 它是理想的传感器。传感器最好选用防潮性能好的原材料。 (2) 电路 检测汽车存在的具体实现是在感应线圈的始端连接上检测电感电流变化的检测器, 并将之转化为标准脉冲电压输出。其具体电路图由三部分组成:信号源部分、检测部分、比较鉴别部分。原理框图如图2所示, 输出脉冲波形见图1(b)。 (3) 传感器的铺设 车辆计数是智能控制的关键,为防止车辆出现漏检的现象,环状绝缘电线在地下的铺设我们设采取在每个车行道上中的出口地(停车线处)以及在离出口地一定远的进口的地方各铺设一个相同的传感器,方案如图3(以典型的十子路口为例),同一股道上的两传感器相距的距离为该股道正常运行时所允许的最长停车车龙为好。 3用PLC实现智能交通灯控制 控制系统的组成 车辆的流量记数、交通灯的时长控制可由可编程控制器(PLC)来实现。当然,也可选用其他种类的计算机作为控制器。本例选用PLC作为控制器件是因为可编程控制器核心是一台计算机,它是专为工业环境应用而设计制造的计算机。它具有高可靠性丰富的输入/输出接口,并且具有较强的驱动能力;它采用一类可编程的存储器,用于其内部存储程序,执行逻辑运算,顺序控制,定时,计数与算术操作等面向用户的指令,并通过数字或模拟式输入/输出控制各种类型的机械或生产过程;它采用模块化结构,编程简单,安装简单,维修方便[3]。 利用PLC,可使上述描叙的各传感器以及各道口的信号灯与之直接相连,非常方便可靠。 本设计例中,PLC选用FX2N-64,其输入端接收来自各个路口的车辆探测器测得的输出标准电脉冲,输出接十字路口的红绿信号交通灯。信号灯的选择:在本例中选用红、黄、绿发光二极管作为信号灯(箭头方向型)。 车流量的计量 车流量的计量有多种方式: (1) 每股行车道的车流量通过PLC分别统计。当车辆进入路口经过第一个传感器1(见图3)时,使统计数加1,经过第二个传感器2出路口时,使统计数减1,其差值为该股车道上车辆的滞留量(动态值),可以与其他道的值进行比较,据此作为调整红绿灯时长的依据。 (2) 先统计每股车道上车辆的滞留量,然后按大方向原则累加统计。如,将东西向的(见图3)左行、直行、右行道上的车辆的滞留量相加,再与其它的3个方向的车流量进行比较,据此作为调整红绿灯时长的依据。 (3) 统计每股车道上车辆的滞留量后按通行最大化原则(不影响行车安全的多道相向行驶)累加统计。如,东、西相向的2个左行、直行、右行道上的车辆的滞留量全部相加,再与南北向的总车流量进行比较,据此作为调整红绿灯时长的依据(下面的例子就是按此种方式)。 以上计算判别全部由PLC完成。可以把以上不同计量判别方式编成不同的子程序,方便调用。 程序流程图 本例就上述所描述的车流量统计方式,就图3中的十字路口给出一例PLC自动调整红绿灯时长的程序流程图如图5所示,其行车顺序与现实生活中执行的一样[4],只是时间长短不一样。 (1) 当各路口的车辆滞留量达一定值溢满时(相当于比较严重的堵车),红绿灯切换采用现有的常规定时控制方式; (2) 当东、西向路口的车辆滞留量比南、北向路口的大时(反之亦然),该方向的通行时间=最小通行定时时间+自适应滞环比较增加的延时时间(是变化的),但不大于允许的最大通行时间。其中最小定时时间是为了避免红绿灯切换过快之弊;最大通行时间是为了保障公平性,不能让其它的车或行人过分久等。进一步的说明在后面的注释中。 (3) 自适应滞环比较(本例的核心控制规律)增加的时间的确定若东、西向车辆滞留量≥南、北向一个偏差量σ(如30辆车或其它值)时,先让东、西向的左转弯车左行15s(定时控制,值可改),再让直行车直行30s(直行时间的最小值,值可改)后再加一段延时保持,直至东、西向的车辆滞留量比南、北向的车辆滞留量还要少一个偏差量σ,才结束该方向的通行,切换到其它路上,否则一直延时继续通行下去,直至到达最大通行时间而强制切换。滞环特性如图6所示。实际应用时σ的值需整定,过小则导致红绿灯切换过频,过大又不能实现适时控制。 流程图注释 (1) 流程图中的15s、30s、75s等时间分别为交管部门定的车辆左转弯时间、直行最小时间、允许的最大通行时间;σ为车流量的偏差量。以上值及其4个路口车流量的满溢值均可在程序初始化中任意更改。 (2) 车辆左转弯是造成交通堵塞很重要的一个方面,应加以适当限制,故车辆左转弯始终采用最小定时控制,以减小系统的复杂程度,提高可靠性。 (3) 车辆通行的时间中包含绿、黄灯闪烁的时间,红、黄、绿各灯的切换与现用的方式相同,不再赘述。 (4) 人行道的红绿灯接线与现用的方式相同,其绿灯点亮的时刻与该方向车辆直行绿灯点亮的时刻同步一致,但要较车辆直行绿灯提前熄灭,采用定时控制,如绿灯定时亮18s。其目的是不让右转弯车辆过分受人行道灯的限制。若人车分流,右转弯车辆不受限制。较简单,流程图中略。 (5) 车流量的计量是不间断的,与控制呈并行关系,该系统属多任务处理,编程尤其应注意。 4 结束语 比较传统的定时交通灯控制与智能交通灯控制,可知后者的最大优点在于减缓滞流现象,也不会出现空道占时的情形,提高了公路交通通行率,较全球定位系统而言成本更低,特别适合繁忙的、未立交的交通路口,更适合于四个以上的路口,也可方便连网。 参考文献 [1] 黄继昌等. 传感器工作原理及应用实例[M]. 北京:人民邮电出版社,1998. [2 ]张万忠. 可编程控制器应用技术[M]. 北京:化学工业出版社,2001. [3] 英.索尔特. 道路交通分析与设计[M]. 张佐周等译. 北京:中国建筑工业出版社,1982. 不是很完整,您可以拿去做借鉴, 希望对您有帮助。
基于Proteus的智能交通灯设计与仿真实现论文
交通灯有两种,给机动车看的叫机动车灯,通常指由红、黄、绿(绿为蓝绿)三种颜色灯组成用来指挥交通通行的信号灯。给行人看的叫人行横道灯,通常指由红、绿(绿为蓝绿)二种颜色灯组成用来指挥交通通行的信号灯,红灯停,绿灯行。下面是我为你带来的 基于Proteus的智能交通灯设计与仿真实现论文,欢迎阅读。
摘要:针对现实中越来越严重的城市交通拥堵现象,文章介绍了一种十字路口交通信号灯智能控制系统。该系统实现了正常时段交通信号灯的轮换,解决了十字路口车辆的正常行驶;并可通过外部中断或手动设置解决一些紧急事件或由于某方向车道车流量不均衡所造成的十字路口交通资源浪费或堵塞问题。通过在Proteus 仿真平台中运行,系统具有较强的可靠性。
关键词:Proteus;智能交通灯;仿真实验
随着现代化社会经济的快速发展,城市车辆大幅度增加,交通拥挤、道路阻塞、车辆通行缓慢等问题受到了人们极大的关注,特别是早晚交通高峰时的十字路口,因此智能交通控制就显得尤为重要。传统的交通灯控制,是根据一定时间段的各车道车流量的调查而分配出的相对合理的固定周期换灯的控制方式,不管是车流高峰还是低谷;也有一些交通灯能根据简单划分的时间段来调整时间,但控制起来不是很灵活,这使得城市车流的调节不能达到最优,经常出现通行时间与车流量不相适应的'情况,特别是特定时间的十字路口,会出现某一方向车辆早已通行完,而另一方向车辆排队等绿灯的情况[1]。本文介绍的是一种采用8086 CPU和8259中断控制器配以7段数码管设计实现的十字路口智能交通灯控制系统,其能根据实时车流量对路口的绿灯时间进行动态调节,大大加强了其灵活性和实时性,并通过Proteus仿真软件平台实现了仿真。
一、总体设计方案
本文以十字路口单行车辆通行为研究对象,东南西北四个方向对应路口都设绿、红、黄三色圆灯信号(东西为一向,南北为一向),正常工作状态见表1,具体控制思想如下:(1)车辆流量的采集;(2)分析计算停止车辆排队长度,计算车流量比值,以1为基值判断双方车流量大小;(3)车辆输出量确认,根据各个方向车辆排队长度给定每个路口的红、绿灯时间值;(4)根据比值,增减另一方向车辆红、绿灯时长;(5)以3秒钟为单位,最大变化不超过18秒;(6)检测采用每周期循环一次,从而实现对整个信号灯的智能控制。
按照此思想,系统主要包括6个模块,如图1所示。以8086 CPU为主控制器,控制其他模块协调工作。其中信号灯模块显示各车道的通行情况;数码管倒计时模块显示信号灯燃亮时间;闯红灯报警模块实时监测车辆违规行为;紧急通行模块用于处理非正常通行,以外部中断方式控制[2];时间手动设置模块以通过键盘进行手动设置,增加人为的可控性,用于在紧急状态下,通过设置所有灯变为红灯以避免自动故障和意外发生。
二、Proteus仿真设计
仿真平台简介。Proteus是英国Labcenter electronics公司研发的多功能EDA软件,其由ISIS原理图编辑与仿真软件包和ARES布线编辑软件包组成,是目前世界上唯一将电路仿真、PCB设计软件和虚拟模型仿真软件三合一的设计平台。Proteus SP3以上的版本中增加了对8086 CPU及相关接口芯片的仿真功能。另外,Proteus还提供有示波器、逻辑分析仪、信号发生器、交直流电压/电流表、数字图案发生器、定时器/计数器、逻辑探头、虚拟终端等很多虚拟仪器,是一个全开放性的仿真实验平台,相当于一个设备齐全的综合性实验室。本文介绍所使用的为Proteus 软件。Proteus本身未提供8086编译器,而是通过添加外部代码编译器,将编写好的源程序加入工程,编译并生成可执行程序。本文介绍的采用EMU8086提供的编译环境进行程序的编写和汇编。EMU8086是一可在Windows环境下运行的8086 CPU汇编真软件,其集成了文本编辑器、编译器、反编译器、真调试、虚拟设备和驱动器为一体。Proteus仅支持8086最小模式,8086模型可直接加载BIN、COM和EXE格式的文件到内部RAM中,不需要DOS,而且允许对Microsoft(Codeview)和Borland格式中包含了调试通过的程序可以进行源程序或反汇编后的调试,因此源码汇编和链接过程的参数相当重要[3]。
2.信号灯电路设计。信号灯组由红、黄、绿三色灯组成,4组共12盏灯,其亮灭及闪烁方式与十字路口的红、黄、绿灯同步,由8255A芯片的A口通过方式0控制6个开关量(12盏灯);七段数码管采用共阴极接法,由8255A芯片的B口通过方式0输出控制,其中低四位控制个位显示,高四位控制十位显示。8259中断控制器的IR0接8253的OUT2,实现对于紧急情况的外部中断处理。譬如控制红绿信号灯,实现相应车道通行、另一车道禁行,同时熄灭所有的数码管;或者遇有某方向路段忙时,信号灯的燃亮时间可根据车流量情况设置时间。
3.软件设计。程序主要包括“jjsj”和“zcsj”两个子程序。系统正常运行都在执行“zcsj”子程序,初始化十字路口的交通信号灯状态及燃亮时间,启动8253定时器数码管开始倒计时。在倒计时期间,当遇有某方向车辆特别多或遇忙等其他紧急情况时,通过外部中断请求执行“jjsj”子程序模块。绿灯倒计时完毕后,转换黄色信号灯,持续到规定时间后,东西和南北方向路口信号灯互换,如此一直循环运行[4]。程序设计流程如图2所示。
三、Proteus仿真实现
初始化。从图3所示的硬件原理图得知,8255A芯片的片选端连接在74HC154译码器的输出端,74HC154的4个引脚D、C、B、A分别与锁存器74LS273输出的A12、A11、A10、A9相连,当A12、A11、A10、A9=0001时8255A有效,所以8255A的4个端口地址分别为0200H、0202H、0204H、0206H;初始化方式选择控制字为89H(A、B口方式0输出,C口方式0输入)。
2.实际问题处理。①定时时间的动态调整。定时时间设计为倒计时,用两位七段数码管显示,倒计时小于等于5秒时黄灯每秒亮和灭切换一次,倒计时显示0秒时两个方向的红色灯和绿色灯切换。定时时间可以通过软件设计实现动态调整。方法为:将8253A计数器0工作在方式2,CLK0接2MHZ的时钟频率,设一计数初值(假设为2000),OUT0接CLK1,8253计数器1工作在方式0,设一计数初值(假设为500),则OUT1的输出频率为:2MHZ/2000/500=2HZ脉冲,相应周期为秒。根据实际路况,通过改变计数初值可调整倒计时间。②时间差异。Proteus中利用8253A表示的时间和真实时间有差异,设定的时间比实际时间要长很多。所以,在仿真实验中为了看到与实际相符的交通灯变化,本应是秒的时间需在源程序中将延时时间设置为秒,这样运行起来更贴近实际[5,6]。
3.仿真效果。如图4所示为东西路口绿灯燃亮,南北路口红灯燃亮倒计时运行在18秒时的仿真结果图。
本系统以8086 CPU为核心,程序调试阶段采用EMU86进行在线编程及修改,设计的交通灯可控制十字路口的车辆及行人的交通管理,采用3个7段数码管,可以直观地显示红绿灯的开放和关闭时间。实际交通中的每个路口不完全一样,所以交通灯显示也没有固定规则,通常会根据具体情况设置相应的程序。由于Proteus没有提供箭头标志,本系统按单行道设计,指示灯不是专门的箭头指向灯,只是红、黄、绿三色圆灯信号灯,所以系统只考虑并实现了简单的十字路口交通行驶,即红灯亮时不能直行也不能左转,但可以右转;绿灯亮时,直行、左转、右转都可以,当遇有某方向车辆多或其他紧急情况时,通过中断可加以灵活性控制[7]。另外,系统在实现了十字路口基本的交通灯控制基础上,还引用了外部中断技术和时间手动设置,这可避免因无序和抢行等无控制原因造成的不必要阻塞甚至瘫痪情况发生。Proteus从V8版本开始支持ARM/Cortex-M3,这样,将会给交通灯系统增添更多现代化功能。
参考文献:
[1]李萍.基于AT89S51的智能交通灯控制系统设计与仿真[J].电子设计工程,2014,22(01):190-193.
[2]王维松,等.十字路口智能交通灯控制系统的FPGA实现[J].电子科技,2012,25(9):37-39,44.
[3]顾晖,陈越,梁惺彦,等.微机原理与接口技术-基于8086和Proteus仿真[M].北京:电子工业出版社,2011:110-135
[4]周灵彬,任开杰.基于Proteus的电路与PCB设计[M].北京:电子工业出版社,2013:1-38.
[5]温志达,梁桂荣.基于车流量的智能交通灯控制系统[J].自动化技术与应用,2009,28(6):115-118.
[6]张晓荣,李永红.智能交通灯的设计及其FPGA的实现[D].传感器世界,2013,(12):27-30.
[7]赵金亮.自适应交通路口控制系统设计与实现[J].太原理工大学学报,2013,44(4):531-535.
你好 你有完整的论文么? 有的话可不可以给我发一下 急需的 谢谢啊!!
出版专著:Mao X., Li Z. Multimodal Intelligent Tutoring Systems[M]. E-Learning--Organizational Infrastructure and Tools for Specific Areas. Feb, 2012. ISBN:978-9-5351-0053-9.(专著章节)毛峡,薛雨丽. 人机情感交互[M]. 科学出版社, 2011年7月1日. ISBN: 978-7-0303-1799-5. (专著)Mao X., Li Z. Web-based Affective Human-agent Interaction Generation[M]. Ronald Hartung (Ed.), Agent and Multi-agent system technology for Internet and Enterprise Systems, Springer-Verlag Berlin Heidelberg 2010, pp. 323-345,2010 ISBN: 978-3-642-13525-5. (专著章节)Mao X, Xue Y, Li Z, et al. Layered Fuzzy Facial Expression Generation: Social, Emotional and Physiological[M]. Affective Computing,Focus on Emotion Expression, Synthesis and Recognition, I-Tech Education and Publishing, pp. 83-106, May 2008, ISBN 978-3-902613-23-3. (专著章节)主要论文:SCI收录:X. Wu, X. Mao, L. Chen, Y. Xue, and A. Rovetta, Kernel optimization using nonparametric Fisher criterion in the subspace, Pattern Recognition Letters, vol. 54, pp. 43-49, 2015. (SCI)Yi J, Mao X, Chen L, et al. Illuminant direction estimation for a single image based on local region complexity analysis and average gray value[J]. Applied optics, 2014, 53(2): 226-236. (SCI)Yi J, Mao X, Chen L, et al. Facial expression recognition considering individual differences in facial structure and texture[J]. Computer Vision, IET, 2014, 8(5): 429-440.(SCI)Yuan S, Mao X, Xue Y, et al. SQR: a simple quantum representation of infrared images[J]. Quantum Information Processing, 2014, 13(6): 1353-1379.(SCI)Chen L, Mao X, Wei P, et al. Speech emotional features extraction based on electroglottograph[J]. Neural computation, 2013, 25(12): 3294-3317.(SCI)Yuan S, Mao X, Chen L, et al. Quantum digital image processing algorithms based on quantum measurement[J]. Optik-International Journal for Light and Electron Optics, 2013, 124(23): 6386-6390.(SCI)Mao X, Liu Y L, Chen L J, et al. A More Precise Empirical Formula for Estimating Normalized Fog Attenuation in the Millimeter-Wave Frequency Range 30~ 100 GHz[J]. Journal of Infrared, Millimeter, and Terahertz Waves, 2013, 34(3-4): 308-315.(SCI)Wang X,Mao X, Caleanu C D, et al. Statistical shape analysis for face movement manifold modeling[J]. Optical Engineering, 2012, 51(3): 037004-1-037004-8.(SCI)Chen L, Mao X, Wei P, et al. Mandarin emotion recognition combining acoustic and emotional point information[J]. Applied Intelligence, 2012, 37(4): 602-612.(SCI)Zheng H C, Mao X, Xue Y L, et al. Evaluation for detection probability of infrared point target under complicated backgrounds[J]. Journal of Electromagnetic Waves and Applications, 2012, 26(11-12): 1528-1537.(SCI)Chen L, Mao X, Xue Y, et al. Speech emotion recognition: Features and classification models[J]. Digital Signal Processing, 2012, 22(6): 1154-1160.(SCI)Li Z, Mao X. Emotional eye movement generation based on Geneva Emotion Wheel for virtual agents[J]. Journal of Visual Languages & Computing, 2012, 23(5): 299-310.(SCI)Mao X, Jiang L, Xue Y. Affect Computation of Chinese Short Text[J]. IEICE TRANSACTIONS on Information and Systems, 2012, 95(11): 2741-2744.(SCI)Diao, W. H., Mao, X, Zheng, H C, Xue, Y. L., & Gui, V. (2012). Image Sequence Measures for Automatic Target Tracking[J]. Progress In Electromagnetics Research, 130, 447-472(SCI)Li, Z., Mao, X. (2012). EEMML: the emotional eye movement animation toolkit[J]. Multimedia Tools and Applications, 1-21(SCI)Catalin-Daniel Caleanu, Xia Mao, Gilbert Pradel, Sorin Moga, Yuli Xue. Combined pattern search optimization of feature extraction and classification parameters in facial recognition[J]. Pattern Recognition Letters 32 (9),1250-1255,2011(SCI)W. H. Diao, X. Mao, . Metrics for Performance Evaluation of Pre-processing Algorithm In Infrared Small Target Images[J]. Progress In Electromagnetics Research, , 2011(SCI)Yu-Li Xue, Xia Mao, Catalin-Daniel Caleanu, ShanWei Lv, Layered Fuzzy Facial Expression Generation of Virtual Agent[J]. Chinese Journal of Electronics 19 (1), 69-74,2010 (SCI)Wang ., Mao, X., Caleanu. . Nonlinear shape-texture Manifold learning[J]. IEICE Transaction on Information and Systems 93 (8), 2016-2019, 2010(SCI)X. Mao, . Emotion Recognition Based on Parametric Filter and Fractal Dimension [J]. IEICE Transactions on Information and Systems 93 (8), 2324-2326, 2010(SCI)Kang Huang, Xia Mao. Novel Metric of Relative Characteristics of Small Targets and Backgrounds in Infrared Images[J]. Optical Engineering, 49(10), 2010 (SCI)Kang Huang, Xia Mao. Detectability of infrared small targets[J]. Infrared Physics & Technology, 53(3), 208- 217, 2010 (SCI)Xia Mao, Zheng Li. Generating and Describing Affective Eye Behaviors[J]. IEICE Transaction on Information and Systems, IEICE Press, 2010 (SCI)Xia Mao, Zheng Li. Agent Based Affective Tutoring Systems: A Pilot Study[J]. Computer & Education, Elsevier Press, 2010 (SCI)Wei-he Diao, Xia distance evaluation method for infrared imaging system under complicated backgrounds[J]. Electronics Letters. 45(25), 2009 (SCI)Xia Mao, Wei-he Diao. Criterion to evaluate the quality of infrared small target images [J]. In: International Journal of Infrared and Millimeter Waves,2008 (SCI)Xia Mao, Yu-Li Xue, Lee-Lung Cheng, Yun Sun. Harmonious Graphics Generating Based on the 1/f Function Theory. Chaos, Solitons & Fractals, v 32, n 2, April, 2007, 521-525 (SCI)Mao Xia, et al. Study on the Affective Property of music[J]. Chaos,Solitons & Fractals,. 2005 (SCI)Mao Xia, et al. Affective Property of Image and Fractal Dimension [J].Chaos,Solition & Fractal, . 905-910 (SCI)EI/ISTP收录:Wu X, Mao X, Chen L, et al. View-Invariant Gesture Recognition Using Nonparametric Shape Descriptor[C]//Pattern Recognition (ICPR), 2014 22nd International Conference on. IEEE, 2014: X, Liu X, Feng T, et al. A communication protocol of man overboard system based on BeiDou [C]//Intelligent Transportation Systems (ITSC), 2014 IEEE 17th International Conference on. IEEE, 2014: 1910-1911.易积政, 毛峡, 薛雨丽。 基于特征点矢量与纹理形变能量参数融合的人脸表情识别[J]. 电子与信息学报刘运龙,薛雨丽,袁素真,毛峡。基于局部均值的红外小目标检测算法[J]. 红外与激光工程. 2013.毛峡,刘运龙,薛雨丽. 基于未加权区域采样的直线反走样算法[J]. 北航学报. 2013.袁素真, 毛峡, 陈立江, 薛雨丽. 基于双量子比特态测量的量子自适应中值滤波[J]. 北京航空航天大学学报Wu X, Mao X, Chen L, et al. Combined Motion and Region-Based 3D Tracking in Active Depth Image Sequence[C]//Green Computing and Communications (GreenCom), 2013 IEEE and Internet of Things (iThings/CPSCom), IEEE International Conference on and IEEE Cyber, Physical and Social Computing. IEEE, 2013: J, Mao X, Xue Y, et al. Facial Expression Recognition Based on t-SNE and AdaboostM2[C]//Green Computing and Communications (GreenCom), 2013 IEEE and Internet of Things (iThings/CPSCom), IEEE International Conference on and IEEE Cyber, Physical and Social Computing. IEEE, 2013: L, Mao X, Wei P, et al. Speech Synthesis Research Based on EGG[C]//Green Computing and Communications (GreenCom), 2013 IEEE and Internet of Things (iThings/CPSCom), IEEE International Conference on and IEEE Cyber, Physical and Social Computing. IEEE, 2013: J, Mao X, Chen L. Fast Motion Estimation Algorithm Based on H. 264[C]//Green Computing and Communications (GreenCom), 2013 IEEE and Internet of Things (iThings/CPSCom), IEEE International Conference on and IEEE Cyber, Physical and Social Computing. IEEE, 2013: L,Mao X, Xue Y L, et al. Speech Emotional Features Measured by Power-law Distribution based on Electroglottography[C]//BIOSIGNALS. 2012: X, Luo N, Xue Y L. Emphasizing on the Timing and Type-Enhancing the Backchannel Performance of Virtual Agent[C]//ICAART (2). 2012: 259-263.毛峡,李硕. 基于AVS音频编码的信息隐藏方法[J]. 华中科技大学学报, 2012.毛峡,李硕. AAC窗型判别和量化模块的改进算法[J] 信号处理, Xue, Xia Mao and Qing Chang. Facial Action Unit Recognition and Inference for Facial Ecpression Analysis[C]. VISIGRAPP Zheng, Xia Mao, Lin Jiang and Yuli Xue. Detection probability evaluation method for infrared point target under complicated backgrounds[C]. 11th International Conference on Quantitative InfraRed X, Jiang L, Xue Y. Textual Affect Detection in Human Computer Interaction[M]//Intelligent Autonomous Systems 12. Springer Berlin Heidelberg, 2013: X, Wang C, Xue Y. Expression Intensity Recognition Based on Multilayer Hybrid Classifier[M]//Intelligent Autonomous Systems 12. Springer Berlin Heidelberg, 2013: 739-748.陈立江,毛峡,Mitsuru Ishizuka. 基于Fisher准则与SVM的分层语音情感识别[J]. 模式识别与人工智能, 2012.毛峡,刘言,梁晓庚. 极坐标框架两轴平台光轴稳定算法[J]. 兵工学报, 2011.毛峡,常乐,刁伟鹤复杂背景下红外点目标探测概率估算[J]. 北航学报, 2011.王晓侃, 毛峡, Mitsuru Ishizuk.基于非线性流形学习的人脸面部运动估计[J]. 电子与信息学报, 2011.黄康,毛峡,梁晓庚.红外小目标图像背景杂波量化方法[J]. 光学学报, 2011.黄康, 毛峡, 梁晓庚. 红外小目标图像背景杂波量化方法[J].光学学报, Caleanu,Xia Mao,Vigil Tiponut, Yuli Xue. Direct Search as Unsupervised Training Algorithm for Neural Networks[A]. 14th WSEAS Int. Conf. on Systems, Z, Mao of Virtual Agent's Pupil Size, Blink Rate and Saccade on Person Impressions[J]. 10th International Conference on Intelligent Virtual Agents (IVA'10), Philadelphia, USA. 2010.毛峡, 常乐,刁伟鹤. 复杂背景下红外点目标探测概率估算[J]. 北京航空航天大学学报.薛雨丽,毛峡, Catalin-Daniel Caleanu, 常青. 基于社交、情感和生理的分层模糊表情生成[J]. 模式识别与人工智能. 2010.黄康, 毛峡,梁晓庚, 一种新的红外背景抑制滤波算法[J]. 航空学报, 31(6), .Xia Mao,Zheng Li. Emotional Eye Movement Markup Language for Virtual Agents[A], 10th International Conference on Autonomous Agents and Multiagent Systems (AAMAS'10), Toronto, Canada 2010.刁伟鹤, 毛峡.一种新的红外目标图像质量评价方法[J]. 航空学报,2010.刁伟鹤,毛峡.自动目标识别中的图像序列质量评价方法[J]. 电子与信息学报,2010.薛雨丽,毛峡,Catalin-Daniel Caleanu,吕善伟.遮挡条件下的鲁棒表情识别方法[J], 北京航空航天大学学报,2010.刁伟鹤, 毛峡, 梁晓庚. 复杂背景红外成像系统作用距离估算方法[J]. 北京航空航天大学学报, 35(8), 1022-1026, 2009.黄康, 毛峡, 胡海勇,梁晓庚. 复杂背景下红外弱小运动目标检测的新方法,航空学报, 30(9), 1754-1760, Mao, Zheng Li, Lei Liu. Providing Expressive Eye Movement to Virtual Agents[A]. 11th International Conference on Multimodal Interfaces (ICMI-MLMI'09), Doctoral Spotlight Session. MIT Media Lab, pp. 241-244, Boston, MA, USA (2009).Xia Mao, Zheng Li, YuLi Xue. Emotional Gaze Behaviors Generation in Human-agent Interaction[A]. 27th ACM International Conference on Human Factors in Computing Systems (ACMCHI'09), Extended Abstracts, pp. 3691-3696. Boston, MA, USA, Mao, Zheng Li. Implementing Emotion-Based User-Aware E-Leaning[A]. 27th ACM International Conference on Human Factors in Computing Systems (ACMCHI'09), Extended Abstracts, pp. 3787-3792. Boston, MA, USA, Mao, Zheng Li, YuLi Xue. Emotional Gaze Behaviors Generation in Human-agent Interaction[A]. 27th ACM International Conference on Human Factors in Computing Systems (ACMCHI'09), Extended Abstracts, pp. 3691-3696. Boston, MA, USA, Mao, Zheng Li, Hai-Yan Bao. Extension of MPML with Emotion Recognition Functions Attached[A]. Proceeding of IVA08, Tokyo, Japan Mao, Zheng Li, Hai-Yan Bao. Generating and Describing Affective Human-agent Interaction[A]. Proceeding of ICNC08, Jinan, China, Mao, Zheng Li, Hai-Yan Bao. A Rough Set and SVM Based Approach to Chinese Textual Affect Sensing[A].Proceedings - 8th International Conference on Intelligent Systems Design and Applications, Taipei, China, Mao, Hai-Yan Bao, Zheng Li. Intelligent Emotion Decision System for Autonomous Agents[A]. Proceedings - 8th International Conference on Intelligent Systems Design and Applications, Taipei, China, Fu, Xia Mao. Speaker Independent Emotion Recognition Based SVM/HMMs Fusion System[A]. IEEE International Conference On Audio, Language And Image Processing (ICALIP), Shanghai, China, Fu, Xia Mao, LiJiang Chen. Speaker Independent Emotion Recognition Using HMMs Fusion System with Relative Speech Features. International Conference on Intelligent Networks and Intelligent Systems (ICINIS) , Wuhan, China, 2008.刁伟鹤,毛峡, 董旭阳. 一种红外小目标图像质量的评定方法[J]. 北京航空航天大学学报, Xia, Zhang Bing, Luo Yi. Emotion Recognition Based on a Hybrid of HMM/ANN[A]. 7th WSEAS Int. Conf. on Applied Informatics and Communications, Athens, Greece, Xia, Xue Yu-Li, Li Zheng and Diao WeiHe. Modeling of Layered Fuzzy Facial Expression Generation[A]. 12th Conf. on Huamn-Computer Interaction, Beijing, China, Xia, Xue YuLi, Li Zheng and Hu HanYong. Research on Multiple Facial Expressions of Emotions[A]. 5th Conf. on Computing, Communications and Control Technologies, Orlando, Florida, USA, 2007.毛峡, 赵兴圆,沈巍. 一种基于模糊决策的矩形目标提取算法[J]. 北京航空航天大学学报.2007.毛峡, 薛雨丽等. BHU人脸表情数据库的设计与实现[J]. 北京航空航天大学学报, (02): Xue,Xia UNIVERSITY FACIAL EXPRESSION DATABASE AND MULTIPLE FACIAL EXPRESSION RECOGNITIO[A]. International Conference on Machine Learning and Cybernetics 2006.毛峡, 孟庆宇. 基于小波分析和神经网络的脑电信号分类方法[J]. 北京航空航天大学学报., 31(10): Xia,et al. Analysis and Synthesis of Two Dimensional Fractional Brownian Motion Based on Wavelet[A]. The 6th World Multi-Conference on SYSTEMICS, CYBERNETICS AND INFORMATICS, America, Xia, et al. Study on Transforming From Painting to EURASIP – IEEE Region 8 International Symposium on Video/Image Processing and Multimedia Communications. (VIPromCom – 2002 ), Xia, et al. Analysis of Affective Characteristics and Evaluation of Harmonious Feeling of Image Based on 1/f Fluctuation Theory [A]. International Conference on Industrial & Engineering Applications of Artificial Intelligence & Expert Systems(IEA/AIE 2002)[C], Australia,: 780-789.毛峡等. 1/f波动数据的产生及其舒服感评价[J].北京航空航天大学学报,2002, 28(3):253-256.毛峡等. 基于小波的2-D分形布朗运动分析与合成[J].电子学报, .毛峡等. 图像的情感特征分析及其和谐评价[J]. 电子学报, Xia,et al. Characterization of Dried Seaweed Fluctuation Analysis[A]. of Japan [C], 1997,
一种用于三维空间杂波环境机动目标跟踪的数据互联方法,《电子与信息学报》2009年 第4期被动传感器阵列中基于粒子滤波的目标跟踪,《电子与信息学报》2009年 第4期一种新的嵌入式Linux高性能定时器实现方法,《信号处理》2009年 第3期一种新的红外弱小目标检测与跟踪算法,《信号处理》2008年 第6期被动传感器网基于修正Riccati方程的系统优化设计,《信号处理》2008年 第5期基于SIS框架和蚁群算法的非线性多目标跟踪,《电子与信息学报》2008年 第9期基于人类视觉系统的自适应数字水印算法,《上海交通大学学报》2008年 第7期一种基于电子签章的二值图像数字水印算法,《信号处理》2008年 第3期基于身份的网络化制造安全协同商务平台,《计算机工程》2008年 第13期基于Clifford代数传感器网络覆盖理论的路径分析,《电子学报》2007年 第B12期传感器网络高阶模糊覆盖分析,《电子学报》2007年 第B12期传感器网络最佳情况模糊覆盖问题研究,《电子学报》2007年 第B12期一种基于蚁群算法的多目标跟踪数据关联方法,《电子学报》2008年 第3期基于数据仓库的投资决策支持系统设计研究,《微电子学与计算机》2008年 第2期量子球壳聚类,《西安电子科技大学学报》2008年 第1期基于身份的安全邮件认证体系设计与分析,《计算机科学》2008年 第2期异类传感器系统目标快速定位方法,《系统工程与电子技术》2007年 第12期一种基于并行计算熵迁移策略的多分辨DOM数据生成算法,《中国科学技术大学学报》2007年 第12期基于模糊Hough变换的被动传感器系统航迹起始方法,《系统工程与电子技术》2007年 第11期THz信号处理与分析的研究现状和发展展望,《电子学报》2007年 第10期模糊数据互联滤波器及其在机动目标跟踪中的应用,《系统仿真学报》2007年 第20期分布式异类传感器网异步采样下的航迹起始算法,《系统工程与电子技术》2007年 第9期机动目标跟踪中数据互联新方法,《电子与信息学报》2007年 第10期一种新的视界覆盖遗传算法,《西安电子科技大学学报》2007年 第5期基于运动特征的远距离红外目标检测方法,《电子与信息学报》2007年 第8期被动传感器网基于模糊综合贴近度的航迹起始,《电子学报》2007年 第8期基于IBE的跨网络电子公文安全交换平台,《微计算机信息》2007年 第18期一种基于身份的无可信第三方签名方案,《深圳大学学报:理工版》2007年 第3期基于图像梯度场序列的双向GDIM光流计算方法,《电子学报》2007年 第7期一种基于身份的短数字签名方案,《微计算机信息》2007年 第21期分布式异类传感器网Hough变换航迹起始算法,《深圳大学学报:理工版》2007年 第2期基于DWT和DCT域的二值图像数字水印算法,《计算机与数字工程》2007年 第3期基于并行计算熵的同构集群负载均衡算法,《深圳大学学报:理工版》2007年 第1期基于unscented粒子滤波的红外弱小目标跟踪,《系统工程与电子技术》2007年 第1期一种空域DCT与时域DWT相结合的鲁棒视频数字水印算法,《中国体视学与图像分析》2006年 第4期图像插值方法对互信息局部极值的影响分析,《电子与信息学报》2006年 第10期网状被动传感器系统优化设计, 《系统工程与电子技术》2006年 第12期基于小波变换和目标运动特性的红外弱小目标检测, 《红外》2006年 第9期基于小波变换的红外弱小目标检测新方法,《红外技术》2006年 第7期在线CA的安全增强方案研究,《计算机工程》2006年 第11期基于ADSP—BF561车载多媒体系统,《现代电子技术》2006年 第3期空间分析中视界覆盖问题的研究,《系统工程与电子技术》2005年 第11期模糊观测数据的关联和目标跟踪,《信号处理》2005年 第4期从航空影像中自动提取高层建筑物,《计算机学报》2005年 第7期城市航空影像中基于模糊Retinex的阴影消除,《电子学报》2005年 第3期一种新的自适应图像模糊增强算法,《西安电子科技大学学报》2005年 第2期基于OAR模型的航空影像高层建筑自动提取,《深圳大学学报:理工版》2005年 第1期红外热图像序列中基于人体模型的目标头部定位方法,《激光与红外》2005年 第2期直线Snakes及其在建筑物提取中的应用,《西安电子科技大学学报》2005年 第1期网状被动传感器系统视线交叉目标定位方法,《电子与信息学报》2005年 第1期一种新的道路描述子:对称边缘方向直方图,《电子学报》2005年 第1期基于对称边缘方向直方图自动提取主要道路,《中国体视学与图像分析》2005年 第2期分布式被动传感器网异步采样下的机动目标跟踪,《系统仿真学报》2005年 第6期一种基于频带一致性的多模态图像校准算法,《通信学报》2005年 第4期基于模糊熵的自适应图像多层次模糊增强算法,《电子学报》2005年 第4期一种安全增强的基于椭圆曲线可验证门限签名方案,《计算机研究与发展》2005年 第4期密码学与数字水印在电子印章中的应用,《微机发展》2004年 第11期一种安全实用的电子公文系统设计与实现, 《现代电子技术》2004年 第21期基于DSP的PCI图像采集卡设计,《现代电子技术》2004年 第4期基于DSP组建短波电台无线数据传输网络的系统设计,《电子设计应用》2004年 第2期基于直方图的自适应高斯噪声滤波器,《系统工程与电子技术》2004年 第1期短波电台无线数据传输网络的组建,《现代电子技术》2004年 第3期半抑制式模糊C-均值聚类算法,《中国体视学与图像分析》2004年 第2期基于模糊推理的自动多级图像分割,《中国体视学与图像分析》2004年 第1期航空影像中立交桥的自动检测,《中国体视学与图像分析》2004年 第1期网状被动传感器系统航迹初始状态估计,《信号处理》2004年 第6期被动传感器系统分层快速关联算法,《电子学报》2004年 第12期一种基于模糊运算的多目标多传感器跟踪算法,《系统工程与电子技术》2004年 第11期异步被动传感器系统模糊Hough变换航迹起始算法,《系统工程与电子技术》2004年 第11期窗户纹理的时频描述及其在建筑物提取中的应用,《中国图象图形学报:A辑》2004年 第10期基于模糊熵的支撑矢量预选取方法,《复旦学报:自然科学版》2004年 第5期基于物方几何约束提取建筑物垂直边缘,《中国图象图形学报:A辑》2004年 第9期分布式网状被动传感器系统定位误差分析,《西安电子科技大学学报》2004年 第5期分布式网状被动传感器系统量测数据关联,《系统工程与电子技术》2004年 第12期基于核方法的分类型属性数据集模糊聚类算法,《华南理工大学学报:自然科学版》2004年 第9期基于模糊决策的密集多回波环境下航迹起始算法,《雷达与对抗》2004年 第3期红外传感器阵列基于信息冗余性的目标定位,《系统工程与电子技术》2004年 第8期基于核方法的模糊聚类算法,《西安电子科技大学学报》2004年 第4期一种用于模式识别的多色Voronoi图,《系统工程与电子技术》2004年 第7期基于DSP的短波电台无线数据传输网络实现,《深圳大学学报:理工版》2004年 第3期基于直方图的自适应图像去噪滤波器,《电子学报》2004年 第7期自适应模糊Hough变换,《电子学报》2004年 第6期基于主动秘密共享的安全容忍入侵方案,《兰州交通大学学报》2004年 第1期基于模糊熵的多值图像恢复方法,《西安电子科技大学学报》2004年 第2期
随着图像处理技术的迅速发展,图像识别技术的应用领域越来越广泛。我整理了图像识别技术论文,欢迎阅读!
图像识别技术研究综述
摘要:随着图像处理技术的迅速发展,图像识别技术的应用领域越来越广泛。图像识别是利用计算机对图像进行处理、分析和理解,由于图像在成像时受到外部环境的影响,使得图像具有特殊性,复杂性。基于图像处理技术进一步探讨图像识别技术及其应用前景。
关键词:图像处理;图像识别;成像
中图分类号:TP391 文献标识码:A 文章编号:1009-3044(2013)10-2446-02
图像是客观景物在人脑中形成的影像,是人类最重要的信息源,它是通过各种观测系统从客观世界中获得,具有直观性和易理解性。随着计算机技术、多媒体技术、人工智能技术的迅速发展,图像处理技术的应用也越来越广泛,并在科学研究、教育管理、医疗卫生、军事等领域已取得的一定的成绩。图像处理正显著地改变着人们的生活方式和生产手段,比如人们可以借助于图像处理技术欣赏月球的景色、交通管理中的车牌照识别系统、机器人领域中的计算机视觉等,在这些应用中,都离不开图像处理和识别技术。图像处理是指用计算机对图像进行处理,着重强调图像与图像之间进行的交换,主要目标是对图像进行加工以改善图像的视觉效果并为后期的图像识别大基础[1]。图像识别是利用计算机对图像进行处理、分析和理解,以识别各种不同模式的目标和对像的技术。但是由于获取的图像本事具有复杂性和特殊性,使得图像处理和识别技术成为研究热点。
1 图像处理技术
图像处理(image processing)利用计算机对图像进行分析,以达到所需的结果。图像处理可分为模拟图像处理和数字图像图像处理,而图像处理一般指数字图像处理。这种处理大多数是依赖于软件实现的。其目的是去除干扰、噪声,将原始图像编程适于计算机进行特征提取的形式,主要包括图像采样、图像增强、图像复原、图像编码与压缩和图像分割。
1)图像采集,图像采集是数字图像数据提取的主要方式。数字图像主要借助于数字摄像机、扫描仪、数码相机等设备经过采样数字化得到的图像,也包括一些动态图像,并可以将其转为数字图像,和文字、图形、声音一起存储在计算机内,显示在计算机的屏幕上。图像的提取是将一个图像变换为适合计算机处理的形式的第一步。
2)图像增强,图像在成像、采集、传输、复制等过程中图像的质量或多或少会造成一定的退化,数字化后的图像视觉效果不是十分满意。为了突出图像中感兴趣的部分,使图像的主体结构更加明确,必须对图像进行改善,即图像增强。通过图像增强,以减少图像中的图像的噪声,改变原来图像的亮度、色彩分布、对比度等参数。图像增强提高了图像的清晰度、图像的质量,使图像中的物体的轮廓更加清晰,细节更加明显。图像增强不考虑图像降质的原因,增强后的图像更加赏欣悦目,为后期的图像分析和图像理解奠定基础。
3)图像复原,图像复原也称图像恢复,由于在获取图像时环境噪声的影响、运动造成的图像模糊、光线的强弱等原因使得图像模糊,为了提取比较清晰的图像需要对图像进行恢复,图像恢复主要采用滤波方法,从降质的图像恢复原始图。图像复原的另一种特殊技术是图像重建,该技术是从物体横剖面的一组投影数据建立图像。
4)图像编码与压缩,数字图像的显著特点是数据量庞大,需要占用相当大的存储空间。但基于计算机的网络带宽和的大容量存储器无法进行数据图像的处理、存储、传输。为了能快速方便地在网络环境下传输图像或视频,那么必须对图像进行编码和压缩。目前,图像压缩编码已形成国际标准,如比较著名的静态图像压缩标准JPEG,该标准主要针对图像的分辨率、彩色图像和灰度图像,适用于网络传输的数码相片、彩色照片等方面。由于视频可以被看作是一幅幅不同的但有紧密相关的静态图像的时间序列,因此动态视频的单帧图像压缩可以应用静态图像的压缩标准。图像编码压缩技术可以减少图像的冗余数据量和存储器容量、提高图像传输速度、缩短处理时间。
5)图像分割技术,图像分割是把图像分成一些互不重叠而又具有各自特征的子区域,每一区域是像素的一个连续集,这里的特性可以是图像的颜色、形状、灰度和纹理等。图像分割根据目标与背景的先验知识将图像表示为物理上有意义的连通区域的集合。即对图像中的目标、背景进行标记、定位,然后把目标从背景中分离出来。目前,图像分割的方法主要有基于区域特征的分割方法、基于相关匹配的分割方法和基于边界特征的分割方法[2]。由于采集图像时会受到各种条件的影响会是图像变的模糊、噪声干扰,使得图像分割是会遇到困难。在实际的图像中需根据景物条件的不同选择适合的图像分割方法。图像分割为进一步的图像识别、分析和理解奠定了基础。
2 图像识别技术
图像识别是通过存储的信息(记忆中存储的信息)与当前的信息(当时进入感官的信息)进行比较实现对图像的识别[3]。前提是图像描述,描述是用数字或者符号表示图像或景物中各个目标的相关特征,甚至目标之间的关系,最终得到的是目标特征以及它们之间的关系的抽象表达。图像识别技术对图像中个性特征进行提取时,可以采用模板匹配模型。在某些具体的应用中,图像识别除了要给出被识别对象是什么物体外,还需要给出物体所处的位置和姿态以引导计算初工作。目前,图像识别技术已广泛应用于多个领域,如生物医学、卫星遥感、机器人视觉、货物检测、目标跟踪、自主车导航、公安、银行、交通、军事、电子商务和多媒体网络通信等。主要识别技术有:
指纹识别
指纹识别是生物识别技术中一种最实用、最可靠和价格便宜的识别手段,主要应用于身份验证。指纹识别是生物特征的一个部分,它具有不变性:一个人的指纹是终身不变的;唯一性:几乎没有两个完全相同的指纹[3]。一个指纹识别系统主要由指纹取像、预处理与特征提取、比对、数据库管理组成。目前,指纹识别技术与我们的现实生活紧密相关,如信用卡、医疗卡、考勤卡、储蓄卡、驾驶证、准考证等。
人脸识别 目前大多数人脸识别系统使用可见光或红外图像进行人脸识别,可见光图像识别性能很容易受到光照变化的影响。在户外光照条件不均匀的情况下,其正确识别率会大大降低。而红外图像进行人脸识别时可以克服昏暗光照条件变化影响,但由于红外线不能穿透玻璃,如果待识别的对象戴有眼镜,那么在图像识别时,眼部信息全部丢失,将严重影响人脸识别的性能[4]。
文字识别
文字识别是将模式识别、文字处理、人工智能集与一体的新技术,可以自动地把文字和其他信息分离出来,通过智能识别后输入计算机,用于代替人工的输入。文字识别技术可以将纸质的文档转换为电子文档,如银行票据、文稿、各类公式和符号等自动录入,可以提供文字的处理效率,有助于查询、修改、保存和传播。文字识别方法主要有结构统计模式识别、结构模式识别和人工神经网络[5]。由于文字的数量庞大、结构复杂、字体字形变化多样,使得文字识别技术的研究遇到一定的阻碍。
3 结束语
人类在识别现实世界中的各种事物或复杂的环境是一件轻而易举的事,但对于计算机来讲进行复杂的图像识别是非常困难的[6]。在环境较为简单的情况下,图像识别技术取得了一定的成功,但在复杂的环境下,仍面临着许多问题:如在图像识别过程中的图像分割算法之间的性能优越性比较没有特定的标准,以及算法本身存在一定的局限性,这使得图像识别的最终结果不十分精确等。
参考文献:
[1] 胡爱明,周孝宽.车牌图像的快速匹配识别方法[J].计算机工程与应用,2003,39(7):90—91.
[2] 胡学龙.数字图像处理[M].北京:电子工业出版社,2011.
[3] 范立南,韩晓微,张广渊.图像处理与模式识别[M].北京:科学出版社,2007.
[4] 晓慧,刘志镜.基于脸部和步态特征融合的身份识别[J].计算机应用,2009,1(29):8.
[5] 陈良育,曾振柄,张问银.基于图形理解的汉子构型自动分析系统[J].计算机应用,2005,25(7):1629-1631.
[6] Sanderson C,Paliwal K Fusion and Person Verification Using Speech & Face Information[C].IDIAP-RR 02-33,Martigny,Swizerland,2002.
点击下页还有更多>>>图像识别技术论文
这两天在公司做PM实习,主要是自学一些CV的知识,以了解产品在解决一些在图像识别、图像搜索方面的问题,学习的主要方式是在知网检索了篇国内近3年计算机视觉和物体识别的硕博士论文。由于时间关系,后面还会继续更新图片相似度计算(以图搜图)等方面的学习成果 将这两天的学习成果在这里总结一下。你将会看到计算机视觉在解决特定物体识别问题(主要是卷积神经网络CNNs)的基础过程和原理,但这里不会深入到技术的实现层面。
计算机视觉(Computer vision)是一门研究如何使机器“看”的科学,更进一步的说,就是指用摄影机和计算机代替人眼对目标进行识别、跟踪和测量等机器视觉,并进一步做图像处理,用计算机处理成为更适合人眼观察或传送给仪器检测的图像。 ————维基百科 通常而言,计算机视觉的研究包括三个层次: (1)底层特征的研究: 这一层次的研究主要聚焦如何高效提取出图像对象具有判别性能的特征,具体的研究内容通常包括:物体识别、字符识别等 (2)中层语义特征的研究: 该层次的研究在于在识别出对象的基础上,对其位置、边缘等信息能够准确区分。现在比较热门的:图像分割;语义分割;场景标注等,都属于该领域的范畴 (3)高层语义理解: 这一层次建立在前两层的基础上,其核心在于“理解”一词。 目标在于对复杂图像中的各个对象完成语义级别的理解。这一层次的研究常常应用于:场景识别、图像摘要生成及图像语义回答等。 而我研究的问题主要隶属于底层特征和中层语义特征研究中的物体识别和场景标注问题。
人类的视觉工作模式是这样的: 首先,我们大脑中的神经元接收到大量的信息微粒,但我们的大脑还并不能处理它们。 于是接着神经元与神经元之间交互将大量的微粒信息整合成一条又一条的线。 接着,无数条线又整合成一个个轮廓。 最后多个轮廓累加终于聚合我们现在眼前看到的样子。 计算机科学受到神经科学的启发,也采用了类似的工作方式。具体而言,图像识别问题一般都遵循下面几个流程
(1)获取底层信息。获取充分且清洁的高质量数据往往是图像识别工作能否成功的关键所在 (2)数据预处理工作,在图像识别领域主要包括四个方面的技术:去噪处理(提升信噪比)、图像增强和图像修复(主要针对不够清晰或有破损缺失的图像);归一化处理(一方面是为了减少开销、提高算法的性能,另一方面则是为了能成功使用深度学习等算法,这类算法必须使用归一化数据)。 (3)特征提取,这一点是该领域的核心,也是本文的核心。图像识别的基础是能够提取出足够高质量,能体现图像独特性和区分度的特征。 过去在10年代之前我们主要还是更多的使用传统的人工特征提取方法,如PCA\LCA等来提取一些人工设计的特征,主要的方法有(HOG、LBP以及十分著名的SIFT算法)。但是这些方法普遍存在(a)一般基于图像的一些提层特征信息(如色彩、纹理等)难以表达复杂的图像高层语义,故泛化能力普遍比较弱。(b)这些方法一般都针对特定领域的特定应用设计,泛化能力和迁移的能力大多比较弱。 另外一种思路是使用BP方法,但是毕竟BP方法是一个全连接的神经网络。这以为这我们非常容易发生过拟合问题(每个元素都要负责底层的所有参数),另外也不能根据样本对训练过程进行优化,实在是费时又费力。 因此,一些研究者开始尝试把诸如神经网络、深度学习等方法运用到特征提取的过程中,以十几年前深度学习方法在业界最重要的比赛ImageNet中第一次战胜了SIFT算法为分界线,由于其使用权重共享和特征降采样,充分利用了数据的特征。几乎每次比赛的冠军和主流都被深度学习算法及其各自改进型所占领。其中,目前使用较多又最为主流的是CNN算法,在第四部分主要也研究CNN方法的机理。
上图是一个简易的神经网络,只有一层隐含层,而且是全连接的(如图,上一层的每个节点都要对下一层的每个节点负责。)具体神经元与神经元的作用过程可见下图。
在诸多传统的神经网络中,BP算法可能是性能最好、应用最广泛的算法之一了。其核心思想是:导入训练样本、计算期望值和实际值之间的差值,不断地调整权重,使得误差减少的规定值的范围内。其具体过程如下图:
一般来说,机器学习又分成浅层学习和深度学习。传统的机器学习算法,如SVM、贝叶斯、神经网络等都属于浅层模型,其特点是只有一个隐含层。逻辑简单易懂、但是其存在理论上缺乏深度、训练时间较长、参数很大程度上依赖经验和运气等问题。 如果是有多个隐含层的多层神经网络(一般定义为大于5层),那么我们将把这个模型称为深度学习,其往往也和分层训练配套使用。这也是目前AI最火的领域之一了。如果是浅层模型的问题在于对一个复杂函数的表示能力不够,特别是在复杂问题分类情况上容易出现分类不足的弊端,深度网络的优势则在于其多层的架构可以分层表示逻辑,这样就可以用简单的方法表示出复杂的问题,一个简单的例子是: 如果我们想计算sin(cos(log(exp(x)))), 那么深度学习则可分层表示为exp(x)—>log(x)—>cos(x)—>sin(x)
图像识别问题是物体识别的一个子问题,其鲁棒性往往是解决该类问题一个非常重要的指标,该指标是指分类结果对于传入数据中的一些转化和扭曲具有保持不变的特性。这些转化和扭曲具体主要包括了: (1)噪音(2)尺度变化(3)旋转(4)光线变化(5)位移
该部分具体的内容,想要快速理解原理的话推荐看[知乎相关文章] ( ), 特别是其中有些高赞回答中都有很多动图和动画,非常有助于理解。 但核心而言,CNN的核心优势在于 共享权重 以及 感受野 ,减少了网络的参数,实现了更快的训练速度和同样预测结果下更少的训练样本,而且相对于人工方法,一般使用深度学习实现的CNN算法使用无监督学习,其也不需要手工提取特征。
CNN算法的过程给我的感觉,个人很像一个“擦玻璃”的过程。其技术主要包括了三个特性:局部感知、权重共享和池化。
CNN中的神经元主要分成了两种: (a)用于特征提取的S元,它们一起组成了卷积层,用于对于图片中的每一个特征首先局部感知。其又包含很关键的阈值参数(控制输出对输入的反映敏感度)和感受野参数(决定了从输入层中提取多大的空间进行输入,可以简单理解为擦玻璃的抹布有多大) (b)抗形变的C元,它们一起组成了池化层,也被称为欠采样或下采样。主要用于特征降维,压缩数据和参数的数量,减小过拟合,同时提高模型的容错性。 (c*)激活函数,及卷积层输出的结果要经过一次激励函数才会映射到池化层中,主要的激活函数有Sigmoid函数、Tanh函数、ReLU、Leaky ReLU、ELU、Maxout等。
也许你会抱有疑问,CNN算法和传统的BP算法等究竟有什么区别呢。这就会引出区域感受野的概念。在前面我们提到,一个全连接中,较高一层的每个神经元要对低层的每一个神经元负责,从而导致了过拟合和维度灾难的问题。但是有了区域感受野和,每个神经元只需要记录一个小区域,而高层会把这些信息综合起来,从而解决了全连接的问题。
了解区域感受野后,你也许会想,区域感受野的底层神经元具体是怎么聚合信息映射到上一层的神经元呢,这就要提到重要的卷积核的概念。这个过程非常像上面曾提到的“神经元与神经元的联系”一图,下面给大家一个很直观的理解。
上面的这个过程就被称为一个卷积核。在实际应用中,单特征不足以被系统学习分类,因此我们往往会使用多个滤波器,每个滤波器对应1个卷积核,也对应了一个不同的特征。比如:我们现在有一个人脸识别应用,我们使用一个卷积核提取出眼睛的特征,然后使用另一个卷积核提取出鼻子的特征,再用一个卷积核提取出嘴巴的特征,最后高层把这些信息聚合起来,就形成了分辨一个人与另一个人不同的判断特征。
现在我们已经有了区域感受野,也已经了解了卷积核的概念。但你会发现在实际应用中还是有问题: 给一个100 100的参数空间,假设我们的感受野大小是10 10,那么一共有squar(1000-10+1)个,即10的六次方个感受野。每个感受野中就有100个参数特征,及时每个感受野只对应一个卷积核,那么空间内也会有10的八次方个次数,,更何况我们常常使用很多个卷积核。巨大的参数要求我们还需要进一步减少权重参数,这就引出了权重共享的概念。 用一句话概括就是,对同一个特征图,每个感受野的卷积核是一样的,如这样操作后上例只需要100个参数。
池化是CNN技术的最后一个特性,其基本思想是: 一块区域有用的图像特征,在另一块相似的区域中很可能仍然有用。即我们通过卷积得到了大量的边缘EDGE数据,但往往相邻的边缘具有相似的特性,就好像我们已经得到了一个强边缘,再拥有大量相似的次边缘特征其实是没有太大增量价值的,因为这样会使得系统里充斥大量冗余信息消耗计算资源。 具体而言,池化层把语义上相似的特征合并起来,通过池化操作减少卷积层输出的特征向量,减少了参数,缓解了过拟合问题。常见的池化操作主要包括3种: 分别是最大值池化(保留了图像的纹理特征)、均值池化(保留了图像的整体特征)和随机值池化。该技术的弊端是容易过快减小数据尺寸,目前趋势是用其他方法代替池化的作用,比如胶囊网络推荐采用动态路由来代替传统池化方法,原因是池化会带来一定程度上表征的位移不变性,传统观点认为这是一个优势,但是胶囊网络的作者Hinton et al.认为图像中位置信息是应该保留的有价值信息,利用特别的聚类评分算法和动态路由的方式可以学习到更高级且灵活的表征,有望冲破目前卷积网络构架的瓶颈。
CNN总体来说是一种结构,其包含了多种网络模型结构,数目繁多的的网络模型结构决定了数据拟合能力和泛化能力的差异。其中的复杂性对用户的技术能力有较高的要求。此外,CNN仍然没有很好的解决过拟合问题和计算速度较慢的问题。
该部分的核心参考文献: 《深度学习在图像识别中的应用研究综述》郑远攀,李广阳,李晔.[J].计算机工程与应用,2019,55(12):20-36. 深度学习技术在计算机图像识别方面的领域应用研究是目前以及可预见的未来的主流趋势,在这里首先对深度学习的基本概念作一简介,其次对深度学习常用的结构模型进行概述说明,主要简述了深度信念网络(DBN)、卷积神经网络(CNN)、循环神经网络(RNN)、生成式对抗网络(GAN)、胶囊网络(CapsNet)以及对各个深度模型的改进模型做一对比分析。
深度学习按照学习架构可分为生成架构、判别架构及混合架构。 其生成架构模型主要包括: 受限波尔兹曼机、自编码器、深层信念网络等。判别架构模型主要包括:深层前馈网络、卷积神经网络等。混合架构模型则是这两种架构的集合。深度学习按数据是否具有标签可分为非监督学习与监督学习。非监督学习方法主要包括:受限玻尔兹曼机、自动编码器、深层信念网络、深层玻尔兹曼机等。 监督学习方法主要包括:深层感知器、深层前馈网络、卷积神经网络、深层堆叠网络、循环神经网络等。大量实验研究表明,监督学习与非监督学习之间无明确的界限,如:深度信念网络在训练过程中既用到监督学习方法又涉及非监督学习方法。
[1]周彬. 多视图视觉检测关键技术及其应用研究[D].浙江大学,2019. [2]郑远攀,李广阳,李晔.深度学习在图像识别中的应用研究综述[J].计算机工程与应用,2019,55(12):20-36. [3]逄淑超. 深度学习在计算机视觉领域的若干关键技术研究[D].吉林大学,2017. [4]段萌. 基于卷积神经网络的图像识别方法研究[D].郑州大学,2017. [5]李彦冬. 基于卷积神经网络的计算机视觉关键技术研究[D].电子科技大学,2017. [6]李卫. 深度学习在图像识别中的研究及应用[D].武汉理工大学,2014. [7]许可. 卷积神经网络在图像识别上的应用的研究[D].浙江大学,2012. [8]CSDN、知乎、机器之心、维基百科
钢结构无损检测 摘要:通过对应用于建筑钢结构行业中的几种常规无损检测方法的简述,归纳了被检对象所适用的不同无 损检测方法。为广大工程技术人员和管理人员了解、学习、应用无损检测技术提供参考。 关键词:建筑钢结构;无损检测 1 前言 建筑钢结构由于其强度高、工业化程度高以及综合经济效益好等优点,自上世纪 90 年代,特别是近年来得 到了迅猛发展,广泛应用于工业和民用等领域。由于一些重点工程,建筑钢结构发生了严重的质量事故, 如郑州中原博览中心网架曾发生了崩塌事故,所以建筑钢结构的安全性和可靠性越来越受到重视。 建筑钢结构的安全性和可靠性源于设计,其自身质量则源于原材料、加工制作和现场安装等因素。评价建 筑钢结构的安全性和可靠性一般有三种方式:⑴模拟实验;⑵破坏性实验;⑶无损检测。模拟实验是按一 定比例模拟建筑钢结构的规格、材质、结构形式等,模拟在其运行环境中的工作状态,测试、评价建筑钢 结构的安全性和可靠性。模拟实验能对建筑钢结构的整体性能作出定量评价,但其成本高,周期长,工艺 复杂。破坏性实验是采用破坏的方式对抽样试件的性能指标进行测试和观察。破坏性实验具有检测结果精 确、直观、误差和争议性比较小等优点,但破坏性实验只适用于抽样,而不能对全部工件进行实验,所以 不能得出全面、综合的结论。无损检测则能对原材料和工件进行 100%检测,且经济成本相对较低。 上世纪 50 年代初,无损检测技术通过前苏联进入我国。作为工艺过程控制和产品质量控制的手段,如今在 核电、航空、航天、船舶、电力、建筑钢结构等行业中得到广泛的应用,创造了巨大的经济效益和社会效 益。无损检测技术是建立在众多学科之上的一门新兴的、综合性技术。无损检测技术是以不损伤被检对象 的结构完整性和使用性能为前提,应用物理原理和化学现象,借助先进的设备器材,对各种原材料,零部 件和结构件进行有效的检验和测试,借以评价它们的完整性、连续性、致密性、安全性、可靠性及某些物 理性能。无损检测经历了三个阶段,即无损探伤(Non-destructive Inspection,简称 NDI)、无损检测 (Non-destructive testing,简称 NDT)、无损评价(Non-destructive Evaluation,简称 NDE)、无损 探伤的含义是探测和发现缺陷。无损检测不仅仅要探测和发现缺陷,而且要发现缺陷的大小、位置、当量、 性质和状态。无损评价的含义则更广泛、更深刻, 它不仅要求发现缺陷,探测被检对象的结构、性质、状 态,还要求获得更全面、更准确的,综合的信息,从而评价被检对象的运行状态和使用寿命。应用于钢结 构行业中的常规无损检测方法有磁粉检测(Magnetic Testing 简称 MT)、渗透检测(Penetrate Testing, 简称 PT)、涡流检测(Eddy current Testing 简称 ET)、声发射检测(Acoustic Emission Testing 简称 AET)、超声波检测(Ultrasonic Testing,简称 UT)、射线检测(Radiography Testing,简称 RT)。在 建筑钢结构行业中,按检测缺陷产生的时机,无损检测方法可以按下图分类。 2 检测方法的简述 磁粉检测(MT) 原理 铁磁性材料被磁化后,产生在被检对象上的磁力线均匀分布。由于不连续性的存在,使工件表面和近表面 的磁力线发生了局部畸变而产生了漏磁场,漏磁场吸附施加在被检对象表面的磁粉,形成在合适光照下可 见的磁痕,从而达到检测缺陷的目的。 适用范围 可以对铁磁性原材料,如钢板、钢管、铸钢件等进行检测,也可以对铁磁性结构件进行检测。 局限性 仅适用铁磁性材料及其合金的表面和近表面的缺陷检测,对检测人员的视力、工作场所、被检对象的规格、 形状等有一定的要求。 优点 经济、方便、效率高、灵敏度高、检测结果直观。 渗透检测(PT) 原理 在被检对象表面施加含有荧光染料或着色染料的渗透液,渗透液在毛细血管的作用下,经过一定时间 后,渗透液可以渗透到表面开口的缺陷中去。经过去除被检对象表面多余的渗透液,干燥后,再在被检对 象表面施加吸附介质(显象剂)。同样在毛细血管的作用下,显象剂吸附缺陷中的渗透液,使渗透液回渗 到显象剂中,在一定的光照下,缺陷中的渗透液被显示。从而达到检测缺陷的目的。 适用范围 适用于非多孔状固体表面开口缺陷。 局限性 仅适用于表面开口缺陷的检测,而且对被检对象的表面光洁度要求较高,涂料、铁锈、氧化皮会覆盖表面 缺陷而造成漏检。对检测人员的视力有一定要求,成本相对较高。 优点 设备轻便、操作简单,检测灵敏度高,结果直观、准确。 涡流检测(ET) 原理 金属材料在交变磁场的作用下产生了涡流,根据涡流的分布和大小可以检测出铁磁性材料和非铁磁性材料 的缺陷。 适用范围 适用于各种导电材料的表面和近表面的缺陷检测。 局限性 不适用不导电材料检测,对形状复杂的试件很难应用,比较适合钢管、钢板等形状规则的轧制型材的检测, 而且设备较贵;无法判定缺陷的性质。 优点 检测速度快,生产效率高,自动化程度高。 声发射检测(AET) 原理 材料或结构件受到内力或外力的作用产生形变或断裂时, 以弹性波的形式释放出应变能的现象称为声发射, 也称为应力波发射。声发射检测是通过受力时材料内部释放的应力波判断被检对象内部结构损伤程度的一 种新兴动态无损检测技术。 适用对象 适用于被检对象的动态监测,如对大型桥梁、核电设备的实时动态监测。 局限性 无法监测静态缺陷、干扰检测的因素较多;设备复杂、价格较贵、检测技术不太成熟。 优点 可以远距离监控设备的运行情况和缺陷的扩展情况,对结构的安全性和可靠性评价提供依据。 超声波检测(UT) 原理 超声波是指频率大于 20 千兆赫兹的机械波。根据波动传播时介质的振动方向相对于波的传播方向不同,可 将波动分为纵波、横波、表面波和板波等。用于钢结构检测的主要是纵波和横波。 超声波探伤仪激励探头产生的超声波在被检对象的介质中按一定速度传播,当遇到异面介质(如气孔、夹 渣)时,一部分超声波反射回来,经仪器处理后,放大进入示波屏,显示缺陷的回波。 适用对象 适用于各类焊逢、板材、管材、棒材、锻件、铸件以及复合材料的检测,特别适合厚度较大的工件。 局限性 检测结果可追溯性较差;定性困难,定量不精确,人为因素较多;对被检工件的材质规格,几何形状有一 定要求。 优点 检测成本低、速度快、周期短、效率高;仪器小、操作方便;能对缺陷进行精确定位;对面积型缺陷的检 出率较高(如裂纹、未熔合等) 射线检测(RT) 原理 射线是一种波长短、频率高的电磁波。 射线检测,常规使用×射线机或放射性同位素作为放射源产生射线,射线穿过被检对象,经过吸收和衰减, 由于被检试件中存在厚度差的原因,不同强度的射线到达记录介质(如射线胶片),射线胶片的不同部位 吸收了数量不等的光子,经过暗室处理后,底片上便出现了不同黑度的缺陷影象,从而判定缺陷的大小和 性质。 适用范围 适用较薄而不是较厚(如果工件的厚度超过 80mm 就要使用特殊设备进行检测,如加速器)的工件的内部体 积型缺陷的检测。 局限性 检测成本高、周期长,工作效率低;不适用角焊逢、板材、管材、棒材、锻件的检测;对面状的缺陷检出 率较低;对缺陷的高度和缺陷在被检对象中的深度较难确定;影响人体健康。 优点 检测结果直观、定性定量准确;检测结果有记录,可以长期保存,可追溯性较强。 3 小结 综上所述,每种无损检测方法的原理和特点各不相同,且适用的检测对象也不一样。在建筑钢结构的行业 中应根据结构的整体性能,检测成本及被检对象的规格、材质、缺陷的性质、缺陷产生的位置等诸多因素 合理选择无损检测方法。一般地,选择无损检测方法及合格等级,是设计人员依据相关规范而确定的。有 的工程,业主也有无损检测方法及合格等级的要求,这就需要供需双方相互协商了。 钢结构在加工制作及安装过程中无损检测方法的选择见表 1 被检对象 原材料检验 板材 锻件及棒材 管材 螺栓 焊接检验 坡口部位 清根部位 对接焊逢 角焊逢和 T 型焊逢 UT 检测方法 UT、MT(PT) UT(RT)、MT(PT) UT、MT(PT) UT、PT(MT) PT(MT) RT(UT)、MT(PT) UT(RT)、PT(MT) 被检对象所适用的无损检测方法见表 2 内部缺陷 表面缺陷和近表面 检测方法 UT ● ○ ● ● MT ● ● ● ● PT ● ○ ○ ● ET △ △ ● × AET △ △ △ △ 发生中缺陷检 测 检测方法 RT 被检对象 试 件 分 类 锻件 铸件 压延件(管、板、型材) 焊逢 × ● × ● 分层 疏松 气孔 内部 缩孔 缺陷 未焊透 未熔合 缺陷 分类 夹渣 裂纹 白点 表面裂纹 表面 缺陷 表面气孔 折叠 断口白点 × × ● ● ● △ ● ○ × △ ○ — × ● ○ ○ ○ ● ● ○ ○ ○ △ × — × — — — — — — — — — ● △ ○ ● — — — — — — — — — ● ● ○ ● — — — — — — — — — ● △ ○ — — — — — △ △ △ △ △ △ — — — 注:●很适用;○适用;△有附加条件适用;×不适用;—不相关 参 1. 考 文 献 强天鹏 射线检测 [M] 云南科技出版社 2001 2. 3. 4. 5. 周在杞等 张俊哲等 无损检测技术及其应用 [M] 科学出版社 王小雷 锅炉压力容器无损检测相关知识 [M] 李家伟等 无损检测 冉启芳 2001 1993 [M] 机械工业出版社 2002 无损检测方法的分类及其特征的介绍 [J] 无损检测 1999 2 钢网架结构超声波检测及其质量的分 [J] 无损检测 2001 6 磁粉检测(MT) 磁粉检测(MT) 原理 铁磁性材料被磁化后,产生在被检对象上的磁力线均匀分布。由于不连续性的存在,使工件表面和近表面 的磁力线发生了局部畸变而产生了漏磁场,漏磁场吸附施加在被检对象表面的磁粉,形成在合适光照下可 见的磁痕,从而达到检测缺陷的目的。 磁粉探伤的原理及概述 磁粉探伤的原理 磁粉探伤又称 MT 或者 MPT(Magnetic Particle Testing),适用于钢铁等磁性材料的表面附近进行探伤 的检测方法。利用铁受磁石吸引的原理进行检查。在进行磁粉探伤检测时,使被测物收到磁力的作用,将 磁粉(磁性微型粉末)散布在其表面。然后,缺陷的部分表面所泄漏出来泄露磁力会将磁粉吸住,形成指 示图案。指示图案比实际缺陷要大数十倍,因此很容易便能找出缺陷。 磁粉探伤方法 磁粉探伤检测的顺序分为前期处理、磁化、磁粉使用、观察,以及后期处理。 前期处理→磁化→磁粉使用→观察→后期处理 以下分别说明各个步骤的概要。 (1)前期处理 探探伤面如果有油脂、涂料、锈、或其他异物附着的情况下,不仅会妨碍磁粉吸附在伤痕上,而且还会出 现磁粉吸附在伤痕之外的部分形成疑私图像的情况。因此在磁化之前,要采用物理或者化学处理,进行去 除污垢异物的步骤。 (2)磁化 将检测物适当磁化是非常重要的。通常,采用与伤痕方向与磁力线方向垂直的磁化方式。另外为了适当磁 化,根据检测物的形状可以采用多种方法。日本工业规格(JIS G 0565-1992)中规定了以下 7 种磁化方法。 ①轴通电法……在检测物轴方向直接通过电流。 ②直角通电法……在检测物垂直于轴的方向直接通过电流。 ③Prod 法……在检测物局部安置 2 个电极(称为 Prod)通过电流。 ④电流贯通法……在检测物的孔穴中穿过的导电体中通过电流。 ⑤线圈法……在检测物中放入线圈,在线圈中通过电流。 ⑥极间法……把检测物或者要检测的部位放入电磁石或永磁石的磁极间。 ⑦磁力线贯通法……对通过检测物的孔穴的强磁性物体施加交流磁力线,使感应电流通过检测物。 (3)磁粉使用磁粉探伤的原理 ① 磁粉的种类 为了让磁粉吸附在伤痕部的磁极间形成检出图像,使用的磁粉必须容易被伤痕部的微弱磁场磁化,吸附在 磁极上,也就是说需要优秀的吸附性能。另外,要求形成的磁粉图像必须有很高的识别性。 一般,磁粉探伤中使用的磁粉有在可见光下使用的白色、黑色、红色等不同磁粉,以及利用荧光发光的荧 光磁粉。另外,根据磁粉使用的场合,有粉状的干性磁粉以及在水或油中分散使用的湿性磁粉。 ② 磁粉的使用时间 磁粉使用时间分为一边通过磁化电流一边使用磁粉的连续法,以及在切断磁化电流的状态即利用检测物的 残留磁力的残留法两种。 (4)观察 为了便于观察附着在伤痕部位的磁粉图像,必须创造容易观察的环境。普通磁粉需要在尽可能明亮的环境 下观察,荧光磁粉则要使用紫外线照射灯将周围尽量变暗才容易观察。 (5)后期处理 磁粉探伤结束,检测物有可能仍作为产品或是需要送往下一个加工步骤接受机械加工等。这时就需要进行 退磁、去除磁粉、防锈处理等后期处理。 适用范围 可以对铁磁性原材料,如钢板、钢管、铸钢件等进行检测,也可以对铁磁性结构件进行检测。 局限性 仅适用铁磁性材料及其合金的表面和近表面的缺陷检测,对检测人员的视力、工作场所、被检对象的规格、 形状等有一定的要求。 优点 经济、方便、效率高、灵敏度高、检测结果直观。 生产厂家: 生产厂家:济宁联永超声电子有限公司 仪器设备名称: 仪器设备名称:CDX-Ⅲ该机型磁粉探伤仪 Ⅲ 仪器概况:CDX-Ⅲ该机型磁粉探伤仪是具有多种磁化方式的磁粉探 伤仪设备。仪器采用可控硅作无触点开关,噪音小、寿命长、操作简 单、方便、适应性强、工作稳定。是最近推出新产品,它除具有便携 式机种的一切优点,还具有移动机种的某些长处,扩展了用途,简化 了操作,还具有退磁功能。 该设备有四种探头: 1、旋转探头: 型)能对各种焊缝、各种几何形状的曲面、平面、 (E 管道、锅炉、球罐等压力容器进行一次性全方位显示缺陷和伤痕。 2、电磁轭探头: 型)它配有活关节,可以对平面、曲面工件进行 (D 探伤。 3、马蹄探头: 型)它可以对各种角焊缝,大型工件的内外角进行 (A 局部探伤。 4、磁环: 型)它能满足所有能放入工件的周向裂纹的探伤,用它 (O 来检测工件的疲劳痕(疲劳裂痕均垂于轴向)及为方便,用它还可以 对工件进行远离法退磁。 总之,该仪器是多种探伤仪的给合体,功能与适用范围广,尤其应用 于不允许通电起弧破表面零件的探伤。 无损检测概论及新技术应用 无损检测概论及新技术应用 概论 摘要: 摘要:综述了无损检测的定义、方法、特点、要求等基本知识,以及无损检测在 现今社会中的应用实例,其中包括混凝土超声波无损检测技术、涡流无损检测技 术、渗透探伤技术。 关键词: 关键词:无损检测;混凝土缺陷;涡流检测;渗透探伤。 引言: 引言:随着现代工业的发展,对产品的质量和结构的安全性、使用的可靠性提出 了越来越高的要求,无损检测技术由于具有不破坏试件、检测灵敏度高等优点, 所以其应用日益广泛。无损检测是工业发展必不可少的有效工具,在一定程度上 反映了一个国家的工业发展水平,其重要性已得到公认。 1、 无损检测概论 、 无损检测 检测概论 无损检测就是利用声、光、磁和电等特性,在不损害或不影响被检对象使用 性能的前提下,检测被检对象中是否存在缺陷或不均匀性,给出缺陷的大小、位 置、性质和数量等信息,进而判定被检对象所处技术状态(如合格与否、剩余寿 命等)的所有技术手段的总称。 常用的无损检测方法有射线照相检验(RT)、超声检测(UT)、磁粉检测(MT)和 液体渗透检测(PT) 四种。 其他无损检测方法: 涡流检测(ET)、 声发射检测 (AT) 、 (TIR) 泄漏试验 、 (LT) 交流场测量技术 、 (ACFMT) 漏磁检验 、 (MFL)、 热像/红外 远场测试检测方法(RFT)等。 基于以上方法,无损检测具有一下应用特点: 1>不损坏试件材质、结构 无损检测的最大特点就是能在不损坏试件材质、 结构的前提下进行检测, 所以实施无损检测后,产品的检查率可以达到 100%。但是,并不是所有需要测 试的项目和指标都能进行无损检测,无损检测技术也有自身的局限性。某些试验 只能采用破坏性试验, 因此, 在目前无损检测还不能代替破坏性检测。 也就是说, 对一个工件、材料、机器设备的评价,必须把无损检测的结果与破坏性试验的结 果互相对比和配合,才能作出准确的评定。 2>正确选用实施无损检测的时机 在无损检测时, 必须根据无损检测的目的,正确选择无损检测的时机,从而顺利 地完成检测预定目的,正确评价产品质量。 3>正确选用最适当的无损检测方法 由于各种检测方法都具有一定的特点,为提高检测结果可靠性,应根据设备 材质、制造方法、工作介质、使用条件和失效模式,预计可能产生的缺陷种类、 形状、部位和取向,选择合适的无损检测方法。 4>综合应用各种无损检测方法 任何一种无损检测方法都不是万能的,每种方法都有自己的优点和缺点。应 尽可能多用几种检测方法,互相取长补短,以保障承压设备安全运行。此外在无 损检测的应用中,还应充分认识到,检测的目的不是片面追求过高要求的“高质 量”,而是应在充分保证安全性和合适风险率的前提下,着重考虑其经济性。只 有这样,无损检测在承压设备的应用才能达到预期目的。[1] 通过各种检测方法,最终对于无损检测的要求是:不仅要发现缺陷,探测试 件的结构、状态、性质,还要获取更全面、准确和综合的信息,辅以成象技术、 自动化技术、计算机数据分析和处理技术等,与材料力学、断裂力学等学科综合 应用,以期对试件和产品的质量和性能作出全面、准确的评价。 2、 无损检测在各领域的应用 、 无损检测基于以上优点,在现今社会受到广泛关注和应用,为实际生产工作减 少了废料成本,提供了极大的方便。其中超声波检测技术、涡流检测、渗透探伤 技术、霍尔效应无损探伤技术应用极为出色。 混凝土超声无损检测 混凝土是我国建筑结构工程最为重要的材料之一,它的质量直接关系到结构 的安全。多年来,结构混凝土质量的传统检测方法是以按规定的取样方法,制作 立方体试件,在规定的温度环境下,养护 28d 时按标准实验方法测得的试件抗压 强度来评定结构构件的混凝土强度。用试件实验测得的混凝土性能指标,往往是 与结构物中的混凝土性能有一定差别。因此,直接在结构物上检测混凝土质量的 现场检测技术,已成为混凝土质量管理的重要手段。 所谓混凝土“无损检测”技术,就是要在不破坏结构构件的情况下,利用测 试仪器获取有关混凝土质量等受力功能的物理量。 因该物理量与混凝土质量之间 有较好的相互关系,可采用获取的物理量去推定混凝土质量。[2] 混凝土超声检测是用超声波探头中的压电陶瓷或其他类型的压电晶体加载某 频率的交流电压后激发出固定频率的弹性波, 在材料或结构内部传播后再由超声 波换能器接收,通过对采集的超声波信号的声速、振幅、频率以及波形等声学参 数进行分析,以此推断混凝土结构的力学特性、内部结构及其组成情况。超声波 检测可用于混凝土结构的测厚、探伤、混凝土的弹性模量测定以及混凝土力学强 度评定等方面. [3] 涡流无损检测 涡流检测的基本原理:将通有交流电的线圈置于待测的金属板上或套在待测 的金属管外。这时线圈内及其附近将产生交变磁场,使试件中产生呈旋涡状的感 应交变电流,称为涡流。涡流的分布和大小,除与线圈的形状和尺寸、交流电流 的大小和频率等有关外,还取决于试件的电导率、磁导率、形状和尺寸、与线圈 的距离以及表面有无裂纹缺陷等。因而,在保持其他因素相对不变的条件下,用 一探测线圈测量涡流所引起的磁场变化,可推知试件中涡流的大小和相位变化, 进而获得有关电导率、缺陷、材质状况和其他物理量(如形状、尺寸等)的变化或 缺陷存在等信息。但由于涡流是交变电流,具有集肤效应,所检测到的信息仅能 反映试件表面或近表面处的情况。[4] 应用:按试件的形状和检测目的的不同,可采用不同形式的线圈,通常有穿过 式、探头式和插入式线圈 3 种。穿过式线圈用来检测管材、棒材和线材,它的内 径略大于被检物件, 使用时使被检物体以一定的速度在线圈内通过, 可发现裂纹、 夹杂、凹坑等缺陷。探头式线圈适用于对试件进行局部探测。应用时线圈置于金 属板、管或其他零件上,可检查飞机起落撑杆内筒上和涡轮发动机叶片上的疲劳 裂纹等。插入式线圈也称内部探头,放在管子或零件的孔内用来作内壁检测,可 用于检查各种管道内壁的腐蚀程度等。为了提高检测灵敏度,探头式和插入式线 圈大多装有磁芯。涡流法主要用于生产线上的金属管、棒、线的快速检测以及大 批量零件如轴承钢球、汽门等的探伤(这时除涡流仪器外尚须配备自动装卸和传 送的机械装置) 、材质分选和硬度测量,也可用来测量镀层和涂膜的厚度。[5] 优缺点:涡流检测时线圈不需与被测物直接接触,可进行高速检测,易于实现 自动化,但不适用于形状复杂的零件,而且只能检测导电材料的表面和近表面缺陷, 检测结果也易于受到材料本身及其他因素的干扰。 渗透探伤技术 液体渗透检测的基本原理:零件表面被施涂含有荧光染料或着色染料的渗透 剂后,在毛细管作用下,经过一段时间,渗透液可以渗透进表面开口缺陷中;经 去除零件表面多余的渗透液后,再在零件表面施涂显像剂,同样,在毛细管的作 用下,显像剂将吸引缺陷中保留的渗透液,渗透液回渗到显像剂中,在一定的光 源下 (紫外线光或白光) 缺陷处的渗透液痕迹被现实, 黄绿色荧光或鲜艳红色) , ( , 从而探测出缺陷的形貌及分布状态。[6] 渗透检测适用于具有非吸收的光洁表面的金属、非金属,特别是无法采用磁 性检测的材料,例如铝合金、镁合金、钛合金、铜合金、奥氏体钢等的制品,可 检验锻件、铸件、焊缝、陶瓷、玻璃、塑料以及机械零件等的表面开口型缺陷。 渗透检测的优点是灵敏度较高(已能达到检测开口宽度达 的裂缝) ,检测 成本低,使用设备与材料简单,操作轻便简易,显示结果直观并可进一步作直观 验证(例如使用放大镜或显微镜观察) ,其结果也容易判断和解释,检测效率较 高。缺点是受试件表面状态影响很大并只能适用于检查表面开口型缺陷,如果缺 陷中填塞有较多杂质时将影响其检出的灵敏度。[7] 3、 结语 、 随着现代科学技术的发展,激光、红外、微波、液晶等技术都被应用于无损 检测领域,而传统的常规无损检测技术也因为现代科技的发展,大大丰富了应用 方法,如射线照相就可细分为 X 射线、γ射线、中子射线、高能 X 射线、射线 实时照相、层析照相……等多种方法。 无损检测作为一种综合性应用技术,无损检测技术经历了从无损探伤,到无 损检测,再到无损评价,并且向自动无损评价、定量无损评价发展。相信在不远 的将来, 新生的纳米材料、 微机电器件等行业的无损检测技术将会得到迅速发展。 参考文献【1】李喜孟.无损检测.机械工业出版社.2011 】 【2】父新漩. 混凝土无损检测手册.人民交通出版社.2003 】 【 3】 冯子蒙.超声波无损检测于评价的关键技术问题及其解决方案.煤矿机 】 械.2009(9) 【4】唐继强.无损检测实验.机械工业出版社.2011 】 【5】李丽茹.表面检测.机械工业出版社.2009 】 【6】国防科技工业无损检测人员资格鉴定与认证培训教材编审委员会.机械工业 出版社.2004 【7】胡学知主编. 中国劳动社会保障出版社.2007 】
随着图像处理技术的迅速发展,图像识别技术的应用领域越来越广泛。我整理了图像识别技术论文,欢迎阅读!
图像识别技术研究综述
摘要:随着图像处理技术的迅速发展,图像识别技术的应用领域越来越广泛。图像识别是利用计算机对图像进行处理、分析和理解,由于图像在成像时受到外部环境的影响,使得图像具有特殊性,复杂性。基于图像处理技术进一步探讨图像识别技术及其应用前景。
关键词:图像处理;图像识别;成像
中图分类号:TP391 文献标识码:A 文章编号:1009-3044(2013)10-2446-02
图像是客观景物在人脑中形成的影像,是人类最重要的信息源,它是通过各种观测系统从客观世界中获得,具有直观性和易理解性。随着计算机技术、多媒体技术、人工智能技术的迅速发展,图像处理技术的应用也越来越广泛,并在科学研究、教育管理、医疗卫生、军事等领域已取得的一定的成绩。图像处理正显著地改变着人们的生活方式和生产手段,比如人们可以借助于图像处理技术欣赏月球的景色、交通管理中的车牌照识别系统、机器人领域中的计算机视觉等,在这些应用中,都离不开图像处理和识别技术。图像处理是指用计算机对图像进行处理,着重强调图像与图像之间进行的交换,主要目标是对图像进行加工以改善图像的视觉效果并为后期的图像识别大基础[1]。图像识别是利用计算机对图像进行处理、分析和理解,以识别各种不同模式的目标和对像的技术。但是由于获取的图像本事具有复杂性和特殊性,使得图像处理和识别技术成为研究热点。
1 图像处理技术
图像处理(image processing)利用计算机对图像进行分析,以达到所需的结果。图像处理可分为模拟图像处理和数字图像图像处理,而图像处理一般指数字图像处理。这种处理大多数是依赖于软件实现的。其目的是去除干扰、噪声,将原始图像编程适于计算机进行特征提取的形式,主要包括图像采样、图像增强、图像复原、图像编码与压缩和图像分割。
1)图像采集,图像采集是数字图像数据提取的主要方式。数字图像主要借助于数字摄像机、扫描仪、数码相机等设备经过采样数字化得到的图像,也包括一些动态图像,并可以将其转为数字图像,和文字、图形、声音一起存储在计算机内,显示在计算机的屏幕上。图像的提取是将一个图像变换为适合计算机处理的形式的第一步。
2)图像增强,图像在成像、采集、传输、复制等过程中图像的质量或多或少会造成一定的退化,数字化后的图像视觉效果不是十分满意。为了突出图像中感兴趣的部分,使图像的主体结构更加明确,必须对图像进行改善,即图像增强。通过图像增强,以减少图像中的图像的噪声,改变原来图像的亮度、色彩分布、对比度等参数。图像增强提高了图像的清晰度、图像的质量,使图像中的物体的轮廓更加清晰,细节更加明显。图像增强不考虑图像降质的原因,增强后的图像更加赏欣悦目,为后期的图像分析和图像理解奠定基础。
3)图像复原,图像复原也称图像恢复,由于在获取图像时环境噪声的影响、运动造成的图像模糊、光线的强弱等原因使得图像模糊,为了提取比较清晰的图像需要对图像进行恢复,图像恢复主要采用滤波方法,从降质的图像恢复原始图。图像复原的另一种特殊技术是图像重建,该技术是从物体横剖面的一组投影数据建立图像。
4)图像编码与压缩,数字图像的显著特点是数据量庞大,需要占用相当大的存储空间。但基于计算机的网络带宽和的大容量存储器无法进行数据图像的处理、存储、传输。为了能快速方便地在网络环境下传输图像或视频,那么必须对图像进行编码和压缩。目前,图像压缩编码已形成国际标准,如比较著名的静态图像压缩标准JPEG,该标准主要针对图像的分辨率、彩色图像和灰度图像,适用于网络传输的数码相片、彩色照片等方面。由于视频可以被看作是一幅幅不同的但有紧密相关的静态图像的时间序列,因此动态视频的单帧图像压缩可以应用静态图像的压缩标准。图像编码压缩技术可以减少图像的冗余数据量和存储器容量、提高图像传输速度、缩短处理时间。
5)图像分割技术,图像分割是把图像分成一些互不重叠而又具有各自特征的子区域,每一区域是像素的一个连续集,这里的特性可以是图像的颜色、形状、灰度和纹理等。图像分割根据目标与背景的先验知识将图像表示为物理上有意义的连通区域的集合。即对图像中的目标、背景进行标记、定位,然后把目标从背景中分离出来。目前,图像分割的方法主要有基于区域特征的分割方法、基于相关匹配的分割方法和基于边界特征的分割方法[2]。由于采集图像时会受到各种条件的影响会是图像变的模糊、噪声干扰,使得图像分割是会遇到困难。在实际的图像中需根据景物条件的不同选择适合的图像分割方法。图像分割为进一步的图像识别、分析和理解奠定了基础。
2 图像识别技术
图像识别是通过存储的信息(记忆中存储的信息)与当前的信息(当时进入感官的信息)进行比较实现对图像的识别[3]。前提是图像描述,描述是用数字或者符号表示图像或景物中各个目标的相关特征,甚至目标之间的关系,最终得到的是目标特征以及它们之间的关系的抽象表达。图像识别技术对图像中个性特征进行提取时,可以采用模板匹配模型。在某些具体的应用中,图像识别除了要给出被识别对象是什么物体外,还需要给出物体所处的位置和姿态以引导计算初工作。目前,图像识别技术已广泛应用于多个领域,如生物医学、卫星遥感、机器人视觉、货物检测、目标跟踪、自主车导航、公安、银行、交通、军事、电子商务和多媒体网络通信等。主要识别技术有:
指纹识别
指纹识别是生物识别技术中一种最实用、最可靠和价格便宜的识别手段,主要应用于身份验证。指纹识别是生物特征的一个部分,它具有不变性:一个人的指纹是终身不变的;唯一性:几乎没有两个完全相同的指纹[3]。一个指纹识别系统主要由指纹取像、预处理与特征提取、比对、数据库管理组成。目前,指纹识别技术与我们的现实生活紧密相关,如信用卡、医疗卡、考勤卡、储蓄卡、驾驶证、准考证等。
人脸识别 目前大多数人脸识别系统使用可见光或红外图像进行人脸识别,可见光图像识别性能很容易受到光照变化的影响。在户外光照条件不均匀的情况下,其正确识别率会大大降低。而红外图像进行人脸识别时可以克服昏暗光照条件变化影响,但由于红外线不能穿透玻璃,如果待识别的对象戴有眼镜,那么在图像识别时,眼部信息全部丢失,将严重影响人脸识别的性能[4]。
文字识别
文字识别是将模式识别、文字处理、人工智能集与一体的新技术,可以自动地把文字和其他信息分离出来,通过智能识别后输入计算机,用于代替人工的输入。文字识别技术可以将纸质的文档转换为电子文档,如银行票据、文稿、各类公式和符号等自动录入,可以提供文字的处理效率,有助于查询、修改、保存和传播。文字识别方法主要有结构统计模式识别、结构模式识别和人工神经网络[5]。由于文字的数量庞大、结构复杂、字体字形变化多样,使得文字识别技术的研究遇到一定的阻碍。
3 结束语
人类在识别现实世界中的各种事物或复杂的环境是一件轻而易举的事,但对于计算机来讲进行复杂的图像识别是非常困难的[6]。在环境较为简单的情况下,图像识别技术取得了一定的成功,但在复杂的环境下,仍面临着许多问题:如在图像识别过程中的图像分割算法之间的性能优越性比较没有特定的标准,以及算法本身存在一定的局限性,这使得图像识别的最终结果不十分精确等。
参考文献:
[1] 胡爱明,周孝宽.车牌图像的快速匹配识别方法[J].计算机工程与应用,2003,39(7):90—91.
[2] 胡学龙.数字图像处理[M].北京:电子工业出版社,2011.
[3] 范立南,韩晓微,张广渊.图像处理与模式识别[M].北京:科学出版社,2007.
[4] 晓慧,刘志镜.基于脸部和步态特征融合的身份识别[J].计算机应用,2009,1(29):8.
[5] 陈良育,曾振柄,张问银.基于图形理解的汉子构型自动分析系统[J].计算机应用,2005,25(7):1629-1631.
[6] Sanderson C,Paliwal K Fusion and Person Verification Using Speech & Face Information[C].IDIAP-RR 02-33,Martigny,Swizerland,2002.
点击下页还有更多>>>图像识别技术论文
能不能给我发一份呢?
目标检测(object detection)是计算机视觉中非常重要的一个领域。在卷积神经网络出现之前,都利用一些传统方法手动提取图像特征进行目标检测及定位,这些方法不仅耗时而且性能较低。而在卷积神经网络出现之后,目标检测领域发生了翻天覆地的变化。最著名的目标检测系统有RCNN系列、YOLO和SSD,本文将介绍RCNN系列的开篇作RCNN。 RCNN系列的技术演进过程可参见 基于深度学习的目标检测技术演进:R-CNN、Fast R-CNN、Faster R-CNN 。 目标检测分为两步:第一步是对图像进行分类,即图像中的内容是什么;第二步则是对图像进行定位,找出图像中物体的具体位置。简单来说就是图像里面有什么,位置在哪。 然而,由于不同图片中物体出现的大小可能不同(多尺度),位置也可能不同,而且摆放角度,姿态等都可以不同,同时一张图片中还可以出现多个类别。这使得目标检测任务异常艰难。上面任务用专业的说法就是:图像识别+定位两个不同的分支分别完成不同的功能,分类和定位。回归(regression)分支与分类分支(classification)共享网络卷积部分的参数值。 还是刚才的分类识别+回归定位思路。只是现在我们提前先取好不同位置的框,然后将这个框输入到网络中而不是像思路一将原始图像直接输入到网络中。然后计算出这个框的得分,取得分最高的框。 如上,对于同一个图像中猫的识别定位。分别取了四个角四个框进行分类和回归。其得分分别为,因此右下角得分最高,选择右下角的黑框作为目标位置的预测(这里即完成了定位任务)。 这里还有一个问题——检测位置时的框要怎么取,取多大?在上面我们是在257x257的图像中取了221x221的4个角。以不同大小的窗口从左上角到右下角依次扫描的话,数据量会非常大。而且,如果考虑多尺度问题的话,还需要在将图像放缩到不同水平的大小来进行计算,这样又大大增加了计算量。如何取框这个问题可以说是目标检测的核心问题之一了,RCNN,fast RCNN以及faster RCNN对于这个问题的解决办法不断地进行优化,这个到了后面再讲。 总结一下思路: 对于一张图片,用各种大小的框将图片截取出来,输入到CNN,然后CNN会输出这个框的类别以及其位置得分。 对于检测框的选取,一般是采用某种方法先找出可能含有物体的框(也就是候选框,比如1000个候选框),这些框是可以互相重叠互相包含的,这样我们就可以避免暴力枚举所有框了。讲完了思路,我们下面具体仔细来看看RCNN系列的实现,本篇先介绍RCNN的方法。 R-CNN相比于之前的各种目标检测算法,不仅在准确率上有了很大的提升,在运行效率上同样提升很大。R-CNN的过程分为4个阶段: 在前面我们已经简单介绍了selective search方法,通过这个方法我们筛选出了2k左右的候选框。然而搜索出的矩形框大小是不同的。而在AlexNet中由于最后全连接层的存在,对于图像尺寸有固定的要求,因此在将候选框输入之前,作者对这些候选框的大小进行了统一处理——放缩到了统一大小。文章中作者使用的处理方法有两种: (1)各向异性缩放因为图片扭曲可能会对后续CNN模型训练产生影响,于是作者也测试了各向同性缩放的方法。有两种方法: 此外,作者对于bounding box还尝试了padding处理,上面的示意图中第1、3行就是结合了padding=0,第2、4行结果采用padding=16的结果。经过最后的试验,作者发现采用各向异性缩放、padding=16的精度最高。 卷积神经网络训练分为两步:(1)预训练;(2)fine-tune。 先在一个大的数据集上面训练模型(R-CNN中的卷机模型使用的是AlexNet),然后利用这个训练好的模型进行fine-tune(或称为迁移学习),即使用这个预训练好的模型参数初始化模型参数,然后在目标数据集上面进行训练。 此外,在训练时,作者还尝试采用不同层数的全连接层,发现一个全连接层比两个全连接层效果要好,这可能是因为使用两个全连接层后过拟合导致的。 另一个比较有意思的地方是:对于CNN模型,卷积层学到的特征其实就是基础的共享特征提取层,类似于传统的图像特征提取算法。而最后的全连接层学到的则是针对特定任务的特征。譬如对于人脸性别识别来说,一个CNN模型前面的卷积层所学习到的特征就类似于学习人脸共性特征,然后全连接层所学习的特征就是针对性别分类的特征了。 最后,利用训练好的模型对候选框提取特征。 关于正负样本的问题:由于选取的bounding box不可能与人工label的完全相同,因此在CNN训练阶段需要设置IOU阈值来为bounding box打标签。在文章中作者将阈值设置为,即如果候选框bounding box与人工label的区域重叠面积大于,则将其标注为物体类别(正样本),否则我们就把他当做背景类别(负样本)。 作者针对每一个类别都训练了一个二分类的SVM。这里定义正负样本的方法与上面卷积网络训练的定义方法又不相同。作者在文章中尝试了多种IoU阈值()。最后通过训练发现,IoU阈值为的时候效果最好(选择为0精度下降了4个百分点,选择精度下降了5个百分点)。即当IoU小于的时候我们将其视为负样本,否则为正样本。 目标检测问题的衡量标准是重叠面积:许多看似准确的检测结果,往往因为候选框不够准确,重叠面积很小。故需要一个位置精修步骤。在实现边界回归的过程中发现了两个微妙的问题。第一是正则化是重要的:我们基于验证集,设置λ=1000。第二个问题是,选择使用哪些训练对(P,G)时必须小心。直观地说,如果P远离所有的检测框真值,那么将P转换为检测框真值G的任务就没有意义。使用像P这样的例子会导致一个无望的学习问题。因此,只有当提案P至少在一个检测框真值附近时,我们才执行学习任务。“附近”即,将P分配给具有最大IoU的检测框真值G(在重叠多于一个的情况下),并且仅当重叠大于阈值(基于验证集,我们使用的阈值为)。所有未分配的提案都被丢弃。我们为每个目标类别执行一次,以便学习一组特定于类别的检测框回归器。 在测试时,我们对每个提案进行评分,并预测其新的检测框一次。原则上,我们可以迭代这个过程(即重新评估新预测的检测框,然后从它预测一个新的检测框,等等)。但是,我们发现迭代不会改进结果。 使用selective search的方法在测试图片上提取2000个region propasals ,将每个region proposals归一化到227x227,然后再CNN中正向传播,将最后一层得到的特征提取出来。然后对于每一个类别,使用为这一类训练的SVM分类器对提取的特征向量进行打分,得到测试图片中对于所有region proposals的对于这一类的分数,再使用贪心的非极大值抑制(NMS)去除相交的多余的框。再对这些框进行canny边缘检测,就可以得到bounding-box(then B-BoxRegression)。 参考: Rich feature hierarchies for accurate object detection and semantic segmentation. RCNN-将CNN引入目标检测的开山之作-晓雷的文章 基于深度学习的目标检测技术演进:R-CNN、Fast R-CNN、Faster R-CNN R-CNN 论文翻译
运动目标检测与跟踪算法研究 视觉是人类感知自身周围复杂环境最直接有效的手段之一, 而在现实生活中 大量有意义的视觉信息都包含在运动中,人眼对运动的物体和目标也更敏感,能 够快速的发现运动目标, 并对目标的运动轨迹进行预测和描绘。 随着计算机技术、 通信技术、图像处理技术的不断发展,计算机视觉己成为目前的热点研究问题之 一。 而运动目标检测与跟踪是计算机视觉研究的核心课题之一, 融合了图像处理、 模式识别、人工智能、自动控制、计算机等众多领域的先进技术,在军事制导、 视觉导航、视频监控、智能交通、医疗诊断、工业产品检测等方面有着重要的实 用价值和广阔的发展前景。 1、国内外研究现状 运动目标检测 运动目标检测是指从序列图像中将运动的前景目标从背景图像中提取出来。 根据运动目标与摄像机之间的关系, 运动目标检测分为静态背景下的运动目标检 测和动态背景下的运动目标检测。 静态背景下的运动目标检测是指摄像机在整个 监视过程中不发生移动; 动态背景下的运动目标检测是指摄像机在监视过程中发 生了移动,如平动、旋转或多自由度运动等。 静态背景 静态背景下的运动目标检测方法主要有以下几种: (1)背景差分法 背景差分法是目前最常用的一种目标检测方法, 其基本思想就是首先获得一个 背景模型,然后将当前帧与背景模型相减,如果像素差值大于某一阈值,则判断 此像素属于运动目标,否则属于背景图像。利用当前图像与背景图像的差分来检 测运动区域,一般能够提供比较完整的特征数据,但对于动态场景的变化,如光 照和外来无关事件的干扰等特别敏感。 很多研究人员目前都致力于开发不同的背 景模型,以减少动态场景变化对运动目标检测的影响。背景模型的建立与更新、 阴影的去除等对跟踪结果的好坏至关重要。 背景差分法的实现简单,在固定背景下能够完整地精确、快速地分割出运动 对象。不足之处是易受环境光线变化的影响,需要加入背景图像更新机制,且只 对背景已知的运动对象检测比较有效, 不适用于摄像头运动或者背景灰度变化很 大的情况。 (2)帧间差分法 帧间差分法是在连续的图像序列中两个或三个相邻帧间, 采用基于像素的时 间差分并阈值化来提取图像中的运动区域。 帧间差分法对动态环境具有较强的自 适应性,但一般不能完全提取出所有相关的特征像素点,在运动实体内部容易产 生空洞现象。因此在相邻帧间差分法的基础上提出了对称差分法,它是对图像序 列中每连续三帧图像进行对称差分,检测出目标的运动范围,同时利用上一帧分 割出来的模板对检测出来的目标运动范围进行修正, 从而能较好地检测出中间帧 运动目标的形状轮廓。 帧间差分法非常适合于动态变化的环境,因为它只对运动物体敏感。实际上 它只检测相对运动的物体,而且因两幅图像的时间间隔较短,差分图像受光线 变化影响小,检测有效而稳定。该算法简单、速度快,已得到广泛应用。虽然该 方法不能够完整地分割运动对象,只能检测出物体运动变化的区域,但所检测出 的物体运动信息仍可用于进一步的目标分割。 (3)光流法 光流法就充分的利用了图像自身所携带的信息。在空间中,运动可以用运动 场描述,而在一个图像平面上,物体的运动往往是通过图像序列中图像灰度分布 的不同来体现,从而使空间中的运动场转移到图像上就表示为光流场。所谓光流 是指空间中物体被观测面上的像素点运动产生的瞬时速度场, 包含了物体表面结 构和动态行为等重要信息。 基于光流法的运动目标检测采用了运动目标随时间变 化的光流特性,由于光流不仅包含了被观测物体的运动信息,还携带了物体运动 和景物三位结构的丰富信息。 在比较理想的情况下,它能够检测独立运动的对象, 不需要预先知道场景的任何信息,可以很精确地计算出运动物体的速度,并且可 用于动态场景的情况。 但是大多数光流方法的计算相当复杂,对硬件要求比较高, 不适于实时处理,而且对噪声比较敏感,抗噪性差。并且由于遮挡、多光源、透明 性及噪声等原因,使得光流场基本方程——灰度守恒的假设条件无法满足,不能 正确求出光流场,计算方也相当复杂,计算量巨大,不能满足实时的要求。 动态背景 动态背景下的运动目标检测由于存在着目标与摄像机之间复杂的相对运动, 检测方法要比静态背景下的运动目标检测方法复杂。常用的检测方法有匹配法、 光流法以及全局运动估计法等。 2、运动目标跟踪 运动目标跟踪是确定同一物体在图像序列的不同帧中的位置的过程。 近年来 出现了大批运动目标跟踪方法,许多文献对这些方法进行了分类介绍,可将目标 跟踪方法分为四类:基于区域的跟踪、基于特征的跟踪、基于活动轮廓的跟踪、 基于模型的跟踪,这种分类方法概括了目前大多数跟踪方法,下面用这种分类方 法对目前的跟踪方法进行概括介绍。 (1)基于区域的跟踪 基于区域的跟踪方法基本思想是: 首先通过图像分割或预先人为确定提取包 含目标区域的模板,并设定一个相似性度量,然后在序列图像中搜索目标,把度 量取极值时对应的区域作为对应帧中的目标区域。 由于提取的目标模板包含了较 完整的目标信息,该方法在目标未被遮挡时,跟踪精度非常高,跟踪非常稳定, 但通常比较耗时,特别是当目标区域较大时,因此一般应用于跟踪较小的目标或 对比度较差的目标。该方法还可以和多种预测算法结合使用,如卡尔曼预测、粒 子预测等,以估计每帧图像中目标的位置。近年来,对基于区域的跟踪方法关注 较多的是如何处理运动目标姿态变化引起的模板变化时的情况以及目标被严重 遮挡时的情况。 (2)基于特征的跟踪 基于特征的跟踪方法基本思想是:首先提取目标的某个或某些局部特征,然 后利用某种匹配算法在图像序列中进行特征匹配,从而实现对目标的跟踪。该方 法的优点是即使目标部分被遮挡,只要还有一部分特征可以被看到,就可以完成 跟踪任务,另外,该方法还可与卡尔曼滤波器结合使用,实时性较好,因此常用 于复杂场景下对运动目标的实时、 鲁棒跟踪。 用于跟踪的特征很多, 如角点边缘、 形状、纹理、颜色等,如何从众多的特征中选取最具区分性、最稳定的特征是基 于特征的跟踪方法的关键和难点所在。 (3)基于活动轮廓的跟踪 基于活动轮廓的跟踪方法基本思想是:利用封闭的曲线轮廓表达运动目标, 结合图像特征、曲线轮廓构造能量函数,通过求解极小化能量实现曲线轮廓的自 动连续更新,从而实现对目标的跟踪。自Kass在1987年提出Snake模型以来,基 于活动轮廓的方法就开始广泛应用于目标跟踪领域。相对于基于区域的跟踪方 法,轮廓表达有减少复杂度的优点,而且在目标被部分遮挡的情况下也能连续的 进行跟踪,但是该方法的跟踪结果受初始化影响较大,对噪声也较为敏感。 (4)基于模型的跟踪 基于模型的跟踪方法基本思想是: 首先通过一定的先验知识对所跟踪目标建 立模型,然后通过匹配跟踪目标,并进行模型的实时更新。通常利用测量、CAD 工具和计算机视觉技术建立模型。主要有三种形式的模型,即线图模型、二维轮 廓模型和三维立体模型口61,应用较多的是运动目标的三维立体模型,尤其是对 刚体目标如汽车的跟踪。该方法的优点是可以精确分析目标的运动轨迹,即使在 目标姿态变化和部分遮挡的情况下也能够可靠的跟踪, 但跟踪精度取决于模型的 精度,而在现实生活中要获得所有运动目标的精确模型是非常困难的。 目标检测算法,至今已提出了数千种各种类型的算法,而且每年都有上百篇相 关的研究论文或报告发表。尽管人们在目标检测或图像分割等方面做了许多研 究,现己提出的分割算法大都是针对具体问题的,并没有一种适合于所有情况的 通用算法。 目前, 比较经典的运动目标检测算法有: 双帧差分法、 三帧差分法(对 称差分法)、背景差法、光流法等方法,这些方法之间并不是完全独立,而是可 以相互交融的。 目标跟踪的主要目的就是要建立目标运动的时域模型, 其算法的优劣直接影响 着运动目标跟踪的稳定性和精确度, 虽然对运动目标跟踪理论的研究已经进行了 很多年,但至今它仍然是计算机视觉等领域的研究热点问题之一。研究一种鲁棒 性好、精确、高性能的运动目标跟踪方法依然是该研究领域所面临的一个巨大挑 战。基于此目的,系统必须对每个独立的目标进行持续的跟踪。为了实现对复杂 环境中运动目标快速、稳定的跟踪,人们提出了众多算法,但先前的许多算法都 是针对刚体目标,或是将形变较小的非刚体近似为刚体目标进行跟踪,因而这些 算法难以实现对形状变化较大的非刚体目标的正确跟踪。 根据跟踪算法所用的预 测技术来划分,目前主要的跟踪算法有:基于均值漂移的方法、基于遗传算法的 方法、基于Kalman滤波器的方法、基于Monto Carlo的方法以及多假设跟踪的方 法等。 运动检测与目标跟踪算法模块 运动检测与目标跟踪算法模块 与目标跟踪 一、运动检测算法 1.算法效果 算法效果总体来说,对比度高的视频检测效果要优于对比度低的视频。 算法可以比较好地去除目标周围的浅影子,浅影的去除率在 80%以上。去影后目标的 完整性可以得到较好的保持,在 80%以上。在对比度比较高的环境中可以准确地识别较大 的滞留物或盗移物。 从对目标的检测率上来说,对小目标较难进行检测。一般目标小于 40 个像素就会被漏 掉。对于对比度不高的目标会检测不完整。总体上来说,算法在对比度较高的环境中漏检率 都较低,在 以下,在对比度不高或有小目标的场景下漏检率在 6%以下。 精细运动检测的目的是在较理想的环境下尽量精确地提取目标的轮廓和区域, 以供高层 进行应用。同时在分离距离较近目标和进行其它信息的进一步判断也具有一定的优势。 反映算法优缺点的详细效果如下所示: 去影子和完整性 效果好 公司内视频 左边的为去影前,右边的 为去影后的结果,可以看出在 完整 性和去影率上 都有所 突 出。 这两个视频的共周特点 城市交通 是,影子都是浅影子,视频噪 声不太明显。目标与背景的对 比度比较高。 效果差 这两个视频的特点是影子 都是深影子。虽然影子没有去 掉,但是物体的完整性是比较 高的。主要原因就是场景的对 路口,上午 十点 比度比较高。 滞留物检测和稳定性 效果好 会议室盗移 效果好的原因,一是盗移或 滞留目标与背景对比度较大,二 是目标本身尺寸较大。 另外盗移物或滞留物在保持 各自的状态期间不能受到光照变 化或其它明显运动目标的干扰, 要不然有可能会造成判断的不稳 定。 效果差 会议室 遗留 物 大部分时间内,滞留的判断 都是较稳定的,但是在后期出现 了不稳定。主要原因是目标太小 的原故。 因此在进行滞留物判断时, 大目标,对比度较高的环境有利 于判断的稳定性和准确性。 漏检率 效果好 城市交通 在对比度高的环境下, 目标相对都较大的情况下 (大于 40 个像素) 可以很 , 稳定的检测出目标。 在这种 条件下的漏检率通常都是 非常低的,在 以下。 效果差 行人-傍晚 和“行人”目录下 的 其 它 昏 暗 条件 下的视频 在对 比度较低的 情况 下,会造成检测结果不稳 定。漏检率较高。主要原因 是由于去影子造成的。 这种 对比度下的漏检率一般在 6%以下。 除了 对比度低是 造成 漏检的原因外, 过小的目标 也会造成漏检,一般是 40 个像素以下的目标都会被 忽略掉。 算法效率内存消耗(单位:b) .MD_ISRAM_data .MD_ISRAM_bss .MD_SDRAM_data 0x470 0x24 0x348 .MD_SDRAM_bss .MD_text 0x1a8480 0x6d40 速度 ms 运动区域占 2/3 左右时 CPU 占用率 一帧耗时 Max:57% Min: Avg: Max:23 Min: Avg:15 运动区域占 1/3 左右时 Max:45% Min: Avg:20% Max:18 Min: Avg:8 检测参数说明 检测参数说明 检测到的滞留物或盗走物的消失时间目前分别设定在 200 帧和 100 帧, 可以通过参数来 自行调整。 目前目标与背景的差异是根据局部光照强度所决定的, 范围在 4 个像素值以上。 目前参 数设置要求目标大小要在 20 个像素以上才能被检测到,可以通过参数来自行调整。 目标阴影的去除能力是可以调整的, 目前的参数设置可以去除大部分的浅影子和较小的 光照变化。 适用环境推荐光照条件较好(具有一定的对比度)的室内环境或室外环境。不易用它去检测过小的目 标,比如小于 40 个像素的目标。室外环境不易太复杂。输出目标为精细轮廓目标,可以为 后面高层应用提供良好的信息。 二、目标跟踪 稳定运行环境要求此版本跟踪算法与运动检测算法紧密结合, 对相机的架设和视频的背景环境和运动目标 数量运动方式有一定要求: 背景要求: 由于运动跟踪是基于运动检测的结果进行的, 所以对背景的要求和运动检测一样, 背景要求: 运动目标相对于背景要有一定反差。 运动目标:由于运动检测中,对较小的目标可能过滤掉。所以运动目标的大小要符合运动检 运动目标: 测的要求。运动目标的速度不能太大,要保证前后帧运动目标的重合面积大于 10 个像素。此阈值可修改(建议不要随意修改,过小,可能把碎片当成原目标分 裂出来的小目标,过大,可能失去跟踪。当然可试着调节以适应不同场景)。该 算法对由于运动检测在地面上产生的碎片抗干扰性比较差, 运动目标和碎片相遇 时,容易发生融合又分离的现象,造成轨迹混乱。消失目标和新生目标很容易当 成同一目标处理,所以可能出现一个新目标继承新生目标的轨迹。 运动方式: 运动目标的最大数量由外部设定。 但运动跟踪对运动目标比较稀疏的场景效果比 运动方式: 较好。 算法对由于运动检测在运动目标上产生的碎片有一定的抗干扰。 算法没对 物体的遮挡进行处理。对于两运动目标之间的遮挡按融合来处理。 拍摄角度: 拍摄角度:拍摄视野比较大,且最好是俯视拍摄。