基于计算机视觉的虚实场景合成方法研究与应用

　　论文关键词：虚拟现实混合现实计算机视觉

　　论文摘要：开发了一种虚拟场景与实时视频之间的合成技术，成功地将该技术应用于虚拟规划系统中，详细介绍了系统所采用的基于计算机视觉的标识识别和实时、自动摄像机位置、姿态跟踪算法，并给出了系统运行结果。

　　0 引言

　　虚拟现实技术的最终目的是使用户完全沉浸在一个由计算机生成的虚拟环境中，该技术已经被成功地应用到军事、教育、娱乐等众多领域。随着应用的增多，虚拟现实技术的缺陷也逐渐暴露出来，主要表现在如下两个方面：(1)虚拟现实中的场景完全由计算机生成，随着绘制场景真实程度的提高，对系统硬件配置的要求也相应提高，从而形成了绘制效果和实时性两个同等重要又难以同时解决的问题。(2)交互方式受限．鼠标、键盘等传统输入设备并没有提供给用户一种直观自然的交互方式，而数据手套等较为昂贵的外围设备不仅使用起来不方便，而且对工作范围也有一定的限制。

　　混合现实技术的出现很大程度上解决了以上两个问题，它将计算机生成的虚拟场景、提示信息实时叠加到用户所能观察到的真实世界当中，并以此来增强用户视觉感受。在混合现实环境中用户所能观察到的主体是来源于真实世界的图像信息，虚拟场景只起到辅助、提示作用，因此不需要真实感图形绘制所需的高端的硬件配置。另一方面，由于图像信息来源于真实世界，这就使得用户本身能够很自然地融合到整个系统中，并且能够以一种自然、直观的方式与系统交互，而不必添加额外的硬件设备。www.133229.cOm正是由于以上特性，混合现实技术已经被应用到众多领域当中，而且能够比虚拟现实更好地完成某些任务，如交互式规划、动态虚拟展示等。

　　一个实用的混合现实系统所必须具备的特性之一是几何一致性，即系统必须实时准确地判断摄像机相对于真实世界的位置和姿态．以便将虚拟场景正确地叠加到真实世界的具体位置上，使得用户从感官上认为虚拟场景确实是真实世界的一部分。传统的方法是利用硬件设备(电磁式、机械式跟踪系统)来获取摄像头位置信息，但这些方法不仅工作范围受限，而且求得的结果也不够精确。本文采用当前流行的基于计算机视觉的方法来获取位置信息，事实证明该方法是有效、可行的。

　　系统结构及工作流程

　　笔者构建了一个如图 1所示的混合现实原型系统，主要由如下几个部分组成：(1)平面标识块：一个带有黑色边框的正方形．尺寸、内部图案由用户定义，主要功能是使系统能够根据实际图像中标识的变形来计算虚实配准所需的位置、姿态信息，同时还可以用不同的内部图案代表不同的虚拟场景，以增强系统的实用性。(2)图像采集设备(摄像机)：主要完成实时视频采集功能。(3)图形渲染系统：生成与视频合成所需的虚拟场景。(4)虚实合成：利用摄像机位置、姿态信息将视频与虚拟场景相融合。(5)显示设备：包括头盔式显示器以及桌面台式显示器，用以将虚实合成的影像展现给使用者。

　　系统运行过程中，首先将采集到的一帧彩色图像转换成一幅二值(黑白)图像，然后对该二值图像进行连通域分析，找出其中所有的四边形区域作为候选匹配区域，将每一候选区域与模板库中的模板进行匹配，如果产生匹配，则认为找到了一个标识，在生成与该标识对应的虚拟场景的同时利用该标识区域的变形来计算摄像机相对于已知标识的位置和姿态，最后根据得到的变换矩阵实现虚实之间的无缝融合。

　　2 标识识别与摄像机位置、姿态跟踪算法

　　由上一节可知，构建该系统有两个关键问题需要解决，即如何识别标识内部的不同图案以生成与之对应的虚拟场景以及如何利用标识的变形计算虚实配准所需的坐标变换关系。以下分别介绍以上两个问题的解决方法。

　　2．1标识识别

　　本系统所采用的标识识别方法可以分为以下几步。

　　2．1．1图像二值化

　　首先对采集到的彩色图像进行二值化，处理成黑白(0，1)图像，如图 2(b)。具体方法为：设定一个阈值，对图像进行遍历，根据该阈值，对图像重新赋值。为了克服光照对识别结果造成的影响，同时采用了自适应阈值法来提高系统稳定性，设定当前阈值为上一帧图像中标识投影区域像素灰度的平均值，实验证明该方法对改善系统性能有较为明显的效果。

　　2．1．2连通域分析

　　连通域分析的目的是从复杂背景中提取标识的投影区域。分析过程为：查找所有像素值为 1的连通区域，首先根据大小约束对区域进行预筛选，然后利用最小二乘直线拟合法筛选出所有四边形区域，结果见图 2(c)。

　　2．1．3 区域规则化与模板匹配

　　区域规则化是将图像中经过投影变换的标识区域变换到标准模板空间，本文利用仿射变换将标识经过投影变形后的区域直接映射到一个 64×64大小的正方形模板，效果见图2(d)。接下来的工作是将规则化图像与模板库中的模板进行匹配，以返回代表不同虚拟场景的 id值。本文采用相关系数法来完成匹配工作，方法如下：

　　首先利用以下四式计算规则化图像 i和标准模板图像 p各自的均值和方差。

　　然后计算两幅图像的相关系数 p，本文选择所有模板中与规则化图像具有最大相关系数 p且 p>0．5的模板作为当前匹配结果，并返回与之对应的 id值　　2．2摄像机位置、姿态估计

　　首先给出系统的坐标变换关系如图 3所示。规定平面标识在世界坐标系中的位置为已知，摄像机位置、姿态计算问题转化为摄像机坐标系与世界坐标系之间三维变换矩阵的求解。

　　世界坐标系与摄像机坐标系间的变换关系可以用式(5)表示。其中 w为世界坐标系下某点坐标，c为该点在摄像机坐标系中的位置，t ：[r r r：t] 为待求三维变换矩阵，包含三个旋转分量和一个平移分量。

　　　　c=t w (5)

　　由于规定平面标识与世界坐标系下的z：0平面重合，则由式 (5)可得，平面标识上的某点在世界坐标系下的坐标 wi=(x ，y wi，0，1) 与其在摄像机坐标系下坐标 c；：(x y z i，1) 之间的关系可以表示为式(6)。

有 8个待定系数，由标识的四个角点可得如下方程组，则完全可以求取以上 8个未知数。

　　通过上述计算可以确定变换矩阵中的 r ，r ，t，三个分量，由变换矩阵旋转分量的正交性可以求得r ：r ×r ，最后需要对所求得的结果作归一化操作以消除比例因子 t 对计算结果的影响，方法是将(1 r l+l r 1)／2去除以上各分量。

　　事实上由于不可能完全避免成像畸变以及图像处理过程中的误差，上述方法求得的变换矩阵 t 是不够精确的。解决方法是利用上述方法求取第一帧图像对应的 t ，在后续计算过程中采用非线性最小二乘法求取后续帧的对应的变换矩阵。误差逼近计算公式见式 (1 1)。

　　式中(文 i)(i=0，1，2，3)为根据上一帧t 求得的标识四个角点在像平面坐标系下的位置，(x i，y ；)(i=0，1，2，3)为实时检测到的标识角点在图像中的位置。本文利用勒温伯格一马阔特方法求解式(11)。

　　3 应用实例——基于混合现实的小区规划系统

　　传统的住宅小区规划方法之一是制作规划方案模型，但是制作实体模型不仅费时费力，而且修改起来也极为不便。近年来，基于虚拟现实技术的小区规划方法已经逐渐为设计者所接受，它一定程度上解决了实体模型规划方法的缺点，但是由于缺乏高效、自然的人机交互方式，使得规划效果大打折扣。混合现实技术的出现为小区规划提供了新的契机，它既继承了虚拟现实技术卓越的三维表现能力，又具有虚实结合的特点，能够在真实的规划场景中整合设计要素，给设计者和方案评估者以直观的感受。

　　笔者利用本文方法开发了一套基于混合现实技术的虚拟小区规划系统。系统中不同的标识对应不同的虚拟建筑模型，用户可以在视线范围内随意移动模型．从而实现不同的规划方案。运行效果如图4该系统满足了小区规划对虚实交互、人机交互的要求，充分体现出混合现实技术在小区规划应用中的优势。

　　4 结束语

　　本文设计了一种基于计算机视觉的虚实场景合成方法，具有实时性好、可用性高等特点，当前系统中存在的主要问题是虚拟场景与真实场景之间还没有遮挡和碰撞关系，从而影响了系统的真实感，下一步的工作是对虚实之问的遮挡和碰撞检测问题展开研究。