首页

> 期刊投稿知识库

首页 期刊投稿知识库 问题

语音识别论文模板

发布时间:

语音识别论文模板

与机器进行语音交流,让机器明白你说什么,这是人们长期以来梦寐以求的事情。语音识别技术就是让机器通过识别和理解过程把语音信号转变为相应的文本或命令的高技术。语音识别是一门交叉学科。近二十年来,语音识别技术取得显著进步,开始从实验室走向市场。人们预计,未来10年内,语音识别技术将进入工业、家电、通信、汽车电子、医疗、家庭服务、消费电子产品等各个领域。语音识别听写机在一些领域的应用被美国新闻界评为1997年计算机发展十件大事之一。很多专家都认为语音识别技术是2000年至2010年间信息技术领域十大重要的科技发展技术之一。语音识别技术所涉及的领域包括:信号处理、模式识别、概率论和信息论、发声机理和听觉机理、人工智能等等。 任务分类和应用 根据识别的对象不同,语音识别任务大体可分为3类,即孤立词识别(isolated word recognition),关键词识别(或称关键词检出,keyword spotting)和连续语音识别。其中,孤立词识别 的任务是识别事先已知的孤立的词,如“开机”、“关机”等;连续语音识别的任务则是识别任意的连续语音,如一个句子或一段话;连续语音流中的关键词检测针对的是连续语音,但它并不识别全部文字,而只是检测已知的若干关键词在何处出现,如在一段话中检测“计算机”、“世界”这两个词。根据针对的发音人,可以把语音识别技术分为特定人语音识别和非特定人语音识别,前者只能识别一个或几个人的语音,而后者则可以被任何人使用。显然,非特定人语音识别系统更符合实际需要,但它要比针对特定人的识别困难得多。另外,根据语音设备和通道,可以分为桌面(PC)语音识别、电话语音识别和嵌入式设备(手机、PDA等)语音识别。不同的采集通道会使人的发音的声学特性发生变形,因此需要构造各自的识别系统。语音识别的应用领域非常广泛,常见的应用系统有:语音输入系统,相对于键盘输入方法,它更符合人的日常习惯,也更自然、更高效;语音控制系统,即用语音来控制设备的运行,相对于手动控制来说更加快捷、方便,可以用在诸如工业控制、语音拨号系统、智能家电、声控智能玩具等许多领域;智能对话查询系统,根据客户的语音进行操作,为用户提供自然、友好的数据库检索服务,例如家庭服务、宾馆服务、旅行社服务系统、订票系统、医疗服务、银行服务、股票查询服务等等。 前端前端处理是指在特征提取之前,先对原始语音进行处理,部分消除噪声和不同说话人带来的影响,使处理后的信号更能反映语音的本质特征。最常用的前端处理有端点检测和语音增强。端点检测是指在语音信号中将语音和非语音信号时段区分开来,准确地确定出语音信号的起始点。经过端点检测后,后续处理就可以只对语音信号进行,这对提高模型的精确度和识别正确率有重要作用。语音增强的主要任务就是消除环境噪声对语音的影响。目前通用的方法是采用维纳滤波,该方法在噪声较大的情况下效果好于其它滤波器。处理声学特征 声学特征的提取与选择是语音识别的一个重要环节。声学特征的提取既是一个信息大幅度压缩的过程,也是一个信号解卷过程,目的是使模式划分器能更好地划分。由于语音信号的时变特性,特征提取必须在一小段语音信号上进行,也即进行短时分析。这一段被认为是平稳的分析区间称之为帧,帧与帧之间的偏移通常取帧长的1/2或1/3。通常要对信号进行预加重以提升高频,对信号加窗以避免短时语音段边缘的影响。常用的一些声学特征* 线性预测系数LPC:线性预测分析从人的发声机理入手,通过对声道的短管级联模型的研究,认为系统的传递函数符合全极点数字滤波器的形式,从而n 时刻的信号可以用前若干时刻的信号的线性组合来估计。通过使实际语音的采样值和线性预测采样值之间达到均方差最小LMS,即可得到线性预测系数LPC。对 LPC的计算方法有自相关法(德宾Durbin法)、协方差法、格型法等等。计算上的快速有效保证了这一声学特征的广泛使用。与LPC这种预测参数模型类似的声学特征还有线谱对LSP、反射系数等等。* 倒谱系数CEP:利用同态处理方法,对语音信号求离散傅立叶变换DFT后取对数,再求反变换iDFT就可得到倒谱系数。对LPC倒谱(LPCCEP),在获得滤波器的线性预测系数后,可以用一个递推公式计算得出。实验表明,使用倒谱可以提高特征参数的稳定性。* Mel倒谱系数MFCC和感知线性预测PLP:不同于LPC等通过对人的发声机理的研究而得到的声学特征,Mel倒谱系数MFCC和感知线性预测 PLP是受人的听觉系统研究成果推动而导出的声学特征。对人的听觉机理的研究发现,当两个频率相近的音调同时发出时,人只能听到一个音调。临界带宽指的就是这样一种令人的主观感觉发生突变的带宽边界,当两个音调的频率差小于临界带宽时,人就会把两个音调听成一个,这称之为屏蔽效应。Mel刻度是对这一临界带宽的度量方法之一。MFCC的计算首先用FFT将时域信号转化成频域,之后对其对数能量谱用依照Mel刻度分布的三角滤波器组进行卷积,最后对各个滤波器的输出构成的向量进行离散余弦变换DCT,取前N个系数。PLP仍用德宾法去计算LPC参数,但在计算自相关参数时用的也是对听觉激励的对数能量谱进行DCT的方法。声学模型语音识别系统的模型通常由声学模型和语言模型两部分组成,分别对应于语音到音节概率的计算和音节到字概率的计算。本节和下一节分别介绍声学模型和语言模型方面的技术。HMM声学建模:马尔可夫模型的概念是一个离散时域有限状态自动机,隐马尔可夫模型HMM是指这一马尔可夫模型的内部状态外界不可见,外界只能看到各个时刻的输出值。对语音识别系统,输出值通常就是从各个帧计算而得的声学特征。用HMM刻画语音信号需作出两个假设,一是内部状态的转移只与上一状态有关,另一是输出值只与当前状态(或当前的状态转移)有关,这两个假设大大降低了模型的复杂度。HMM的打分、解码和训练相应的算法是前向算法、Viterbi算法和前向后向算法。语音识别中使用HMM通常是用从左向右单向、带自环、带跨越的拓扑结构来对识别基元建模,一个音素就是一个三至五状态的HMM,一个词就是构成词的多个音素的HMM串行起来构成的HMM,而连续语音识别的整个模型就是词和静音组合起来的HMM。上下文相关建模:协同发音,指的是一个音受前后相邻音的影响而发生变化,从发声机理上看就是人的发声器官在一个音转向另一个音时其特性只能渐变,从而使得后一个音的频谱与其他条件下的频谱产生差异。上下文相关建模方法在建模时考虑了这一影响,从而使模型能更准确地描述语音,只考虑前一音的影响的称为Bi- Phone,考虑前一音和后一音的影响的称为Tri-Phone。英语的上下文相关建模通常以音素为基元,由于有些音素对其后音素的影响是相似的,因而可以通过音素解码状态的聚类进行模型参数的共享。聚类的结果称为senone。决策树用来实现高效的triphone对senone的对应,通过回答一系列前后音所属类别(元/辅音、清/浊音等等)的问题,最终确定其HMM状态应使用哪个senone。分类回归树CART模型用以进行词到音素的发音标注。 语言模型语言模型主要分为规则模型和统计模型两种。统计语言模型是用概率统计的方法来揭示语言单位内在的统计规律,其中N-Gram简单有效,被广泛使用。N-Gram:该模型基于这样一种假设,第n个词的出现只与前面N-1个词相关,而与其它任何词都不相关,整句的概率就是各个词出现概率的乘积。这些概率可以通过直接从语料中统计N个词同时出现的次数得到。常用的是二元的Bi-Gram和三元的Tri-Gram。语言模型的性能通常用交叉熵和复杂度(Perplexity)来衡量。交叉熵的意义是用该模型对文本识别的难度,或者从压缩的角度来看,每个词平均要用几个位来编码。复杂度的意义是用该模型表示这一文本平均的分支数,其倒数可视为每个词的平均概率。平滑是指对没观察到的N元组合赋予一个概率值,以保证词序列总能通过语言模型得到一个概率值。通常使用的平滑技术有图灵估计、删除插值平滑、Katz平滑和Kneser-Ney平滑。 搜索连续语音识别中的搜索,就是寻找一个词模型序列以描述输入语音信号,从而得到词解码序列。搜索所依据的是对公式中的声学模型打分和语言模型打分。在实际使用中,往往要依据经验给语言模型加上一个高权重,并设置一个长词惩罚分数。Viterbi:基于动态规划的Viterbi算法在每个时间点上的各个状态,计算解码状态序列对观察序列的后验概率,保留概率最大的路径,并在每个节点记录下相应的状态信息以便最后反向获取词解码序列。Viterbi算法在不丧失最优解的条件下,同时解决了连续语音识别中HMM模型状态序列与声学观察序列的非线性时间对准、词边界检测和词的识别,从而使这一算法成为语音识别搜索的基本策略。由于语音识别对当前时间点之后的情况无法预测,基于目标函数的启发式剪枝难以应用。由于Viterbi算法的时齐特性,同一时刻的各条路径对应于同样的观察序列,因而具有可比性,束Beam搜索在每一时刻只保留概率最大的前若干条路径,大幅度的剪枝提高了搜索的效率。这一时齐Viterbi- Beam算法是当前语音识别搜索中最有效的算法。 N-best搜索和多遍搜索:为在搜索中利用各种知识源,通常要进行多遍搜索,第一遍使用代价低的知识源,产生一个候选列表或词候选网格,在此基础上进行使用代价高的知识源的第二遍搜索得到最佳路径。此前介绍的知识源有声学模型、语言模型和音标词典,这些可以用于第一遍搜索。为实现更高级的语音识别或口语理解,往往要利用一些代价更高的知识源,如4阶或5阶的N-Gram、4阶或更高的上下文相关模型、词间相关模型、分段模型或语法分析,进行重新打分。最新的实时大词表连续语音识别系统许多都使用这种多遍搜索策略。N-best搜索产生一个候选列表,在每个节点要保留N条最好的路径,会使计算复杂度增加到N倍。简化的做法是只保留每个节点的若干词候选,但可能丢失次优候选。一个折衷办法是只考虑两个词长的路径,保留k条。词候选网格以一种更紧凑的方式给出多候选,对N-best搜索算法作相应改动后可以得到生成候选网格的算法。前向后向搜索算法是一个应用多遍搜索的例子。当应用简单知识源进行了前向的Viterbi搜索后,搜索过程中得到的前向概率恰恰可以用在后向搜索的目标函数的计算中,因而可以使用启发式的A算法进行后向搜索,经济地搜索出N条候选。 系统实现 语音识别系统选择识别基元的要求是,有准确的定义,能得到足够数据进行训练,具有一般性。英语通常采用上下文相关的音素建模,汉语的协同发音不如英语严重,可以采用音节建模。系统所需的训练数据大小与模型复杂度有关。模型设计得过于复杂以至于超出了所提供的训练数据的能力,会使得性能急剧下降。听写机:大词汇量、非特定人、连续语音识别系统通常称为听写机。其架构就是建立在前述声学模型和语言模型基础上的HMM拓扑结构。训练时对每个基元用前向后向算法获得模型参数,识别时,将基元串接成词,词间加上静音模型并引入语言模型作为词间转移概率,形成循环结构,用Viterbi算法进行解码。针对汉语易于分割的特点,先进行分割再对每一段进行解码,是用以提高效率的一个简化方法。对话系统:用于实现人机口语对话的系统称为对话系统。受目前技术所限,对话系统往往是面向一个狭窄领域、词汇量有限的系统,其题材有旅游查询、订票、数据库检索等等。其前端是一个语音识别器,识别产生的N-best候选或词候选网格,由语法分析器进行分析获取语义信息,再由对话管理器确定应答信息,由语音合成器输出。由于目前的系统往往词汇量有限,也可以用提取关键词的方法来获取语义信息。 自适应与强健性 语音识别系统的性能受许多因素的影响,包括不同的说话人、说话方式、环境噪音、传输信道等等。提高系统鲁棒性,是要提高系统克服这些因素影响的能力,使系统在不同的应用环境、条件下性能稳定;自适应的目的,是根据不同的影响来源,自动地、有针对性地对系统进行调整,在使用中逐步提高性能。以下对影响系统性能的不同因素分别介绍解决办法。解决办法按针对语音特征的方法(以下称特征方法)和模型调整的方法(以下称模型方法)分为两类。前者需要寻找更好的、高鲁棒性的特征参数,或是在现有的特征参数基础上,加入一些特定的处理方法。后者是利用少量的自适应语料来修正或变换原有的说话人无关(SI)模型,从而使其成为说话人自适应(SA)模型。说话人自适应的特征方法有说话人规一化和说话人子空间法,模型方法有贝叶斯方法、变换法和模型合并法。语音系统中的噪声,包括环境噪声和录音过程加入的电子噪声。提高系统鲁棒性的特征方法包括语音增强和寻找对噪声干扰不敏感的特征,模型方法有并行模型组合PMC方法和在训练中人为加入噪声。信道畸变包括录音时话筒的距离、使用不同灵敏度的话筒、不同增益的前置放大和不同的滤波器设计等等。特征方法有从倒谱矢量中减去其长时平均值和RASTA滤波,模型方法有倒谱平移。 微软语音识别引擎 微软在office和vista中都应用了自己开发的语音识别引擎,微软语音识别引擎的使用是完全免费的,所以产生了许多基于微软语音识别引擎开发的语音识别应用软件,例如《语音游戏大师》《语音控制专家》《芝麻开门》等等软件。 语音识别系统的性能指标 语音识别系统的性能指标主要有四项。①词汇表范围:这是指机器能识别的单词或词组的范围,如不作任何限制,则可认为词汇表范围是无限的。②说话人限制:是仅能识别指定发话者的语音,还是对任何发话人的语音都能识别。③训练要求:使用前要不要训练,即是否让机器先“听”一下给定的语音,以及训练次数的多少。④正确识别率:平均正确识别的百分数,它与前面三个指标有关。小结以上介绍了实现语音识别系统的各个方面的技术。这些技术在实际使用中达到了较好的效果,但如何克服影响语音的各种因素还需要更深入地分析。目前听写机系统还不能完全实用化以取代键盘的输入,但识别技术的成熟同时推动了更高层次的语音理解技术的研究。由于英语与汉语有着不同的特点,针对英语提出的技术在汉语中如何使用也是一个重要的研究课题,而四声等汉语本身特有的问题也有待解决。

论文查重能识别语音吗

1、中国知网查重知网查重结果的准确度是很高的,是如今国内最权威的论文查重软件,其中收录的数据库很全面,并且有海量的资源。检测本科论文适合使用知网pmlc论文查重系统,检测硕博研究生论文适合使用知网VIP5.3论文查重系统,很多高校也都是与知网合作,大家需要根据自己论文的类型选择对应的知网论文查重系统。2、万方检测和维普网检测这两个论文查重也有部分学校使用,也是国内除知网以外的主流论文查重软件,检测严格性不如知网,但是检测速度较快,收费价格也比知网便宜,查重结果准确也比较高,部分学校也是认可的。、3、PaperPP论文查重PaperPP一款致力于为广大有论文查重需求的人们提供恰当有效查重服务的对软件,性价比很高,收费价格十分亲民接地气,还有机会能够免费查重,对于大学毕业生来说是一大福利,其查重质量和安全性都比较高。4、PaperPass论文检测这个是前几年兴起,近几年比较活跃的一个论文查重系统,价格中等,也是有一部分人使用具有一定知名度的软件。5、PaperYY论文检测价格也比较便宜,同样适合用来检测论文初稿,不建议使用其来检测论文终稿,因为数据库资源比知网相差还很多,查重结果准确度没有知网那么高的精确度。

论文查重与百度知道是”两码"

Paperbye论文查重系统标准版每天免费查重不限篇数和字数,自带改重的论文查重系统,解决了目前市场论文查重之后,不知道怎么修改和修改论文效率低的问题,利用软件的“机器人改重”功能,实现软件的自动修改论文重复内容,从而达到迅速自动降低论文重复率,特别是对于第一次写论文的同学,软件自动修改论文内容,会给同学们一些启示或直接使用机器修改的内容进行替换原文内容,提高的文章查重和修改效率。

具体看看有哪些实用功能:

1、机器人智能改重

Paperbye改重是机器人自动修改查重报告里相似的文字内容,自动修改就是论文查重完成后,系统自动把相似内容通过深度学习的数据内容进行替换修改,达到自动降低文章相似率的目的。一篇几万字的文章,10秒内容可以修改完成,这个修改效率是任何人工都无法比拟的,修改文章效率高是机器人修改的独特优势。机器人修改的语句并不是简单的替换关键词和调换语序,主要原理是通过深度学习大量数据后把语义相似的句子进行替换。

2、免费在线改重

在线改重功能是机器人改重功能的延伸和完善,机器改重功能并不是非常完美,就像我们现在的语音识别系统,语音输入并不是100%的完美识别,用手机语音输入文字大家应该有体会。对于机器人修改的语句并不是每句都修改的很完美的,遇到一些专业性比较强的术语修改的会有些牵强,但是不用担心,可以在免费改重工具编辑器里自主修改,通过人工修改相结合达到完美降重效果。

3、同步查重功能

这个功能根据“赫洛克效应”的及时反馈的心理原理,在修改论文的过程中,修改一句话,通过paperbye的“同步查重”功能,马上就可以看到修改效果,达到及时反馈,并且及时检验了修改的方法技巧,使继续修改的信心大增,可以大大提高修改论文的质量和效率。传统的论文查重方式的是你必须把全文或片段改完,重新提交论文到查重系统里重新检测才能知道结果,这种方式无论从流程,还是查重后修改,都比较繁琐,更重的是如果通过修改查重后的相似比例降下来不理想,给人的感觉比较身心疲惫,没有愉悦感,对修改论文极度厌恶。Paperbye论文查重系统解决了这个问题,算是颠覆传统,开创先河,让论文降重不再痛苦。

什么论文查重软件好?衡量一个查重软件好不好得看学校的要求而定,假设学校要求知网查重,那么知网就是最好最准的检测系统,其他查重系统都可以作为初稿检测,目前paper系列查重软件免费力度不同,推荐cnkitime学术不端论文查重系统,大学生版(专/本科毕业论文定稿)、研究生版(硕博毕业论文定稿)、期刊职称版(期刊投稿,职称评审)以上版本均可免费查重不限篇数。

单片机语音识别毕业论文

原创论文,包通过,包修改。

自己找个语音识别芯片然后完成设计

电子信息工程大学毕业论文 (张清卓)从21世纪开始,无线传感器网络就开始引起了学术界,军事界和工业界的极大关注。美国和欧洲相继启动了许多关于无线传感器网络的研究计划。随着科学技术的迅猛发展,人类目前已经置身于信息时代,信息的获取是实现信息化的前提,获取物理家门口满怀欣喜的一种重要工具就是传感器。无线传感器网络是当前国际上备受关注的,由多学高度交叉的新兴研究热点领域⑴它综合了传感器技术,嵌入式计算技术及无线通信技术等三大技术,能够通过嵌入式系统对信息进行处理,并通过随机自组织无线通信网络以多跳中继方式所感知信息传送到用户终端。 无线传感器网络可以用于监控温度,湿度,压力,土壤构成,噪声,机械应力等多种环境条件,使用户可以深入的了解和把我周围的世界。无线传感器网络的随机布设,自组织,环境适应等特点使其在军事国防,环境监测,生物医疗,抢先去救灾以及商业应用等领域具有广阔的应用前景,和很高的应用价值⑵。当然,在空进搜索和灾难拯救等特殊领域,无线传感器网络也有其得天独厚的技术优势。

LLL LLLLLL LLLLL联系求求一零一六四四二七九零

语音识别的主题论文怎么写

现在其实发表一个文章挺难得,一般杂志社都提前很久征稿,而且审稿很严格,所以根据我的经验,你可以去发表吧上问问他们的编辑有没有适合你的期刊,要在网址上输入发表吧,我觉得这样比较保稳,希望我的回答能够帮到你!!

与机器进行语音交流,让机器明白你说什么,这是人们长期以来梦寐以求的事情。语音识别技术就是让机器通过识别和理解过程把语音信号转变为相应的文本或命令的高技术。语音识别是一门交叉学科。近二十年来,语音识别技术取得显著进步,开始从实验室走向市场。人们预计,未来10年内,语音识别技术将进入工业、家电、通信、汽车电子、医疗、家庭服务、消费电子产品等各个领域。语音识别听写机在一些领域的应用被美国新闻界评为1997年计算机发展十件大事之一。很多专家都认为语音识别技术是2000年至2010年间信息技术领域十大重要的科技发展技术之一。语音识别技术所涉及的领域包括:信号处理、模式识别、概率论和信息论、发声机理和听觉机理、人工智能等等。 任务分类和应用 根据识别的对象不同,语音识别任务大体可分为3类,即孤立词识别(isolated word recognition),关键词识别(或称关键词检出,keyword spotting)和连续语音识别。其中,孤立词识别 的任务是识别事先已知的孤立的词,如“开机”、“关机”等;连续语音识别的任务则是识别任意的连续语音,如一个句子或一段话;连续语音流中的关键词检测针对的是连续语音,但它并不识别全部文字,而只是检测已知的若干关键词在何处出现,如在一段话中检测“计算机”、“世界”这两个词。根据针对的发音人,可以把语音识别技术分为特定人语音识别和非特定人语音识别,前者只能识别一个或几个人的语音,而后者则可以被任何人使用。显然,非特定人语音识别系统更符合实际需要,但它要比针对特定人的识别困难得多。另外,根据语音设备和通道,可以分为桌面(PC)语音识别、电话语音识别和嵌入式设备(手机、PDA等)语音识别。不同的采集通道会使人的发音的声学特性发生变形,因此需要构造各自的识别系统。语音识别的应用领域非常广泛,常见的应用系统有:语音输入系统,相对于键盘输入方法,它更符合人的日常习惯,也更自然、更高效;语音控制系统,即用语音来控制设备的运行,相对于手动控制来说更加快捷、方便,可以用在诸如工业控制、语音拨号系统、智能家电、声控智能玩具等许多领域;智能对话查询系统,根据客户的语音进行操作,为用户提供自然、友好的数据库检索服务,例如家庭服务、宾馆服务、旅行社服务系统、订票系统、医疗服务、银行服务、股票查询服务等等。 前端前端处理是指在特征提取之前,先对原始语音进行处理,部分消除噪声和不同说话人带来的影响,使处理后的信号更能反映语音的本质特征。最常用的前端处理有端点检测和语音增强。端点检测是指在语音信号中将语音和非语音信号时段区分开来,准确地确定出语音信号的起始点。经过端点检测后,后续处理就可以只对语音信号进行,这对提高模型的精确度和识别正确率有重要作用。语音增强的主要任务就是消除环境噪声对语音的影响。目前通用的方法是采用维纳滤波,该方法在噪声较大的情况下效果好于其它滤波器。处理声学特征 声学特征的提取与选择是语音识别的一个重要环节。声学特征的提取既是一个信息大幅度压缩的过程,也是一个信号解卷过程,目的是使模式划分器能更好地划分。由于语音信号的时变特性,特征提取必须在一小段语音信号上进行,也即进行短时分析。这一段被认为是平稳的分析区间称之为帧,帧与帧之间的偏移通常取帧长的1/2或1/3。通常要对信号进行预加重以提升高频,对信号加窗以避免短时语音段边缘的影响。常用的一些声学特征* 线性预测系数LPC:线性预测分析从人的发声机理入手,通过对声道的短管级联模型的研究,认为系统的传递函数符合全极点数字滤波器的形式,从而n 时刻的信号可以用前若干时刻的信号的线性组合来估计。通过使实际语音的采样值和线性预测采样值之间达到均方差最小LMS,即可得到线性预测系数LPC。对 LPC的计算方法有自相关法(德宾Durbin法)、协方差法、格型法等等。计算上的快速有效保证了这一声学特征的广泛使用。与LPC这种预测参数模型类似的声学特征还有线谱对LSP、反射系数等等。* 倒谱系数CEP:利用同态处理方法,对语音信号求离散傅立叶变换DFT后取对数,再求反变换iDFT就可得到倒谱系数。对LPC倒谱(LPCCEP),在获得滤波器的线性预测系数后,可以用一个递推公式计算得出。实验表明,使用倒谱可以提高特征参数的稳定性。* Mel倒谱系数MFCC和感知线性预测PLP:不同于LPC等通过对人的发声机理的研究而得到的声学特征,Mel倒谱系数MFCC和感知线性预测 PLP是受人的听觉系统研究成果推动而导出的声学特征。对人的听觉机理的研究发现,当两个频率相近的音调同时发出时,人只能听到一个音调。临界带宽指的就是这样一种令人的主观感觉发生突变的带宽边界,当两个音调的频率差小于临界带宽时,人就会把两个音调听成一个,这称之为屏蔽效应。Mel刻度是对这一临界带宽的度量方法之一。MFCC的计算首先用FFT将时域信号转化成频域,之后对其对数能量谱用依照Mel刻度分布的三角滤波器组进行卷积,最后对各个滤波器的输出构成的向量进行离散余弦变换DCT,取前N个系数。PLP仍用德宾法去计算LPC参数,但在计算自相关参数时用的也是对听觉激励的对数能量谱进行DCT的方法。声学模型语音识别系统的模型通常由声学模型和语言模型两部分组成,分别对应于语音到音节概率的计算和音节到字概率的计算。本节和下一节分别介绍声学模型和语言模型方面的技术。HMM声学建模:马尔可夫模型的概念是一个离散时域有限状态自动机,隐马尔可夫模型HMM是指这一马尔可夫模型的内部状态外界不可见,外界只能看到各个时刻的输出值。对语音识别系统,输出值通常就是从各个帧计算而得的声学特征。用HMM刻画语音信号需作出两个假设,一是内部状态的转移只与上一状态有关,另一是输出值只与当前状态(或当前的状态转移)有关,这两个假设大大降低了模型的复杂度。HMM的打分、解码和训练相应的算法是前向算法、Viterbi算法和前向后向算法。语音识别中使用HMM通常是用从左向右单向、带自环、带跨越的拓扑结构来对识别基元建模,一个音素就是一个三至五状态的HMM,一个词就是构成词的多个音素的HMM串行起来构成的HMM,而连续语音识别的整个模型就是词和静音组合起来的HMM。上下文相关建模:协同发音,指的是一个音受前后相邻音的影响而发生变化,从发声机理上看就是人的发声器官在一个音转向另一个音时其特性只能渐变,从而使得后一个音的频谱与其他条件下的频谱产生差异。上下文相关建模方法在建模时考虑了这一影响,从而使模型能更准确地描述语音,只考虑前一音的影响的称为Bi- Phone,考虑前一音和后一音的影响的称为Tri-Phone。英语的上下文相关建模通常以音素为基元,由于有些音素对其后音素的影响是相似的,因而可以通过音素解码状态的聚类进行模型参数的共享。聚类的结果称为senone。决策树用来实现高效的triphone对senone的对应,通过回答一系列前后音所属类别(元/辅音、清/浊音等等)的问题,最终确定其HMM状态应使用哪个senone。分类回归树CART模型用以进行词到音素的发音标注。 语言模型语言模型主要分为规则模型和统计模型两种。统计语言模型是用概率统计的方法来揭示语言单位内在的统计规律,其中N-Gram简单有效,被广泛使用。N-Gram:该模型基于这样一种假设,第n个词的出现只与前面N-1个词相关,而与其它任何词都不相关,整句的概率就是各个词出现概率的乘积。这些概率可以通过直接从语料中统计N个词同时出现的次数得到。常用的是二元的Bi-Gram和三元的Tri-Gram。语言模型的性能通常用交叉熵和复杂度(Perplexity)来衡量。交叉熵的意义是用该模型对文本识别的难度,或者从压缩的角度来看,每个词平均要用几个位来编码。复杂度的意义是用该模型表示这一文本平均的分支数,其倒数可视为每个词的平均概率。平滑是指对没观察到的N元组合赋予一个概率值,以保证词序列总能通过语言模型得到一个概率值。通常使用的平滑技术有图灵估计、删除插值平滑、Katz平滑和Kneser-Ney平滑。 搜索连续语音识别中的搜索,就是寻找一个词模型序列以描述输入语音信号,从而得到词解码序列。搜索所依据的是对公式中的声学模型打分和语言模型打分。在实际使用中,往往要依据经验给语言模型加上一个高权重,并设置一个长词惩罚分数。Viterbi:基于动态规划的Viterbi算法在每个时间点上的各个状态,计算解码状态序列对观察序列的后验概率,保留概率最大的路径,并在每个节点记录下相应的状态信息以便最后反向获取词解码序列。Viterbi算法在不丧失最优解的条件下,同时解决了连续语音识别中HMM模型状态序列与声学观察序列的非线性时间对准、词边界检测和词的识别,从而使这一算法成为语音识别搜索的基本策略。由于语音识别对当前时间点之后的情况无法预测,基于目标函数的启发式剪枝难以应用。由于Viterbi算法的时齐特性,同一时刻的各条路径对应于同样的观察序列,因而具有可比性,束Beam搜索在每一时刻只保留概率最大的前若干条路径,大幅度的剪枝提高了搜索的效率。这一时齐Viterbi- Beam算法是当前语音识别搜索中最有效的算法。 N-best搜索和多遍搜索:为在搜索中利用各种知识源,通常要进行多遍搜索,第一遍使用代价低的知识源,产生一个候选列表或词候选网格,在此基础上进行使用代价高的知识源的第二遍搜索得到最佳路径。此前介绍的知识源有声学模型、语言模型和音标词典,这些可以用于第一遍搜索。为实现更高级的语音识别或口语理解,往往要利用一些代价更高的知识源,如4阶或5阶的N-Gram、4阶或更高的上下文相关模型、词间相关模型、分段模型或语法分析,进行重新打分。最新的实时大词表连续语音识别系统许多都使用这种多遍搜索策略。N-best搜索产生一个候选列表,在每个节点要保留N条最好的路径,会使计算复杂度增加到N倍。简化的做法是只保留每个节点的若干词候选,但可能丢失次优候选。一个折衷办法是只考虑两个词长的路径,保留k条。词候选网格以一种更紧凑的方式给出多候选,对N-best搜索算法作相应改动后可以得到生成候选网格的算法。前向后向搜索算法是一个应用多遍搜索的例子。当应用简单知识源进行了前向的Viterbi搜索后,搜索过程中得到的前向概率恰恰可以用在后向搜索的目标函数的计算中,因而可以使用启发式的A算法进行后向搜索,经济地搜索出N条候选。 系统实现 语音识别系统选择识别基元的要求是,有准确的定义,能得到足够数据进行训练,具有一般性。英语通常采用上下文相关的音素建模,汉语的协同发音不如英语严重,可以采用音节建模。系统所需的训练数据大小与模型复杂度有关。模型设计得过于复杂以至于超出了所提供的训练数据的能力,会使得性能急剧下降。听写机:大词汇量、非特定人、连续语音识别系统通常称为听写机。其架构就是建立在前述声学模型和语言模型基础上的HMM拓扑结构。训练时对每个基元用前向后向算法获得模型参数,识别时,将基元串接成词,词间加上静音模型并引入语言模型作为词间转移概率,形成循环结构,用Viterbi算法进行解码。针对汉语易于分割的特点,先进行分割再对每一段进行解码,是用以提高效率的一个简化方法。对话系统:用于实现人机口语对话的系统称为对话系统。受目前技术所限,对话系统往往是面向一个狭窄领域、词汇量有限的系统,其题材有旅游查询、订票、数据库检索等等。其前端是一个语音识别器,识别产生的N-best候选或词候选网格,由语法分析器进行分析获取语义信息,再由对话管理器确定应答信息,由语音合成器输出。由于目前的系统往往词汇量有限,也可以用提取关键词的方法来获取语义信息。 自适应与强健性 语音识别系统的性能受许多因素的影响,包括不同的说话人、说话方式、环境噪音、传输信道等等。提高系统鲁棒性,是要提高系统克服这些因素影响的能力,使系统在不同的应用环境、条件下性能稳定;自适应的目的,是根据不同的影响来源,自动地、有针对性地对系统进行调整,在使用中逐步提高性能。以下对影响系统性能的不同因素分别介绍解决办法。解决办法按针对语音特征的方法(以下称特征方法)和模型调整的方法(以下称模型方法)分为两类。前者需要寻找更好的、高鲁棒性的特征参数,或是在现有的特征参数基础上,加入一些特定的处理方法。后者是利用少量的自适应语料来修正或变换原有的说话人无关(SI)模型,从而使其成为说话人自适应(SA)模型。说话人自适应的特征方法有说话人规一化和说话人子空间法,模型方法有贝叶斯方法、变换法和模型合并法。语音系统中的噪声,包括环境噪声和录音过程加入的电子噪声。提高系统鲁棒性的特征方法包括语音增强和寻找对噪声干扰不敏感的特征,模型方法有并行模型组合PMC方法和在训练中人为加入噪声。信道畸变包括录音时话筒的距离、使用不同灵敏度的话筒、不同增益的前置放大和不同的滤波器设计等等。特征方法有从倒谱矢量中减去其长时平均值和RASTA滤波,模型方法有倒谱平移。 微软语音识别引擎 微软在office和vista中都应用了自己开发的语音识别引擎,微软语音识别引擎的使用是完全免费的,所以产生了许多基于微软语音识别引擎开发的语音识别应用软件,例如《语音游戏大师》《语音控制专家》《芝麻开门》等等软件。 语音识别系统的性能指标 语音识别系统的性能指标主要有四项。①词汇表范围:这是指机器能识别的单词或词组的范围,如不作任何限制,则可认为词汇表范围是无限的。②说话人限制:是仅能识别指定发话者的语音,还是对任何发话人的语音都能识别。③训练要求:使用前要不要训练,即是否让机器先“听”一下给定的语音,以及训练次数的多少。④正确识别率:平均正确识别的百分数,它与前面三个指标有关。小结以上介绍了实现语音识别系统的各个方面的技术。这些技术在实际使用中达到了较好的效果,但如何克服影响语音的各种因素还需要更深入地分析。目前听写机系统还不能完全实用化以取代键盘的输入,但识别技术的成熟同时推动了更高层次的语音理解技术的研究。由于英语与汉语有着不同的特点,针对英语提出的技术在汉语中如何使用也是一个重要的研究课题,而四声等汉语本身特有的问题也有待解决。

电赛手势识别论文模板

摘 要 人体识别是计算机视觉领域的一大类热点问题,其研究内容涵盖了人体的监测与跟踪、手势识别、动作识别、人脸识别、性别识别和行为与事件识别等,有着非常广泛的应用价值。随机森林以它自身固有的特点和优良的分类效果在众多的机器学习算法中脱颖而出。随机森林算法的实质是一种树预测器的组合,其中每一棵树都依赖于一个随机向量,森林中的所有的向量都是独立同分布的。本文简单介绍了随机森林的原理,并对近几年来随机森林在姿势识别和人脸识别中的应用进行讨论。 1.人体识别概述 人体识别是计算机视觉领域的一大类热点问题,其研究内容涵盖了人体的监测与跟踪、手势识别、动作识别、人脸识别、性别识别和行为与事件识别等。其研究方法几乎囊括了所有的模式识别问题的理论与技术,例如统计理论,变换理论,上下文相关性,分类与聚类,机器学习,模板匹配,滤波等。人体识别有着非常广泛的应用价值。 绝大多数人脸识别算法和人脸表情分析算法在提取人脸特征之前,需要根据人脸关键点的位置(如眼角,嘴角)进行人脸的几何归一化处理。即使在已知人脸粗略位置的情况下,人脸关键点精确定位仍然是一个很困难的问题,这主要由外界干扰和人脸本身的形变造成。 当前比较流行的算法有:基于启发式规则的方法、主成分分析(PCA)、独立元分析(ICA)、基于K-L 变换、弹性图匹配等。 2.随机森林综述 随机森林顾名思义,使用随机的方式建立一个森林,森林里面有很多的决策树组成,随机森林的每一棵决策树之间是没有关联的。在得到森林之后,当有一个新的输入样本进入的死后,就让森林的每一棵决策树分别进行一下判断,看看这个样本应该属于哪一类(对于分类算法),然后看看哪一类能被选择最多,就预测这个样本为那一类。 随机森林是一种统计学习理论,其随机有两个方面:首先是在训练的每一轮中,都是对原始样本集有放回的抽取固定数目的样本点,形成k个互不相同的样本集。第二点是:对于每一个决策树的建立是从总的属性中随机抽取一定量的属性作分裂属性集,这样对于k个树分类器均是不相同的。由随机生成的k个决策树组成了随机森林。 对于每一个决策树来讲,其分裂属性是不断的选取具有最大信息增益的属性进行排列。整个随机森林建立后,最终的分类标准采用投票机制得到可能性最高的结果。 下图是随机森林构建的过程: 图1 随机森林构建过程 3.随机森林在人体识别中的应用 3.1 随机森林应用于姿势识别 以[1]一文来讨论,论文中所涉及到的人体识别过程主要分为两步,首先是,身体部位标记:对于从单张景深图像中对人体进行分段,并标记出关键节点。之后进行身体关节定位,将标记的各个人体部分重新映射到三维空间中,对关键节点形成高可靠的空间定位。 图2 深度图像-身体部位标记-关节投影 文的最主要贡献在于将姿势识别的问题转化成了物体识别的问题,通过对身体不同部位的空间位置的确定来实现,做到了低计算消耗和高精确度。在身体部位标记的过程中,将问题转化成了对每个像素的分类问题,对于每个像素点,从景深的角度来确定该点的局域梯度特征。该特征是点特征与梯度特征的良好结合。 举个例子,对于不同点的相同属性值的判别,如下图,图a中的两个测量点的像素偏移间均具有较大的景深差,而图b中的景深差则明显很小。由此看出,不同位置像素点的特征值是有明显差别的,这就是分类的基础。 图3 景深图像特质示例 文中对于决策树的分裂属性的选择来说。由于某两个像素点、某些图像特征选取的随意性,将形成大量的备选划分形式,选择对于所有抽样像素对于不同的分裂属性划分前后的信息熵增益进行比较,选取最大的一组ψ=(θ, τ)作为当前分裂节点。(信息增益与该图像块最终是否正确地分类相关,即图像块归属于正确的关键特征点区域的概率。) 图4 决策时分类说明 决策树的建立后,某个叶子节点归属于特定关键特征点区域的概率可以根据训练图像最终分类的情况统计得到,这就是随机森林在实际检测特征点时的最重要依据。 在人体关节分类中,我们由形成的决策森林,来对每一个像素点的具体关节属性进行判断,并进行颜色分类。随机森林这种基于大量样本统计的方法能够对由于光照、变性等造成的影响,实时地解决关键特征点定位的问题。 如图所示,是对于景深图像处理后的结果展示。 图5 姿势识别处理结果 应该这样说,这篇文章在算法的层面对随机森林没有太大的贡献。在划分函数的形式上很简单。这个团队值得称道的地方是通过计算机图形学造出了大量的不同体型不同姿势的各种人体图像,用作训练数据,这也是成为2011年CVPR Best Paper的重要原因。正是因为论文的成果运用于Kinect,在工业界有着巨大的作用,落实到了商用的硬件平台上,推动了随机森林在计算机视觉、多媒体处理上的热潮。 3.2 随机森林应用于人脸识别 基于回归森林的脸部特征检测通过分析脸部图像块来定位人脸的关键特征点,在此基础上条件回归森林方法考虑了全局的脸部性质。对于[2]进行分析,这篇论文是2012年CVPR上的论文,本文考虑的是脸部朝向作为全局性质。其主要描述的问题是如何利用条件随机森林,来确定面部10个关键特征点的位置。与之前不同的是,在随机森林的基础上,加入了面部朝向的条件约束。 图6 脸部10个特征点 对于面部特征标记的问题转化成了对大量图像块的分类问题。类似于人体识别中的局域梯度特征识别。本文中,对于每一个图像块来说,从灰度值、光照补偿、相位变换等图像特征,以及该图像块中心与各个特征点的距离来判断图像块的位置特征。在决策树的分裂属性确定过程,依然使用“最大信息熵增益”原则。 图7 条件随机森林算法说明 文中提出了更进一步基于条件随机森林的分类方法,即通过设定脸部朝向的约束对决策树分类,在特征检测阶段能够根据脸部朝向选择与之相关的决策树进行回归,提高准确率和降低消耗。此论文还对条件随机森林,即如何通过脸部朝向对决策进行分类进行了说明,但这与随机森林算法没有太大关系,这里就不再继续讨论了。随机森林这种基于大量样本统计的方法能够对由于光照、变性等造成的影响,实时地解决关键特征点定位的问题。 另一篇文章[3]对于脸部特征标记,提出了精确度更高、成本更低的方法。即,基于结构化输出的随机森林的特征标记方式。文中将面部划分为20个特征点,对于各个特征点来说,不仅有独立的图像块分类标记,还加入了例如,点4,对于其他嘴唇特征点3,18,19的依赖关系的判断。这样的方法使特征点标记准确率大大增加。 该方法依然是使用随机森林的方法,有所不同的是引入了如式中所示的与依赖节点之间的关系。对于决策树的建立依然是依赖信息熵增益原则来决定,叶子节点不仅能得到特征的独立划分还会得到该特征对依赖特征的贡献,最终特征节点的判断会综合原始投票及空间约束。 图8 脸部特征标记 图9 决策树依赖关系 例如当对下图中人脸特征点进行分类时,使用简单的随机森林方法,经过判断会将各个点进行标注,可以看到 红色的点,标注出的鼻子特征。如果利用依赖节点进行判断,鼻子的点会被局限在其他鼻子特征点的周围,进行叠加后,得到了这个结果。显然,对于此节点的判断,利用结构输出的方式,准确度更高了。 图10 结构化输出结果 4.随机森林总结 大量的理论和实证研究都证明了RF具有很高的预测准确率,对异常值和噪声具有很好的容忍度,且不容易出现过拟合。可以说,RF是一种自然的非线性建模工具,是目前数据挖掘算法最热门的前沿研究领域之一。具体来说,它有以下优点: 1.通过对许多分类器进行组合,它可以产生高准确度的分类器; 2.它可以处理大量的输入变量; 3.它可以在决定类别时,评估变量的重要性; 4.在建造森林时,它可以在内部对于一般化后的误差产生不偏差的估计; 5.它包含一个好方法可以估计遗失的资料,并且,如果有很大一部分的资料遗失,仍可以维持准确度。 6.它提供一个实验方法,可以去侦测变量之间的相互作用; 7.学习过程是很快速的; 8.对异常值和噪声具有很好的容忍度,且不容易出现过拟合; 随机森林的缺点: 1.对于有不同级别的属性的数据,级别划分较多的属性会对随机森林产生更大的影响,所以随机森林在这种数据上产出的属性权值是不可信的; 2.单棵决策树的预测效果很差:由于随机选择属性,使得单棵决策树的预测效果很差。 参考文献: [1] Shotton, J.; Fitzgibbon, A.; Cook, M.; Sharp, T.; Finocchio, M.; Moore, R.; Kipman, A.; Blake, A., “Real-time human pose recognition in parts from single depth images,”Computer Vision and Pattern Recognition (CVPR), 2011 IEEE Conference on , vol., no., pp.1297,1304, 20-25 June 2011 [2] Dantone M, Gall J, Fanelli G, et al. Real-time facial feature detection using conditional regression forests[C]//Computer Vision and Pattern Recognition (CVPR), 2012 IEEE Conference on. IEEE, 2012: 2578-2585. [3] Heng Yang, Ioannis Patras, “Face Parts Localization Using Structured-output Regression Forests”, ACCV2012, Dajeon, Korea. 本文转自:,仅供学习交流

vr技术2000字论文篇二 【摘 要】VR技术是现今计算机技术领域中一项包含多种学科的一门综合科学技术,该技术已经被应用在现实中许多的领域中。 【关键词】VR技术;虚拟现实技术 1.虚拟现实技术的概念 VR技术就是虚拟现实技术,它是一种能够让现实中的人在计算机所创造的虚拟信息世界中体验与现实世界同样的事和物。它所具有多感知性、沉浸性、交互性和构想性的基本特征。这种虚拟技术集合了计算机图形图像技术、现实仿真技术、多媒体技术等等的多种科学技术。它能够模拟出人的视觉,听觉,触觉等的感官功能。使人在计算机所创造的虚拟世界中通过语言、动作等等的方式进行实时交流,可以说这种技术的发展前景是非常的广阔的。 2.虚拟现实技术的特征介绍 ①多感知性的特征,是指视、力、触、运动、味、嗅等感知系统,从人类理想的虚拟现实技术的发展来说,是希望能够给完全的模拟出现实中所有的感知,但因目前的技术掌握和传感技术的限制,仅仅只能模拟出以上视、力、触、运动、味、嗅等感知系统的。 ②沉浸性又称浸没感或临场感,存在感等,具体是指人以第一人称存在在虚拟世界中的真实体验。当然,以目前技术还没有达到最理想的程度。 ③交互性就是指人在虚拟世界中,能够像在现实当中一样,可以通过对一些物体的抓取、使用等动作,感觉到所触碰的物体的重量,形状,色泽等一些人与物体之间的互动信息。 ④构想性,即在虚拟的世界里面,将所想的物件所做的事情在虚拟世界呈现出来,这样做能达到什么样的效果,那样做又能达到什么样的效果,甚至还可以把在现实世界不可能存在的事和物都可以在虚拟世界中构想出来。 3. VR技术的应用范围 VR技术由诞生到现今已经历了几个年代,其应用范围也越来越广,如医学方面,可以提供给医生进行模拟手术,这样大大提供了现实中手术的成功几率,还有军事,科技,商业,建筑,娱乐,生活等等。 4. VR技术中涉及的相关技术 ①立体视觉现实技术:人通过视觉所获取到的信息是人本身所有感觉中最多的一种感官,所以虚拟现实技术中立体显示技术占有不可或缺的重要地位。 ②环境构建技术:在虚拟世界中,构件环境是一个重要的环节,要营造一个区域的环境,首先就要创造环境或建筑模块,然后在这个基础上再进行实时描绘、立体显示,从而形成一个虚拟的区域环境。 ③真实感实时描绘技术:要在虚拟世界中实现与现实世界相同的事物,仅靠立体显示技术还是远远不够的,虚拟世界中必须存在真实感和实时感,简单来说就是实现一个物体的重量,质量,色泽,相对位置,遮挡关系等的技术。 ④虚拟世界声音的实现技术:在虚拟世界中虽然视觉是获取信息的重要途径之一,除了视觉还有很多感官系统可以获取到周围的信息。如听觉,这种技术就是在虚拟世界中实现声音,这样人在虚拟世界里不仅能够看得到也能听得到。 5. VR技术中所涉及的硬件设备 ①输入设备 与虚拟现实技术相关的硬件输入设备分成两大类:一是基于自然的交互设备,用于虚拟世界的信息输入;另一种是三维定位跟踪设备,主要用于输入设备在虚拟世界中的位置进行判定,并输送到虚拟世界当中。 虚拟世界与人实现自然交互的形式有很多,例如有数据手套,数据衣服,三维控制器,三维扫描仪等。 数据手套是一种多模式的虚拟现实硬件,通过软件编程,可进行虚拟场景中物体的抓取、移动、旋转等动作,也可以利用它的多模式性,用作一种控制场景漫游的工具。数据手套的出现,为虚拟现实系统提供了一种全新的交互手段,目前的产品已经能够检测手指的弯曲,并利用磁定位传感器来精确地定位出手在三维空间中的位置。这种结合手指弯曲度测试和空间定位测试的数据手套被称为“真实手套”,可以为用户提供一种非常真实自然的三维交互手段。 数据衣是为了让VR系统识别全身运动而设计的输入装置。数据衣对人体大约50多个不同的关节进行测量,包括膝盖、手臂、躯干和脚。通过光电转换,身体的运动信息被计算机识别。通过BOOM 显示器 和数据手套与虚拟现实交互数据衣。 ②输出设备 人在虚拟世界中要体现沉浸的感觉,就必须实现现实世界中的多种感受,如是视、听、触、力、嗅、味等感官感觉,只不过以目前的虚拟技术只实现了视觉,听觉和触觉罢了。 ③VR构成设备 虚拟现实世界的构成,主要的设备就是计算机本身了,虚拟世界的所有景象都是靠一个个模型造成的,而这些模型则是由计算机制作出来的。一般计算机被划分成四个部分,第一:高配置的个人计算机,专门用于普通的图形配置加速卡,实现于VR技术中的桌面式特征;第二:高性能图形工作站,就是一台高配置的图形处理计算机;第三:高度并行系统计算机;第四:分布式虚拟实现计算机等四个分类。 6. VR技术上的难点探讨 随着计算机的不断发展,人与计算机的互动性得到了非常好的提现。而这种技术则成为了VR技术建立的主要手段。但是实时现实始终一直阻挡这VR技术前进的一大难点之一,即时在理论上能够分析得到高度逼真、实时漫游的虚拟世界,但至少以目前的状况来说还达不到理论上的要求。这种理论性的技术是需要强大的硬件配置要求支撑的,比如说速度极快的图形工作计算机和三维图形加速卡等等设备,但以目前的设备来看即时最快的图形处理计算机也不能达到十分逼真的同事又是实时互动的虚拟世界。根本的原因就在于,因为引入了人与虚拟世界的互动,需要即时生成新的动态模型时,就不能达到实时的效果了,所以就不得不降低图形模块的清晰度来减少处理的时间,这样直接导致了虚拟世界的逼真在某程度上的减少,这就是所谓的景物复杂度的问题了。 图形模块的生成是虚拟世界中的重要瓶颈,虚拟世界的重要特性随着人的位置、方向的不断变更状态下感受虚拟世界的动态特性,简单来说,就是你移动一下位置和方向后所看到的即时生成的图形模块景象。有两种指标可以衡量用户沉浸在虚拟世界中的效果和程度。其一就是之前所说的动态特性;其二就是互动的延迟特性。自然动态图形的形成的帧数是30帧,至少也不能低于10帧,否则整体画面就会出现严重的不连续和调动的感觉。互动延迟是影响用户的另一个重要指标,如人在飞机上飞行时,位置的变换和方向的控制,这时系统应当即时产生相对的图形画面,期间的时间延迟应不大于0.1秒,最多也不能大于1/4秒。否则在长期的工作中,人会容易产生疲劳、烦躁或者恶心的感觉,严重地影响了“真实”的感觉。以上两种指标都以来计算机图形处理的速度。对于动态的模块图形生成而言,每帧的图形生成时间在30~50毫秒之间为较好;而对于互动性的延迟,除互动式输入及其处理时间外,其图形的生成速度也是重要的因素。而以上所叙述的因素都与图形处理的硬件组成有直接的相互关系,除此之外还有赖于应用技术的因素,如虚拟场景的复杂程度和图形模块生成所需的真实感等等。 7. VR技术在各国的研究情况 ①VR技术在美国的研究现状 美国是虚拟现实技术研究的发源地,虚拟现实技术的诞生可以追溯到上世纪40年代。最初研究的虚拟现实技术只是用于美国军方对飞行驾驶员和宇航员的模拟训练。然而,随着冷战结束后美国军费大大的削减,虚拟现实技术就逐渐转为民用,目前美国在该领域的基础研究主要集中在感知、用户界面、后台软件和硬件四个方面。 上个世纪80年代,美国宇航局及美国国防部组织了一系列有关虚拟现实技术的研究,并取得了令人瞩目的研究成果,美国宇航局Ames实验室致力于一个叫“虚拟行星探索”的实验计划。现在美国宇航局已经建立了航空、卫星维护的模拟训练系统,空间站的模拟训练系统,并且已经建立了可供全国使用的模拟 教育 系统。北卡罗来纳大学的计算机专业就是进行虚拟显示技术研究最早最著名的大学。他们主要研究分子建模、航空驾驶、外科手术仿真、建筑仿真等。乔治梅森大学研制出一套在动态虚拟环境中的流体实时仿真系统。施乐公司研究中心在模拟现实技术领域中主要从事利用VRT建立未来办公室的研究,并努力设计一项基于模拟现实技术使得数据存取更容易的窗口系统。波音公司的波音777运输机采用全无纸化设计,利用所开发的虚拟现实系统将虚拟环境叠加于真实环境之上,把虚拟的模板显示在正在加工的工件上,工人根据此模板控制待加工尺寸,从而简化加工过程。 图形图像处理技术和传感器技术是以上VR项目的主要技术。就目前看,空间的动态性和时间的实时性是这项技术的最主要焦点。 ②VR技术在欧洲的研究现状 在欧洲,英国在VR开发的某些方面,特别是在分布并行处理、辅助设备(包括触觉反馈)设计和应用研究方面。在欧洲来说是领先的。英国Bristol公司发现,VR应用的交点应集中在整体综合技术上,他们在软件和硬件的某些领域处于领先地位。英国ARRL公司关于远地呈现的研究实验,主要包括VR重构问题。他们的产品还包括建筑和科学可视化计算。 欧洲其它一些较发达的国家如:荷兰、德国、瑞典等也积极进行了VR的研究与应用。 瑞典的DIVE分布式虚拟交互环境,是一个基于Unix的,不同节点上的多个进程可以在同一世界中工作的异质分布式系统。 荷兰海牙TNO研究所的物理电子实验室(TNO- PEL)开发的训练和模拟系统,通过改进人机界面来改善现有模拟系统,以使用户完全介入模拟环境。 德国在VR的应用方面取得了出乎意料的成果。在改造传统产业方面,一是用于产品设计、降低成本,避免新产品开发的风险;二是产品演示,吸引客户争取定单;三是用于培训,在新生产设备投入使用前用虚拟工厂来提高工人的操作水平。2008年10月27-29日在法国举行的ACM Symposi- um on Virtual Reality Software and Technoogy大会,整体上促进了虚拟现实技术的深入发展。 ③VR技术在日本的研究现状 日本的虚拟现实技术的发展在世界相关领域的研究中同样具有举足轻重的地位,它在建立大规模VR知识库和虚拟现实的游戏方面作出了很大的成就。 在东京技术学院精密和智能实验室研究了一个用于建立三维模型的人性化界面,称为SpmAR NEC公司开发了一种虚拟现实系统,用代用手来处理CAD中的三维形体模型。通过数据手套把对模型的处理与操作者的手联系起来;日本国际工业和商业部产品科学研究院开发了一种采用x、Y记录器的受力反馈装置;东京大学的高级科学研究中心的研究重点主要集中在远程控制方面,他们最近的研究项目是可以使用户控制远程摄像系统和一个模拟人手的随动机械人手臂的主从系统;东京大学广濑研究室重点研究虚拟现实的可视化问题。他们正在开发一种虚拟全息系统,用于克服当前显示和交互作用技术的局限性;日本奈良尖端技术研究生院大学教授千原国宏领导的研究小组于2004年开发出一种嗅觉模拟器,只要把虚拟空间里的水果放到鼻尖上一闻,装置就会在鼻尖处放出水果的香味,这是虚拟现实技术在嗅觉研究领域的一项突破。 ④国内虚拟现实技术研究现状 在我国虚拟现实技术的研究和一些发达国家相比还有很大的一段距离,随着计算机图形学、计算机系统工程等技术的高速发展,虚拟现实技术已经得到了相当的重视,引起我国各界人士的兴趣和关注,研究与应用VR,建立虚拟环境、虚拟场景模型分布式VR系统的开发正朝着深度和广度发展。国家科委国防科工委部已将虚拟现实技术的研究列为重点攻关项目,国内许多研究机构和高校也都在进行虚拟现实的研究和应用并取得了一些不错的研究成果。 北京航空航天大学计算机系也是国内最早进行VR研究、最有权威的单位之一,其虚拟实现与可视化新技术研究室集成了分布式虚拟环境,可以提供实时三维动态数据库、虚拟现实演示环境、用于飞行员训练的虚拟现实系统、虚拟现实应用系统的开发平台等,并在以下方面取得进展:着重研究了虚拟环境中物体物理特性的表示与处理;在虚拟现实中的视觉接口方面开发出部分硬件,并提出有关算法及实现方法。 清华大学国家光盘工程研究中心所作的“布达拉宫”,采用了QuickTime技术,实现大全景VR制;浙江大学CAD&CG国家重点实验室开发了一套桌面型虚拟建筑环境实时漫游系统;哈尔滨工业大学计算机系已经成功地合成了人的高级行为中的特定人脸图像,解决了表情的合成和唇动合成技术问题,并正在研究人说话时手势和头势的动作、语音和语调的同步等。 8.学习小结和心得 虚拟现实技术是一个极具潜力的研究项目,是未来的重要技术之一。它不论在理论,软件或者硬件的领域上都依赖着很多技术,当然其中也有较多的技术只实现了理论,硬件方面还是有待完善的。不过可以遇见,在未来虚拟现实技术绝对会被广泛应用。 本论文讲述了虚拟现实技术的概念,特征,应用范围,相关的技术,涉及的设备,技术上实现的难点,各国的研究现状等。最重要的就是,我们通过对这门技术项目的学习,了解到计算机更加多方面的知识,亦同时得知了更加多与计算机之间的硬件设备知识,让我们对虚拟现实技术产生了浓厚的兴趣,日后我们会继续留意虚拟现实技术的发展状况,如有机会定必会该项技术奉献绵薄之力。 猜你喜欢: 1. 科技哲学结课论文3000字 2. 触控技术论文 3. 全息投影技术论文 4. 3d打印技术论文3000字 5. 人工智能应用技术论文 6. 网络新技术论文

相关百科

热门百科

首页
发表服务