语音识别技术研究让人更加方便地享受到更多的社会信息资源和现代化服务,对任何事都能够通过语音交互的方式。 我整理了浅谈语音识别技术论文,欢迎阅读!
语音识别技术概述
作者:刘钰 马艳丽 董蓓蓓
摘要:本文简要介绍了语音识别技术理论基础及分类方式,所采用的关键技术以及所面临的困难与挑战,最后讨论了语音识别技术的 发展 前景和应用。
关键词:语音识别;特征提取;模式匹配;模型训练
Abstract:This text briefly introduces the theoretical basis of the speech-identification technology,its mode of classification,the adopted key technique and the difficulties and challenges it have to developing prospect ion and application of the speech-identification technology are discussed in the last part.
Keywords:Speech identification;Character Pick-up;Mode matching;Model training
一、语音识别技术的理论基础
语音识别技术:是让机器通过识别和理解过程把语音信号转变为相应的文本或命令的高级技术。语音识别以语音为研究对象,它是语音信号处理的一个重要研究方向,是模式识别的一个分支,涉及到生 理学 、心理学、语言学、 计算 机 科学 以及信号处理等诸多领域,甚至还涉及到人的体态语言(如人在说话时的表情、手势等行为动作可帮助对方理解),其最终目标是实现人与机器进行 自然 语言通信。
不同的语音识别系统,虽然具体实现细节有所不同,但所采用的基本技术相似,一个典型语音识别系统主要包括特征提取技术、模式匹配准则及模型训练技术三个方面。此外,还涉及到语音识别单元的选取。
(一) 语音识别单元的选取
选择识别单元是语音识别研究的第一步。语音识别单元有单词(句)、音节和音素三种,具体选择哪一种,由具体的研究任务决定。
单词(句)单元广泛应用于中小词汇语音识别系统,但不适合大词汇系统,原因在于模型库太庞大,训练模型任务繁重,模型匹配算法复杂,难以满足实时性要求。
音节单元多见于汉语语音识别,主要因为汉语是单音节结构的语言,而 英语 是多音节,并且汉语虽然有大约1300个音节,但若不考虑声调,约有408个无调音节,数量相对较少。因此,对于中、大词汇量汉语语音识别系统来说,以音节为识别单元基本是可行的。
音素单元以前多见于英语语音识别的研究中,但目前中、大词汇量汉语语音识别系统也在越来越多地采用。原因在于汉语音节仅由声母(包括零声母有22个)和韵母(共有28个)构成,且声韵母声学特性相差很大。实际应用中常把声母依后续韵母的不同而构成细化声母,这样虽然增加了模型数目,但提高了易混淆音节的区分能力。由于协同发音的影响,音素单元不稳定,所以如何获得稳定的音素单元,还有待研究。
(二) 特征参数提取技术
语音信号中含有丰富的信息,但如何从中提取出对语音识别有用的信息呢?特征提取就是完成这项工作,它对语音信号进行分析处理,去除对语音识别无关紧要的冗余信息,获得影响语音识别的重要信息。对于非特定人语音识别来讲,希望特征参数尽可能多的反映语义信息,尽量减少说话人的个人信息(对特定人语音识别来讲,则相反)。从信息论角度讲,这是信息压缩的过程。
线性预测(LP)分析技术是目前应用广泛的特征参数提取技术,许多成功的应用系统都采用基于LP技术提取的倒谱参数。但线性预测模型是纯数学模型,没有考虑人类听觉系统对语音的处理特点。
Mel参数和基于感知线性预测(PLP)分析提取的感知线性预测倒谱,在一定程度上模拟了人耳对语音的处理特点,应用了人耳听觉感知方面的一些研究成果。实验证明,采用这种技术,语音识别系统的性能有一定提高。
也有研究者尝试把小波分析技术应用于特征提取,但目前性能难以与上述技术相比,有待进一步研究。
(三)模式匹配及模型训练技术
模型训练是指按照一定的准则,从大量已知模式中获取表征该模式本质特征的模型参数,而模式匹配则是根据一定准则,使未知模式与模型库中的某一个模型获得最佳匹配。
语音识别所应用的模式匹配和模型训练技术主要有动态时间归正技术(DTW)、隐马尔可夫模型(HMM)和人工神经元 网络 (ANN)。
DTW是较早的一种模式匹配和模型训练技术,它应用动态规划方法成功解决了语音信号特征参数序列比较时时长不等的难题,在孤立词语音识别中获得了良好性能。但因其不适合连续语音大词汇量语音识别系统,目前已被HMM模型和ANN替代。
HMM模型是语音信号时变特征的有参表示法。它由相互关联的两个随机过程共同描述信号的统计特性,其中一个是隐蔽的(不可观测的)具有有限状态的Markor链,另一个是与Markor链的每一状态相关联的观察矢量的随机过程(可观测的)。隐蔽Markor链的特征要靠可观测到的信号特征揭示。这样,语音等时变信号某一段的特征就由对应状态观察符号的随机过程描述,而信号随时间的变化由隐蔽Markor链的转移概率描述。模型参数包括HMM拓扑结构、状态转移概率及描述观察符号统计特性的一组随机函数。按照随机函数的特点,HMM模型可分为离散隐马尔可夫模型(采用离散概率密度函数,简称DHMM)和连续隐马尔可夫模型(采用连续概率密度函数,简称CHMM)以及半连续隐马尔可夫模型(SCHMM,集DHMM和CHMM特点)。一般来讲,在训练数据足够的,CHMM优于DHMM和SCHMM。HMM模型的训练和识别都已研究出有效的算法,并不断被完善,以增强HMM模型的鲁棒性。
人工神经元 网络 在语音识别中的 应用是现在研究的又一 热点。ANN本质上是一个自适应非线性动力学系统,模拟了人类神经元活动的原理,具有自学、联想、对比、推理和概括能力。这些能力是HMM模型不具备的,但ANN又不个有HMM模型的动态时间归正性能。因此,现在已有人研究如何把二者的优点有机结合起来,从而提高整个模型的鲁棒性。
二、语音识别的困难与对策
目前,语音识别方面的困难主要表现在:
(一)语音识别系统的适应性差,主要体现在对环境依赖性强,即在某种环境下采集到的语音训练系统只能在这种环境下应用,否则系统性能将急剧下降;另外一个问题是对用户的错误输入不能正确响应,使用不方便。
(二)高噪声环境下语音识别进展困难,因为此时人的发音变化很大,像声音变高,语速变慢,音调及共振峰变化等等,这就是所谓Lombard效应,必须寻找新的信号分析处理方法。
(三)语言学、生 理学 、心理学方面的研究成果已有不少,但如何把这些知识量化、建模并用于语音识别,还需研究。而语言模型、语法及词法模型在中、大词汇量连续语音识别中是非常重要的。
(四)我们对人类的听觉理解、知识积累和学习机制以及大脑神经系统的控制机理等分面的认识还很不清楚;其次,把这方面的现有成果用于语音识别,还有一个艰难的过程。
(五)语音识别系统从实验室演示系统到商品的转化过程中还有许多具体问题需要解决,识别速度、拒识问题以及关键词(句)检测技术等等技术细节要解决。
三、语音识别技术的前景和应用
语音识别技术 发展 到今天,特别是中小词汇量非特定人语音识别系统识别精度已经大于98%,对特定人语音识别系统的识别精度就更高。这些技术已经能够满足通常应用的要求。由于大规模集成电路技术的发展,这些复杂的语音识别系统也已经完全可以制成专用芯片,大量生产。在西方 经济 发达国家,大量的语音识别产品已经进入市场和服务领域。一些用户交机、电话机、手机已经包含了语音识别拨号功能,还有语音记事本、语音智能玩具等产品也包括语音识别与语音合成功能。人们可以通过电话网络用语音识别口语对话系统查询有关的机票、 旅游 、银行信息,并且取得很好的结果。
语音识别是一门交叉学科,语音识别正逐步成为信息技术中人机接口的关键技术,语音识别技术与语音合成技术结合使人们能够甩掉键盘,通过语音命令进行操作。语音技术的应用已经成为一个具有竞争性的新兴高技术产业。
参考 文献 :
[1]科大讯飞语音识别技术专栏. 语音识别产业的新发展. 企业 专栏.通讯世界,:(总l12期)
[2]任天平,门茂深.语音识别技术应用的进展.科技广场.河南科技,
[3]俞铁城.科大讯飞语音识别技术专栏.语音识别的发展现状.企业专栏.通讯世界, (总122期)
[4]陈尚勤等.近代语音识别.西安: 电子 科技大学出版社,1991
[5]王炳锡等.实用语音识别基础.Practical Fundamentals of Speech Recognition.北京:国防 工业 出版社,2005
[6](美)L.罗宾纳.语音识别基本原理.北京:清华大学出版社,1999
点击下页还有更多>>>浅谈语音识别技术论文
与机器进行语音交流,让机器明白你说什么,这是人们长期以来梦寐以求的事情。语音识别技术就是让机器通过识别和理解过程把语音信号转变为相应的文本或命令的高技术。语音识别是一门交叉学科。近二十年来,语音识别技术取得显著进步,开始从实验室走向市场。人们预计,未来10年内,语音识别技术将进入工业、家电、通信、汽车电子、医疗、家庭服务、消费电子产品等各个领域。语音识别听写机在一些领域的应用被美国新闻界评为1997年计算机发展十件大事之一。很多专家都认为语音识别技术是2000年至2010年间信息技术领域十大重要的科技发展技术之一。语音识别技术所涉及的领域包括:信号处理、模式识别、概率论和信息论、发声机理和听觉机理、人工智能等等。 任务分类和应用 根据识别的对象不同,语音识别任务大体可分为3类,即孤立词识别(isolated word recognition),关键词识别(或称关键词检出,keyword spotting)和连续语音识别。其中,孤立词识别 的任务是识别事先已知的孤立的词,如“开机”、“关机”等;连续语音识别的任务则是识别任意的连续语音,如一个句子或一段话;连续语音流中的关键词检测针对的是连续语音,但它并不识别全部文字,而只是检测已知的若干关键词在何处出现,如在一段话中检测“计算机”、“世界”这两个词。根据针对的发音人,可以把语音识别技术分为特定人语音识别和非特定人语音识别,前者只能识别一个或几个人的语音,而后者则可以被任何人使用。显然,非特定人语音识别系统更符合实际需要,但它要比针对特定人的识别困难得多。另外,根据语音设备和通道,可以分为桌面(PC)语音识别、电话语音识别和嵌入式设备(手机、PDA等)语音识别。不同的采集通道会使人的发音的声学特性发生变形,因此需要构造各自的识别系统。语音识别的应用领域非常广泛,常见的应用系统有:语音输入系统,相对于键盘输入方法,它更符合人的日常习惯,也更自然、更高效;语音控制系统,即用语音来控制设备的运行,相对于手动控制来说更加快捷、方便,可以用在诸如工业控制、语音拨号系统、智能家电、声控智能玩具等许多领域;智能对话查询系统,根据客户的语音进行操作,为用户提供自然、友好的数据库检索服务,例如家庭服务、宾馆服务、旅行社服务系统、订票系统、医疗服务、银行服务、股票查询服务等等。 前端前端处理是指在特征提取之前,先对原始语音进行处理,部分消除噪声和不同说话人带来的影响,使处理后的信号更能反映语音的本质特征。最常用的前端处理有端点检测和语音增强。端点检测是指在语音信号中将语音和非语音信号时段区分开来,准确地确定出语音信号的起始点。经过端点检测后,后续处理就可以只对语音信号进行,这对提高模型的精确度和识别正确率有重要作用。语音增强的主要任务就是消除环境噪声对语音的影响。目前通用的方法是采用维纳滤波,该方法在噪声较大的情况下效果好于其它滤波器。处理声学特征 声学特征的提取与选择是语音识别的一个重要环节。声学特征的提取既是一个信息大幅度压缩的过程,也是一个信号解卷过程,目的是使模式划分器能更好地划分。由于语音信号的时变特性,特征提取必须在一小段语音信号上进行,也即进行短时分析。这一段被认为是平稳的分析区间称之为帧,帧与帧之间的偏移通常取帧长的1/2或1/3。通常要对信号进行预加重以提升高频,对信号加窗以避免短时语音段边缘的影响。常用的一些声学特征* 线性预测系数LPC:线性预测分析从人的发声机理入手,通过对声道的短管级联模型的研究,认为系统的传递函数符合全极点数字滤波器的形式,从而n 时刻的信号可以用前若干时刻的信号的线性组合来估计。通过使实际语音的采样值和线性预测采样值之间达到均方差最小LMS,即可得到线性预测系数LPC。对 LPC的计算方法有自相关法(德宾Durbin法)、协方差法、格型法等等。计算上的快速有效保证了这一声学特征的广泛使用。与LPC这种预测参数模型类似的声学特征还有线谱对LSP、反射系数等等。* 倒谱系数CEP:利用同态处理方法,对语音信号求离散傅立叶变换DFT后取对数,再求反变换iDFT就可得到倒谱系数。对LPC倒谱(LPCCEP),在获得滤波器的线性预测系数后,可以用一个递推公式计算得出。实验表明,使用倒谱可以提高特征参数的稳定性。* Mel倒谱系数MFCC和感知线性预测PLP:不同于LPC等通过对人的发声机理的研究而得到的声学特征,Mel倒谱系数MFCC和感知线性预测 PLP是受人的听觉系统研究成果推动而导出的声学特征。对人的听觉机理的研究发现,当两个频率相近的音调同时发出时,人只能听到一个音调。临界带宽指的就是这样一种令人的主观感觉发生突变的带宽边界,当两个音调的频率差小于临界带宽时,人就会把两个音调听成一个,这称之为屏蔽效应。Mel刻度是对这一临界带宽的度量方法之一。MFCC的计算首先用FFT将时域信号转化成频域,之后对其对数能量谱用依照Mel刻度分布的三角滤波器组进行卷积,最后对各个滤波器的输出构成的向量进行离散余弦变换DCT,取前N个系数。PLP仍用德宾法去计算LPC参数,但在计算自相关参数时用的也是对听觉激励的对数能量谱进行DCT的方法。声学模型语音识别系统的模型通常由声学模型和语言模型两部分组成,分别对应于语音到音节概率的计算和音节到字概率的计算。本节和下一节分别介绍声学模型和语言模型方面的技术。HMM声学建模:马尔可夫模型的概念是一个离散时域有限状态自动机,隐马尔可夫模型HMM是指这一马尔可夫模型的内部状态外界不可见,外界只能看到各个时刻的输出值。对语音识别系统,输出值通常就是从各个帧计算而得的声学特征。用HMM刻画语音信号需作出两个假设,一是内部状态的转移只与上一状态有关,另一是输出值只与当前状态(或当前的状态转移)有关,这两个假设大大降低了模型的复杂度。HMM的打分、解码和训练相应的算法是前向算法、Viterbi算法和前向后向算法。语音识别中使用HMM通常是用从左向右单向、带自环、带跨越的拓扑结构来对识别基元建模,一个音素就是一个三至五状态的HMM,一个词就是构成词的多个音素的HMM串行起来构成的HMM,而连续语音识别的整个模型就是词和静音组合起来的HMM。上下文相关建模:协同发音,指的是一个音受前后相邻音的影响而发生变化,从发声机理上看就是人的发声器官在一个音转向另一个音时其特性只能渐变,从而使得后一个音的频谱与其他条件下的频谱产生差异。上下文相关建模方法在建模时考虑了这一影响,从而使模型能更准确地描述语音,只考虑前一音的影响的称为Bi- Phone,考虑前一音和后一音的影响的称为Tri-Phone。英语的上下文相关建模通常以音素为基元,由于有些音素对其后音素的影响是相似的,因而可以通过音素解码状态的聚类进行模型参数的共享。聚类的结果称为senone。决策树用来实现高效的triphone对senone的对应,通过回答一系列前后音所属类别(元/辅音、清/浊音等等)的问题,最终确定其HMM状态应使用哪个senone。分类回归树CART模型用以进行词到音素的发音标注。 语言模型语言模型主要分为规则模型和统计模型两种。统计语言模型是用概率统计的方法来揭示语言单位内在的统计规律,其中N-Gram简单有效,被广泛使用。N-Gram:该模型基于这样一种假设,第n个词的出现只与前面N-1个词相关,而与其它任何词都不相关,整句的概率就是各个词出现概率的乘积。这些概率可以通过直接从语料中统计N个词同时出现的次数得到。常用的是二元的Bi-Gram和三元的Tri-Gram。语言模型的性能通常用交叉熵和复杂度(Perplexity)来衡量。交叉熵的意义是用该模型对文本识别的难度,或者从压缩的角度来看,每个词平均要用几个位来编码。复杂度的意义是用该模型表示这一文本平均的分支数,其倒数可视为每个词的平均概率。平滑是指对没观察到的N元组合赋予一个概率值,以保证词序列总能通过语言模型得到一个概率值。通常使用的平滑技术有图灵估计、删除插值平滑、Katz平滑和Kneser-Ney平滑。 搜索连续语音识别中的搜索,就是寻找一个词模型序列以描述输入语音信号,从而得到词解码序列。搜索所依据的是对公式中的声学模型打分和语言模型打分。在实际使用中,往往要依据经验给语言模型加上一个高权重,并设置一个长词惩罚分数。Viterbi:基于动态规划的Viterbi算法在每个时间点上的各个状态,计算解码状态序列对观察序列的后验概率,保留概率最大的路径,并在每个节点记录下相应的状态信息以便最后反向获取词解码序列。Viterbi算法在不丧失最优解的条件下,同时解决了连续语音识别中HMM模型状态序列与声学观察序列的非线性时间对准、词边界检测和词的识别,从而使这一算法成为语音识别搜索的基本策略。由于语音识别对当前时间点之后的情况无法预测,基于目标函数的启发式剪枝难以应用。由于Viterbi算法的时齐特性,同一时刻的各条路径对应于同样的观察序列,因而具有可比性,束Beam搜索在每一时刻只保留概率最大的前若干条路径,大幅度的剪枝提高了搜索的效率。这一时齐Viterbi- Beam算法是当前语音识别搜索中最有效的算法。 N-best搜索和多遍搜索:为在搜索中利用各种知识源,通常要进行多遍搜索,第一遍使用代价低的知识源,产生一个候选列表或词候选网格,在此基础上进行使用代价高的知识源的第二遍搜索得到最佳路径。此前介绍的知识源有声学模型、语言模型和音标词典,这些可以用于第一遍搜索。为实现更高级的语音识别或口语理解,往往要利用一些代价更高的知识源,如4阶或5阶的N-Gram、4阶或更高的上下文相关模型、词间相关模型、分段模型或语法分析,进行重新打分。最新的实时大词表连续语音识别系统许多都使用这种多遍搜索策略。N-best搜索产生一个候选列表,在每个节点要保留N条最好的路径,会使计算复杂度增加到N倍。简化的做法是只保留每个节点的若干词候选,但可能丢失次优候选。一个折衷办法是只考虑两个词长的路径,保留k条。词候选网格以一种更紧凑的方式给出多候选,对N-best搜索算法作相应改动后可以得到生成候选网格的算法。前向后向搜索算法是一个应用多遍搜索的例子。当应用简单知识源进行了前向的Viterbi搜索后,搜索过程中得到的前向概率恰恰可以用在后向搜索的目标函数的计算中,因而可以使用启发式的A算法进行后向搜索,经济地搜索出N条候选。 系统实现 语音识别系统选择识别基元的要求是,有准确的定义,能得到足够数据进行训练,具有一般性。英语通常采用上下文相关的音素建模,汉语的协同发音不如英语严重,可以采用音节建模。系统所需的训练数据大小与模型复杂度有关。模型设计得过于复杂以至于超出了所提供的训练数据的能力,会使得性能急剧下降。听写机:大词汇量、非特定人、连续语音识别系统通常称为听写机。其架构就是建立在前述声学模型和语言模型基础上的HMM拓扑结构。训练时对每个基元用前向后向算法获得模型参数,识别时,将基元串接成词,词间加上静音模型并引入语言模型作为词间转移概率,形成循环结构,用Viterbi算法进行解码。针对汉语易于分割的特点,先进行分割再对每一段进行解码,是用以提高效率的一个简化方法。对话系统:用于实现人机口语对话的系统称为对话系统。受目前技术所限,对话系统往往是面向一个狭窄领域、词汇量有限的系统,其题材有旅游查询、订票、数据库检索等等。其前端是一个语音识别器,识别产生的N-best候选或词候选网格,由语法分析器进行分析获取语义信息,再由对话管理器确定应答信息,由语音合成器输出。由于目前的系统往往词汇量有限,也可以用提取关键词的方法来获取语义信息。 自适应与强健性 语音识别系统的性能受许多因素的影响,包括不同的说话人、说话方式、环境噪音、传输信道等等。提高系统鲁棒性,是要提高系统克服这些因素影响的能力,使系统在不同的应用环境、条件下性能稳定;自适应的目的,是根据不同的影响来源,自动地、有针对性地对系统进行调整,在使用中逐步提高性能。以下对影响系统性能的不同因素分别介绍解决办法。解决办法按针对语音特征的方法(以下称特征方法)和模型调整的方法(以下称模型方法)分为两类。前者需要寻找更好的、高鲁棒性的特征参数,或是在现有的特征参数基础上,加入一些特定的处理方法。后者是利用少量的自适应语料来修正或变换原有的说话人无关(SI)模型,从而使其成为说话人自适应(SA)模型。说话人自适应的特征方法有说话人规一化和说话人子空间法,模型方法有贝叶斯方法、变换法和模型合并法。语音系统中的噪声,包括环境噪声和录音过程加入的电子噪声。提高系统鲁棒性的特征方法包括语音增强和寻找对噪声干扰不敏感的特征,模型方法有并行模型组合PMC方法和在训练中人为加入噪声。信道畸变包括录音时话筒的距离、使用不同灵敏度的话筒、不同增益的前置放大和不同的滤波器设计等等。特征方法有从倒谱矢量中减去其长时平均值和RASTA滤波,模型方法有倒谱平移。 微软语音识别引擎 微软在office和vista中都应用了自己开发的语音识别引擎,微软语音识别引擎的使用是完全免费的,所以产生了许多基于微软语音识别引擎开发的语音识别应用软件,例如《语音游戏大师》《语音控制专家》《芝麻开门》等等软件。 语音识别系统的性能指标 语音识别系统的性能指标主要有四项。①词汇表范围:这是指机器能识别的单词或词组的范围,如不作任何限制,则可认为词汇表范围是无限的。②说话人限制:是仅能识别指定发话者的语音,还是对任何发话人的语音都能识别。③训练要求:使用前要不要训练,即是否让机器先“听”一下给定的语音,以及训练次数的多少。④正确识别率:平均正确识别的百分数,它与前面三个指标有关。小结以上介绍了实现语音识别系统的各个方面的技术。这些技术在实际使用中达到了较好的效果,但如何克服影响语音的各种因素还需要更深入地分析。目前听写机系统还不能完全实用化以取代键盘的输入,但识别技术的成熟同时推动了更高层次的语音理解技术的研究。由于英语与汉语有着不同的特点,针对英语提出的技术在汉语中如何使用也是一个重要的研究课题,而四声等汉语本身特有的问题也有待解决。
如果不同方法之间性能差别比较大,通常可以直观地观察出哪个更好,不少时候这也是进行处理希望达到的效果。如果是灰度图,使用均值只说明亮度的差别,难以用于比较增强效果(虽然通过灰度变换的确可以增强图像,但是效果通常可以直接观察出来)。从数据的角度,使用灰度直方图有一定帮助(参见《数字图像处理》“直方图均化”部分)。另外还得看增强算法的目的,如果是为了降噪,那么使用各种算法各自对不同的噪声类型进行处理,然后比较所得结果,更能说明算法的针对性及性能特点。关于专门的描述,建议参考冈萨雷斯的《数字图像处理》,绿色十六开,对于灰度变换,轮廓图区,滤波等增强技术常见的技术都有详尽的描述和比较。
语音识别技术研究让人更加方便地享受到更多的社会信息资源和现代化服务,对任何事都能够通过语音交互的方式。 我整理了浅谈语音识别技术论文,欢迎阅读!
语音识别技术概述
作者:刘钰 马艳丽 董蓓蓓
摘要:本文简要介绍了语音识别技术理论基础及分类方式,所采用的关键技术以及所面临的困难与挑战,最后讨论了语音识别技术的 发展 前景和应用。
关键词:语音识别;特征提取;模式匹配;模型训练
Abstract:This text briefly introduces the theoretical basis of the speech-identification technology,its mode of classification,the adopted key technique and the difficulties and challenges it have to developing prospect ion and application of the speech-identification technology are discussed in the last part.
Keywords:Speech identification;Character Pick-up;Mode matching;Model training
一、语音识别技术的理论基础
语音识别技术:是让机器通过识别和理解过程把语音信号转变为相应的文本或命令的高级技术。语音识别以语音为研究对象,它是语音信号处理的一个重要研究方向,是模式识别的一个分支,涉及到生 理学 、心理学、语言学、 计算 机 科学 以及信号处理等诸多领域,甚至还涉及到人的体态语言(如人在说话时的表情、手势等行为动作可帮助对方理解),其最终目标是实现人与机器进行 自然 语言通信。
不同的语音识别系统,虽然具体实现细节有所不同,但所采用的基本技术相似,一个典型语音识别系统主要包括特征提取技术、模式匹配准则及模型训练技术三个方面。此外,还涉及到语音识别单元的选取。
(一) 语音识别单元的选取
选择识别单元是语音识别研究的第一步。语音识别单元有单词(句)、音节和音素三种,具体选择哪一种,由具体的研究任务决定。
单词(句)单元广泛应用于中小词汇语音识别系统,但不适合大词汇系统,原因在于模型库太庞大,训练模型任务繁重,模型匹配算法复杂,难以满足实时性要求。
音节单元多见于汉语语音识别,主要因为汉语是单音节结构的语言,而 英语 是多音节,并且汉语虽然有大约1300个音节,但若不考虑声调,约有408个无调音节,数量相对较少。因此,对于中、大词汇量汉语语音识别系统来说,以音节为识别单元基本是可行的。
音素单元以前多见于英语语音识别的研究中,但目前中、大词汇量汉语语音识别系统也在越来越多地采用。原因在于汉语音节仅由声母(包括零声母有22个)和韵母(共有28个)构成,且声韵母声学特性相差很大。实际应用中常把声母依后续韵母的不同而构成细化声母,这样虽然增加了模型数目,但提高了易混淆音节的区分能力。由于协同发音的影响,音素单元不稳定,所以如何获得稳定的音素单元,还有待研究。
(二) 特征参数提取技术
语音信号中含有丰富的信息,但如何从中提取出对语音识别有用的信息呢?特征提取就是完成这项工作,它对语音信号进行分析处理,去除对语音识别无关紧要的冗余信息,获得影响语音识别的重要信息。对于非特定人语音识别来讲,希望特征参数尽可能多的反映语义信息,尽量减少说话人的个人信息(对特定人语音识别来讲,则相反)。从信息论角度讲,这是信息压缩的过程。
线性预测(LP)分析技术是目前应用广泛的特征参数提取技术,许多成功的应用系统都采用基于LP技术提取的倒谱参数。但线性预测模型是纯数学模型,没有考虑人类听觉系统对语音的处理特点。
Mel参数和基于感知线性预测(PLP)分析提取的感知线性预测倒谱,在一定程度上模拟了人耳对语音的处理特点,应用了人耳听觉感知方面的一些研究成果。实验证明,采用这种技术,语音识别系统的性能有一定提高。
也有研究者尝试把小波分析技术应用于特征提取,但目前性能难以与上述技术相比,有待进一步研究。
(三)模式匹配及模型训练技术
模型训练是指按照一定的准则,从大量已知模式中获取表征该模式本质特征的模型参数,而模式匹配则是根据一定准则,使未知模式与模型库中的某一个模型获得最佳匹配。
语音识别所应用的模式匹配和模型训练技术主要有动态时间归正技术(DTW)、隐马尔可夫模型(HMM)和人工神经元 网络 (ANN)。
DTW是较早的一种模式匹配和模型训练技术,它应用动态规划方法成功解决了语音信号特征参数序列比较时时长不等的难题,在孤立词语音识别中获得了良好性能。但因其不适合连续语音大词汇量语音识别系统,目前已被HMM模型和ANN替代。
HMM模型是语音信号时变特征的有参表示法。它由相互关联的两个随机过程共同描述信号的统计特性,其中一个是隐蔽的(不可观测的)具有有限状态的Markor链,另一个是与Markor链的每一状态相关联的观察矢量的随机过程(可观测的)。隐蔽Markor链的特征要靠可观测到的信号特征揭示。这样,语音等时变信号某一段的特征就由对应状态观察符号的随机过程描述,而信号随时间的变化由隐蔽Markor链的转移概率描述。模型参数包括HMM拓扑结构、状态转移概率及描述观察符号统计特性的一组随机函数。按照随机函数的特点,HMM模型可分为离散隐马尔可夫模型(采用离散概率密度函数,简称DHMM)和连续隐马尔可夫模型(采用连续概率密度函数,简称CHMM)以及半连续隐马尔可夫模型(SCHMM,集DHMM和CHMM特点)。一般来讲,在训练数据足够的,CHMM优于DHMM和SCHMM。HMM模型的训练和识别都已研究出有效的算法,并不断被完善,以增强HMM模型的鲁棒性。
人工神经元 网络 在语音识别中的 应用是现在研究的又一 热点。ANN本质上是一个自适应非线性动力学系统,模拟了人类神经元活动的原理,具有自学、联想、对比、推理和概括能力。这些能力是HMM模型不具备的,但ANN又不个有HMM模型的动态时间归正性能。因此,现在已有人研究如何把二者的优点有机结合起来,从而提高整个模型的鲁棒性。
二、语音识别的困难与对策
目前,语音识别方面的困难主要表现在:
(一)语音识别系统的适应性差,主要体现在对环境依赖性强,即在某种环境下采集到的语音训练系统只能在这种环境下应用,否则系统性能将急剧下降;另外一个问题是对用户的错误输入不能正确响应,使用不方便。
(二)高噪声环境下语音识别进展困难,因为此时人的发音变化很大,像声音变高,语速变慢,音调及共振峰变化等等,这就是所谓Lombard效应,必须寻找新的信号分析处理方法。
(三)语言学、生 理学 、心理学方面的研究成果已有不少,但如何把这些知识量化、建模并用于语音识别,还需研究。而语言模型、语法及词法模型在中、大词汇量连续语音识别中是非常重要的。
(四)我们对人类的听觉理解、知识积累和学习机制以及大脑神经系统的控制机理等分面的认识还很不清楚;其次,把这方面的现有成果用于语音识别,还有一个艰难的过程。
(五)语音识别系统从实验室演示系统到商品的转化过程中还有许多具体问题需要解决,识别速度、拒识问题以及关键词(句)检测技术等等技术细节要解决。
三、语音识别技术的前景和应用
语音识别技术 发展 到今天,特别是中小词汇量非特定人语音识别系统识别精度已经大于98%,对特定人语音识别系统的识别精度就更高。这些技术已经能够满足通常应用的要求。由于大规模集成电路技术的发展,这些复杂的语音识别系统也已经完全可以制成专用芯片,大量生产。在西方 经济 发达国家,大量的语音识别产品已经进入市场和服务领域。一些用户交机、电话机、手机已经包含了语音识别拨号功能,还有语音记事本、语音智能玩具等产品也包括语音识别与语音合成功能。人们可以通过电话网络用语音识别口语对话系统查询有关的机票、 旅游 、银行信息,并且取得很好的结果。
语音识别是一门交叉学科,语音识别正逐步成为信息技术中人机接口的关键技术,语音识别技术与语音合成技术结合使人们能够甩掉键盘,通过语音命令进行操作。语音技术的应用已经成为一个具有竞争性的新兴高技术产业。
参考 文献 :
[1]科大讯飞语音识别技术专栏. 语音识别产业的新发展. 企业 专栏.通讯世界,:(总l12期)
[2]任天平,门茂深.语音识别技术应用的进展.科技广场.河南科技,
[3]俞铁城.科大讯飞语音识别技术专栏.语音识别的发展现状.企业专栏.通讯世界, (总122期)
[4]陈尚勤等.近代语音识别.西安: 电子 科技大学出版社,1991
[5]王炳锡等.实用语音识别基础.Practical Fundamentals of Speech Recognition.北京:国防 工业 出版社,2005
[6](美)L.罗宾纳.语音识别基本原理.北京:清华大学出版社,1999
点击下页还有更多>>>浅谈语音识别技术论文
常用的语音增强算法分为如下几类:基于谱相减的语音增强算法、基于小波分析的语音增强算法、基于卡尔曼滤波的语音增强算法、基于信号子空间的增强方法、基于听觉掩蔽效应的语音增强方法、基于独立分量分析的语音增强方法、基于神经网络的语音增强方法。这里只是介绍一下各种语音增强方法流程,待确定方向之后再深入研究。语音增强不但与语音信号数字处理理论有关,而且涉及到人的听觉感知和语音学范畴。再者,噪声的来源众多,因应用场合而异,它们的特性也各不相同。所以必须针对不同噪声,采用不同的语音增强对策。某些语音增强算法在实际应用中己经证明是有效的,它们大体上可分为四类:噪声对消法、谐波增强法、基于参数估计的语音再合成法和基于语音短时谱估计的增强算法。
题目的拟定对于一篇医学论文来说至关重要,选题有意义,写出来的 文章 才有学术价值,如果选定的题目毫无意义或过于偏狭,也毫无价值可言。下面我给大家带来2021医学专业的 毕业 论文题目有哪些,希望能帮助到大家!
医学影像技术论文题目
[1]培养医学影像学生审美能力提高《医学影像检查技术》教学效果
[2]大学教材《医学影像成像原理》出版发行
[3]_版中国科技期刊引证 报告 相关数据——《中国医学影像技术》
[4]《中国医学影像技术》被数据库收录情况
[5]肺结节人工智能技术在医学影像学专业实习生教学中的初步应用
[6]基于网络资源“探究式-理实一体化”教学在超声诊断学中的应用
[7]医学物理学开放性实验教学模式探索
[8]角色扮演教学法在医学影像检查技术学临床示教中应用的研究
[9]中国超声医学的发展与展望
[10]《中国医学影像技术》被数据库收录情况
[11]医学影像实训教学大型设备拆移、软件处理探讨
[12]现代医学影像科核磁机房施工技术分析——以江苏省妇幼保健院为例[
[13]医学影像技术专业在核医学科实习过程中的问题分析及应对
[14]高职高专医学影像实训基地的建设与研究
[15]医学影像技术学中CT与MR教学分析
[16]SPOC在医学影像检查技术学教学中的应用与实践
[17]全数字化_线影像技术在医学影像科的应用价值
[18]医学影像技术专业建设初探
[19]放射测量与防护教材的改革策略
[20]OBE教学理念在《断层解剖学》课程教学改革中的研究与探索
[21]数据挖掘技术在医学影像信息系统中的应用
[22]“以赛促学、以赛促教”全面提升我校医学影像技术专业育人质量
[23]本科医学影像技术专业多维度毕业考核模式的设计与实践
[24]医学影像检查技术教学与技能大赛结合的实践
[25]医学影像技术专业CT科室实习带教 方法 探讨
[26]对医学影像技术技能大赛选手辅导的体会
[27]PBL-LBL教学模式在医学影像检查技术学上的应用探索
[28]医学影像技术专业实习生在普通放射科DR摄影的带教心得
[29]基于TBL与CBL教学法的医学影像检查技术教学研究
[30]以“器官系统为中心”的中医院校医学影像学教学探讨
[31]医学影像技术在影像临床诊断中的应用探析
[32]基于FPGA的Micro-CT采集控制系统设计
[33]医用模拟人在医学影像技术专业实训中的应用效果
[34]医学影像技术专业学生毕业实习教学模式分析
[35]基于云课堂的混合式学习在医学影像技术课程 教育 中的应用——以《盆部影像检查技术》为例
[36]20_版中国科技期刊引证报告相关数据——《中国医学影像技术》
[37]《中国医学影像技术》被数据库收录情况
[38]PBL教学法在MRI检查技术实习带教中的效果
[39]微信辅助改良式PBL教学法在医学影像学实习带教中的应用
[40]医学影像技术高素质人才的培养方式研究
[41]医学影像技术在慢性肾脏病早期肾功能评估中的研究与应用进展
[42]基于“医、教、研、赛”四维协同平台的医学影像技术专业人才培养体系建设实践
[43]基于计算机的医学影像后处理技术定位癫痫致痫灶研究进展
[44]图像增强技术在数字x射线医学影像中的应用分析
[45]基于视觉优化的医学影像数据可视化技术研究
[46]医学影像学导航技术在穿支皮瓣的应用进展
[47]安徽省职业教育先进单位 安徽省淮北卫生学校
[48]基于深度学习的医学图像分割研究进展
[49]《中国医学影像技术》被数据库收录情况
[50]20__版中国科技期刊引证报告相关数据——《中国医学影像技术》
中医论文题目
[1]胁痛中医临床实践指南
[2]发生学视角下中医肝藏实质探溯
[3]口疮中医临床实践指南
[4]基于数据挖掘中医古籍中肺热病症状及证型分布规律分析
[5]基于数据挖掘中医古籍治疗肺热病遣方用药分析[
[6]“冲气”观与中医学
[7]基于现代文献的膝骨关节炎中医证型与证素分布规律研究
[8]肝硬化腹水的中医药治疗现状
[9]疏肝健脾法治疗肝郁脾虚型卒中后抑郁的疗效meta分析
[10]基于中医传承辅助系统的脊髓损伤内治处方分析
[11]中医治未病·血管性轻度认知障碍专家共识
[12]氟骨症的中医治疗研究进展
[13]三子养亲汤加减对肺气虚型尘肺病患者中医证候的影响
[14]现代信息技术在中医四诊中的应用研究
[15]热敏灸对腰椎间盘突出症患者预后的影响观察
[16]中医综合护理在功能性消化不良患者中的应用分析
[17]基于“脾肾相关”论治疗骨质疏松症的研究进展
[18]无症状颈动脉狭窄人群认知功能障碍与中医体质分布特点研究
[19]基于数据挖掘对中医治疗慢性肾衰竭组方规律的分析
[20]温脾散穴位敷贴联合理中复元方对脾虚痰瘀型慢性萎缩性胃炎患者的临床疗效
[21]中成药在子宫腺肌病治疗中的应用研究进展
[22]中药复方治疗老年性骨质疏松症疗效Meta分析及用药规律分析
[23]基于中医传承辅助平台探讨沈舒文教授治疗慢性胃炎的用药规律
[24]中药膏方联合穴位埋线治疗支气管哮喘缓解期临床观察
[25]温阳通络方对急性心肌梗死经皮冠状动脉介入治疗术后患者心室重构和血管内皮功能的影响
[26]原发性支气管肺癌中医体质和中医证型调查研究
[27]慢性非萎缩性胃炎中医证型与幽门螺杆菌感染、胃镜像及病理表现相关性分析
[28]透刺配合热补针法治疗风寒湿阻型膝关节滑膜炎疗效及对红细胞沉降率、C反应蛋白、前列腺素E_2和滑膜动脉血流指数的影响
[29]运用中医治未病思想防治克罗恩病
[30]循证医学与中医学的 反思
[31]艾灸治疗肛肠术后尿潴留研究进展
[32]基于中医理论的智能养生餐厅探析
[33]基于文献研究与专家共识法的原发性痛经中医证候研究
[34]基于虚实辨证的补泻平衡手法治疗膝骨关节炎临床研究
[35]从“胃不和则卧不安”理论探讨失眠的辨证论治
[36]郭志华运用桔梗治疗心衰 经验
[37]谢林运用风药治疗椎动脉型颈椎病
[38]基于病历数据的中医临床能力数字化评价体系研究
[39]基于临床调查的冠心病心绞痛气虚证症状组成的文献分析
[40]安胃汤治疗功能性消化不良寒热错杂证的临床观察
医学检验免疫毕业论文题目
1、基于纳米颗粒的分子展示应用于超灵敏检测
2、SLE患者中几种新型自身抗体的检测及其临床诊断价值的探讨
3、多肽酶检测和细胞表面荧光标记的新方法研究
4、区域检验服务协同平台的设计与实现
5、胶体金喷膜仪的设计与开发
6、重庆市乡镇卫生院医疗资源的调查研究
7、基于氧化石墨烯和硫化铅纳米颗粒的荧光生物传感器研究
8、产气荚膜梭菌α毒素快速诊断金标试纸条的研制及初步应用
9、纳米粒子免疫层析法在检测异位妊娠和膀胱癌中的应用
10、现代医院检验科模块化设计研究
11、酶免工作站监控系统的设计与实现
12、乙型肝炎表面抗原胶体金免疫层析法血清快速测定的性能评估
13、基于微型压电与光谱生化分析系统的POCT新技术研究
14、长江三角洲地区犬猫皮肤真菌病调查及体外药敏试验
15、我国医学检验本科专业人才培养的问题与对策研究
16、基于电化学分子信标基因传感技术的HIV-1核酸检测新方法研究
17、Free β-hCG和PAPPA光激化学发光免疫分析试剂的研制
18、乙肝快速分析仪的研究与开发
19、阿托伐他汀对动脉粥样硬化患者外周血中PPAR γ的作用研究及相关炎症因子与动脉粥样硬化关系的建模分析
20、综合性医院医学检验资源优化管理研究
21、全自动多功能免疫检验过程关键问题的优化研究
22、HMGB1通过NF-κB激活TGF-β1诱导特发性肺纤维化发病机制的研究
23、若干病毒感染模型的动力学分析
24、现代综合医院检验中心空间设计研究
25、大型公立医院创建医学独立实验室可行性研究
26、高血压病证型与血清褪黑色素水平的相关性研究
27、医用臭氧与α-干扰素对照治疗慢性乙型病毒性肝炎
28、网织血小板在系统性红斑狼疮患者的临床应用
29、G公司第三方独立医学实验室服务营销策略研究
30、临床毛细管电泳的研究
31、基于光电检测与信息处理技术的纳米金免疫层析试条定量测试的研究
32、贫铀长期作用后的吸收分布特点及其主要蓄积器官的损伤效应研究
33、基于磁性微球的PMMA微流控免疫分析芯片系统的研究
34、hr HPV、L1壳蛋白、p16蛋白与宫颈病变的关系及诊断价值研究
35、76例急性白血病的MICM分型及预后
36、国产化学发光法诊断系统检测乙肝表面抗原的评价
37、蛋白A-藻蓝蛋白β亚基双功能蛋白的性质及其在免疫检测中的应用
38、上海市社区卫生服务中心检验开展现状及检验项目合理化设置研究
39、__ 医学检验集团发展战略研究
40、胃肠肿瘤标志物诊断大肠癌之检验医学实践
41、广州KM公司分析前流程优化方案制定
42、医学高职院校人文教育现状与对策研究
43、脑脊液中ADA、LA、CRP、LDH的检测在小儿颅内感染诊断中的价值
44、MiR210和Stat3全脑缺血大鼠脑组织的表达通过HIF-1α通路对神经元凋亡的影响
45、医学检验器材智能化物流系统的设计与运营
46、上海市嘉定区医疗机构临床实验室检验质量管理现状及对策研究
47、六西格玛管理在临床检验流程中的应用研究
48、基于纳米材料修饰的新型生物传感器检测D-二聚体
49、新城疫快速诊断金标试纸条的研制及初步应用
50、肾上腺脑白质营养不良蛋白的原核表达和肾上腺脑白质营养不良的分子诊断研究
医学专业的毕业论文题目有哪些相关文章:
★ 临床医学专业的毕业论文
★ 临床医学专业毕业论文5000字(2)
★ 临床医学专业毕业论文5000字
★ 大专临床医学毕业论文(2)
★ 医学的毕业论文
★ 临床医学生毕业论文(2)
★ 临床医学内科毕业论文(2)
★ 临床医学毕业论文范文大全
★ 本科临床医学专业毕业论文范文
★ 关于医学生的毕业论文3000字怎么写(2)
随着影像医学的快速发展,影像检查已成为医疗工作中的重要环节,临床医疗对影像检查的依赖性越来越强。下面是我为大家整理的医学影像技术 毕业 论文,供大家参考。
《 医学影像学的现状和未来初探 》
摘要:医学影像学检查不仅在诊断与治疗的环节发挥作用,而且可以在疾病预防、健康体检、重大疾病筛查、健康管理、早期诊断、病情严重程度评估、治疗 方法 选择、疗效评价、康复等环节发挥越来越大的作用,医学影像学科的地位必将不断提高。
关键词:医学影像学;现状;未来;综述
【中图分类号】R473【文献标识码】A【 文章 编号】1672-3783(2012)04-0140-01
随着医学影像学飞速发展,它在临床医学中的地位不断提高,由X线、超声、放射性核素显像、CT、数字减影血管造成影及介入装置、磁共振成像所组成的医学影像学家族已经成为临床主要的诊断和鉴别诊断方法、医院现在化的重要标志、科学研究的主要手段及医院重要的经济收入来源。现将医学影像学的发展与展望综述如下。
1 医学影像学技术发展的历史回顾
1895年11月8日德国物理学家伦琴发现了一种新型射线(a kind of new rays)。并于11月22日为夫人拍摄了一张手部x线照片,也是人类第一张x线影像。随后,x线被广泛的应用于对疾病的诊断和治疗,形成了放射诊断学和放射治疗学。x线还用于疾病的预防、康复和预后随访。在医学之外,还用于x线衍射分析和工业探伤等多种用途。因此,x线的发现对人类作了重大贡献。1971年亨氏菲尔德发明了CT,将传统的X线的直接成像转变为间接成像,从而奠定了现在影像学的基础,随后出现的MRI、正电子发射型体层摄影术等影像学技术,以及近期出现的分子成像和光成像,使医学影像学在显示形态学状态之外,还能完成组织器官功能检查,并最终在分子和细胞水平显示组织、器官的化学成分和代谢变化。
2 医学影像学现状
曾经在我国长期使用用的x线透视检查的应用逐年减少, 大型医院或者发达地区的中小医院已逐步取消透视, 而代之 以x线摄影检查, 且以DR检查占主导地位。传统 X线造影检查被多排螺旋CT和磁共振成像所取代 首先是 X线脊髓造影检查被 MRI所取代;其次是多排螺旋CT和MRI结合光学内镜逐步取代 X线消化道造影、经静脉肾盂造影和胆道造影等检查;然后是 DSA的诊断性血管造影检查逐步被CT血管成像和MR血管成像所取代。 伴随设备的逐步普及,CT已经成为临床(尤其急诊)最重要的影像检查方法。MRI具有无创伤、 无射线辐射危 害,成像参数多、获得的信息量大,软组织对比度最佳等显著优点,是最活跃的影像学研究手段,已经成为很多重要疾病的确证诊断方法。超声以其设备普及、价格低廉、无创伤、无射线辐射危害、可在病床旁边实施和便于复查等优点, 成为目前临床应用最主要的影像学筛选检查技术。以早年的CT为起点,CT、MRI等设备开始提供横断层面影像。同时,得益于计算机技术的进步,今天已经可以在较短时间内把上述的信息“重组”(reformation)为三维的、分别显示兴趣结构的、带有仿真色彩的,甚至以内窥镜的信息模式显示的“直观信息”。举例说,一个重度创伤的病人可能会有骨折、颅脑损伤、内脏损伤、血管损伤及其他并发症。今天,只需用CT从头到脚在数十秒钟内完成采集,病人即可回病房作急症处理,而放射科医师可使用一次采集的信息分别显示出骨骼、颅脑、内脏、血管等结构与病变,并给急症医师提供“直观的”兴趣结构的三维的、彩色仿真的诊断信息。这样的信息已经超越了大体解剖学的可视能力,达到了即使在手术刀或解剖刀下都不可能完全洞察的水平。
3 医学影像学技术的发展趋势
各种医学影像学设备向小 型化、专门化、高分辨力和超快速化方向发展,MRI和CT的全器官灌注成像得到临床普及应用。虽然目前MSCT主要生产厂家的设计理念和主攻方向不一致,导致彼此设备的差异巨大,但是可以预测,在不远的将来,CT机的构造(包括发生器、X线球管的结构和数量、探测器种类和排数等) 将发生实质性变改, 也许球管和探测器的旋转速度更快,使MSCT的时间分辨力突破50 ms大关,使心脏得到真正的“冻结”,而探测器材质的改进能显著提高MSCT的空间分辨力。 各种介入治疗成为常规有效的治疗方法。集诊断与治疗一体化的医学影像学设备也在不断成熟和普及, 使疾病的诊断更加及时、 准确,治疗效果更佳。应用计算机仿真技术设计外科手术方案、 由影像导航 系统直接引导外科手术入路、确定手术切除范围,并在术中直接应用MRI对病灶切除范围进行现场评价会逐渐普及应用。在影像学网络化的基础上,医学图像处理将成为常规,而服务器软件取代工作站,实现多点同时后处理,并使图像后处理的自动化程度进一步提高。 伴随远程影像学的普及和宽频带网络的应用,医学影像学图像的远程传输更为快捷,图像更加清楚,影像学科医生可以在家里或者在出差旅途中完成诊断 报告 。
分子成像是医学影像学的 热点 研究方向之一,伴随分子成像的研究进展,会有多种组织、器官特异性对比剂问世,这些新型对比剂能显示特定基因表达、 特定代谢过程、特殊生理功能,其毒副作用更小、对比增强效果更佳、诊断的特异性更强,真正实现疾病早期诊断。开发疗效监测对比剂(或称分子探针),以在最短时间得到治疗的反馈信息, 在分子水平上进行疾病的靶向治疗。除PET外, 其他医学影像学技术也能直接用于药物的研发和监测疗效,在活体早期、连续观察药物或基因治疗 的机制和效果,以利于药物筛选和新药开发。此外,分子成像方法和图像后处理技术将得到持续改进,并开发出用于分子成像的影像学新技术。 医学影像学技术的进展还将导致影像学科内部人员构成发生变化,物理师、数学家、生物医学工程师、计算机专家和循证医学专家占影像科室人员的比例越来越高,针对某种重大疾病可以组建包含内、外科和影像学医生的新型科室。医学影像学检查不仅在诊断与治疗的环节发挥作用,而且可以在疾病预防、健康体检、重大疾病筛查、健康管理、早期诊断、病情严重程度评估、治疗方法选择、疗效评价、康复等环节发挥越来越大的作用,医学影像学科的地位必将不断提高。参考文献
[1] 贺延莉,王亚蓉,殷茜,等.T-PACS在医学影像学实践教学中的应用和优势[J].中国医学 教育 技术,2011,25(6):657-659
[2] 刘卫宾,韩冬.浅析普通X射线摄影及其应用[J].中国卫生产业,2011,8(11):115-115
[3] 蒋震,沈钧康,宦坚,等.医学影像学研究生读书报告的方法学探讨[J].中华医学教育探索杂志,2011,10(10):1179-1181
[4] 高艳,李坤成,杜祥颖,等.医学影像学教学中比较影像学的重要性[J].中国高等医学教育,2011(11):79-80
[5] 王安明,史跃,赵汉青,等.格式塔理论在医学影像学诊断中的作用[J].医学与哲学.临床决策论坛版,2011,32(10):67-68
[6] 江传海,余梁,胡正宇.PACS在医学影像学教学中的应用[J].安徽医学,2011,32(10):1778-1779
《 数字图象在医学影像中的应用 》
【摘要】医学影象技术从70年代进入数字时代,二十多年来先后有了MR、B超、DR、DSA、ECT、CR等数字化影像设备投入使用。对医学影像诊断起了很大的推进作用。在客观上促使各种成像技术凭借自身的优势竞相发展。取长补短,综合利用,使疾病的早期诊断率有明显提高。
【关键词】数字图象;医学影像;应用
Digital image in medicine image application
Rao Tianquan
【Abstract】medicine phantom technology enters the Digital Age from the 70's,20 for many years successively have had MR,B ultra,digitized image equipment and so on DR,DSA,ECT,R put into the use. Diagnosed the very big advancement function to the medicine image. In on is objective urges each kind of imagery technology to rely on own superiority unexpectedly to develop. Makes up for one's deficiency by learning from others' strong points,the comprehensive utilization,enable the disease the early diagnosis rate to have the distinct enhancement.
【key word】digital image; Medicine image; Using
图象是周围客观世界的一种印象,数字图象是60年代出现的一种全新的,科技含量极高的产物。它的出现使传统的模拟图象受到了极大的挑战。数字图象和模拟图象相比,二者的区别在于:一:模拟图象是以一种直观的物理量的方法来连续地表现我们期望得知的另一种物理场的特征。而且数字图象则完全以一种规则的数字量的集合来表达我们面对的物理图象。二:用模拟图象的方法来显示图象具有直观,方便的特点,一旦设计出一种图象的处理方法则具有全场性与实时处理等优点。但是模拟图象亦有抗干扰性差,重复精度差,处理功能有限,处理灵活性差的缺点。而数字图象具有很好的抗干扰性,图象处理方便,适应性能强等优点,特别是随着计算机技术的发展,数字图象处理的速度也变得越来越快,越来越显示它的发展潜力和优势。三:数字图象和模拟图象相比,它的图象更清晰、无失真,更便于储存和传输。
从70年代末期开始,医学影像技术进入了数字时代。二十多年来先后有了MR、B超、DR、DSA、ECT、CR等数字化影像设备投入使用。对医学影像诊断起了很大的推进作用。这一些进展无一不是从根本上破除了原有信息载体形式和成像原理的束缚,开创新径而取得的。同时这也在客观上促使各种成像技术凭借自身的优势竞相发展。它们之间不仅没有相互代替,而是取长补短,综合利用,使疾病的早期诊断率有明显提高。
1 数字X线图象的形成
X线透射成像是基于人体内不同结构的脏器对X线吸收的差异。一束能量均匀的X线照射到人体不同部位时,由于各部位对X线吸收的不同,透过人体各部位的X线的强度亦不同,这些穿透过人体的剩余X线就携带着人体被照射部分的组织密度和厚度的信息。这些信息投影到一个检测平面上,即形成一幅人体的X线透射图象。如果这个检测平面是荧光屏,那么我们就得到一幅模拟的图象了。再将这幅图象用不同的方法采集下来(如摄影,录像,拍照等方法)。检测器也可以是 其它 ,如电离室、光电管、晶体压电等等。然后将收集到的信号进行模数转换就形成了一组由不同数字代表X线强弱排列的数字信号了。最后将该组信号交计算机处理经数模转换即成为清晰、无干扰、无变形、无失真的数字X线图象。
2 数字图象技术在X线检查中的运用
X线电视系统:主要由影像增强器和X线闭路电视系统组成,影像增强器把X线像转换成可见光像,而且图象的亮度得到很大的增强,然后通过电视系统进行观察和分析图象,它是实现X线图象数字化的基础。
数字摄影:(DR)对影像增强器所得到的电视信号,用摄像机拾取的高信噪比的电视信号进行数字化,然后再进行各种计算机处理,得到不同效果的图象,这种技术多用于胃肠透视和血管造影成像。该种检查拍摄后立即可以得到图象。不必等待冲洗,还可以动态的观察。
计算机摄影:(CR)它是用影像板(IP)代替胶片暴光,然后将存储在IP板上的X线潜影用激光扫描拾取并转换成电信号,再经计算机处理得到一幅X线数字图象,最终用激光像机把X线图象记录在胶片上。这种方法灵敏度高、敏感范围大、图象清晰。
数字减影:(DSA)用于血管造影,原理是将检查部位于造影前后用摄像机各采集图象,然后将图象数字化后存储在计算机里,用计算机进行处理,将两次采集的图象进行对应像素逐个相减,减影后的图象只留下充盈的血管图象,这样去掉了组织的重叠干扰,可以清楚地观察血管情况。
计算机横断体层装置:(CT)X线对人体横断面的各个方向进行照射,检测器采集到体层各个面对X线的吸收曲线后,用计算机处理所得数据最后以数字矩阵的形式表示横断面上个点的密度值,这样断面上的各点的密度都用确定的数值表示出来,这种对组织密度的量化,可以从数值上来区分健康组织和病变组织,大大提高了诊断的科学性。
此外;数字图象还应用于MIR、ECT、B超等医学影象学科,在我们的日常生活中都离不开数字图象。
参考文献
[1] 王容泉. 《医用大型X线机系统》
[2] 梁振声. 《医用X先机结构与维修》
[3] 邹 仲.《X线检查技术学》
[4] 吴恩惠.《头部CT诊断学》
有关医学影像技术毕业论文推荐:
1. 医学影像毕业论文范文
2. 有关医学影像类毕业论文
3. 医学影像本科毕业论文
4. 医学影像学研究论文
5. 关于医学影像的论文
医学影像技术是高新技术与医学的结合,自20世纪70年代起,以CT问世为标志,伴随计算机技术的进步,现代医学影像学取得了突飞猛进的发展,由传统单一普通X线加血管造影检查形成包括超声、放射性核素显像、X线CT、数字减影血管造影(DSA)、MRI、普通X线检查的数字化成像(CR和DR)以及图像存储和传输系统(PACS)多种技术组成的医学影像学体系。医学影像学已经由传统的形态学检查发展成为组织、器官代谢和功能诊断手段,医学影像学技术已经由既往"辅助检查手段"转变为现代医学最重要的临床诊断和鉴别诊断方法,使多种疾病的诊断更准确、及时。由于介入医学的兴起,医学影像学已经集诊断和治疗为一体,成为与外科手术、内科化学药物治疗并列的现代医学第3大治疗手段。目前,医学影像学科是现代化医院的支柱之一,影像学设备的价值占医院固定资产50%以上,医学影像学为临床医学的主要研究手段和推动现代医学不断发展的动力。
医学影像学是高新技术与医学的结合点,21世纪医学影像学发展首先依赖于以计算机为主导的高新技术的进步。由于计算机的性能以几何级数升级,必将带动多种医学影像学设备向小型化、专门化、高分辨率和超快速化方向发展,医学影像学检查亦将由大体水平逐渐深入至细胞、受体、分子和基因水平。近年来,美、欧、日等发达国家和地区在医疗影像诊断产业加强战略布局,旨在带动多种医学影像设备向小型化、专门化、高分辨率和快速化方向发展。目前,数字医疗影像技术的发展主要有如下几大趋势:
现代医学影像设备的发展将由最开始的形态学分析发展到携带有人体生理机能的综合分析。通过发展新的工具、试剂及方法,探查疾病发展过程中细胞和分子水平的异常。这将会为探索疾病的发生、发展和转归,评价药物的疗效以及分子水平治疗开启崭新的天地。同时,由于造影剂是影像诊断检查和介入治疗时所必需的药品,未来针对特定基因表达、特定代谢过程、特殊生理功能的多种新型造影剂也将逐步问世。
③在弹出的对话框里,可以单击“Preset”下的选项,选择设置噪音的消除模式。也可以通过拖动滑块来设置消除噪音大小,左面的滑快代表噪音的最低限度,滑块越往上去除噪音的效果越好,但对原来的声音文件损失也就越大。
语音识别技术研究让人更加方便地享受到更多的社会信息资源和现代化服务,对任何事都能够通过语音交互的方式。 我整理了浅谈语音识别技术论文,欢迎阅读!
语音识别技术概述
作者:刘钰 马艳丽 董蓓蓓
摘要:本文简要介绍了语音识别技术理论基础及分类方式,所采用的关键技术以及所面临的困难与挑战,最后讨论了语音识别技术的 发展 前景和应用。
关键词:语音识别;特征提取;模式匹配;模型训练
Abstract:This text briefly introduces the theoretical basis of the speech-identification technology,its mode of classification,the adopted key technique and the difficulties and challenges it have to developing prospect ion and application of the speech-identification technology are discussed in the last part.
Keywords:Speech identification;Character Pick-up;Mode matching;Model training
一、语音识别技术的理论基础
语音识别技术:是让机器通过识别和理解过程把语音信号转变为相应的文本或命令的高级技术。语音识别以语音为研究对象,它是语音信号处理的一个重要研究方向,是模式识别的一个分支,涉及到生 理学 、心理学、语言学、 计算 机 科学 以及信号处理等诸多领域,甚至还涉及到人的体态语言(如人在说话时的表情、手势等行为动作可帮助对方理解),其最终目标是实现人与机器进行 自然 语言通信。
不同的语音识别系统,虽然具体实现细节有所不同,但所采用的基本技术相似,一个典型语音识别系统主要包括特征提取技术、模式匹配准则及模型训练技术三个方面。此外,还涉及到语音识别单元的选取。
(一) 语音识别单元的选取
选择识别单元是语音识别研究的第一步。语音识别单元有单词(句)、音节和音素三种,具体选择哪一种,由具体的研究任务决定。
单词(句)单元广泛应用于中小词汇语音识别系统,但不适合大词汇系统,原因在于模型库太庞大,训练模型任务繁重,模型匹配算法复杂,难以满足实时性要求。
音节单元多见于汉语语音识别,主要因为汉语是单音节结构的语言,而 英语 是多音节,并且汉语虽然有大约1300个音节,但若不考虑声调,约有408个无调音节,数量相对较少。因此,对于中、大词汇量汉语语音识别系统来说,以音节为识别单元基本是可行的。
音素单元以前多见于英语语音识别的研究中,但目前中、大词汇量汉语语音识别系统也在越来越多地采用。原因在于汉语音节仅由声母(包括零声母有22个)和韵母(共有28个)构成,且声韵母声学特性相差很大。实际应用中常把声母依后续韵母的不同而构成细化声母,这样虽然增加了模型数目,但提高了易混淆音节的区分能力。由于协同发音的影响,音素单元不稳定,所以如何获得稳定的音素单元,还有待研究。
(二) 特征参数提取技术
语音信号中含有丰富的信息,但如何从中提取出对语音识别有用的信息呢?特征提取就是完成这项工作,它对语音信号进行分析处理,去除对语音识别无关紧要的冗余信息,获得影响语音识别的重要信息。对于非特定人语音识别来讲,希望特征参数尽可能多的反映语义信息,尽量减少说话人的个人信息(对特定人语音识别来讲,则相反)。从信息论角度讲,这是信息压缩的过程。
线性预测(LP)分析技术是目前应用广泛的特征参数提取技术,许多成功的应用系统都采用基于LP技术提取的倒谱参数。但线性预测模型是纯数学模型,没有考虑人类听觉系统对语音的处理特点。
Mel参数和基于感知线性预测(PLP)分析提取的感知线性预测倒谱,在一定程度上模拟了人耳对语音的处理特点,应用了人耳听觉感知方面的一些研究成果。实验证明,采用这种技术,语音识别系统的性能有一定提高。
也有研究者尝试把小波分析技术应用于特征提取,但目前性能难以与上述技术相比,有待进一步研究。
(三)模式匹配及模型训练技术
模型训练是指按照一定的准则,从大量已知模式中获取表征该模式本质特征的模型参数,而模式匹配则是根据一定准则,使未知模式与模型库中的某一个模型获得最佳匹配。
语音识别所应用的模式匹配和模型训练技术主要有动态时间归正技术(DTW)、隐马尔可夫模型(HMM)和人工神经元 网络 (ANN)。
DTW是较早的一种模式匹配和模型训练技术,它应用动态规划方法成功解决了语音信号特征参数序列比较时时长不等的难题,在孤立词语音识别中获得了良好性能。但因其不适合连续语音大词汇量语音识别系统,目前已被HMM模型和ANN替代。
HMM模型是语音信号时变特征的有参表示法。它由相互关联的两个随机过程共同描述信号的统计特性,其中一个是隐蔽的(不可观测的)具有有限状态的Markor链,另一个是与Markor链的每一状态相关联的观察矢量的随机过程(可观测的)。隐蔽Markor链的特征要靠可观测到的信号特征揭示。这样,语音等时变信号某一段的特征就由对应状态观察符号的随机过程描述,而信号随时间的变化由隐蔽Markor链的转移概率描述。模型参数包括HMM拓扑结构、状态转移概率及描述观察符号统计特性的一组随机函数。按照随机函数的特点,HMM模型可分为离散隐马尔可夫模型(采用离散概率密度函数,简称DHMM)和连续隐马尔可夫模型(采用连续概率密度函数,简称CHMM)以及半连续隐马尔可夫模型(SCHMM,集DHMM和CHMM特点)。一般来讲,在训练数据足够的,CHMM优于DHMM和SCHMM。HMM模型的训练和识别都已研究出有效的算法,并不断被完善,以增强HMM模型的鲁棒性。
人工神经元 网络 在语音识别中的 应用是现在研究的又一 热点。ANN本质上是一个自适应非线性动力学系统,模拟了人类神经元活动的原理,具有自学、联想、对比、推理和概括能力。这些能力是HMM模型不具备的,但ANN又不个有HMM模型的动态时间归正性能。因此,现在已有人研究如何把二者的优点有机结合起来,从而提高整个模型的鲁棒性。
二、语音识别的困难与对策
目前,语音识别方面的困难主要表现在:
(一)语音识别系统的适应性差,主要体现在对环境依赖性强,即在某种环境下采集到的语音训练系统只能在这种环境下应用,否则系统性能将急剧下降;另外一个问题是对用户的错误输入不能正确响应,使用不方便。
(二)高噪声环境下语音识别进展困难,因为此时人的发音变化很大,像声音变高,语速变慢,音调及共振峰变化等等,这就是所谓Lombard效应,必须寻找新的信号分析处理方法。
(三)语言学、生 理学 、心理学方面的研究成果已有不少,但如何把这些知识量化、建模并用于语音识别,还需研究。而语言模型、语法及词法模型在中、大词汇量连续语音识别中是非常重要的。
(四)我们对人类的听觉理解、知识积累和学习机制以及大脑神经系统的控制机理等分面的认识还很不清楚;其次,把这方面的现有成果用于语音识别,还有一个艰难的过程。
(五)语音识别系统从实验室演示系统到商品的转化过程中还有许多具体问题需要解决,识别速度、拒识问题以及关键词(句)检测技术等等技术细节要解决。
三、语音识别技术的前景和应用
语音识别技术 发展 到今天,特别是中小词汇量非特定人语音识别系统识别精度已经大于98%,对特定人语音识别系统的识别精度就更高。这些技术已经能够满足通常应用的要求。由于大规模集成电路技术的发展,这些复杂的语音识别系统也已经完全可以制成专用芯片,大量生产。在西方 经济 发达国家,大量的语音识别产品已经进入市场和服务领域。一些用户交机、电话机、手机已经包含了语音识别拨号功能,还有语音记事本、语音智能玩具等产品也包括语音识别与语音合成功能。人们可以通过电话网络用语音识别口语对话系统查询有关的机票、 旅游 、银行信息,并且取得很好的结果。
语音识别是一门交叉学科,语音识别正逐步成为信息技术中人机接口的关键技术,语音识别技术与语音合成技术结合使人们能够甩掉键盘,通过语音命令进行操作。语音技术的应用已经成为一个具有竞争性的新兴高技术产业。
参考 文献 :
[1]科大讯飞语音识别技术专栏. 语音识别产业的新发展. 企业 专栏.通讯世界,:(总l12期)
[2]任天平,门茂深.语音识别技术应用的进展.科技广场.河南科技,
[3]俞铁城.科大讯飞语音识别技术专栏.语音识别的发展现状.企业专栏.通讯世界, (总122期)
[4]陈尚勤等.近代语音识别.西安: 电子 科技大学出版社,1991
[5]王炳锡等.实用语音识别基础.Practical Fundamentals of Speech Recognition.北京:国防 工业 出版社,2005
[6](美)L.罗宾纳.语音识别基本原理.北京:清华大学出版社,1999
点击下页还有更多>>>浅谈语音识别技术论文
小到耳塞大到隔音墙,都是不错的选择
单通道语音增强是语音信号处理中广泛研究的课题,主要作为前端去噪模块应用在提升音质、语音通信、辅助听觉、语音识别等领域。 单通道语音增强问题定义主要包括两个方面:
不包括:
单通道语音增强传统的方法是滤波和统计信号处理,比如WebRTC的噪声抑制模块就是用维纳滤波。 这些传统的方法基本都在 《语音增强--理论与实践》一书中有详细讲解。
近几年机器学习方法兴起,也逐渐成为语音增强的主要研究方向,各种新型神经网络的方法都被尝试用在语音增强领域。这些新方法主要看近几年的InterSpeech会议、ICASSP会议和IEEE的期刊。
下面先对单通道语音增强号的基本处理步骤做个简单介绍。
假设麦克风采集到的带噪语音序列为 ,并且噪声都是加性噪声。则带噪语音序列为无噪语音序列与噪声序列的和。 原始语音信号与噪声均可视为随机信号。
语音信号的处理一般都在频域,需要对带噪信号 进行分帧、加窗、短时傅里叶变换(STFT)后,得到每一帧的频域信号,其中X,Y,D分别是干净语音、带噪信号和噪声的频域信号。
语音增强的目标是对实际信号 的幅度和相位进行估计。但是因为相位不易估计、而且研究表明相位对去噪效果影响比较小\cite{wang1982unimportance},所以大部分方法都只对幅度谱进行增强,而相位则沿用带噪信号的相位。
换句话说,语音增强就是要找出一个频域的实函数 , 并且将这个函数与带噪信号相乘,得到干净语音的估计。这个实函数称作抑制增益(Suppression Gain)。
下面是单通道语音增强系统主要步骤的示意图,系统目标就是估计抑制增益,而抑制增益依赖于两个核心步骤:语音检测VAD和噪声估计模块。只有准确估计噪声谱 ,才有可能准确估计抑制增益。 详细的VAD和噪声估计方法不在这篇文章里面详述,具体可以看参考文献。 一种简单的想法是先估计出VAD,如过判断此帧没有语音,则更新噪声谱,否则就沿用上一帧的噪声谱。
综上,语音增强的典型流程就是: 1 对带噪语音y[n]分帧, 每一帧进行DFT得到 。 2 利用 进行VAD检测和噪声估计。 3 计算抑制增益 。 4 抑制增益 与带噪信号谱相乘,得到纯净语音谱 5 对 进行IDFT,得到纯净语音序列的估计 。
噪声估计模块可以估计噪声功率,也可以估计信噪比,避免信号幅度变化带来的误差。 定义后验信噪比为,带噪语音与噪声功率之比:
定义先验信噪比,为纯净语音与噪声功率之比:
谱减法是最直观的去噪声思想,就是带噪信号减去噪声的频谱,就等于干净信号的频谱。估计信号频谱的表达式如下,其中 应是噪声估计模块得到的噪声频谱。
假设语音信号与噪声不相关,于是得到估计的信号功率谱是测量信号功率谱减去估计的噪声功率谱。
因此抑制增益函数即为:
维纳滤波的思想也很直接,就是将带噪信号经过线性滤波器变换来逼近原信号,并求均方误差最小时的线性滤波器参数。维纳滤波语音增强的目标就是寻找系数为实数的线性滤波器,使得滤波偶信号与原干净语音信号之间的均方误差最小。这是一个优化问题,目标是求使得均方误差最小的参数
Gain用先验信噪比表示
见博文 《单通道语音增强之统计信号模型》 。
待补充。
话音激活检测(Voice Activity Detection, VAD) 将语音帧二分为“纯噪声”和“语音噪声混合”两类。 说话人静音、停顿都会出现多帧的纯噪声,对这些帧无需估计语音信号,而可以用来估计噪声功率。 语音帧经过VAD分类后,进行不同的处理:
:不含语音帧,更新噪声功率估计和Gain, 进行抑制;
:包含语音帧,沿用上一帧的噪声功率和Gain,进行抑制。
语音存在概率SPP(Speech Presence Probability,SPP) 跟VAD作二分类不同,利用统计模型对每一帧估计出一个取值在[0,1]的语音存在概率,也就是一种soft-VAD。 SPP通常跟统计信号模型结合起来估计最终的Gain。
一种估计SPP的方法是根据测量信号 估计每个频点的语音存在的后验概率,也就是 。
根据贝叶斯公式:
定义语音不存在的先验概率 为 , 语音存在的先验概率 为 。假设噪声与语音信号为零均值复高斯分布。最终可以得到SPP计算公式:
其中为 为条件信噪比,有 及 。
语音不存在的先验概率 可以采用经验值,如,或者进行累加平均, 也可以参考《语音增强—理论与实践》中更复杂的算法。
最小值跟踪发的思想是,噪声能量比较平稳, 带语音的片段能量总是大于纯噪声段。 对于每个频点,跟踪一段时间内最低的功率,那就是纯噪声的功率。
为了使功率估计更稳定,通常要对功率谱进行平滑处理:
然后寻找当前第 帧的最低功率 。简单的方法是直接比较前 帧的功率,得到最小值,计算速度较慢。 还有一种方法是对 进行非线性平滑,公式如下。
参数需要调优,可以参考文献中提供的取值: 、 、 。
这种估计方法的思路是,噪声的能量变化比语音稳定,因此按频点统计一段时间内的能量直方图,每个频点出现频次最高的能量值就是噪声的能量。 主要包括以下几个步骤:
1.计算当前帧的功率谱
2.计算当前帧前连续D帧功率谱密度直方图,选择每个频点k的频次最高的功率值
3.滑动平均,更新噪声功率谱密度
当前帧的SNR很低,或者语音出现概率很低时,意味着当前信号功率很接近噪声功率,我们可以用当前帧的功率谱与前一帧估计的噪声功率进行加权平均,从而更新噪声功率谱。这就是递归平均法,通用的公式是:
算法的核心变成了计算参数 ,研究者提出了不同的方法,比如可以根据后验信噪比 计算参数:
用 和 分别代表当前帧包含语音和不包含语音,从概率论的角度,当前帧的噪声功率期望值为:
其中,当前帧不存在语音时,噪声功率就是信号功率,所以 。当前帧存在语音时,可以用前一帧估计的噪声功率来近似, 。噪声的递归平均算法转化为求当前帧每个频点的语音存在/不存在概率问题:
比照递归平均的通用公式,也就是 。 使用前一节介绍的语音存在概率SPP计算方法求 即可。
MCRA是一种将最小值跟踪与基于语音概率的递归平均结合起来的算法,核心思想是用当前帧功率谱平滑后与局部最小功率谱密度之比来估计语音概率。
以某阈值 对语音概率 进行二元估计
语音概率也可以进行平滑:
另外,如果将语音不存在是的噪声估计也做滑动平均,也就是
可以得到最终的噪声概率估计公式:
后验信噪比的估计比较直接,就是带噪信号功率与估计噪声功率之比: 。然后 。
先验信噪比是纯净信号功率与噪声功率之比,无法直接得知,需要更进一步估计。一种方法是简单谱减法,从功率角度 。 因此
更精确的方法是判决引导法(Decision-directed approach), 滑动平均
参考文献
[1] P. C. Loizou, Speech enhancement: theory and practice. CRC press, 2007.
随着图像处理技术的迅速发展,图像识别技术的应用领域越来越广泛。我整理了图像识别技术论文,欢迎阅读!
图像识别技术研究综述
摘要:随着图像处理技术的迅速发展,图像识别技术的应用领域越来越广泛。图像识别是利用计算机对图像进行处理、分析和理解,由于图像在成像时受到外部环境的影响,使得图像具有特殊性,复杂性。基于图像处理技术进一步探讨图像识别技术及其应用前景。
关键词:图像处理;图像识别;成像
中图分类号:TP391 文献标识码:A 文章编号:1009-3044(2013)10-2446-02
图像是客观景物在人脑中形成的影像,是人类最重要的信息源,它是通过各种观测系统从客观世界中获得,具有直观性和易理解性。随着计算机技术、多媒体技术、人工智能技术的迅速发展,图像处理技术的应用也越来越广泛,并在科学研究、教育管理、医疗卫生、军事等领域已取得的一定的成绩。图像处理正显著地改变着人们的生活方式和生产手段,比如人们可以借助于图像处理技术欣赏月球的景色、交通管理中的车牌照识别系统、机器人领域中的计算机视觉等,在这些应用中,都离不开图像处理和识别技术。图像处理是指用计算机对图像进行处理,着重强调图像与图像之间进行的交换,主要目标是对图像进行加工以改善图像的视觉效果并为后期的图像识别大基础[1]。图像识别是利用计算机对图像进行处理、分析和理解,以识别各种不同模式的目标和对像的技术。但是由于获取的图像本事具有复杂性和特殊性,使得图像处理和识别技术成为研究热点。
1 图像处理技术
图像处理(image processing)利用计算机对图像进行分析,以达到所需的结果。图像处理可分为模拟图像处理和数字图像图像处理,而图像处理一般指数字图像处理。这种处理大多数是依赖于软件实现的。其目的是去除干扰、噪声,将原始图像编程适于计算机进行特征提取的形式,主要包括图像采样、图像增强、图像复原、图像编码与压缩和图像分割。
1)图像采集,图像采集是数字图像数据提取的主要方式。数字图像主要借助于数字摄像机、扫描仪、数码相机等设备经过采样数字化得到的图像,也包括一些动态图像,并可以将其转为数字图像,和文字、图形、声音一起存储在计算机内,显示在计算机的屏幕上。图像的提取是将一个图像变换为适合计算机处理的形式的第一步。
2)图像增强,图像在成像、采集、传输、复制等过程中图像的质量或多或少会造成一定的退化,数字化后的图像视觉效果不是十分满意。为了突出图像中感兴趣的部分,使图像的主体结构更加明确,必须对图像进行改善,即图像增强。通过图像增强,以减少图像中的图像的噪声,改变原来图像的亮度、色彩分布、对比度等参数。图像增强提高了图像的清晰度、图像的质量,使图像中的物体的轮廓更加清晰,细节更加明显。图像增强不考虑图像降质的原因,增强后的图像更加赏欣悦目,为后期的图像分析和图像理解奠定基础。
3)图像复原,图像复原也称图像恢复,由于在获取图像时环境噪声的影响、运动造成的图像模糊、光线的强弱等原因使得图像模糊,为了提取比较清晰的图像需要对图像进行恢复,图像恢复主要采用滤波方法,从降质的图像恢复原始图。图像复原的另一种特殊技术是图像重建,该技术是从物体横剖面的一组投影数据建立图像。
4)图像编码与压缩,数字图像的显著特点是数据量庞大,需要占用相当大的存储空间。但基于计算机的网络带宽和的大容量存储器无法进行数据图像的处理、存储、传输。为了能快速方便地在网络环境下传输图像或视频,那么必须对图像进行编码和压缩。目前,图像压缩编码已形成国际标准,如比较著名的静态图像压缩标准JPEG,该标准主要针对图像的分辨率、彩色图像和灰度图像,适用于网络传输的数码相片、彩色照片等方面。由于视频可以被看作是一幅幅不同的但有紧密相关的静态图像的时间序列,因此动态视频的单帧图像压缩可以应用静态图像的压缩标准。图像编码压缩技术可以减少图像的冗余数据量和存储器容量、提高图像传输速度、缩短处理时间。
5)图像分割技术,图像分割是把图像分成一些互不重叠而又具有各自特征的子区域,每一区域是像素的一个连续集,这里的特性可以是图像的颜色、形状、灰度和纹理等。图像分割根据目标与背景的先验知识将图像表示为物理上有意义的连通区域的集合。即对图像中的目标、背景进行标记、定位,然后把目标从背景中分离出来。目前,图像分割的方法主要有基于区域特征的分割方法、基于相关匹配的分割方法和基于边界特征的分割方法[2]。由于采集图像时会受到各种条件的影响会是图像变的模糊、噪声干扰,使得图像分割是会遇到困难。在实际的图像中需根据景物条件的不同选择适合的图像分割方法。图像分割为进一步的图像识别、分析和理解奠定了基础。
2 图像识别技术
图像识别是通过存储的信息(记忆中存储的信息)与当前的信息(当时进入感官的信息)进行比较实现对图像的识别[3]。前提是图像描述,描述是用数字或者符号表示图像或景物中各个目标的相关特征,甚至目标之间的关系,最终得到的是目标特征以及它们之间的关系的抽象表达。图像识别技术对图像中个性特征进行提取时,可以采用模板匹配模型。在某些具体的应用中,图像识别除了要给出被识别对象是什么物体外,还需要给出物体所处的位置和姿态以引导计算初工作。目前,图像识别技术已广泛应用于多个领域,如生物医学、卫星遥感、机器人视觉、货物检测、目标跟踪、自主车导航、公安、银行、交通、军事、电子商务和多媒体网络通信等。主要识别技术有:
指纹识别
指纹识别是生物识别技术中一种最实用、最可靠和价格便宜的识别手段,主要应用于身份验证。指纹识别是生物特征的一个部分,它具有不变性:一个人的指纹是终身不变的;唯一性:几乎没有两个完全相同的指纹[3]。一个指纹识别系统主要由指纹取像、预处理与特征提取、比对、数据库管理组成。目前,指纹识别技术与我们的现实生活紧密相关,如信用卡、医疗卡、考勤卡、储蓄卡、驾驶证、准考证等。
人脸识别 目前大多数人脸识别系统使用可见光或红外图像进行人脸识别,可见光图像识别性能很容易受到光照变化的影响。在户外光照条件不均匀的情况下,其正确识别率会大大降低。而红外图像进行人脸识别时可以克服昏暗光照条件变化影响,但由于红外线不能穿透玻璃,如果待识别的对象戴有眼镜,那么在图像识别时,眼部信息全部丢失,将严重影响人脸识别的性能[4]。
文字识别
文字识别是将模式识别、文字处理、人工智能集与一体的新技术,可以自动地把文字和其他信息分离出来,通过智能识别后输入计算机,用于代替人工的输入。文字识别技术可以将纸质的文档转换为电子文档,如银行票据、文稿、各类公式和符号等自动录入,可以提供文字的处理效率,有助于查询、修改、保存和传播。文字识别方法主要有结构统计模式识别、结构模式识别和人工神经网络[5]。由于文字的数量庞大、结构复杂、字体字形变化多样,使得文字识别技术的研究遇到一定的阻碍。
3 结束语
人类在识别现实世界中的各种事物或复杂的环境是一件轻而易举的事,但对于计算机来讲进行复杂的图像识别是非常困难的[6]。在环境较为简单的情况下,图像识别技术取得了一定的成功,但在复杂的环境下,仍面临着许多问题:如在图像识别过程中的图像分割算法之间的性能优越性比较没有特定的标准,以及算法本身存在一定的局限性,这使得图像识别的最终结果不十分精确等。
参考文献:
[1] 胡爱明,周孝宽.车牌图像的快速匹配识别方法[J].计算机工程与应用,2003,39(7):90—91.
[2] 胡学龙.数字图像处理[M].北京:电子工业出版社,2011.
[3] 范立南,韩晓微,张广渊.图像处理与模式识别[M].北京:科学出版社,2007.
[4] 晓慧,刘志镜.基于脸部和步态特征融合的身份识别[J].计算机应用,2009,1(29):8.
[5] 陈良育,曾振柄,张问银.基于图形理解的汉子构型自动分析系统[J].计算机应用,2005,25(7):1629-1631.
[6] Sanderson C,Paliwal K Fusion and Person Verification Using Speech & Face Information[C].IDIAP-RR 02-33,Martigny,Swizerland,2002.
点击下页还有更多>>>图像识别技术论文
人类传递信息的主要媒介是语言和图像。据统计在人类接受的各种信息中视觉信息占80%,所以图像信息是十分重要的信息传递媒体和方式。图像传递系统包括图像采集、图像压缩、图像编码、图像存储、图像通信、图像显示这六个部分。在实际应用中每个部分都有可能导致图像品质变差,使图像传递的信息无法被正常读取和识别。例如,在采集图像过程中由于光照环境或物体表面反光等原因造成图像整体光照不均,或是图像采集系统在采集过程中由于机械设备的缘故无法避免的加入采集噪声,或是图像显示设备的局限性造成图像显示层次感降低或颜色减少等等。因此研究快速且有效地图像增强算法成为推动图像分析和图像理解领域发展的关键内容之一。图像增强处理是数字图像处理的一个重要分支。很多由于场景条件的影响图像拍摄的视觉效果不佳,这就需要图像增强技术来改善人的视觉效果,比如突出图像中目标物体的某些特点、从数字图像中提取目标物的特征参数等等,这些都有利于对图像中目标的识别、跟踪和理解。图像增强处理主要内容是突出图像中感兴趣的部分,减弱或去除不需要的信息。这样使有用信息得到加强,从而得到一种更加实用的图像或者转换成一种更适合人或机器进行分析处理的图像。图像增强的应用领域也十分广阔并涉及各种类型的图像。例如,在军事应用中,增强红外图像提取我方感兴趣的敌军目标;在医学应用中,增强X射线所拍摄的患者脑部、胸部图像确定病症的准确位置;在空间应用中,对用太空照相机传来的月球图片进行增强处理改善图像的质量;在农业应用中,增强遥感图像了解农作物的分布;在交通应用中,对大雾天气图像进行增强,加强车牌、路标等重要信息进行识别;在数码相机中,增强彩色图像可以减少光线不均、颜色失真等造成的图像退化现象。图像工程是一门综合学科,它的研究内容非常广泛,覆盖面也很大。从1996年起,《中国图像图形学报》上连续刊登了对图像工程文献统计分类的综述文章。根据各文献的主要内容将其分别归入图像处理、图像分析、图像理解、技术应用和综述5个大类,并在此基础上对国内15种有关图像工程的重要中文期刊进行了各期刊各类文献的统计和分析。选取的刊物名有:《CT理论与应用研究》、《测绘学报》、《电子测量与仪器学报》、《电子学报》、《电子与信息学报》、《计算机学报》、《模式识别与人工智能》、《数据采集与处理》、《通信学报》、《信号处理》、《遥感学报》、《中国生物医学工程学报》、《中国体视学与图像分析》、《中国图象图形学报》、《自动化学报》。从中我们挑选了2005年至2009年的统计数据:在2005年的112期上发表的2 734篇学术研究和技术应用文献中,属于图像工程领域的文献有656篇。在2006年的112期上发表的3013篇学术研究和技术应用文献中,属于图像工程领域的文献有711篇。在2007年的118期上发表的3312篇学术强究和技术应用文献中,属于图像工程领域的文献有895篇。在2008年的120期上发表的3359篇学术研究和技术应用文献中,属于图像工程领域的文献有915篇,2009年的134期上发表的3604篇学术研究和技术应用文献中,有1008篇属于图像工程领域的文献。这些统计数据显示,无论是论文总数还是选取总数都是逐年增长的。论文总数的增长表明刊物的不断发展,选取总数的增加表明图像工程的研究和应用的不断壮大。据统计从1995年至2009年,发表图像处理的文章总计2720篇,占图像工程总体的;发表图像分析的文章总计2434篇,占图像工程总体的;发表图像理解的文章总计1192篇,占图像工程总体的;发表技术应用文章1797篇,占图像工程总体的;发表综述评论文章74篇,占图像工程总体的,其中关于图像增强技术方面的文章增长率尤其较高。因此图像增强技术在今后一段时间内仍将是一个热点。影响图像质量清晰程度有很多因素,室外光照度不均匀会造成图像灰度过于集中;摄像头获得的图像经过数/模转换,线路传输时都会产生噪声污染,图像质量不可避免降低,轻者变现为图像伴有噪点,难于看清图像细节;重者图像模糊不清,连大概物体面貌轮廓都难以看清。因此,对图像进行分析处理之前,必须对图像进行改善,即增强图像。图像增强并不考虑图像质量下降的原因,只是将图像中感兴趣的重要特征有选择性的突出出来,同时衰减不需要的特征,目的就是提高图像的可懂度。图像增强的方法分为空域法和频域法两种,空域法是对图像中的像素点进行操作,用公式描述如下:g(x,y)=f(x,y)*h(x,y)其中是f(x,y)原图像;h(x,y)为空间转换函数;g(x,y)表示进行处理后的图像。频域法是间接的处理方法,是先在图像的频域中对图像的变换值进行操作,然后变回空域。例如,先对图像进行傅里叶变化到频域,再对图像的频谱进行某种滤波修正,最后将修正后的图像进行傅里叶反变化到空域,以此增强图像。可用图1来描述该过程。