首页

> 论文发表知识库

首页 论文发表知识库 问题

语音识别论文参考文献

发布时间:

语音识别论文参考文献

1。 Frosini A, Gori M, Priami P (1996) A neural network-based model弗罗西尼甲,普里亚米P(下1996)哥里的神经网络的M -基于模型for paper currency recognition and verification.为纸币识别和验证。 IEEE Trans Neural电机及电子学工程师联合会跨神经Network 7:1482-1490网络7:1482-14902. 2。 Kosaka T, Taketani N, Omatu S (1999) Classification of Italian小坂吨,武谷ñ,Omatu工作主任(1999年)意大利分类bills by a competitive neural network.法案通过有竞争力的神经网络。 Trans Inst Elec Eng Jpn中国科学院利安达反英Jpn119-C:948-954 119 - ç :948 - 9543. 3。 Fukunaga K (1972) Introduction to statistical pattern recognition.福永度(1972年)介绍统计模式识别。Academic, New York学术,纽约4. 4。 Tipping ME, Bishop CM (1999) Probabilistic principal component小费我,主教厘米(1999年)的主要组成部分概率analysis.分析。 J Roy Stat Soc B 61:611-622 ĵ罗伊统计芯片乙61:611-6225. 5。 Haykin S (1999) Neural networks. Haykin工作主任(1999年)神经网络。 Prentice Hall, New Jersey普伦蒂斯大厅,新泽西6. 6。 Kohonen T (1995) Self-organization maps.基于Kohonen T(下1995)自组织地图。 Springer, Berlin施普林格,柏林Heidelberg New York海德堡纽约7. 7。 Rabiner LR (1989) A tutorial on hidden Markov models and拉比娜的LR(1989)关于隐马尔可夫模型和教程selected applications in speech recognition.在语音识别选定的应用程序。 Proceedings of IEEE诉讼的IEEE77:257-286 77:257-2868. 8。 Kohavi R (1995) A study of cross-validation and bootstrap for accuracy Kohavi住宅(1995年)的交叉研究,验证和引导的准确性estimation and model selection.估计和模型选择。 Proceedings of the 14th International程序的第14届国际Joint Conference on Artificial Intelligence IJCAI,联席会议人工智能IJCAI,Montreal, Canada, pp 1137-11加拿大蒙特利尔,第1137至1111年

计算机人工智慧是一种发展前景较广,潜力较大的计算机发展形式。下面是我为大家整理的,供大家参考。

摘要:阐述了人工智慧的核心问题及启发式搜寻函式的基本概念,介绍了4种经典问题启发式搜寻函式的选择及其研究中遇到的难题,并从中求解来探讨解决问题的思路。

关键词:人工智慧;问题求解;启发式搜寻函式

中图分类号:TP18文献标识码:A文章编号:1009-3044***2008***08-10ppp-0c

人工智慧问题广义地说,都可以看作是一个问题求解过程,因此问题求解是人工智慧的核心问题,它通常是通过在某个可能的解答空间中寻找一个解来进行的。在问题求解过程中,人们所面临的大多数现实问题往往没有确定性的演算法,通常需要用搜索演算法来解决。目标和达到目标的一组方法称为问题,搜寻就是研究这些方法能够做什么的过程。问题求解一般需要考虑两个基本问题:首先是使用合适的状态空间表示问题,其次是测试该状态空间中目标状态是否出现。

1 什么是启发式搜寻函式

在人工智慧中有很大一类问题的求解技术依赖于搜寻。启发式方法就是采用有利于问题自身特征资讯来引导搜寻过程的方法,在学生学习过程中启发式函式的选取至关重要,决定整个演算法的效率与成败。启发式搜寻通常用于两种不同型别的问题:***1***前向推力和***2***反向推理。前向推理一般用于状态空间的搜寻。在前向推理中,推理是从预定义的初始状态出发向目标状态反向方向执行;反向推理一般用于问题归约中。在反向推理中,推理是从给定的目标状态向初始状态执行。

用来评估节点重要性的函式称为评估函式。评估函式f***x***定义为从初始节点S0出发,约束地经过节点x到达目标节点Sg的所有路径中最小路径代价的估计值。其一般形式为:

其中,g***x***表示从初始节点S0到节点x的实际代价;h***x***表示从x到目标节点Sg的最优路径的评估代价,它体现了问题的启发式资讯,其形式要根据问题的特征确定,h***x***称为启发式函式。因此,启发式方法把问题状态的描述转换成了对问题解决程度的描述,这一程度用评估函式的值来表示。

2 滑动积木游戏启发式搜寻函式

滑动积木块游戏的棋盘结构及某一种将牌的初始排列结构如下:

其中B表示黑色将牌,W表示白色将牌,E表示空格。游戏的规定走法是:

***1***任意一个将牌可以移入相邻的空格,规定其耗散值为1;

***2***任意一个将牌可相隔1个或2个其他的将牌跳入空格,规定其耗散值等于跳过将牌的数目;游戏要达到的目标是使所有白将牌都处在黑将牌的左边***左边有无空格均可***。对这个问题,定义一个启发函式h***n***,并给出利用这个启发函式用演算法A求解时所产生的搜寻树。可定义h为:h=B右边的W的数目

很多知识对求解问题有好处,这些知识并不一定要写成启发函式的形式,很多情况下,也不一定能清晰的写成一个函式的形式。由题意,在目标状态下,一个扇区的数字之和等于12,一个相对扇区的数字之和等于24,而一个阴影扇区或者非阴影扇区的数字之和为48。

为此,我们可以将目标进行分解,首先满足阴影扇区的数字之和为48。为了这个目标我们可以通过每次转动圆盘45o实现。在第一个目标被满足的情况下,我们再考虑第二个目标:每一个相对扇区的数字和为24。在实现这个目标的过程中,我们希望不破坏第一个目标。为此我们采用转动90o的方式实现,这样即可以调整相对扇区的数字和,又不破坏第一个目标。在第二个目标实现之后,我们就可以实现最终目标:扇区内的数字和为12。同样我们希望在实现这个目标的时候,不破坏前两个目标。为此我们采用转动180o的方式实现。这样同样是即可以保证前两个目标不被破坏,又可以实现第三个目标。

经过这样的分析以后,我们发现该问题就清晰多了。当然,是否每一个第一、第二个目标的实现,都能够实现第三个目标呢?有可能不一定。在这种情况下,就需要在发现第三个目标不能实现时,重新试探其他的第一、第二个目标。

4 传教士野人问题启发式搜寻函式

传教士野人问题,n个传教士和n个野人从河的一边摆渡到河的另一边,为安全起见,任何时候传教士的数目不能小于野人的数目,渡船每次渡k个人, N=5,k≤3的M-C问题,找到相应的启发函式。定义h1=M+C-2B,其中M,C分别是在河的左岸的传教士人数和野人人数。B=1表示船在左岸,B=0表示船在右岸。也可以定义h2=M+C,h1是满足A*条件的,而h2不满足。

要说明h***n***=M+C不满足A*条件是很容易的,只需要给出一个反例就可以了。比如状态***1, 1, 1***,h***n***=M+C=1+1=2,而实际上只要一次摆渡就可以达到目标状态,其最优路径的耗散值为1。所以不满足A*的条件。

下面我们来证明h***n***=M+C-2B是满足A*条件的。

我们分两种情况考虑。先考虑船在左岸的情况。如果不考虑限制条件,也就是说,船一次可以将三人从左岸运到右岸,然后再有一个人将船送回来。这样,船一个来回可以运过河2人,而船仍然在左岸。而最后剩下的三个人,则可以一次将他们全部从左岸运到右岸。所以,在不考虑限制条件的情况下,也至少需要摆渡次。其中分子上的"-3"表示剩下三个留待最后一次运过去。除以"2"是因为一个来回可以运过去2人,需要个来回,而"来回"数不能是小数,需要向上取整,这个用符号表示。而乘以"2"是因为一个来回相当于两次摆

渡,所以要乘以2。而最后的"+1",则表示将剩下的3个运过去,需要一次摆渡。

再考虑船在右岸的情况。同样不考虑限制条件。船在右岸,需要一个人将船运到左岸。因此对于状态***M,C,0***来说,其所需要的最少摆渡数,相当于船在左岸时状态***M+1,C,1***或***M,C+1,1***所需要的最少摆渡数,再加上第一次将船从右岸送到左岸的一次摆渡数。因此所需要的最少摆渡数为:***M+C+1***-2+1 。其中***M+C+1***的"+1"表示送船回到左岸的那个人,而最后边的"+1",表示送船到左岸时的一次摆渡。

综合船在左岸和船在右岸两种情况下,所需要的最少摆渡次数用一个式子表示为:M+C-2B。其中B=1表示船在左岸,B=0表示船在右岸。 由于该摆渡次数是在不考虑限制条件下,推出的最少所需要的摆渡次数。因此,当有限制条件时,最优的摆渡次数只能大于等于该摆渡次数。所以该启发函式h是满足A*条件的。

5 结束语

总之,计算机人工智慧启发式搜寻函式选取的方法比较多,试图找出问题中选取函式的相似的方法,从文中可知还没有那一个函式可以处于绝对的地位,可以适用于所有环境。如何将各种选取启发式搜寻函式的思路结合起来,寻找各个问题选取函式的特点规律,在这个方面还是有很多的理论和实践值得深入研究。

参考文献:

[1]史忠植.高阶人工智慧***第二版***[M].科学出版社,2006.

[2]廉师友.人工智慧技术导论***第二版***[M].西安电子科技大学出版社,2002.

[3]陈群秀.人工智慧***远端教育研究生课程***[EB/OL].

[4]Visual Prolog语言简介[EB/OL].

[5]人工智慧语言[EB/OL].第十四章人工智慧语言

摘要:近年来,随着资讯科技以及计算机技术的不断发展,人工智慧在计算机中的应用也随之加深,其被广泛应用于计算机的各个领域。本文针对计算机在人工智慧中的应用进行研究,阐述了人工智慧的理论概念,分析当前其应用于人工智慧所存在的问题,并介绍人工智慧在部分领域中的应用。

关键词:计算机;人工智慧;应用研究

中图分类号: 文献标识码:A文章编号:1007-9599 ***2011*** 19-0000-01

Applied Research of puter on Artificial Intelligence

Han Xiaoying

***Jiujiang University,Jiujiang332005,China***

Abstract:In recent years,as information technology and puter technology continues to evolve,the application of artificial intelligence in the puter also will deepen thEir puters are widely used in various this paper,puter applications in artificial intelligence research,explained the concept of artificial intelligence theory to *** yze the current applied to the problems of artificial intelligence,and describes the field of artificial intelligence in some applications.

intelligence;Applied research

一、前言

人工智慧又称机器智慧,来自于1956年的Dartmouth学会,在这学会上人们最初提出了“人工智慧”这一词。人工智慧作为一门综合性的学科,其是在电脑科学、资讯理论、心理学、神经生理学以及语言学等多种学科的互相渗透下发展而成。在计算机的应用系统方面,人工智慧是专门研究如何制造智慧系统或智慧机器来模仿人类进行智慧活动的能力,从而延伸人们的科学化智慧。人工智慧是一门富有挑战性的科学,从事这项工作的人必须懂得计算机知识、心理学与哲学。人工智慧是处于思维科学的技术应用层次,是其应用分支之一。数学常被认为是多种学科的基础科学,数学也进入语言及思维领域,人工智慧学科须借用数学工具。数学在标准逻辑及模糊数学等范围发挥作用,其进入人工智慧学科,两者将互相促进且快速发展。

二、人工智慧应用于计算机中存在的问题

***一***计算机语言理解的弱点。当前,计算机尚未能确切的理解语言的复杂性。然而,正处于初步研制阶段的计算机语言翻译器,对于演算法上的规范句子,已能显示出极高的造句能力及理解能力。但其在理解句子意思上,尚未获得明显成就。我们所获取的资讯多来自于上下文的关系以及自身掌握的知识。人们在日常生活中的个人见解、社会见解以及文化见解给句子附加的意义带来很大影响。

***二***模式识别的疑惑。采用计算机进行研究及开展模式识别,在一定程度上虽取得良好效果,有些已作为产品进行实际应用,但其理论以及方法和人的感官识别机制决然不同。人的形象思维能力以及识别手段,即使是计算机中最先进的识别系统也无法达到。此外,在现实社会中,生活作为一项结构宽松的任务,普通的家畜均能轻易对付,但机器却无法做到,这并不意味着其永久不会,而是暂时的。

三、人工智慧在部分领域中的应用

伴随着AI技术的快速发展,当今时代的各种资讯科技发展均与人工智慧技术密切相关,这意味着人工智慧已广泛应用于计算机的各个领域,以下是笔者对于人工智慧应用于计算机的部分领域进行阐述。具体情况如下。

***一***人工智慧进行符号计算。科学计算作为计算机的一种重要用途,可分为两大类别。第一是纯数值的计算,如求函式值。其次是符号的计算,亦称代数运算,是一种智慧的快速的计算,处理的内容均为符号。符号可代表实数、整数、复数以及有理数,或者代表 *** 、函式以及多项式等。随着人工智慧的不断发展以及计算机的逐渐普及,多种功能的计算机代数系统软体相继出现,如Maple或Mathematic。由于这些软体均用C语言写成,因此,其可在多数的计算机上使用。

***二***人工智慧用于模式识别。模式识别即计算机通过数学的技术方法对模式的判读及自动处理进行研究。计算机模式识别的实现,是研发智慧机器的突破点,其使人类深度的认识自身智慧。其识别特点为准确、快速以及高效。计算机的模式识别过程相似于人类的学习过程,如语音识别。语音识别即为使计算机听懂人说

的话而进行自动翻译,如七国 语言的口语自动翻译系统。该系统的实现使人们出国时在购买机票、预定旅馆及兑换外币等方面,只需通过国际网际网路及电话 网路,即可用电话或手机与“老外”进行对话。

***三***人工智慧 计算机网路安全中的 应用。当前,在计算机的网路安全 管理中常见的技术主要有入侵检测技术以及防火墙技术。防火墙作为计算机网路安全的装置之一,其在计算机的网路安全管理方面发挥重要作用。以往的防火墙尚未有检 测加密Web流量的功能,原因在于其未能见到加密的SSL流中的资料,无法快速的获取SSL流中的资料且未能对其进行解密。因而,以往的防火墙无法有效的阻止应用程式的攻击。此外,一般的应用程式进行加密后,可轻易的躲避以往防火墙的检测。因此,由于以往的防火墙无法对应用资料流进行完整的监控,使其难以预防新型攻击。新型的防火墙是通过利用 统计、概率以及决策的智慧方法以识别资料,达到访问受到许可权的目地。然而此方法大多数是从人工智慧的学科中采取,因此,被命名为“智慧防火墙”。

***四***人工智慧应用于计算机网路系统的故障诊断。人工神经网路作为一种资讯处理系统,是通过人类的认知过程以及模拟人脑的 组织结构而成。1943年时,人工神经网路首次被人提出并得到快速 发展,其成为了人工智慧技术的另一个分支。人工神经网路通过自身的优点,如联想记忆、自适应以及并列分布处理等,在智慧故障诊断中受到广泛关注,并且发挥极大的潜力,为智慧故障诊断的探索开辟新的道路。人工神经网路的诊断方法异于专家系统的诊断方法,其通过现场众多的标准样本进行学习及训练,加强调整人工神经网路中的阀值与连线权,使从中获取的知识隐藏分布于整个网路,以达到人工神经网路的模式记忆目的。因此,人工神经网路具备较强的知识捕捉能力,能有效处理异常资料,弥补专家系统方法的缺陷。

四、结束语

总而言之,人工智慧作为计算机技术的潮流,其研究的理论及发现决定了计算机技术的发展前景。现今,多数人工智慧的研究成果已渗入到人们的日常生活。因此,我们应加强人工智慧技术的研究及开发,只有对其应用于各领域中存在的问题进行全面分析,并对此采取相应措施,使其顺利发展。人工智慧技术的发展将给人们的生活、学习以及 工作带来极大的影响。

参考文献:

[1]杨英.智慧型计算机辅助教学系统的实现与研究[J].电脑知识与技术,2009,9

[2]毛毅.人工智慧研究 热点及其发展方向[J].技术与市场,2008,3

[3]李德毅.网路时代人工智慧研究与发展[J].智慧系统学报,2009,1

[4]陈步英,冯红.人工智慧的应用研究[J].邢台 职业技术学院学报,2008,1

高性能汉语数码语音识别算法李虎生 刘加 刘润生摘 要: 提出了一个高性能的汉语数码语音识别(MDSR)系统。 MDSR系统使用Mel频标倒谱系数(MFCC)作为主要的语音特征参数,同时提取共振峰轨迹和鼻音特征以区分一些易混语音对,并提出一个基于语音特征的实时端点检测算法,以减少系统资源需求,提高抗干扰能力。采用了两级识别框架来提高语音的区分能力,其中第一级识别用于确定识别候选结果,第二级识别用于区分易混语音对。由于采用了以上改进, MDSR系统识别率达到了.关键词:汉语; 数码语音识别分类号:TN 文献标识码:A文章编号:1000-0054(2000)01-0032-03High performance digit mandarinspeech recognitionLI Husheng LIU Jia LIU Runsheng(Department of Electronic Engineering,Tsinghua University, Beijing 100084, China)Abstract:High-performance mandarin digit speech recognition (MDSR) system is developed using MFCC (mel frequency cepstrum coefficient) as the main parameter identifying the speech patterns. The formant trajectory and the nasal feature are extracted to identify confused words. A feature-based, real-time endpoint detection algorithm is proposed to reduce the system resource requirements and to improve the disturbance-proof ability. A two-stage recognition frame enhances discrimination by identifying candidate words in the first stage and confused word pairs in the second stage. These improvements result in a correct recognition rate of words:mandarin;digit speech recognition▲ 汉语数码语音识别 (mandarin digit speech recognition, MDSR) 是语音识别领域中一个具有广泛应用背景的分支,它的任务是识别“0”到“9”等10个非特定人汉语数码语音,在电话语音拨号、工业监控、家电遥控等领域有着极大的应用价值〔1〕。但与英语数码语音识别相比, MDSR的性能尚未达到成熟应用水平,这是因为 1) 汉语数码语音的混淆程度较高; 2) 汉语是一个多方言语种,说话人会带有或多或少的地方口音; 3) 在许多应用背景中,MDSR需要在运算和存储资源都较为紧张的数字信号处理器(digital signal processor, DSP)系统上实现,这为MDSR算法的设计带来了很大的限制。由于以上原因,MDSR是一项相当困难的任务。 针对汉语数码语音识别提出了一系列高性能的算法,使MDSR识别率达到了。由这些算法构成的识别系统框图如图1所示。 MDSR系统〔1〕提取的语音特征参数包括用于识别的参数和用于端点检测的参数。图1 MDSR系统框图1 语音前端处理 语音前端处理包括语音特征提取和端点检测两部分。 语音特征提取 基本识别参数 目前常用的语音识别参数有基于线性预测编码(LPC)的线性预测倒谱系数(LPCC)和基于Mel频标的倒谱系数(MFCC)〔2〕。实验证明,采用MFCC参数时系统识别率高于采用LPCC参数。因此本文的基本识别参数采用MFCC参数及一阶差分MFCC参数。 共振峰轨迹 在MDSR中,易混淆语音“2”和“8”可以由其第2,3共振峰的变化趋势区分开〔3〕。因此可将共振峰轨迹作为识别参数之一,并选用峰值选取算法来提取共振峰轨迹〔3〕。 鼻音特征参数 汉语数码语音中,“0”的元音具有鼻音的特征,而“0”容易与具有非鼻化元音的“6”混淆,因此鼻音特征可用于提高“0”的识别率。鼻音的特征包括〔4〕: 1) 鼻音在频谱低端(约左右)有1个较强的共振峰。 2) 鼻音在中频段(约~)的能量分布较为均匀,没有明显的峰或谷。 采用以下2个参数表征鼻音的特征: 1) 低频能量比: (1)其中fn为鼻音低频共振峰频率, B为鼻音低频共振峰带宽。Fk为对语音作快速Fourior变换(FFT)后第k个频率点的能量, 〔f1,f2〕则为语音“6”能量集中的频带。 2) 频谱质心: (2) 其中〔fL,fH〕为~的中频段。由于MDSR系统采用的基本识别参数为MFCC参数,其计算过程中需要作FFT,所以低频能量比和频谱质心两个参数可以顺带算出,不会影响特征提取的实时完成。 端点检测 本文提出了基于语音特征的实时端点检测算法(feature-based real-time endpoint detection, FRED),充分利用汉语数码语音的特点,在实时提取特征参数后完成端点检测,检测到的端点只精确到帧的量级。 根据语音学知识〔4〕, MDSR中各类语音的频谱特点如表1表1 汉语数码语音频谱特点频 谱 特 征 浊 音 元 音 低频(至间)能量较高; 中频(至)能量较高 浊辅音 低频(至间)能量较高; 中频(至)能量较低 清辅音 高频(以上)能量较高 采用3个频谱能量分布参数{R1,R2,R3}分别反应频谱高频、低频和中频的分布特征。其定义如下: (3) (4)其中: i表示第i帧, N为语音帧长,也即FFT点数, Fk为对语音帧作FFT后各频率点能量, T为语音的总帧数,式(3),(4) 中求和号的上下限由表1中相应频率范围确定,当N为256,采样频率为实验所用语音库的11kHz时, f0=81, f1=9, f2 =2, f3=65, f4=15.由于进行了能量归一化,所以上述特征与语音的强度是无关的。由于计算MFCC参数时需要作FFT,因此频谱能量分布参数可以顺带算出。此外,用于端点检测的参数还包括短时能量参数E0(i)〔5〕. 由以上参数, FRED算法过程为: 1) 根据采入信号首尾两帧确定能量阈值; 2) 根据参数R2确定语音浊音段; 3) 根据参数R1与E0向浊音段两端扩展式搜索语音起始帧; 4) 根据参数R3确定元音段。 FRED算法的特点是: 1) 利用了语音的本质特征进行端点检测,能够很好地适应环境的变化和干扰,实验证明FRED算法可以有效地提高识别率; 2) 将语音端点定在帧的量级上,保证了特征参数在采样时实时提取,节省了系统运行时间,大大减少了系统所需的存储量; 3) 能够准确地确定语音的元音段,从而将辅音与元音分割开,有利于对语音局部特征的辨识。2 识别算法 实验表明, MDSR的识别错误集中在少数几对易混语音中〔1〕,因此本文采用了两极识别框架,即第一级完成对识别结果的初步确定,第二级完成对易混淆语音的进一步辨识。 第一级识别 在第一级识别中采用的基本方法为离散隐含Malkov模型(DHMM)算法〔5〕,用Viterbi算法〔5〕计算各个数码语音模型产生采入语音的概率Pr。 由于HMM是一个有人为假设的模型,所以有不可避免的缺陷。其中一个缺陷是在HMM中各状态的持续时间呈几何分布,即P(Li=n)=anii(1-aii), (5)其中: Li为状态i的持续时间, aii为状态i跳转回自身的概率。按照式(5),状态持续时间越长,其概率越小,这是不符合实际情况的。用Γ分布来描述状态持续时间〔5〕,即 (6)其中αi和βi为Γ分布的参数, Fi为归一化因子参数,以上各参数在训练时由训练语音样本估计出。在识别时,用Viterbi算法获得的最佳状态路径中各状态持续时间的概率对Pr作修正: (7)其中: λ为加权系数, S为状态数。识别结果则由修正后的概率P�′r获得。实验证明,用状态持续时间分布对Pr进行修正所得的识别性能有明显的提高。 第二级识别 对第一级识别的错误作分析,我们发现大部分错误都集中在少数几对易混语音中。表2列出了识别错误最多的6对语音(其中“1”念为〔yao〕)占所有错误的百分比及其区分特征。可见这6对语音占所有错误的91%,所以如果能够在第二级识别中对这几对语音作进一步的辩识,整个MDSR系统的性能会有很大的提高。表2 易混语音错误百分比及其区分特征易混语音 占识别错误百分比/% 区分特征 “2”“8” 45 共振峰轨迹变化趋势 “1”“9” 12 不同的辅音 “1”“6” 11 不同的辅音 “0”“6” 11 鼻音特征的有无 “3”“4” 8 不同的元音 “6”“9” 4 辅音的清浊性 由表2可见,易混语音“2”“8”, “0”“6”, “6”“9”可以用表征其区分特征的参数,根据一定的规则进行判决,而“1”“9”, “1”“6”, “3”“4”则可以利用端点检测中元、辅音分割的结果,训练元音部分和辅音部分的HMM参数,在识别时针对相应部分再作一次局部HMM识别。表3列出了各对易混语音第二级识别的方法。 表3 第二级识别方法易混语音 第二级识别方法 规则判决的特征参数或局部HMM的辨识部位 “2”“8” 规则判决 共振峰轨迹 “1”“9” 局部HMM辨识 辅音 “1”“6” 局部HMM辨识 辅音 “0”“6” 规则判决 鼻音特征 “3”“4” 局部HMM辨识 元音 “6”“9” 规则判决 频谱分布参数R1 3 实验结果 实验使用了一个包含160人从“0”到“9”的各一遍发音的语音库来测试系统的性能,库中语音采样率为11kHz,量化精度为16bit线性量化,录音背景为普通办公室环境。 首先测试了特征参数采用LPCC参数,端点检测采用快速端点检测算法〔6〕,只用Viterbi算法进行一级识别时的基本结果,然后测试了逐个加入本文所提出的各种方法后的识别率,结果如表4。可见,所采用的每一种方法都使系统性能较之于基本系统有了显著的提高,最后达到的识别率。表4 算法性能比较采用的算法 识别率/% 基本结果 采用MFCC参数 FRED算法 状态持续时间分布 第二级识别 4 结 论 采用了一系列算法,有效地提高了MDSR系统的识别率,实现了一个高性能的MDSR系统,其特点为: 1) 采用了两极识别框架,增强了对易混语音的区分能力。 2) 充分利用针对汉语数码语音的语音学知识,提高了端点检测的抗干扰能力,提取了用于区分易混语音的共振峰轨迹、鼻音特征等声学特征,进一步提高了系统识别率。 3) 各算法所需的运算量和存储量都较小,有利于MDSR在DSP系统上的实现。■基金项目:国家自然科学基金项目(69772020)和国家“八六三”高技术项目(-10)作者简介:李虎生 (1975-), 男(汉), 四川, 硕士研究生作者单位:李虎生(清华大学,电子工程系,北京,100084) 刘加(清华大学,电子工程系,北京,100084) 刘润生(清华大学,电子工程系,北京,100084)参考文献:〔1〕顾良, 刘润生. 汉语数码语音识别: 困难分析与方法比较 〔J〕. 电路与系统学报, 1997, 2 (4): 32- Liang, Liu Runsheng. Mandarin digit speech recognition: state of the art, difficult points analysis and methods comparison 〔J〕. J of Circuits and Systems, 1997, 2(4): 32-39. (in Chinese) 〔2〕Davis S B, Mermelstein P. Comparison of parametric representations for monosyllabic word recognition in continuously spoken sentences 〔J〕. IEEE Trans, on Speech and Audio Signal Processing, 1980, 28 (4): 357-366.〔3〕李虎生, 杨明杰, 刘润生. 用共振峰轨迹提高汉语数码语音识别性能 〔J〕. 清华大学学报, 1999, 39(9).Li Husheng, Yang Mingjie, Liu Runsheng. Use formant trajectory to improve the performance of mandarin digit speech recognition 〔J〕. J of Tsinghua University, 1999, 39(9): 69-71. (in Chinese) 〔4〕吴宗济, 林茂灿. 实验语音学教程 〔M〕. 北京: 高等教育出版社, Zongji, Lin Maocan. Tutorial on Experimental Phonetics 〔M〕. Beijing: Higher Education Press, 1989. (in Chinese) 〔5〕杨行峻, 迟惠生. 语音信号数字处理 〔M〕. 北京: 电子工业出版社, Xingjun, Chi Huisheng. Digit Speech Signal Processing 〔M〕. Beijing: Publishing House of Electronic Industry, 1995. (in Chinese) 〔6〕顾良. 汉语数码语音识别方法研究及DSP系统设计 〔D〕. 北京: 清华大学, Liang. Research on Methodologies for Mandarin Digit Speech Recognition and Design of its DSP System 〔D〕. Beijing: Tsinghua University, 1997. (in Chinese)

语音识别毕业论文

摘要: 多媒体通信技术是当今世界科技领域中最有活力、发展最快的高新信息技术,它时时刻刻都在影响着世界经济的发展和科学技术进步的速度,并不断改变着人类的生活方式和生活质量。多媒体通信综合了多种媒体信息间的通信,它是通过现有的各种通讯网来传输、转储和接收多媒体信息的通信方式,几乎覆盖了信息技术领域的所有范畴,包括数据、音频和视频的综合处理和应用技术,其关键技术是多媒体信息的高效传输和交互处理。关键词:多媒体 图象 音频 功能The application of multimedia technologyAbstract: Multimedia communications technology is the world's science and technology in the field of the most dynamic and fastest growing high-tech information technology, it always have influence in the world economic development and the pace of scientific and technological progress and changing the human way of life and quality of life . A variety of integrated multimedia communications between the communications media information, it is through the various existing communications network to transmit and receive multimedia information and dump the means of communication, cover nearly the area of information technology in all areas, including data, audio and video The integrated treatment and application technology, its technology is the key to the efficient transmission of multimedia information and interactive processingKey words: Multimedia audio features images引 言随着技术的迅速发展,图像、视频等多媒体数据已逐渐成为信息处理领域中主要的信息媒体形式。多媒体通信是信息高速公路建设中的一项关键技术,是多媒体、通信、计算机和网络等相互渗透和发展的产物,它将极大地提高人们的工作效率,改变人们的教育、娱乐等生活方式,是21世纪人们通信的基本方式。第一章 多媒体通信技术基础简介多媒体通信的基本概念和特征 基本概念媒体是信息表示和传输的载体,是一个重要的概念。ITU-T I .374建议将媒体划分为感觉媒体、表示媒体、显示媒体、存储媒体和传输媒体5类。多媒体数据是指多种式样信息的载体,如文本、图形、图像、声音等数据。其特点主要有以下几点:(1)多媒体数据种类繁多(大多是非结构化数据),不同来源的媒体,具有完全不同的形式和格式;(2)多媒体数据量庞大;(3)多媒体数据具有时间特性和版本概念,如在视频点播系统中必须考虑到媒体间以及媒体内部在时间上的同步关系。由此可知多媒体数据与传统的数值和字符不同,因而其存储结构和存取方式也具有特殊性,描述它的数据结构和数据模型也是有差别的。在这种情况下就产生了一种全新的数据库系统--多媒体数据库系统。多媒体数据库是能够有效实现多媒体数据的存储、读取、检索等功能的数据库系统。它的主要特点是:(1)继承了传统数据库的一些优点,例如数据独立性、利用数据库查询语言进行高层次查询、开发控制、容错技术等;(2)能对具有时空关系的数据进行同步和管理。但是目前对于多媒体数据库的功能以及实现方法还没有达成共识,因而出现了多种形式的媒体数据库,并且实现方法也各不相同。从其总体发展上看,多媒体数据库的数据模型可分为关系数据模型、面向对象的数据模型和超媒体数据模型3类。基于不同数据模型的多媒体数据库管理系统(DBMS)的功能也有很大差别,通常基于关系数据模型的多媒体DBMS可以实现多媒体数据的存取,对多媒体数据对象之间的语义关系、时态关系、空间关系不加处理,所以这部分工作就留给应用程序去完成了。面向对象的数据模型和超媒体数据类型可以支持多媒体数据对象之间的语义关系、时态关系、空间关系的处理,其抽象程度更高,但DBMS的实现也相对复杂。在多媒体通信系统中另一个常出现的词汇是"超媒体"。在出版物中经常会出现表示注解意思的"注"字,由"注"你可以找到与之相关的一段文字或一篇文章。这种由"注"而链接到一段文字或一篇文章的链即称为超链拨,同理,超级链也可以将若干不同媒体链接起来,其集合便称为"超媒体"。多媒体通信的特征多媒体通信技术的发展打破了传统通信的单一媒体、单一电信业务的通信系统格局,反映了通信向高层次发展的一种趋势,是人们对未来社会工作和生活方式的向往。多媒体通信技术是一种综合技术,涉及多媒体技术、计算机技术、通信技术等多个领域。多媒体通信系统必须同时兼有集成性、交互性、同步性3个主要特征。 集成性多媒体通信系统的集成性指的是能对内容数据信息、多媒体和超媒体信息、脚本信息和特定的应用信息等4类信息进行存储、传输、处则和显现的能力。(1) 内容数据信息(2) 信息是以某一种结构的形式存在的,典型的结构有两种:一种是对象构,其中可处理的最小单元为对象(Object);另一种是文件结构,其中处理的最小单元为文件(File)。多媒体和超媒体信息多媒体和超媒体信息与单媒体信息不一样,它们是结构化的信息,由结构框架和内容数据2部分组成。多媒体和超媒体信息的最小表达形式由两类,一类称为对象,另一类称为文件。(3) 脚本信息脚本信息是一组特定的用语意关系联系起来的、结构化的多媒体和超媒体信息,需要提供表示这一组多媒体信息的运作过程和与外部处理模块间的关系。(4) 特定的应用信息上述3类信息都是低层信息,可以由标准来定义和表示。特定的应用信息是高层信息,是与应用密切相关的,将随应用场合的不同有很大的不同,它的表示方法是基于上述3类的基础之上的。 交互性交互性指的是在通信系统中人与系统之间的相互控制能力。在多媒体通信系统中,交互性有两个方面的内容。一是人机接口,也就是人在使用系统的终端时用户终端向用户提供的操作界面;二是用户终端与系统之间的应用层通信协议。多媒体通信终端的用户对通信的全过程有完备的交互控制能力,这是多媒体通信系统的一个主要特征,也是区别多媒体通信系统与非多媒体通信系统的一个主要准则。 同步性同步性指的是在多媒体通信终端上显现的图像、声音和文字均以同步方式工作。如用户要检索一个重要的历史事件的片断,该事件的活动图像或静止图像存放在图像数据库中,其文字叙述和语言说明则是放在其他数据库中。多媒体通信终端通过不同传输途径将所需要的信息从不同的数据库中提取出来,并将这些图像、声音、文字同步起来,构成一个整体的信息呈现在用户面前。多媒体通信系统中的同步性是多媒体通信系统最主要的特征之一,信息的同步与否决定了系统是多媒体系统还是非多种媒体系统。同步可在链路层级、表示层级和应用层级3个层面上实现第二章 多媒体音频技术音频技术发展较早,几年前一些技术已经成熟并产品化,甚至进入了家庭,如数字音响。音频技术主要包括四个方面:音频数字化、语音处理、语音合成及语音识别。音频数字化目前是较为成熟的技术,多媒体声卡就是采用此技术而设计的,数字音响也是采用了此技术取代传统的模拟方式而达到了理想的音响效果。音频采样包括两个重要的参数即采样频率和采样数据位数。采样频率即对声音每秒钟采样的次数,人耳听觉上限在20KHz左右,目前常用的采样频率为11KHz,22KHz和44KHz几种。采样频率越高音质越好,存贮数据量越大。CD唱片采样频率为,达到了目前最好的听觉效果。采样数据位数即每个采样点的数据表示范围,目前常用的有8位、12位和16位三种。不同的采样数据位数决定了不同的音质,采样位数越高,存贮数据量越大,音质也越好。CD唱片采用了双声道16位采样,采样频率为,因而达到了专业级水平。音频处理包括范围较广,但主要方面集中在音频压缩上,目前最新的MPEG语音压缩算法可将声音压缩六倍。语音合成是指将正文合成为语言播放,目前国外几种主要语音的合成水平均已到实用阶段,汉语合成几年来也有突飞猛进的发展,实验系统正在运行。在音频技术中难度最大最吸引人的技术当属语音识别,虽然目前只是处于实验研究阶段,但是广阔的应用前景使之一直成为研究关注的热点之一。第三章 多媒体图像视频技术3.1视频技术虽然视频技术发展的时间较短,但是产品应用范围已经很大,与MPEG压缩技术结合的产品已开始进入家庭。视频技术包括视频数字化和视频编码技术两个方面。视频数字化是将模拟视频信号经模数转换和彩色空间变换转为计算机可处理的数字信号,使得计算机可以显示和处理视频信号。目前采样格式有两种:Y:U:V4:1:1和Y:U:V4:2:2,前者是早期产品采用的主要格式,Y:U:V4:2:2格式使得色度信号采样增加了一倍,视频数字化后的色彩、清晰度及稳定性有了明显的改善,是下一代产品的发展方向。视频编码技术是将数字化的视频信号经过编码成为电视信号,从而可以录制到录像带中或在电视上播放。对于不同的应用环境有不同的技术可以采用。从低档的游戏机到电视台广播级的编码技术都已成熟。图像压缩技术图像压缩一直是技术热点之一,它的潜在价值相当大,是计算机处理图像和视频以及网络传输的重要基础,目前ISO制订了两个压缩标准即JPEG和MPEG。JPEG是静态图像的压缩标准,适用于连续色调彩色或灰度图像。它包括两部分:一是基于DPCM(空间线性预测)技术的无失真编码,一是基于DCT(离散余弦变换)和哈夫曼编码的有失真算法。前者图像压缩无失真,但是压缩比很小,目前主要应用的是后一种算法,图像有损失但压缩比很大,压缩20倍左右时基本看不出失真。MJPEG是指MotionJPEG,即按照25帧/秒速度使用JPEG算法压缩视频信号,完成动态视频的压缩。MPEG算法是适用于动态视频的压缩算法,它除了对单幅图像进行编码以外还利用图像序列中的相关原则,将帧间的冗余去掉,这样大大提高了图像的压缩比例。通常保持较高的图像质量而压缩比高达100倍。MPEG算法的缺点是压缩算法复杂,实现很困难。第四章 多媒体通信系统1、 体系结构多媒体通信(multimedia communcations)是在位于不同地理位置的参与者之间召开的一种会议或者进行的交流,通过局域网(LAN)、广域网(WAN)、内联网(intranet)、因特网(Internet)或者电话网来传输压缩的数字图像和声音信号。像电视那样的多目标广播、录象机那样的流式播放、电话会议、电视会议、IP电话、可视电话和IP传真等等都是多媒体通信技术的一些具体的和各有特色的应用。多年来,国际电信联盟(ITU)为公共和私营电信组织制定了许多多媒体计算和通信系统的推荐标准,以促进各国之间的电信合作。ITU的26个(Series A~Z)系列推荐标准中,与多媒体通信关系最密切的7个系列标准如表4-1所示,三种类型的多媒体通信系统的核心技术标准集如表4-1所示。表4-1 ITU系列推荐标准系列名 主要内容Series G 传输系统、媒体数字系统和网络Series H 视听和多媒体系统Series I 综合业务数字网(ISDN)Series J 电视、声音节目和其他多媒体信号的传输Series Q 电话交换和控制信号传输法Series T 远程信息处理业务的终端设备2、网关的功能和结构网关是一台功能强大的计算机或者工作站,它担负线路交换网络(如电话网络)和信息包交换网络(如因特网)之间进行实时的双向通信,提供异种网络之间的连通性,它是传统线路交换网络和现代IP网络之的桥梁。IP电话(见" IP电话")的出现允许电话呼叫在信息包交换网络上进行,从而引发一场电信工业的革命。但IP电话在成为主流电话服务的道路上遇到了许多障碍。其中最大的一个问题是在IP电话网络和公众交换电话网络之间缺乏连通性。一个重要的原因是早期的网关存在对IP电话进入主流电话服务的限制。例如,通过网关建立呼叫比较困难,而且需要使用非常规的电话号码;不同的网关之间的兼容性妨碍呼叫的建立;声音的质量比较差、有回音以及延迟时间比较长等。这就促进了开发允许IP和PSTN客户能够相互通信的网关,其中的一个措施就是提高网关的处理能力。低档的网关有1~6个端口,典型地使用高档奔腾处理器的PC机方案,提供媒体处理、呼叫控制和信息包的处理等网关功能。高档网关把网关功能分散到几个处理器来实现,这叫做计算机基电话集成(computer-telephony integration,CTI)平台,可提供100多个端口。网关的基本功能可归纳为三种:(1) 转换协议(translating protocols):网关作为一个解释器,使不同的网络能够建立联系,例如,允许PSTN和网络相互对话以建立和清除呼叫。(2) 转换信息格式(converting information formats):不同的网络使用不同的编码方法,网关将对信息进行转换,使异种网络之间能够自由地交换信息,例如声音和电视。(3) 传输信息(transferring information):负责在不同网络之间传输信息。网关的主要部件包括:(1) 线路交换网络(switched-circuit network,SCN)接口卡,这是一种典型的T1/E1或者叫做PRI ISDN线路接口卡,它们与线路交换网络进行通信。主速率接口(primary rate interface,PRI)由23个B通道和一个64 kb/s的D通道组成,叫做23B+D,相当于T1线的带宽。(2) 数字信号处理器(digital signal processors,DSP)卡,它执行的任务包括声音信号的压缩和回音的取消等。(3) 网络接口(network interfaces)卡,它用来与网络进行通信,典型的网络卡包括10/100BaseT网络接口卡(network interface cards,NIC),或者把它们的功能集成到主机板上。(4) 控制处理器(control processor),它协调其他网关部件的所有活动,这个部件通常是在系统的主机板上。网关的主要软件包括:(1) 执行所有网关基本功能和选择功能的网关软件。例如,网关平台(Gateway Platform)执行转换协议、转换消息格式和传输信息等基本功能,支持声音压缩、协议转换、实时的传真解调/再调制以及执行系列协议。(2) 特定网关的应用软件,它执行自定义的功能以及管理和控制功能。3、会务器的功能和结构会务器(gatekeepers)是用于连接IP网络上的电视会议客户,是电视会议的关键部件之一,许多人把它当作电视会议的"大脑"。它提供授权和验证、保存和维护呼叫记录、执行地址转换而不需要你去记忆IP地址、监视网络、管理带宽以限制同时呼叫的数目从而保证电视会议的质量、以及提供与现存系统的接口。会务器的功能一般都是用软件来实现。会务器的功能分成两个部分:基本功能和选择功能。会务器必须要提供的基本功能包括:"地址转换(Address Translation):使用一种可由注册消息(Registration messages)更新的转换表,把别名地址转换成传输地址(Transport Address)。这个功能在线路交换网络上的电话企图呼叫IP网络上的PC时显得尤其重要,在确定网关地址时也很重要。准入控制(Admissions Control):使用准入请求/准入确认/准入拒绝ARQ/ARC/ARJ(Admission Request, Confirm and Reject)消息,对访问局域网进行授权。H323标准规定必须要有用来对网络服务进行授权的RAS消息(RAS messages),RAS是一个注册/准入/状态(Registration/Admission/Status)协议,但它不定义授权存取网络资源的规则或者政策,因此服务提供者需要会务器来干预现存的授权方法。此外,企业管理人员和服务提供者也许想使用他自己的标准来授权,例如,根据订金、信用卡等。带宽控制(Bandwidth Control):支持RAS带宽消息(RAS bandwidth messages),即带宽请求/带宽确认/带宽拒绝BRQ/BCF/BRJ(Request, Confirm and Reject)消息,以强制执行带宽控制。至于如何管理则要根据服务提供者或者企业管理人员的政策来确定。在许多情况下,如果在网络或者特定的网关不拥挤的况下,对任何带宽的请求都应该给予满足。区域管理(Zone Management):用于管理所有已经注册的端点(endpoint),为它们提供上面介绍的功能。至于确定哪个终端可以注册以及地理或者逻辑区域的组成(单个会务器管理的终端、网关和多点控制单元MCU)则由网络设计人员决定。会务器提供的选择功能包括:呼叫控制信号传输方法(Call Control Signalling):在中有两种呼叫控制信号传输模型:会务器安排呼叫信号传输模型(Gatekeeper Routed Call Signaling Model)和直接端点呼叫信号传输模型(Direct Endpoint Call Signaling Model)。会务器可根据访问提供者的要求进行选择。呼叫授权(Call Authorization):会务器可根据服务提供者指定的条件对一个给定的呼叫进行授权或者拒绝。其条件可包括会议时间、预定的服务类型、对受限网关的访问权限或者可用的带宽等。带宽管理(Bandwidth Management):根据服务提供者指定的带宽分配确定是否有足够的带宽用于呼叫。呼叫管理(Call Management):提供智能呼叫管理。会务器维护一种呼叫表以指示被呼叫终端是否处于忙状态,并为带宽管理(Bandwidth Management)功能提供信息。会务器的结构会务器通常设计成内外两层,如图4-8所示。会务器的内层叫做核心层,它由执行协议堆的软件和实现多点控制单元MCU(multipoint control unit)功能的软件组成,有的软件开发公司把它叫做会务器核心功能部件。MCU的主要功能是连接多条线路并自动或者在会议主持人的指导下手动交换电视号。会务器的外层由许多应用程序的接口组成,用于连接网络上现有的许多服务。外层软件加分吧!

语音识别技术研究让人更加方便地享受到更多的社会信息资源和现代化服务,对任何事都能够通过语音交互的方式。 我整理了浅谈语音识别技术论文,欢迎阅读!

语音识别技术概述

作者:刘钰 马艳丽 董蓓蓓

摘要:本文简要介绍了语音识别技术理论基础及分类方式,所采用的关键技术以及所面临的困难与挑战,最后讨论了语音识别技术的 发展 前景和应用。

关键词:语音识别;特征提取;模式匹配;模型训练

Abstract:This text briefly introduces the theoretical basis of the speech-identification technology,its mode of classification,the adopted key technique and the difficulties and challenges it have to developing prospect ion and application of the speech-identification technology are discussed in the last part.

Keywords:Speech identification;Character Pick-up;Mode matching;Model training

一、语音识别技术的理论基础

语音识别技术:是让机器通过识别和理解过程把语音信号转变为相应的文本或命令的高级技术。语音识别以语音为研究对象,它是语音信号处理的一个重要研究方向,是模式识别的一个分支,涉及到生 理学 、心理学、语言学、 计算 机 科学 以及信号处理等诸多领域,甚至还涉及到人的体态语言(如人在说话时的表情、手势等行为动作可帮助对方理解),其最终目标是实现人与机器进行 自然 语言通信。

不同的语音识别系统,虽然具体实现细节有所不同,但所采用的基本技术相似,一个典型语音识别系统主要包括特征提取技术、模式匹配准则及模型训练技术三个方面。此外,还涉及到语音识别单元的选取。

(一) 语音识别单元的选取

选择识别单元是语音识别研究的第一步。语音识别单元有单词(句)、音节和音素三种,具体选择哪一种,由具体的研究任务决定。

单词(句)单元广泛应用于中小词汇语音识别系统,但不适合大词汇系统,原因在于模型库太庞大,训练模型任务繁重,模型匹配算法复杂,难以满足实时性要求。

音节单元多见于汉语语音识别,主要因为汉语是单音节结构的语言,而 英语 是多音节,并且汉语虽然有大约1300个音节,但若不考虑声调,约有408个无调音节,数量相对较少。因此,对于中、大词汇量汉语语音识别系统来说,以音节为识别单元基本是可行的。

音素单元以前多见于英语语音识别的研究中,但目前中、大词汇量汉语语音识别系统也在越来越多地采用。原因在于汉语音节仅由声母(包括零声母有22个)和韵母(共有28个)构成,且声韵母声学特性相差很大。实际应用中常把声母依后续韵母的不同而构成细化声母,这样虽然增加了模型数目,但提高了易混淆音节的区分能力。由于协同发音的影响,音素单元不稳定,所以如何获得稳定的音素单元,还有待研究。

(二) 特征参数提取技术

语音信号中含有丰富的信息,但如何从中提取出对语音识别有用的信息呢?特征提取就是完成这项工作,它对语音信号进行分析处理,去除对语音识别无关紧要的冗余信息,获得影响语音识别的重要信息。对于非特定人语音识别来讲,希望特征参数尽可能多的反映语义信息,尽量减少说话人的个人信息(对特定人语音识别来讲,则相反)。从信息论角度讲,这是信息压缩的过程。

线性预测(LP)分析技术是目前应用广泛的特征参数提取技术,许多成功的应用系统都采用基于LP技术提取的倒谱参数。但线性预测模型是纯数学模型,没有考虑人类听觉系统对语音的处理特点。

Mel参数和基于感知线性预测(PLP)分析提取的感知线性预测倒谱,在一定程度上模拟了人耳对语音的处理特点,应用了人耳听觉感知方面的一些研究成果。实验证明,采用这种技术,语音识别系统的性能有一定提高。

也有研究者尝试把小波分析技术应用于特征提取,但目前性能难以与上述技术相比,有待进一步研究。

(三)模式匹配及模型训练技术

模型训练是指按照一定的准则,从大量已知模式中获取表征该模式本质特征的模型参数,而模式匹配则是根据一定准则,使未知模式与模型库中的某一个模型获得最佳匹配。

语音识别所应用的模式匹配和模型训练技术主要有动态时间归正技术(DTW)、隐马尔可夫模型(HMM)和人工神经元 网络 (ANN)。

DTW是较早的一种模式匹配和模型训练技术,它应用动态规划方法成功解决了语音信号特征参数序列比较时时长不等的难题,在孤立词语音识别中获得了良好性能。但因其不适合连续语音大词汇量语音识别系统,目前已被HMM模型和ANN替代。

HMM模型是语音信号时变特征的有参表示法。它由相互关联的两个随机过程共同描述信号的统计特性,其中一个是隐蔽的(不可观测的)具有有限状态的Markor链,另一个是与Markor链的每一状态相关联的观察矢量的随机过程(可观测的)。隐蔽Markor链的特征要靠可观测到的信号特征揭示。这样,语音等时变信号某一段的特征就由对应状态观察符号的随机过程描述,而信号随时间的变化由隐蔽Markor链的转移概率描述。模型参数包括HMM拓扑结构、状态转移概率及描述观察符号统计特性的一组随机函数。按照随机函数的特点,HMM模型可分为离散隐马尔可夫模型(采用离散概率密度函数,简称DHMM)和连续隐马尔可夫模型(采用连续概率密度函数,简称CHMM)以及半连续隐马尔可夫模型(SCHMM,集DHMM和CHMM特点)。一般来讲,在训练数据足够的,CHMM优于DHMM和SCHMM。HMM模型的训练和识别都已研究出有效的算法,并不断被完善,以增强HMM模型的鲁棒性。

人工神经元 网络 在语音识别中的 应用是现在研究的又一 热点。ANN本质上是一个自适应非线性动力学系统,模拟了人类神经元活动的原理,具有自学、联想、对比、推理和概括能力。这些能力是HMM模型不具备的,但ANN又不个有HMM模型的动态时间归正性能。因此,现在已有人研究如何把二者的优点有机结合起来,从而提高整个模型的鲁棒性。

二、语音识别的困难与对策

目前,语音识别方面的困难主要表现在:

(一)语音识别系统的适应性差,主要体现在对环境依赖性强,即在某种环境下采集到的语音训练系统只能在这种环境下应用,否则系统性能将急剧下降;另外一个问题是对用户的错误输入不能正确响应,使用不方便。

(二)高噪声环境下语音识别进展困难,因为此时人的发音变化很大,像声音变高,语速变慢,音调及共振峰变化等等,这就是所谓Lombard效应,必须寻找新的信号分析处理方法。

(三)语言学、生 理学 、心理学方面的研究成果已有不少,但如何把这些知识量化、建模并用于语音识别,还需研究。而语言模型、语法及词法模型在中、大词汇量连续语音识别中是非常重要的。

(四)我们对人类的听觉理解、知识积累和学习机制以及大脑神经系统的控制机理等分面的认识还很不清楚;其次,把这方面的现有成果用于语音识别,还有一个艰难的过程。

(五)语音识别系统从实验室演示系统到商品的转化过程中还有许多具体问题需要解决,识别速度、拒识问题以及关键词(句)检测技术等等技术细节要解决。

三、语音识别技术的前景和应用

语音识别技术 发展 到今天,特别是中小词汇量非特定人语音识别系统识别精度已经大于98%,对特定人语音识别系统的识别精度就更高。这些技术已经能够满足通常应用的要求。由于大规模集成电路技术的发展,这些复杂的语音识别系统也已经完全可以制成专用芯片,大量生产。在西方 经济 发达国家,大量的语音识别产品已经进入市场和服务领域。一些用户交机、电话机、手机已经包含了语音识别拨号功能,还有语音记事本、语音智能玩具等产品也包括语音识别与语音合成功能。人们可以通过电话网络用语音识别口语对话系统查询有关的机票、 旅游 、银行信息,并且取得很好的结果。

语音识别是一门交叉学科,语音识别正逐步成为信息技术中人机接口的关键技术,语音识别技术与语音合成技术结合使人们能够甩掉键盘,通过语音命令进行操作。语音技术的应用已经成为一个具有竞争性的新兴高技术产业。

参考 文献 :

[1]科大讯飞语音识别技术专栏. 语音识别产业的新发展. 企业 专栏.通讯世界,:(总l12期)

[2]任天平,门茂深.语音识别技术应用的进展.科技广场.河南科技,

[3]俞铁城.科大讯飞语音识别技术专栏.语音识别的发展现状.企业专栏.通讯世界, (总122期)

[4]陈尚勤等.近代语音识别.西安: 电子 科技大学出版社,1991

[5]王炳锡等.实用语音识别基础.Practical Fundamentals of Speech Recognition.北京:国防 工业 出版社,2005

[6](美)L.罗宾纳.语音识别基本原理.北京:清华大学出版社,1999

点击下页还有更多>>>浅谈语音识别技术论文

tx027数字通信系统数据纠检错方法研究tx028WCDMA移动通信中功率控制的研究与仿真tx029无线网络优化研究tx030移动通信的切换技术的研究tx031基于网络的虚拟仪器测试系统tx032基于GSM模块的车载防盗系统设计 tx033基于GSM短信模块的家庭防盗报警系统tx034电信运营商收入保障系统设计与实现tx035单片机串行通信发射机tx036FDM通信系统基带数据tx037CDMA通信系统中的接入信道部分进行仿真与分析tx038基于连续隐马尔科夫模型的语音识别tx039GPRS无线通讯技术的应用—GPRS短消息接收的开发和实现tx040基于ARQ的数字通信系统纠检错方法tx041数字通信系统数据帧同步设计及可靠性研究tx042GSM扩容工程网络规划设计tx043WCDMA的网络规划及优化tx044WCDMA移动通信中功率控制的研究与仿真tx045可接收数字广播节目的CDMA移动终端的软件设计tx046可接收数字广播节目的GSM移动终端的硬件设计tx047基于Matlab的OFDM系统仿真tx048基于小波变换及其在信号和图象处理中的应用研究tx049小波变换及其在信号和图象处理中的应用研究tx050小灵通基站的开关电源设计tx051数字通信系统数据纠检错方法研究更多最新最全的通信毕业论文设计题目:

关于语音识别的文献论文

1.《基于深度学习的自然语言处理技术研究》2.《基于深度学习的计算机视觉技术研究》3.《基于深度学习的语音识别技术研究》4.《基于深度学习的机器翻译技术研究》5.《基于深度学习的自动驾驶技术研究》6.《基于深度学习的智能家居技术研究》7.《基于深度学习的智能机器人技术研究》8.《基于深度学习的智能推荐系统技术研究》9.《基于深度学习的自然语言理解技术研究》10.《基于深度学习的智能安全技术研究》

多媒体图像压缩技术姓名:Vencent Lee摘要:多媒体数据压缩技术是现代网络发展的关键性技术之一。由于图像和声音信号中存在各种各样的冗余,为数据压缩提供了可能。数据压缩技术有无损压和有损压缩两大类,这些压缩技术又各有不同的标准。一、多媒体数据压缩技术仙农(C.E.Shannon)在创立信息论时,提出把数据看作是信息和冗余度的组合。早期的数据压缩之所以成为信息论的一部分是因为它涉及冗余度问题。而数据之所以能够被压缩是因为其中存在各种各样的冗余;其中有时间冗余性、空间冗余性、信息熵冗余、先验知识冗余、其它冗余等。时间冗余是语音和序列图像中常见的冗余,运动图像中前后两帧间就存在很强的相关性,利用帧间运动补兴就可以将图像数据的速率大大压缩。语音也是这样。尤其是浊音段,在相当长的时间内(几到几十毫秒)语音信号都表现出很强的周期性,可以利用线性预测的方法得到较高的压缩比。空间冗余是用来表示图像数据中存在的某种空间上的规则性,如大面积的均匀背景中就有很大的空间冗余性。信息熵冗余是指在信源的符号表示过程中由于未遵循信息论意义下最优编码而造成的冗余性,这种冗余性可以通过熵编码来进行压缩,经常使用的如Huff-man编码。先验知识冗余是指数据的理解与先验知识有相当大的关系,如当收信方知道一个单词的前几个字母为administrato时,立刻就可以猜到最后一个字母为r,那么在这种情况下,最后一个字母就不带任何信息量了,这就是一种先验知识冗余。其它冗余是指那些主观无法感受到的信息等带来的冗余。通常数据压缩技术可分为无损压缩(又叫冗余压缩)和有损压缩(又叫熵压缩)两大类。无损压缩就是把数据中的冗余去掉或减少,但这些冗余量是可以重新插入到数据中的,因而不会产生失真。该方法一般用于文本数据的压缩,它可以保证完全地恢复原始数据;其缺点是压缩比小(其压缩比一般为2:1至5:1)。有损压缩是对熵进行压缩,因而存在一定程度的失真;它主要用于对声音、图像、动态视频等数据进行压缩,压缩比较高(其压缩比一般高达20:1以上。最新被称为“E—igen—ID”的压缩技术可将基因数据压缩1.5亿倍)。对于多媒体图像采用的有损压缩的标准有静态图像压缩标准(JPEG标准,即‘JointPhotographicExpertGroup’标准)和动态图像压缩标准(MPEG标准,即‘MovingPictureExpertGroup’标准)。JPEG利用了人眼的心理和生理特征及其局限性来对彩色的、单色的和多灰度连续色调的、静态图像的、数字图像的压缩,因此它非常适合不太复杂的以及一般来源于真实景物的图像。它定义了两种基本的压缩算法:一种是基于有失真的压缩算法,另一种是基于空间线性预测技术(DPCM)无失真的压缩算法。为了满足各种需要,它制定了四种工作模式:无失真压缩、基于DCT的顺序工作方式、累进工作方式和分层工作方式。MPEG用于活动影像的压缩。MPEG标准具体包三部分内容:(1)MPEG视频、(2)MPEG音频、(3)MP系统(视频和音频的同步)。MPEG视频是标准的核心分,它采用了帧内和帧间相结合的压缩方法,以离散余变换(DCT)和运动补偿两项技术为基础,在图像质量基不变的情况下,MPEG可把图像压缩至1/100或更MPEG音频压缩算法则是根据人耳屏蔽滤波功能。利用音响心理学的基本原理,即“某些频率的音响在重放其频率的音频时听不到”这样一个特性,将那些人耳完全不到或基本上听到的多余音频信号压缩掉,最后使音频号的压缩比达到8:1或更高,音质逼真,与CD唱片可媲美。按照MPEG标准,MPEG数据流包含系统层和压层数据。系统层含有定时信号,图像和声音的同步、多分配等信息。压缩层包含经压缩后的实际的图像和声数据,该数据流将视频、音频信号复合及同步后,其数据输率为1.5MB/s。其中压缩图像数据传输率为1.2M压缩声音传输率为0.2MB/s。MPEG标准的发展经历了MPEG—I,MPEG一2、MPEG一4、MPEG-7、MPEG一21等不同层次。在MPEG的不同标准中,每—个标准都是建立在前面的标准之上的,并与前面的标准向后的兼容。目前在图像压缩中,应用得较多的是MPEG一4标准,MPEG-是在MPEG-2基础上作了很大的扩充,主要目标是多媒体应用。在MPEG一2标准中,我们的观念是单幅图像,而且包含了一幅图像的全部元素。在MPEG一4标准下,我们的观念变为多图像元素,其中的每—个多图像元素都是独立编码处理的。该标准包含了为接收器所用的指令,告诉接收器如何构成最终的图像。上图既表示了MPEG一4解码器的概念,又比较清楚地描绘了每个部件的用途。这里不是使用单一的视频或音频解码器,而是使用若干个解码器,其中的每一个解码器只接收某个特定的图像(或声音)元素,并完成解码操作。每个解码缓冲器只接收属于它自己的灵敏据流,并转送给解码器。复合存储器完成图像元素的存储,并将它们送到显示器的恰当位置。音频的情况也是这样,但显然不同点是要求同时提供所有的元素。数据上的时间标记保证这些元素在时间上能正确同步。MPEG一4标准对自然元素(实物图像)和合成元素进行区分和规定,计算机生成的动画是合成元素的一个例子。比如,一幅完整的图像可以包含一幅实际的背景图,并在前面有一幅动画或者有另外一幅自然图像。这样的每一幅图像都可以作最佳压缩,并互相独立地传送到接收器,接收器知道如何把这些元素组合在一起。在MPEG一2标准中,图像被看作一个整体来压缩;而在MPEG一4标准下,对图像中的每一个元素进行优化压缩。静止的背景不必压缩到以后的I帧之中去,否则会使带宽的使用变得很紧张。而如果这个背景图像静止10秒钟,就只要传送一次(假设我们不必担心有人在该时间内切人此频道),需要不断传送的仅是前台的比较小的图像元素。对有些节目类型,这样做会节省大量的带宽。MPEG一4标准对音频的处理也是相同的。例如,有一位独唱演员,伴随有电子合成器,在MPEG一2标准下,我们必须先把独唱和合成器作混合,然后再对合成的音频信号进行压缩与传送。在MPEG一4标准下,我们可以对独唱作单独压缩,然后再传送乐器数字接口的声轨信号,就可以使接收器重建伴音。当然,接收器必须能支持MIDI放音。与传送合成的信号相比,分别传送独唱信号和MIDI数据要节省大量的带宽。其它的节目类型同样可以作类似的规定。MPEG一7标准又叫多媒体内容描述接口标准。图像可以用色彩、纹理、形状、运动等参数来描述,MPEG一7标准是依靠众多的参数对图像与声音实现分类,并对它们的数据库实现查询。二、多媒体数据压缩技术的实现方法目前多媒体压缩技术的实现方法已有近百种,其中基于信源理论编码的压缩方法、离散余弦变换(DCT)和小波分解技术压缩算法的研究更具有代表性。小波技术突破了传统压缩方法的局限性,引入了局部和全局相关去冗余的新思想,具有较大的潜力,因此近几年来吸引了众多的研究者。在小波压缩技术中,一幅图像可以被分解为若干个叫做“小片”的区域;在每个小片中,图像经滤波后被分解成若干个低频与高频分量。低频分量可以用不同的分辨率进行量化,即图像的低频部分需要许多的二进制位,以改善图像重构时的信噪比。低频元素采用精细量化,高频分量可以量化得比较粗糙,因为你不太容易看到变化区域的噪声与误差。此外,碎片技术已经作为一种压缩方法被提出,这种技术依靠实际图形的重复特性。用碎片技术压缩图像时需要占用大量的计算机资源,但可以获得很好的结果。借助于从DNA序列研究中发展出来的模式识别技术,能减少通过WAN链路的流量,最多时的压缩比率能达到90%,从而为网络传送图像和声音提供更大的压缩比,减轻风络负荷,更好地实现网络信息传播。三、压缩原理由于图像数据之间存在着一定的冗余,所以使得数据的压缩成为可能。信息论的创始人Shannon提出把数据看作是信息和冗余度(redundancy)的组合。所谓冗余度,是由于一副图像的各像素之间存在着很大的相关性,可利用一些编码的方法删去它们,从而达到减少冗余压缩数据的目的。为了去掉数据中的冗余,常常要考虑信号源的统计特性,或建立信号源的统计模型。图像的冗余包括以下几种:(1) 空间冗余:像素点之间的相关性。(2) 时间冗余:活动图像的两个连续帧之间的冗余。(3) 信息熵冗余:单位信息量大于其熵。(4) 结构冗余:图像的区域上存在非常强的纹理结构。(5) 知识冗余:有固定的结构,如人的头像。(6) 视觉冗余:某些图像的失真是人眼不易觉察的。对数字图像进行压缩通常利用两个基本原理:(1) 数字图像的相关性。在图像的同一行相邻像素之间、活动图像的相邻帧的对应像素之间往往存在很强的相关性,去除或减少这些相关性,也就去除或减少图像信息中的冗余度,即实现了对数字图像的压缩。(2) 人的视觉心理特征。人的视觉对于边缘急剧变化不敏感(视觉掩盖效应),对颜色分辨力弱,利用这些特征可以在相应部分适当降低编码精度,而使人从视觉上并不感觉到图像质量的下降,从而达到对数字图像压缩的目的。编码压缩方法有许多种,从不同的角度出发有不同的分类方法,比如从信息论角度出发可分 为两大类:(1)冗余度压缩方法,也称无损压缩,信息保持编码或熵编码。具体讲就是解码图像和压缩 编码前的图像严格相同,没有失真,从数学上讲是一种可逆运算。(2)信息量压缩方法,也称有损压缩,失真度编码或熵压缩编码。也就是讲解码图像和原始图像是有差别的,允许有一定的失真。应用在多媒体中的图像压缩编码方法,从压缩编码算法原理上可以分类为:(1)无损压缩编码种类 •哈夫曼编码 •算术编码 •行程编码 •Lempel zev编码(2)有损压缩编码种类 •预测编码:DPCM,运动补偿 •频率域方法:正文变换编码(如DCT),子带编码 •空间域方法:统计分块编码 •模型方法:分形编码,模型基编码 •基于重要性:滤波,子采样,比特分配,矢量量化(3)混合编码 •JBIG,H261,JPEG,MPEG等技术标准衡量一个压缩编码方法优劣的重要指标(1)压缩比要高,有几倍、几十倍,也有几百乃至几千倍;(2)压缩与解压缩要快,算法要简单,硬件实现容易;(3)解压缩的图像质量要好。四、JPEG图像压缩算法1..JPEG压缩过程JPEG压缩分四个步骤实现:1.颜色模式转换及采样;变换;3.量化;4.编码。2.1.颜色模式转换及采样RGB色彩系统是我们最常用的表示颜色的方式。JPEG采用的是YCbCr色彩系统。想要用JPEG基本压缩法处理全彩色图像,得先把RGB颜色模式图像数据,转换为YCbCr颜色模式的数据。Y代表亮度,Cb和Cr则代表色度、饱和度。通过下列计算公式可完成数据转换。Y=+128人类的眼晴对低频的数据比对高频的数据具有更高的敏感度,事实上,人类的眼睛对亮度的改变也比对色彩的改变要敏感得多,也就是说Y成份的数据是比较重要的。既然Cb成份和Cr成份的数据比较相对不重要,就可以只取部分数据来处理。以增加压缩的比例。JPEG通常有两种采样方式:YUV411和YUV422,它们所代表的意义是Y、Cb和Cr三个成份的资料取样比例。2.变换DCT变换的全称是离散余弦变换(Discrete Cosine Transform),是指将一组光强数据转换成频率数据,以便得知强度变化的情形。若对高频的数据做些修饰,再转回原来形式的数据时,显然与原始数据有些差异,但是人类的眼睛却是不容易辨认出来。压缩时,将原始图像数据分成8*8数据单元矩阵,例如亮度值的第一个矩阵内容如下:JPEG将整个亮度矩阵与色度Cb矩阵,饱和度Cr矩阵,视为一个基本单元称作MCU。每个MCU所包含的矩阵数量不得超过10个。例如,行和列采样的比例皆为4:2:2,则每个MCU将包含四个亮度矩阵,一个色度矩阵及一个饱和度矩阵。当图像数据分成一个8*8矩阵后,还必须将每个数值减去128,然后一一代入DCT变换公式中,即可达到DCT变换的目的。图像数据值必须减去128,是因为DCT转换公式所接受的数字范围是在-128到+127之间。DCT变换公式:x,y代表图像数据矩阵内某个数值的坐标位置f(x,y)代表图像数据矩阵内的数个数值u,v代表DCT变换后矩阵内某个数值的坐标位置F(u,v)代表DCT变换后矩阵内的某个数值u=0 且 v=0 c(u)c(v)=1/>0 或 v>0 c(u)c(v)=1经过DCT变换后的矩阵数据自然数为频率系数,这些系数以F(0,0)的值最大,称为DC,其余的63个频率系数则多半是一些接近于0的正负浮点数,一概称之为AC。3.3、量化图像数据转换为频率系数后,还得接受一项量化程序,才能进入编码阶段。量化阶段需要两个8*8矩阵数据,一个是专门处理亮度的频率系数,另一个则是针对色度的频率系数,将频率系数除以量化矩阵的值,取得与商数最近的整数,即完成量化。当频率系数经过量化后,将频率系数由浮点数转变为整数,这才便于执行最后的编码。不过,经过量化阶段后,所有数据只保留整数近似值,也就再度损失了一些数据内容,JPEG提供的量化表如下:2.4、编码Huffman编码无专利权问题,成为JPEG最常用的编码方式,Huffman编码通常是以完整的MCU来进行的。编码时,每个矩阵数据的DC值与63个AC值,将分别使用不同的Huffman编码表,而亮度与色度也需要不同的Huffman编码表,所以一共需要四个编码表,才能顺利地完成JPEG编码工作。DC编码DC是彩采用差值脉冲编码调制的差值编码法,也就是在同一个图像分量中取得每个DC值与前一个DC值的差值来编码。DC采用差值脉冲编码的主要原因是由于在连续色调的图像中,其差值多半比原值小,对差值进行编码所需的位数,会比对原值进行编码所需的位数少许多。例如差值为5,它的二进制表示值为101,如果差值为-5,则先改为正整数5,再将其二进制转换成1的补码即可。所谓1的补码,就是将每个Bit若值为0,便改成1;Bit为1,则变成0。差值5应保留的位数为3,下表即列出差值所应保留的Bit数与差值内容的对照。在差值前端另外加入一些差值的霍夫曼码值,例如亮度差值为5(101)的位数为3,则霍夫曼码值应该是100,两者连接在一起即为100101。下列两份表格分别是亮度和色度DC差值的编码表。根据这两份表格内容,即可为DC差值加上霍夫曼码值,完成DC的编码工作。AC编码AC编码方式与DC略有不同,在AC编码之前,首先得将63个AC值按Zig-zag排序,即按照下图箭头所指示的顺序串联起来。63个AC值排列好的,将AC系数转换成中间符号,中间符号表示为RRRR/SSSS,RRRR是指第非零的AC之前,其值为0的AC个数,SSSS是指AC值所需的位数,AC系数的范围与SSSS的对应关系与DC差值Bits数与差值内容对照表相似。如果连续为0的AC个数大于15,则用15/0来表示连续的16个0,15/0称为ZRL(Zero Rum Length),而(0/0)称为EOB(Enel of Block)用来表示其后所剩余的AC系数皆等于0,以中间符号值作为索引值,从相应的AC编码表中找出适当的霍夫曼码值,再与AC值相连即可。例如某一组亮度的中间符为5/3,AC值为4,首先以5/3为索引值,从亮度AC的Huffman编码表中找到1111111110011110霍夫曼码值,于是加上原来100(4)即是用来取[5,4]的Huffman编码1111111110011110100,[5,4]表示AC值为4的前面有5个零。由于亮度AC,色度AC霍夫曼编码表比较长,在此省略去,有兴趣者可参阅相关书籍。实现上述四个步骤,即完成一幅图像的JPEG压缩。

不难,我可以帮你写。论文提纲可分为简单提纲和详细提纲两种。简单提纲是高度概括的,只提示论文的要点,如何展开则不涉及。这种提纲虽然简单,但由于它是经过深思熟虑构成的,写作时能顺利进行。没有这种准备,边想边写很难顺利地写下去。编写要点编写毕业论文提纲有两种方法:一、标题式写法。即用简要的文字写成标题,把这部分的内容概括出来。这种写法简明扼要,一目了然,但只有作者自己明白。毕业论文提纲一般不能采用这种方法编写。二、句子式写法。即以一个能表达完整意思的句子形式把该部分内容概括出来。这种写法具体而明确,别人看了也能明了,但费时费力。毕业论文的提纲编写要交与指导教师阅读,所以,要求采用这种编写方法。

《解析深度学习语音识别实践》百度网盘pdf最新全集下载:链接:

论文参考文献识别

写论文的时候,通常要求大家以后写十篇左右的参考文献。参考文献的要求应该和你写的题目有关。你写的是会计论文,后面的参考文献是体育论文,是完全不行的。下面和小编一起来了解论文怎么查参考文献? 论文参考文献通常需要10~15个左右,有些学校需要两个英文参考文献。参考文献通常有自己独特的格式,参考文献主要分为期刊和论文。许多学生不知道如何查看这些参考文献,其实并不难。最简单的方法就是直接从查重报告上抄下来。小编推荐的查重系统是Paperfree,将论文上传到该系统进行查重,通常等待15-30分钟左右,会有详细的查重报告。本查重报告将列出本文引用的一些参考文献,因此您只需将本查重报告上的一些参考文献原封不动地复制到您的论文中。这种查找参考文献的方法是最简单方便的,可以原封不动的复制,也可以保证参考文献的格式不会出错。 另一种方法是在早期写论文时阅读大量的参考文献,许多学生会记录这些参考文献的名称。您还可以阅读以前做的阅读笔记,并将这些参考文献摘录到论文中。

正规毕业论文查重是不包括参考文献的,参考文献并不在毕业论文查重范畴内。可是毕业论文查重并不能够识别全部的参考文献,只有符合格式的参考文献才会被毕业论文查重识别出来,这也就意味着只有参考文献的格式规范且正确的时候,毕业论文查重才会将该部分参考文献排除出查。

1、知网能够识别哪些参考文献?①有一个明显的“参考文献”标记,参考文献4个字独占一行,居中对齐或是居左对齐,看学校具体排版要求而定;②每个参考文献的引用都有一个明显的标记。标签编号可以是下列任何一种:[1]、(1)、【1】;②编号可由Word自动生成或手动写入;②不要在标签中添加标点符号,例如:不要[1.]或(1、)等;②在参考文献中最好有文献的出处、时间、书目信息;。⑥在一个参考文献内,或者时参考文献还没有结束的情况下,不要手动换行或使用回车符号,即自动换行、不要人为!2、如何增加知网对参考文献的识别概率?当然,如果您觉得以上编写参考文献的方法并不是特别保险,您还可以通过以下方式增加参考文献被识别的可能性:①“参考文献”四个字以标题格式设置;②所有标点符号都必须是英文格式,例如 “.”、“()”、“[]”和《》书名号一般可以直接删除;③参考文献中不要出现年月日,可以直接删除。例如,2018年7月4日改为;④参考文献内容顺序书写要正确。正确的格式如下:[1]张庆红,何清芳.机动车辆保险[M].北京:机械工业出版社,2016,65.如果作者有两个,中间用逗号隔开,作者写完后使用英文状态下的句号,一定要记住!⑤参考文献的标题——文章的类型[J]——期刊或者是出版社——出版的年份——页码(如果参考文献是期刊是需要写页码的)。其中,期刊[J]、图书[M]、硕士论文[D]。

一般来说,大部分的论文,它参考的文献都会有进行标注的,会在文章的末尾,或者是文章的开端,为著名此论文,某些地方节选了哪里的文献,可以根据这条线,去查询论文参考文献

语音识别毕业论文选题

随着时代的发展,网络通信已广泛地应用于政治、军事,经济及科学等各个领域,它改变了传统的事务处理方式,对社会的进步和发展起着很大的推动作用。下面我给大家带来通信工程专业 毕业 论文题目_通信专业论文怎么选题,希望能帮助到大家!

通信工程毕业论文题目

1、 通信工程项目管理系统集成服务浅探[J]

2、 试述我国通信工程发展现状与前景[J]

3、 网络传输技术在通信工程中的应用探析[J]

4、 通信工程中多网融合技术的应用问题探析[J]

5、 探究有线传输技术在通信工程中的应用及发展方向[J]

6、 探讨通信工程项目的网络优化[J]

7、 应用型通信工程专业计算机类课程建设研究[J]

8、 结合3G/4G网络与GPS定位技术实现通信工程现场监理[J]

9、 通信工程的风险管理探讨[J]

10、 如何解决通信工程管理中的问题[J]

11、 通信工程设计单位标准化管理研究[J]

12、 传输技术在通信工程中的应用解析[J]

13、 通信工程施工管理模式的创新研究[J]

14、 通信工程中有线传输技术的应用及改进[J]

15、 通信工程项目中的风险管理与控制策略研究[J]

16、 探析通信工程中传输技术的广泛应用[J]

17、 浅谈通信工程项目的质量管理[J]

18、 项目管理 方法 在移动通信工程管理中的应用研究[J]

19、 通信工程项目管理研究[J]

20、 通信工程光缆施工的质量控制探讨[J]

21、 试论在通信工程施工过程中信息化管理的应用[J]

22、 浅谈传输技术在通信工程中的应用及发展[J]

23、 浅谈通信工程技术传输的有效管理策略[J]

24、 信息通信工程中传输技术的有效应用[J]

25、 铁路通信工程中无线接入技术的应用探究[J]

26、 试论通信工程的特点及发展现状与前景[J]

27、 浅谈通信工程发展前景[J]

28、 以华为公司为例探析通信工程技术的社会经济价值[J]

29、 传输技术在通信工程中的应用与发展趋势[J]

30、 通信工程建设进度控制研究[J]

31、 关于多网融合在通信工程中的应用分析[J]

32、 基于通信工程传输技术的应用研究[J]

33、 强化通信工程安全管理的对策[J]

34、 通信工程存在的经济问题和发展分析[J]

35、 通信工程管理在项目中的应用[J]

36、 探讨通信工程项目的网络优化方式[J]

37、 传输技术对通信工程的作用[J]

38、 浅谈通信工程传输技术的应用[J]

39、 通信工程中有线传输技术的应用及改进[J]

40、 刍议通信工程传输技术的现状与未来发展[J]

41、 浅析我国通信工程发展现状与展望[J]

42、 通信工程项目管理中关键点的标准化研究[J]

43、 软交换技术在通信工程中的应用及发展方向[J]

44、 探究通信工程专业学生就业现状及对策研究[J]

45、 如何提高通信工程监理企业的竞争力[J]

46、 通信工程监理企业竞争力探析[J]

47、 浅谈通信工程信息技术[J]

48、 通信工程中土建工程质量控制探讨[J]

49、 通信工程项目管理中系统化、集成化实现的路径分析[J]

50、 通信工程中有线传输技术的改进研究[J]

移动通信毕业论文题目

1、大数据分析在移动通信网络优化中的应用研究

2、典型移动通信基站电磁环境影响模型化研究

3、高速移动通信场景下基于LTE-A中继系统的资源调度关键技术研究

4、基于专利信息分析的我国4G移动通信技术发展研究

5、移动通信基础设施建设中多方合作研究

6、移动通信基站管理系统的设计与实现

7、“营改增”对内蒙古移动通信公司 财务管理 的影响及对策研究

8、低轨宽带卫星移动通信系统OFDM传输技术研究

9、雷电脉冲对移动通信基站影响的研究

10、平流层CDMA移动通信蜂窝网的性能研究

11、B3G/4G系统中的无线资源分配的研究

12、下一代移动通信系统中跨层资源分配研究

13、基于OFDM的GEO卫星移动通信系统关键技术研究

14、下一代移动通信系统中的关键传输技术研究

15、基于SCP的海峡两岸移动通信产业比较研究

16、多场景下移动通信系统业务承载性能研究

17、未来移动通信系统资源分配与调度策略研究

18、高速铁路移动通信系统性能研究

19、下一代移动通信网络中的无线资源管理与调度策略研究

20、下一代卫星移动通信系统关键技术研究

21、混能供电移动通信网络的节能方法研究

22、移动通信数据挖掘关键应用技术研究

23、移动通信系统中的认证和隐私保护协议研究

24、基于移动通信定位数据的交通信息提取及分析方法研究

25、电信运营商在移动通信标准发展中的产业作用关系研究

26、天津移动通信市场非线性预测及面向3G的发展策略研究

27、移动通信产业链创新系统研究

28、移动通信智能天线关键技术研究

29、移动通信运营商产品品牌 文化 研究

30、宽带移动通信系统资源调度和干扰管理的研究

31、未来移动通信基站体系结构--定性理论、方法与实践

32、移动通信系统中天线的分析与设计

33、基于客户的移动通信品牌资产模型及影响机理研究

34、中国移动通信业价格竞争行为研究

35、具有NFC功能的移动通信终端电路设计

36、具有电子支付功能的移动通信终端软件设计

37、移动通信服务业顾客满意度及忠诚度影响因素比较研究

38、移动通信企业 市场营销 成本管理研究

39、移动通信 无线网络 建设项目的质量管理研究

40、卫星移动通信系统编码协作技术

通信工程专业论文题目

1、基于61单片机的语音识别系统设计

2、红外遥控密码锁的设计

3、简易无线对讲机电路设计

4、基于单片机的数字温度计的设计

5、甲醛气体浓度检测与报警电路的设计

6、基于单片机的水温控制系统设计

7、设施环境中二氧化碳检测电路设计

8、基于单片机的音乐合成器设计

9、设施环境中湿度检测电路设计

10、基于单片机的家用智能总线式开关设计

11、 篮球 赛计时记分器

12、汽车倒车防撞报警器的设计

13、设施环境中温度测量电路设计

14、等脉冲频率调制的原理与应用

15、基于单片机的电加热炉温

16、病房呼叫系统

17、单片机打铃系统设计

18、智能散热器控制器的设计

19、电子体温计的设计

20、基于FPGA音频信号处理系统的设计

21、基于MCS-51数字温度表的设计

22、基于SPCE061A的语音控制小车设计

23、基于VHDL的智能交通控制系统

24、基于VHDL语言的数字密码锁控制电路的设计

25、基于单片机的超声波测距系统的设计

26、基于单片机的八路抢答器设计

27、基于单片机的安全报警器

28、基于SPCE061A的易燃易爆气体监测仪设计

29、基于CPLD的LCD显示设计

30、基于单片机的电话远程控制家用电器系统设计

31、基于单片机的交通信号灯控制电路设计

32、单片机的数字温度计设计

33、基于单片机的可编程多功能电子定时器

34、基于单片机的空调温度控制器设计

35、数字人体心率检测仪的设计

36、基于单片机的室内一氧化碳监测及报警系统的研究

37、基于单片机的数控稳压电源的设计

38、原油含水率检测电路设计

39、基于AVR单片机幅度可调的DDS信号发生器

40、四路数字抢答器设计

41、单色显示屏的设计

42、基于CPLD直流电机控制系统的设计

43、基于DDS的频率特性测试仪设计

44、基于EDA的计算器的设计

45、基于EDA技术的数字电子钟设计

46、基于EDA技术的智力竞赛抢答器的设计

47、基于FPGA的18路智力竞赛电子抢答器设计

48、基于USB接口的数据采集系统设计与实现

49、基于单片机的简易智能小车的设计

50、基于单片机的脉象信号采集系统设计

51、一种斩控式交流电子调压器设计

52、通信用开关电源的设计

53、鸡舍灯光控制器

54、三相电机的保护控制系统的分析与研究

55、信号高精度测频方法设计

56、高精度电容电感测量系统设计

57、虚拟信号发生器设计和远程实现

58、脉冲调宽型伺服放大器的设计

59、超声波测距语音提示系统的研究

60、电表智能管理装置的设计

通信工程专业毕业论文题目相关 文章 :

★ 通信工程毕业论文题目

★ 通信工程毕业论文题目

★ 通信工程毕业论文选题

★ 通信工程专业毕业论文

★ 通信工程的毕业论文范例(2)

★ 通信工程的毕业论文(2)

★ 通信工程的毕业论文参考范文

★ 通信工程方面毕业论文(2)

★ 通信工程的毕业论文优秀范文(2)

★ 通信工程本科毕业论文

语音识别技术研究让人更加方便地享受到更多的社会信息资源和现代化服务,对任何事都能够通过语音交互的方式。 我整理了浅谈语音识别技术论文,欢迎阅读!

语音识别技术概述

作者:刘钰 马艳丽 董蓓蓓

摘要:本文简要介绍了语音识别技术理论基础及分类方式,所采用的关键技术以及所面临的困难与挑战,最后讨论了语音识别技术的 发展 前景和应用。

关键词:语音识别;特征提取;模式匹配;模型训练

Abstract:This text briefly introduces the theoretical basis of the speech-identification technology,its mode of classification,the adopted key technique and the difficulties and challenges it have to developing prospect ion and application of the speech-identification technology are discussed in the last part.

Keywords:Speech identification;Character Pick-up;Mode matching;Model training

一、语音识别技术的理论基础

语音识别技术:是让机器通过识别和理解过程把语音信号转变为相应的文本或命令的高级技术。语音识别以语音为研究对象,它是语音信号处理的一个重要研究方向,是模式识别的一个分支,涉及到生 理学 、心理学、语言学、 计算 机 科学 以及信号处理等诸多领域,甚至还涉及到人的体态语言(如人在说话时的表情、手势等行为动作可帮助对方理解),其最终目标是实现人与机器进行 自然 语言通信。

不同的语音识别系统,虽然具体实现细节有所不同,但所采用的基本技术相似,一个典型语音识别系统主要包括特征提取技术、模式匹配准则及模型训练技术三个方面。此外,还涉及到语音识别单元的选取。

(一) 语音识别单元的选取

选择识别单元是语音识别研究的第一步。语音识别单元有单词(句)、音节和音素三种,具体选择哪一种,由具体的研究任务决定。

单词(句)单元广泛应用于中小词汇语音识别系统,但不适合大词汇系统,原因在于模型库太庞大,训练模型任务繁重,模型匹配算法复杂,难以满足实时性要求。

音节单元多见于汉语语音识别,主要因为汉语是单音节结构的语言,而 英语 是多音节,并且汉语虽然有大约1300个音节,但若不考虑声调,约有408个无调音节,数量相对较少。因此,对于中、大词汇量汉语语音识别系统来说,以音节为识别单元基本是可行的。

音素单元以前多见于英语语音识别的研究中,但目前中、大词汇量汉语语音识别系统也在越来越多地采用。原因在于汉语音节仅由声母(包括零声母有22个)和韵母(共有28个)构成,且声韵母声学特性相差很大。实际应用中常把声母依后续韵母的不同而构成细化声母,这样虽然增加了模型数目,但提高了易混淆音节的区分能力。由于协同发音的影响,音素单元不稳定,所以如何获得稳定的音素单元,还有待研究。

(二) 特征参数提取技术

语音信号中含有丰富的信息,但如何从中提取出对语音识别有用的信息呢?特征提取就是完成这项工作,它对语音信号进行分析处理,去除对语音识别无关紧要的冗余信息,获得影响语音识别的重要信息。对于非特定人语音识别来讲,希望特征参数尽可能多的反映语义信息,尽量减少说话人的个人信息(对特定人语音识别来讲,则相反)。从信息论角度讲,这是信息压缩的过程。

线性预测(LP)分析技术是目前应用广泛的特征参数提取技术,许多成功的应用系统都采用基于LP技术提取的倒谱参数。但线性预测模型是纯数学模型,没有考虑人类听觉系统对语音的处理特点。

Mel参数和基于感知线性预测(PLP)分析提取的感知线性预测倒谱,在一定程度上模拟了人耳对语音的处理特点,应用了人耳听觉感知方面的一些研究成果。实验证明,采用这种技术,语音识别系统的性能有一定提高。

也有研究者尝试把小波分析技术应用于特征提取,但目前性能难以与上述技术相比,有待进一步研究。

(三)模式匹配及模型训练技术

模型训练是指按照一定的准则,从大量已知模式中获取表征该模式本质特征的模型参数,而模式匹配则是根据一定准则,使未知模式与模型库中的某一个模型获得最佳匹配。

语音识别所应用的模式匹配和模型训练技术主要有动态时间归正技术(DTW)、隐马尔可夫模型(HMM)和人工神经元 网络 (ANN)。

DTW是较早的一种模式匹配和模型训练技术,它应用动态规划方法成功解决了语音信号特征参数序列比较时时长不等的难题,在孤立词语音识别中获得了良好性能。但因其不适合连续语音大词汇量语音识别系统,目前已被HMM模型和ANN替代。

HMM模型是语音信号时变特征的有参表示法。它由相互关联的两个随机过程共同描述信号的统计特性,其中一个是隐蔽的(不可观测的)具有有限状态的Markor链,另一个是与Markor链的每一状态相关联的观察矢量的随机过程(可观测的)。隐蔽Markor链的特征要靠可观测到的信号特征揭示。这样,语音等时变信号某一段的特征就由对应状态观察符号的随机过程描述,而信号随时间的变化由隐蔽Markor链的转移概率描述。模型参数包括HMM拓扑结构、状态转移概率及描述观察符号统计特性的一组随机函数。按照随机函数的特点,HMM模型可分为离散隐马尔可夫模型(采用离散概率密度函数,简称DHMM)和连续隐马尔可夫模型(采用连续概率密度函数,简称CHMM)以及半连续隐马尔可夫模型(SCHMM,集DHMM和CHMM特点)。一般来讲,在训练数据足够的,CHMM优于DHMM和SCHMM。HMM模型的训练和识别都已研究出有效的算法,并不断被完善,以增强HMM模型的鲁棒性。

人工神经元 网络 在语音识别中的 应用是现在研究的又一 热点。ANN本质上是一个自适应非线性动力学系统,模拟了人类神经元活动的原理,具有自学、联想、对比、推理和概括能力。这些能力是HMM模型不具备的,但ANN又不个有HMM模型的动态时间归正性能。因此,现在已有人研究如何把二者的优点有机结合起来,从而提高整个模型的鲁棒性。

二、语音识别的困难与对策

目前,语音识别方面的困难主要表现在:

(一)语音识别系统的适应性差,主要体现在对环境依赖性强,即在某种环境下采集到的语音训练系统只能在这种环境下应用,否则系统性能将急剧下降;另外一个问题是对用户的错误输入不能正确响应,使用不方便。

(二)高噪声环境下语音识别进展困难,因为此时人的发音变化很大,像声音变高,语速变慢,音调及共振峰变化等等,这就是所谓Lombard效应,必须寻找新的信号分析处理方法。

(三)语言学、生 理学 、心理学方面的研究成果已有不少,但如何把这些知识量化、建模并用于语音识别,还需研究。而语言模型、语法及词法模型在中、大词汇量连续语音识别中是非常重要的。

(四)我们对人类的听觉理解、知识积累和学习机制以及大脑神经系统的控制机理等分面的认识还很不清楚;其次,把这方面的现有成果用于语音识别,还有一个艰难的过程。

(五)语音识别系统从实验室演示系统到商品的转化过程中还有许多具体问题需要解决,识别速度、拒识问题以及关键词(句)检测技术等等技术细节要解决。

三、语音识别技术的前景和应用

语音识别技术 发展 到今天,特别是中小词汇量非特定人语音识别系统识别精度已经大于98%,对特定人语音识别系统的识别精度就更高。这些技术已经能够满足通常应用的要求。由于大规模集成电路技术的发展,这些复杂的语音识别系统也已经完全可以制成专用芯片,大量生产。在西方 经济 发达国家,大量的语音识别产品已经进入市场和服务领域。一些用户交机、电话机、手机已经包含了语音识别拨号功能,还有语音记事本、语音智能玩具等产品也包括语音识别与语音合成功能。人们可以通过电话网络用语音识别口语对话系统查询有关的机票、 旅游 、银行信息,并且取得很好的结果。

语音识别是一门交叉学科,语音识别正逐步成为信息技术中人机接口的关键技术,语音识别技术与语音合成技术结合使人们能够甩掉键盘,通过语音命令进行操作。语音技术的应用已经成为一个具有竞争性的新兴高技术产业。

参考 文献 :

[1]科大讯飞语音识别技术专栏. 语音识别产业的新发展. 企业 专栏.通讯世界,:(总l12期)

[2]任天平,门茂深.语音识别技术应用的进展.科技广场.河南科技,

[3]俞铁城.科大讯飞语音识别技术专栏.语音识别的发展现状.企业专栏.通讯世界, (总122期)

[4]陈尚勤等.近代语音识别.西安: 电子 科技大学出版社,1991

[5]王炳锡等.实用语音识别基础.Practical Fundamentals of Speech Recognition.北京:国防 工业 出版社,2005

[6](美)L.罗宾纳.语音识别基本原理.北京:清华大学出版社,1999

点击下页还有更多>>>浅谈语音识别技术论文

tx027数字通信系统数据纠检错方法研究tx028WCDMA移动通信中功率控制的研究与仿真tx029无线网络优化研究tx030移动通信的切换技术的研究tx031基于网络的虚拟仪器测试系统tx032基于GSM模块的车载防盗系统设计 tx033基于GSM短信模块的家庭防盗报警系统tx034电信运营商收入保障系统设计与实现tx035单片机串行通信发射机tx036FDM通信系统基带数据tx037CDMA通信系统中的接入信道部分进行仿真与分析tx038基于连续隐马尔科夫模型的语音识别tx039GPRS无线通讯技术的应用—GPRS短消息接收的开发和实现tx040基于ARQ的数字通信系统纠检错方法tx041数字通信系统数据帧同步设计及可靠性研究tx042GSM扩容工程网络规划设计tx043WCDMA的网络规划及优化tx044WCDMA移动通信中功率控制的研究与仿真tx045可接收数字广播节目的CDMA移动终端的软件设计tx046可接收数字广播节目的GSM移动终端的硬件设计tx047基于Matlab的OFDM系统仿真tx048基于小波变换及其在信号和图象处理中的应用研究tx049小波变换及其在信号和图象处理中的应用研究tx050小灵通基站的开关电源设计tx051数字通信系统数据纠检错方法研究更多最新最全的通信毕业论文设计题目:

相关百科

热门百科

首页
发表服务