是音色,物体的振动快慢影响着音调,它决定着音调的高低。而音色取决于材料的不同。西瓜成熟和未成熟时,它的瓜不同。所以是音色而不是音调。
英语弱读中Schwa的声学研究论文
摘要: 笔者利用声学分析软件Parrt对英语弱读中的元音schwa进行了声学分析,旨在引起中国英语学习者和教育者对英语弱读现象的重视。研究发现,虽然受到不同的发音者和相邻元音、辅音的影响,schwa基本上与IPA中的中央元音/E/相对应。由于schwa与基本元音在发音上有很大的不同,因此,英语学习者有必要学习英语弱读的发音及规律。
关键词: Schwa 弱读 实验语音学
一、引言
弱读是英语中十分常见的一种音系学上的现象。弱读,与重读对应,常常指功能词在快速、连续语流中没有重音的现象。功能词主要指介词、连词等,它们在一定的语境中被重读,但在更多情况下被弱读(Roach.P., 2000,pp.102-103)。正如Roach.P.所说,掌握弱读现象有助于英语学习者避免“全重音”的发音方式,同时帮助学习者更好的理解在交谈中使用弱读的英语使用者。在本文中,笔者分析了几个最常见的有弱读形式的功能词,并通过声学分析软件总结它们的声学规律,希望研究成果能够帮助英语学习者更好的理解和掌握弱读现象,同时为以后的声学研究起到抛砖引玉的作用。
二、关于弱读
许多功能词同时拥有重读和弱读两种形式,有时一个功能词能够有多种不同的弱读形式(Alan Cruttenden, 2001,pp.252-253),如“to”在辅音前会读成 / /,在元音前会读成/ /。然而,无论它们的形式多复杂,功能词在由重读变化到弱读时大致有如下3种变化规律:
1、用中央元音/ /(schwa)代替词中元音。如some /s /, 弱读时读作/s /;
2、缩短音长。单词在弱读时强度都会被减弱,时常变短,这还包括在长元音变短元音时音节变短的现象。如we / /,弱读时读作/ /;
3、省略元音或辅音。如can /k /,弱读时读作/ /; his / / 读作/ /。
在实际应用中,用本族语进行交谈的人会更多的使用功能词的弱读形式,而其重读形式则多用于特殊的强调或对比,或单词处于句尾时。
三、研究方法
3.1研究对象
在英语中有超过200个词具有各自的弱读形式。在本文中,笔者从Alan Cruttenden (2001, pp. 252-253)所列的弱读单词表中选出6个作为研究对象。作为对比,基本元音的声学性质也被记录下来。
表1 样本单词的重读和弱读形式
样本要求:
1. 为保证所测数据具有代表性,样本单词至少有10名以上不同的播报员进行朗读。
2. 由于男声与女声F1和F2存在差别,本研究只选用男声作为研究对象。
3. 尽量选择音质好的新闻语流,以保证得出的数据不受干扰,更加准确。
4. 新闻的语速是连贯和标准的。因此,研究将选用VOA 常速英语而不是慢速英语作为研究素材。
在对样本单词的弱读音节进行声学分析过程中,同时记录主要元音的共振峰值,以便与弱读音位进行比较。主要元音有:~ ~,~ ~,~ ~,~ ~,/ /,/ /,/ /,/ /,/ :/,/ :/。笔者从新闻搞中挑选出包含这些元音的单词进行分析,以获得元音的共振峰值。在单词的选择上,首选CVC结构的单词,以避免相邻元音的干扰。由于j或w也会对元音有干扰,所以还要避免j或w与元音相连的词。此外,在美式英语中,由于有儿化音的存在,/ /多为/ /。
表2 各元音和schwa的F1和F2的平均值
3.2 实验资料的分析与处理
本研究使用语音分析软件Praat进行F1和F2的峰值提取及辅音省略分析,对所得数据使用Excel及SPSS数据统计软件进行进一步的分析。
四、实验结果和讨论
从图1中F1和F2的'值可以看出,虽然图中的点总体上是分散的,但schwa的共共振峰平均值与中央元音,即IPA中的/ /相符。所得数据中,F1的值比F2变化更大,从1000HZ 到 1900HZ。值的多样性源于不同发音者的发音习惯和口腔比例。在计算平均值的时候,属于单词的重音形式的一些值会被排除,如“as”的一个样本,其F1为701HZ,F2为1691HZ。
图1:基本元音(灰色的点)和6个单词的F1、F2平均值。
当样本单词在快速语流中被弱读时,它们常常与其他词连读,例如“first of all”, 会被读成 //。因此,“of”中的/?/的值会受到相邻辅音的影响。如表3所示。
表3 与不同的辅音相邻时“of”中/ /的平均值
从连读角度分析,即使是同一个发音者在发同一个音的时候,所得的/ /的值也会不同。如表4所示。
表4 在同一篇新闻中同时与/t/连读时“of”中/?/的共振峰值
另外,/ /的值也会受到其发音长度和相邻元音的共振峰值的影响。如表5所示,虽然相邻辅音都是/t/,/ /的共振峰值各不相同。
表5 在不同发音长度和相邻元音影响下/ /的值
在表5中,t3的共振峰值明显低于其他3个值。从发音的长度和强度分析,发音者没有足够的时间调整口腔形状和降低舌位到与其他3组t相似的程度。对比实际发音效果,t3的声音没有其他3组那么清晰和大声。因此,t3显示出最低的F1值和最高的F2值。同时,/ /的F1和F2的值也受到相邻元音的影响,表现为相邻元音的F1和F2的值越高,/ /的F1和F2的值也越高。
五、结论
虽然/ /的共振峰值因为受到不同发声者和相邻元、辅音的影响而变化较大,但是共振峰平均数值基本上与中央元音相对应。由于Schwa在发音上与中国英语学习者日常接触的基本元音有很大的不同,因此掌握正确的弱读规律是十分必要的。另外,虽然国内许多口语教材都对弱读进行了介绍(白心敏,2010,pp.70),但很少有提及弱读的变化规律,发音方法等。笔者希望本文能够引起学习者对弱读学习的重视,同时呼吁更多的学者对弱读进行更深一步的研究。
参考文献:
[1]Alan Cruttenden.Gimson’s Pronunciation of English.(6thed).BEijing: ForEIgn Language Teaching and Research Press, & Edward Arnold (Publishers) Limited.pp.252-253.
[2]Roach.P.. English Phonetics and Phonology. (2nd ed). Beijing: Foreign Language Teaching and Research Press, &The press of the University of Cambridge.pp.102-103.
[3]白心敏.英语语音教学中不可忽视的弱读现象[J].河北北方学院学报(社会科学版), Vol.26 No.2 Apr. pp.70
前几天我自己写的
我是高一的酷爱物理这是一篇合写的论文,你自己拆开吧
我写了整整4个小时还不算构思 给我最佳吧
论文:论声波与电磁波的异同2011年02月15日 分类:个人日记
说起波大家一定会想起两种最普通的波:声波和光波(电磁波),很多人将这两者混为一谈,这是错误的。
通俗的说,声波是用来听的,而电磁波是用来看的,当然这样说未免有些不科学。较严格的说,声波是通过介质传播的,而电磁波是通过“场”传播的,这里的场可以是电场、磁场。
声波是由物体的振动引起的,如果物体周围有介质的话,振动就会传给介质,再由介质传给其他物体,换句话说,能量是随着振动在传递。声波是机械波的一种,具有机械波的特性。声波分为横波和纵波。
电磁波的性质要比声波复杂得多,电场或磁场的变化都会引起电磁波,我们知道电路状态发生改变时会引发磁场的变化,变化磁场中的导体会带电,这时的电场也是变化的,会再次产生变化的磁场,换句话说,电磁波的能量是以电与磁的形式交替传播的,变化的电场产生磁场,变化的磁场产生电场。由麦克斯韦电磁理论可知,变化的电场和变化的磁场是相互联系着的一个不可分割的统一体,即电磁场,而变化的电场和变化的磁场总是交替产生的,并且由产生的区域向周围空间传播,这就是电磁波。电磁波在空间中传播不需要介质,它是一种横波,传递着电磁场的能量。最普通的电磁波是可见光。关于光最早出现两种学说:由惠更斯提出的波动说和曾为牛顿所提倡的微粒说,惠更斯认为光是一种波动,由发光体引起,和声波一样依靠介质来传播,这种学说直到19世纪初当光的干涉和衍射现象被发现后才得到广泛承认,而牛顿认为光是由光源发出的微粒,它从光源沿直线行进至被照物,因此可以想象为一束由发光体射向被照物的高速微粒。此学说直观地解释了光的直线传播及反射、折射等现象,曾被普遍接受直到19世纪初光的干涉等现象发现后,才被波动说所推翻,但在19世纪和20世纪初,许多有光和物质相互作用的现象,如光电效应,不能用波动说来解释,这促使爱因斯坦于1905年提出光是一种具有粒子性的实物:光子,但这种观念并不摒弃光具有波动的性质,这种关于光的波粒二象性的认识被人们所认可,也是量子理论的基础。
声波和电磁波 1、都能反射与折射;2、都有衍射现象(波绕过障碍物继续传播的现象);3、都能叠加(几列波相遇时,每列波都能保持各自原来的传播方向继续传播而不互相干扰,只是在重叠的区域里,任一质点的总位移等于各列波分别引起的位移的矢量和);4、都有干涉现象(频率相同的两列波叠加使某些区域的振动加强,使某些区域的振动减弱,并且振动加强和振动减弱的区域相互间隔的现象叫做波的干涉);5、都有多普勒效应(由于波源和观察者之间的相对运动,使观察者感到波的频率发生变化的现象叫做多普勒效应,举个例子便是救护车鸣着笛自你面前飞驰而过,你会发现当车距你近时和当车距你远时音调的高低不同)声波和电磁波还有一个很大的差别便是电磁波的速度要比声波快得多。
腹化风雪:本人初次发表论文,请多提意见,谢谢。
无声的世界
如果世界没有声音,会是什么样的呢?如果世界没有声音,我们就不再有语言;如果世界没有声音,生物也就不需要听觉;如果世界没有声音,也就没有摇滚爵士乐;如果世界没有声音,也就没有广播和影片;如果世界没有声音,社会可能多了不少危险;如果世界没有声音,也就不存在这世界。
在这个世界上,有乐音,有噪音,但这两个词差天同地。幸好我们有耳朵,能听到这个世界的声音。如果没了声音,世界就变得死一般寂静,那对于我们实在是太可怕
如果真的没有了声音,我们会怎样呢?
如果你进入到一个没有声音的世界,你可以听到自己的心跳、行动时衣服的摩擦声,甚至可以听到关节摩擦声和血液的流动声。半小时后,你的听觉会更加敏锐,只要你轻吸一下鼻子,就像听到一声大喝。甚至一根针掉在地上,也会感到像一记重锤敲在地面上。一个小时后,你开始感到极度恐惧;三至四小时后,你便失去理智,逐渐走向死亡的陷阱。
可见没有声音是多么可怕。耳朵聋了,是否跟在没有声音的世界一样呢?我以前没有认识到自己能听到声音是很幸福的,那我以后要真惜。让我们多享受美妙的声音。
如果世界没有声音,我们就不再有语言;如果世界没有声音,生物也就不需要听觉;如果世界没有声音,也就没有摇滚爵士乐;如果世界没有声音,也就没有广播和影片;如果世界没有声音,社会可能多了不少危险;如果世界没有声音,也就没有物理教学;如果世界没有声音,也就没有这篇《无声的世界》。
与机器进行语音交流,让机器明白你说什么,这是人们长期以来梦寐以求的事情。语音识别技术就是让机器通过识别和理解过程把语音信号转变为相应的文本或命令的高技术。语音识别是一门交叉学科。近二十年来,语音识别技术取得显著进步,开始从实验室走向市场。人们预计,未来10年内,语音识别技术将进入工业、家电、通信、汽车电子、医疗、家庭服务、消费电子产品等各个领域。
语音识别听写机在一些领域的应用被美国新闻界评为1997年计算机发展十件大事之一。很多专家都认为语音识别技术是2000年至2010年间信息技术领域十大重要的科技发展技术之一。
语音识别技术所涉及的领域包括:信号处理、模式识别、概率论和信息论、发声机理和听觉机理、人工智能等等。 任务分类和应用 根据识别的对象不同,语音识别任务大体可分为3类,即孤立词识别(isolated word recognition),关键词识别(或称关键词检出,keyword spotting)和连续语音识别。其中,孤立词识别 的任务是识别事先已知的孤立的词,如“开机”、“关机”等;连续语音识别的任务则是识别任意的连续语音,如一个句子或一段话;连续语音流中的关键词检测针对的是连续语音,但它并不识别全部文字,而只是检测已知的若干关键词在何处出现,如在一段话中检测“计算机”、“世界”这两个词。
根据针对的发音人,可以把语音识别技术分为特定人语音识别和非特定人语音识别,前者只能识别一个或几个人的语音,而后者则可以被任何人使用。显然,非特定人语音识别系统更符合实际需要,但它要比针对特定人的识别困难得多。
另外,根据语音设备和通道,可以分为桌面(PC)语音识别、电话语音识别和嵌入式设备(手机、PDA等)语音识别。不同的采集通道会使人的发音的声学特性发生变形,因此需要构造各自的识别系统。
语音识别的应用领域非常广泛,常见的应用系统有:语音输入系统,相对于键盘输入方法,它更符合人的日常习惯,也更自然、更高效;语音控制系统,即用语音来控制设备的运行,相对于手动控制来说更加快捷、方便,可以用在诸如工业控制、语音拨号系统、智能家电、声控智能玩具等许多领域;智能对话查询系统,根据客户的语音进行操作,为用户提供自然、友好的数据库检索服务,例如家庭服务、宾馆服务、旅行社服务系统、订票系统、医疗服务、银行服务、股票查询服务等等。 前端前端处理是指在特征提取之前,先对原始语音进行处理,部分消除噪声和不同说话人带来的影响,使处理后的信号更能反映语音的本质特征。最常用的前端处理有端点检测和语音增强。端点检测是指在语音信号中将语音和非语音信号时段区分开来,准确地确定出语音信号的起始点。经过端点检测后,后续处理就可以只对语音信号进行,这对提高模型的精确度和识别正确率有重要作用。语音增强的主要任务就是消除环境噪声对语音的影响。目前通用的方法是采用维纳滤波,该方法在噪声较大的情况下效果好于其它滤波器。处理声学特征 声学特征的提取与选择是语音识别的一个重要环节。声学特征的提取既是一个信息大幅度压缩的过程,也是一个信号解卷过程,目的是使模式划分器能更好地划分。由于语音信号的时变特性,特征提取必须在一小段语音信号上进行,也即进行短时分析。这一段被认为是平稳的分析区间称之为帧,帧与帧之间的偏移通常取帧长的1/2或1/3。通常要对信号进行预加重以提升高频,对信号加窗以避免短时语音段边缘的影响。常用的一些声学特征* 线性预测系数LPC:线性预测分析从人的发声机理入手,通过对声道的短管级联模型的研究,认为系统的传递函数符合全极点数字滤波器的形式,从而n 时刻的信号可以用前若干时刻的信号的线性组合来估计。通过使实际语音的采样值和线性预测采样值之间达到均方差最小LMS,即可得到线性预测系数LPC。对 LPC的计算方法有自相关法(德宾Durbin法)、协方差法、格型法等等。计算上的快速有效保证了这一声学特征的广泛使用。与LPC这种预测参数模型类似的声学特征还有线谱对LSP、反射系数等等。
* 倒谱系数CEP:利用同态处理方法,对语音信号求离散傅立叶变换DFT后取对数,再求反变换iDFT就可得到倒谱系数。对LPC倒谱(LPCCEP),在获得滤波器的线性预测系数后,可以用一个递推公式计算得出。实验表明,使用倒谱可以提高特征参数的稳定性。
* Mel倒谱系数MFCC和感知线性预测PLP:不同于LPC等通过对人的发声机理的研究而得到的声学特征,Mel倒谱系数MFCC和感知线性预测 PLP是受人的听觉系统研究成果推动而导出的声学特征。对人的听觉机理的研究发现,当两个频率相近的音调同时发出时,人只能听到一个音调。临界带宽指的就是这样一种令人的主观感觉发生突变的带宽边界,当两个音调的频率差小于临界带宽时,人就会把两个音调听成一个,这称之为屏蔽效应。Mel刻度是对这一临界带宽的度量方法之一。
MFCC的计算首先用FFT将时域信号转化成频域,之后对其对数能量谱用依照Mel刻度分布的三角滤波器组进行卷积,最后对各个滤波器的输出构成的向量进行离散余弦变换DCT,取前N个系数。PLP仍用德宾法去计算LPC参数,但在计算自相关参数时用的也是对听觉激励的对数能量谱进行DCT的方法。声学模型 语音识别系统的模型通常由声学模型和语言模型两部分组成,分别对应于语音到音节概率的计算和音节到字概率的计算。本节和下一节分别介绍声学模型和语言模型方面的技术。
HMM声学建模:马尔可夫模型的概念是一个离散时域有限状态自动机,隐马尔可夫模型HMM是指这一马尔可夫模型的内部状态外界不可见,外界只能看到各个时刻的输出值。对语音识别系统,输出值通常就是从各个帧计算而得的声学特征。用HMM刻画语音信号需作出两个假设,一是内部状态的转移只与上一状态有关,另一是输出值只与当前状态(或当前的状态转移)有关,这两个假设大大降低了模型的复杂度。HMM的打分、解码和训练相应的算法是前向算法、Viterbi算法和前向后向算法。
语音识别中使用HMM通常是用从左向右单向、带自环、带跨越的拓扑结构来对识别基元建模,一个音素就是一个三至五状态的HMM,一个词就是构成词的多个音素的HMM串行起来构成的HMM,而连续语音识别的整个模型就是词和静音组合起来的HMM。上下文相关建模:协同发音,指的是一个音受前后相邻音的影响而发生变化,从发声机理上看就是人的发声器官在一个音转向另一个音时其特性只能渐变,从而使得后一个音的频谱与其他条件下的频谱产生差异。上下文相关建模方法在建模时考虑了这一影响,从而使模型能更准确地描述语音,只考虑前一音的影响的称为Bi- Phone,考虑前一音和后一音的影响的称为Tri-Phone。
英语的上下文相关建模通常以音素为基元,由于有些音素对其后音素的影响是相似的,因而可以通过音素解码状态的聚类进行模型参数的共享。聚类的结果称为senone。决策树用来实现高效的triphone对senone的对应,通过回答一系列前后音所属类别(元/辅音、清/浊音等等)的问题,最终确定其HMM状态应使用哪个senone。分类回归树CART模型用以进行词到音素的发音标注。 语言模型语言模型主要分为规则模型和统计模型两种。统计语言模型是用概率统计的方法来揭示语言单位内在的统计规律,其中N-Gram简单有效,被广泛使用。
N-Gram:该模型基于这样一种假设,第n个词的出现只与前面N-1个词相关,而与其它任何词都不相关,整句的概率就是各个词出现概率的乘积。这些概率可以通过直接从语料中统计N个词同时出现的次数得到。常用的是二元的Bi-Gram和三元的Tri-Gram。
语言模型的性能通常用交叉熵和复杂度(Perplexity)来衡量。交叉熵的意义是用该模型对文本识别的难度,或者从压缩的角度来看,每个词平均要用几个位来编码。复杂度的意义是用该模型表示这一文本平均的分支数,其倒数可视为每个词的平均概率。平滑是指对没观察到的N元组合赋予一个概率值,以保证词序列总能通过语言模型得到一个概率值。通常使用的平滑技术有图灵估计、删除插值平滑、Katz平滑和Kneser-Ney平滑。 搜索 连续语音识别中的搜索,就是寻找一个词模型序列以描述输入语音信号,从而得到词解码序列。搜索所依据的是对公式中的声学模型打分和语言模型打分。在实际使用中,往往要依据经验给语言模型加上一个高权重,并设置一个长词惩罚分数。
Viterbi:基于动态规划的Viterbi算法在每个时间点上的各个状态,计算解码状态序列对观察序列的后验概率,保留概率最大的路径,并在每个节点记录下相应的状态信息以便最后反向获取词解码序列。Viterbi算法在不丧失最优解的条件下,同时解决了连续语音识别中HMM模型状态序列与声学观察序列的非线性时间对准、词边界检测和词的识别,从而使这一算法成为语音识别搜索的基本策略。
由于语音识别对当前时间点之后的情况无法预测,基于目标函数的启发式剪枝难以应用。由于Viterbi算法的时齐特性,同一时刻的各条路径对应于同样的观察序列,因而具有可比性,束Beam搜索在每一时刻只保留概率最大的前若干条路径,大幅度的剪枝提高了搜索的效率。这一时齐Viterbi- Beam算法是当前语音识别搜索中最有效的算法。 N-best搜索和多遍搜索:为在搜索中利用各种知识源,通常要进行多遍搜索,第一遍使用代价低的知识源,产生一个候选列表或词候选网格,在此基础上进行使用代价高的知识源的第二遍搜索得到最佳路径。此前介绍的知识源有声学模型、语言模型和音标词典,这些可以用于第一遍搜索。为实现更高级的语音识别或口语理解,往往要利用一些代价更高的知识源,如4阶或5阶的N-Gram、4阶或更高的上下文相关模型、词间相关模型、分段模型或语法分析,进行重新打分。最新的实时大词表连续语音识别系统许多都使用这种多遍搜索策略。
N-best搜索产生一个候选列表,在每个节点要保留N条最好的路径,会使计算复杂度增加到N倍。简化的做法是只保留每个节点的若干词候选,但可能丢失次优候选。一个折衷办法是只考虑两个词长的路径,保留k条。词候选网格以一种更紧凑的方式给出多候选,对N-best搜索算法作相应改动后可以得到生成候选网格的算法。
前向后向搜索算法是一个应用多遍搜索的例子。当应用简单知识源进行了前向的Viterbi搜索后,搜索过程中得到的前向概率恰恰可以用在后向搜索的目标函数的计算中,因而可以使用启发式的A算法进行后向搜索,经济地搜索出N条候选。 系统实现 语音识别系统选择识别基元的要求是,有准确的定义,能得到足够数据进行训练,具有一般性。英语通常采用上下文相关的音素建模,汉语的协同发音不如英语严重,可以采用音节建模。系统所需的训练数据大小与模型复杂度有关。模型设计得过于复杂以至于超出了所提供的训练数据的能力,会使得性能急剧下降。
听写机:大词汇量、非特定人、连续语音识别系统通常称为听写机。其架构就是建立在前述声学模型和语言模型基础上的HMM拓扑结构。训练时对每个基元用前向后向算法获得模型参数,识别时,将基元串接成词,词间加上静音模型并引入语言模型作为词间转移概率,形成循环结构,用Viterbi算法进行解码。针对汉语易于分割的特点,先进行分割再对每一段进行解码,是用以提高效率的一个简化方法。
对话系统:用于实现人机口语对话的系统称为对话系统。受目前技术所限,对话系统往往是面向一个狭窄领域、词汇量有限的系统,其题材有旅游查询、订票、数据库检索等等。其前端是一个语音识别器,识别产生的N-best候选或词候选网格,由语法分析器进行分析获取语义信息,再由对话管理器确定应答信息,由语音合成器输出。由于目前的系统往往词汇量有限,也可以用提取关键词的方法来获取语义信息。 自适应与强健性 语音识别系统的性能受许多因素的影响,包括不同的说话人、说话方式、环境噪音、传输信道等等。提高系统鲁棒性,是要提高系统克服这些因素影响的能力,使系统在不同的应用环境、条件下性能稳定;自适应的目的,是根据不同的影响来源,自动地、有针对性地对系统进行调整,在使用中逐步提高性能。以下对影响系统性能的不同因素分别介绍解决办法。
解决办法按针对语音特征的方法(以下称特征方法)和模型调整的方法(以下称模型方法)分为两类。前者需要寻找更好的、高鲁棒性的特征参数,或是在现有的特征参数基础上,加入一些特定的处理方法。后者是利用少量的自适应语料来修正或变换原有的说话人无关(SI)模型,从而使其成为说话人自适应(SA)模型。
说话人自适应的特征方法有说话人规一化和说话人子空间法,模型方法有贝叶斯方法、变换法和模型合并法。
语音系统中的噪声,包括环境噪声和录音过程加入的电子噪声。提高系统鲁棒性的特征方法包括语音增强和寻找对噪声干扰不敏感的特征,模型方法有并行模型组合PMC方法和在训练中人为加入噪声。信道畸变包括录音时话筒的距离、使用不同灵敏度的话筒、不同增益的前置放大和不同的滤波器设计等等。特征方法有从倒谱矢量中减去其长时平均值和RASTA滤波,模型方法有倒谱平移。 微软语音识别引擎 微软在office和vista中都应用了自己开发的语音识别引擎,微软语音识别引擎的使用是完全免费的,所以产生了许多基于微软语音识别引擎开发的语音识别应用软件,例如《语音游戏大师》《语音控制专家》《芝麻开门》等等软件。 语音识别系统的性能指标 语音识别系统的性能指标主要有四项。①词汇表范围:这是指机器能识别的单词或词组的范围,如不作任何限制,则可认为词汇表范围是无限的。②说话人限制:是仅能识别指定发话者的语音,还是对任何发话人的语音都能识别。③训练要求:使用前要不要训练,即是否让机器先“听”一下给定的语音,以及训练次数的多少。④正确识别率:平均正确识别的百分数,它与前面三个指标有关。
小结
以上介绍了实现语音识别系统的各个方面的技术。这些技术在实际使用中达到了较好的效果,但如何克服影响语音的各种因素还需要更深入地分析。目前听写机系统还不能完全实用化以取代键盘的输入,但识别技术的成熟同时推动了更高层次的语音理解技术的研究。由于英语与汉语有着不同的特点,针对英语提出的技术在汉语中如何使用也是一个重要的研究课题,而四声等汉语本身特有的问题也有待解决。