语音识别技术研究让人更加方便地享受到更多的社会信息资源和现代化服务,对任何事都能够通过语音交互的方式。 我整理了浅谈语音识别技术论文,欢迎阅读!
语音识别技术概述
作者:刘钰 马艳丽 董蓓蓓
摘要:本文简要介绍了语音识别技术理论基础及分类方式,所采用的关键技术以及所面临的困难与挑战,最后讨论了语音识别技术的 发展 前景和应用。
关键词:语音识别;特征提取;模式匹配;模型训练
Abstract:This text briefly introduces the theoretical basis of the speech-identification technology,its mode of classification,the adopted key technique and the difficulties and challenges it have to developing prospect ion and application of the speech-identification technology are discussed in the last part.
Keywords:Speech identification;Character Pick-up;Mode matching;Model training
一、语音识别技术的理论基础
语音识别技术:是让机器通过识别和理解过程把语音信号转变为相应的文本或命令的高级技术。语音识别以语音为研究对象,它是语音信号处理的一个重要研究方向,是模式识别的一个分支,涉及到生 理学 、心理学、语言学、 计算 机 科学 以及信号处理等诸多领域,甚至还涉及到人的体态语言(如人在说话时的表情、手势等行为动作可帮助对方理解),其最终目标是实现人与机器进行 自然 语言通信。
不同的语音识别系统,虽然具体实现细节有所不同,但所采用的基本技术相似,一个典型语音识别系统主要包括特征提取技术、模式匹配准则及模型训练技术三个方面。此外,还涉及到语音识别单元的选取。
(一) 语音识别单元的选取
选择识别单元是语音识别研究的第一步。语音识别单元有单词(句)、音节和音素三种,具体选择哪一种,由具体的研究任务决定。
单词(句)单元广泛应用于中小词汇语音识别系统,但不适合大词汇系统,原因在于模型库太庞大,训练模型任务繁重,模型匹配算法复杂,难以满足实时性要求。
音节单元多见于汉语语音识别,主要因为汉语是单音节结构的语言,而 英语 是多音节,并且汉语虽然有大约1300个音节,但若不考虑声调,约有408个无调音节,数量相对较少。因此,对于中、大词汇量汉语语音识别系统来说,以音节为识别单元基本是可行的。
音素单元以前多见于英语语音识别的研究中,但目前中、大词汇量汉语语音识别系统也在越来越多地采用。原因在于汉语音节仅由声母(包括零声母有22个)和韵母(共有28个)构成,且声韵母声学特性相差很大。实际应用中常把声母依后续韵母的不同而构成细化声母,这样虽然增加了模型数目,但提高了易混淆音节的区分能力。由于协同发音的影响,音素单元不稳定,所以如何获得稳定的音素单元,还有待研究。
(二) 特征参数提取技术
语音信号中含有丰富的信息,但如何从中提取出对语音识别有用的信息呢?特征提取就是完成这项工作,它对语音信号进行分析处理,去除对语音识别无关紧要的冗余信息,获得影响语音识别的重要信息。对于非特定人语音识别来讲,希望特征参数尽可能多的反映语义信息,尽量减少说话人的个人信息(对特定人语音识别来讲,则相反)。从信息论角度讲,这是信息压缩的过程。
线性预测(LP)分析技术是目前应用广泛的特征参数提取技术,许多成功的应用系统都采用基于LP技术提取的倒谱参数。但线性预测模型是纯数学模型,没有考虑人类听觉系统对语音的处理特点。
Mel参数和基于感知线性预测(PLP)分析提取的感知线性预测倒谱,在一定程度上模拟了人耳对语音的处理特点,应用了人耳听觉感知方面的一些研究成果。实验证明,采用这种技术,语音识别系统的性能有一定提高。
也有研究者尝试把小波分析技术应用于特征提取,但目前性能难以与上述技术相比,有待进一步研究。
(三)模式匹配及模型训练技术
模型训练是指按照一定的准则,从大量已知模式中获取表征该模式本质特征的模型参数,而模式匹配则是根据一定准则,使未知模式与模型库中的某一个模型获得最佳匹配。
语音识别所应用的模式匹配和模型训练技术主要有动态时间归正技术(DTW)、隐马尔可夫模型(HMM)和人工神经元 网络 (ANN)。
DTW是较早的一种模式匹配和模型训练技术,它应用动态规划方法成功解决了语音信号特征参数序列比较时时长不等的难题,在孤立词语音识别中获得了良好性能。但因其不适合连续语音大词汇量语音识别系统,目前已被HMM模型和ANN替代。
HMM模型是语音信号时变特征的有参表示法。它由相互关联的两个随机过程共同描述信号的统计特性,其中一个是隐蔽的(不可观测的)具有有限状态的Markor链,另一个是与Markor链的每一状态相关联的观察矢量的随机过程(可观测的)。隐蔽Markor链的特征要靠可观测到的信号特征揭示。这样,语音等时变信号某一段的特征就由对应状态观察符号的随机过程描述,而信号随时间的变化由隐蔽Markor链的转移概率描述。模型参数包括HMM拓扑结构、状态转移概率及描述观察符号统计特性的一组随机函数。按照随机函数的特点,HMM模型可分为离散隐马尔可夫模型(采用离散概率密度函数,简称DHMM)和连续隐马尔可夫模型(采用连续概率密度函数,简称CHMM)以及半连续隐马尔可夫模型(SCHMM,集DHMM和CHMM特点)。一般来讲,在训练数据足够的,CHMM优于DHMM和SCHMM。HMM模型的训练和识别都已研究出有效的算法,并不断被完善,以增强HMM模型的鲁棒性。
人工神经元 网络 在语音识别中的 应用是现在研究的又一 热点。ANN本质上是一个自适应非线性动力学系统,模拟了人类神经元活动的原理,具有自学、联想、对比、推理和概括能力。这些能力是HMM模型不具备的,但ANN又不个有HMM模型的动态时间归正性能。因此,现在已有人研究如何把二者的优点有机结合起来,从而提高整个模型的鲁棒性。
二、语音识别的困难与对策
目前,语音识别方面的困难主要表现在:
(一)语音识别系统的适应性差,主要体现在对环境依赖性强,即在某种环境下采集到的语音训练系统只能在这种环境下应用,否则系统性能将急剧下降;另外一个问题是对用户的错误输入不能正确响应,使用不方便。
(二)高噪声环境下语音识别进展困难,因为此时人的发音变化很大,像声音变高,语速变慢,音调及共振峰变化等等,这就是所谓Lombard效应,必须寻找新的信号分析处理方法。
(三)语言学、生 理学 、心理学方面的研究成果已有不少,但如何把这些知识量化、建模并用于语音识别,还需研究。而语言模型、语法及词法模型在中、大词汇量连续语音识别中是非常重要的。
(四)我们对人类的听觉理解、知识积累和学习机制以及大脑神经系统的控制机理等分面的认识还很不清楚;其次,把这方面的现有成果用于语音识别,还有一个艰难的过程。
(五)语音识别系统从实验室演示系统到商品的转化过程中还有许多具体问题需要解决,识别速度、拒识问题以及关键词(句)检测技术等等技术细节要解决。
三、语音识别技术的前景和应用
语音识别技术 发展 到今天,特别是中小词汇量非特定人语音识别系统识别精度已经大于98%,对特定人语音识别系统的识别精度就更高。这些技术已经能够满足通常应用的要求。由于大规模集成电路技术的发展,这些复杂的语音识别系统也已经完全可以制成专用芯片,大量生产。在西方 经济 发达国家,大量的语音识别产品已经进入市场和服务领域。一些用户交机、电话机、手机已经包含了语音识别拨号功能,还有语音记事本、语音智能玩具等产品也包括语音识别与语音合成功能。人们可以通过电话网络用语音识别口语对话系统查询有关的机票、 旅游 、银行信息,并且取得很好的结果。
语音识别是一门交叉学科,语音识别正逐步成为信息技术中人机接口的关键技术,语音识别技术与语音合成技术结合使人们能够甩掉键盘,通过语音命令进行操作。语音技术的应用已经成为一个具有竞争性的新兴高技术产业。
参考 文献 :
[1]科大讯飞语音识别技术专栏. 语音识别产业的新发展. 企业 专栏.通讯世界,:(总l12期)
[2]任天平,门茂深.语音识别技术应用的进展.科技广场.河南科技,
[3]俞铁城.科大讯飞语音识别技术专栏.语音识别的发展现状.企业专栏.通讯世界, (总122期)
[4]陈尚勤等.近代语音识别.西安: 电子 科技大学出版社,1991
[5]王炳锡等.实用语音识别基础.Practical Fundamentals of Speech Recognition.北京:国防 工业 出版社,2005
[6](美)L.罗宾纳.语音识别基本原理.北京:清华大学出版社,1999
点击下页还有更多>>>浅谈语音识别技术论文
A类、B类期刊等的划分是各单位根据相关政策文件,结合自身研究特点,从国内外核心期刊数据库进行筛选,把和本单位研究方向结合相近的、办刊质量好的刊物,划归为A类期刊,其次为B类期刊,再次为C类期刊,以此类推。
由此可见,这类刊物是各个单位根据自己的科研考核标准制定的,不同单位制定标准也是不一样的。A类期刊也并不一定是核心期刊,在有些单位,没有被任何核心数据库收录的报刊也会被划为本单位的A类期刊,比如人民日报、光明日报、经济日报等。
获取刊物级别很简单,一般权威数据库中,以及期刊的官网中,对刊物的级别都有所体现,一般知网、新闻出版总署网站、万方等平台都是非常权威的数据库,通过这些平台都是可以检索到期刊的详细信息的,期刊的官网需要作者稍加辨别,期刊真正的官网信息才可信,需要特别警惕仿制的假官网。
常见的国内刊物级别
有部级、省级、国家级、核心级几类。发表难度是逐渐上升的,选择刊物不必刻意追求高级别,高级别刊物固然比低级别刊物要好,但并不是适合所有人,也不是谁都可以轻易发表的,比如核心期刊,对作者的要求是非常高的,普通作者没有足够的积累是很难发表的。
刊物级别的选择首先要参考具体文件,职称文件或者学校的具体要求以及其他方面的文件,了解清楚自己需要发表什么级别的期刊,再去做选择,能实现自己的目标即可。
外语类学术论文
在世界经济全球化的背景下,英语不再是本族语者的专利,作为国际语言,它是理解、交流以及表达不同文化的方式和手段。以下是外语类学术论文,欢迎阅读。
来自不同母语背景说话者的英语口音可能会造成交际的中断甚至失败;英语口音又与说话者的身份和自我紧密联系。中国拥有着世界上人数最多的英语学习者,随着中国政治经济的不断强大,国际交流的日益增加,对中国英语口音的研究有着重要的理论价值和现实意义。“中国英语”的概念在20世纪80年代由我国学者葛传椝提出,将其定义为“在中国本土上使用的、以标准英语为核心,具有汉语特点的英语”。之后,许多学者对“中国英语”的定义进行了热烈的理论探讨和争鸣等。目前,学者们对于中国英语的客观存在基本达成共识,强调应从语音、词汇、句法、篇章等各层次来描写中国英语的特点,以求展示中国英语的全貌。而“中国英语口音”的概念至今也一直未见于国内文献。我们在借鉴前人定义的基础上,称其为“载汉语语言特征的英语口音”。
我们查阅了2000年至2013年期间,中文社会科学索引(CSSCI)14种外语类核心期刊所发表的文章,对上述期刊相关文献进行梳理。首先将研究内容涉及“中国英语”及“中国英语学习者的英语语音问题”的文章进行归类,相关文献共58篇(如表1所示)。总体上,中国英语的相关论文共15篇,占,而中国大学生英语语音问题的相关论文共43篇,占 9/6。其次,根据研究方法,将相关文章分为实证研究和非实证研究,分别占和。非实证研究主要包括对世界英语理论及英语国际语理论的介绍、中国英语研究综述和语言迁移、英汉对比、中介语、音系学(优选论等)理论的探讨。实证研究主要包括对中国英语口音特点(音段音位特点和超音段音位特点)、中国英语次变体口音特点、相关语料库的建设及中国英语口音的态度等方面。限于篇幅,我们这里仅对中国英语口音的实证研究成果,从以上五个方面逐一对这些论文进行归类和述评。
一、英语口音研究中的几个焦点问题
(一)对间段音位特点的研究
国内学者们认为,中国英语口音的实证研究始于20世纪90年代E6]LT]。1994年南京大学的乐眉云教授采用方言调查法,首次全面对我国各大方言区中学生的英语语音学习情况进行全面的调查分析,深入全国各地收集语料。从语音偏误的视角探讨了方言对英语音段音位发音的影响,找出各大方言区学生英语语音学习的难点及其基本规律。我们认为部分中学生的发音问题可通过英语教学得到解决,且国外学者对于世界变体英语口音的研究都是以受教育者(通常是大学生)为研究对象。因此,我们仅选取以中国大学生为研究对象的实证研究文献。在实证研究中,学者们通常从英汉对比的视角,根据语言迁移或中介语理论,通过实验语音学的研究方法得出中国大学生在英语发音方面存在的问题以及对英语语音教学提出建议。
1.元音特点。元音是英语语音教学中的难点,元音发音特点的实证研究成果共2篇,都是基于学习者语料库进行的研究,总结了中国大学生在英语元音发音方面的主要问题,如单元音的音长、音质和双元音的简化等问题。陈桦采用实验语音学手段,对中国英语学习者纵深口语语料库(LSECCI。)中14名英语专业学生4年的朗读录音进行语音标注及分析。研究发现,单元音/I//e/与双元音/eI//au//aI/离标准发音差别较大。程春梅等通过对中国高级英语学习者音段错误语料库的分析显示:/i/e/a/的出错率非常高,占整个元音错误的。8个松元音/i//e//a//u/的错误占到整个错误的。在替换型音段错误中,最多的是/i/与/I/。
2.辅音特点。关于辅音发音特点的实证研究成果5篇。其中,程春梅等通过对中国高级英语学习者音段错误的语料库系统分析,总结了中国大学生辅音发音的总体问题。她发现,辅音的错误率高的是/t//d//z//6//n//l//v/。在替换性错误中,最多的是摩擦音/6//z//v/。学生们倾向于用/d/代替/6/,/s/代替/z/,/w/代替/v/在脱落型错误中,频率最高的是爆破音/t//d//k/。四位学者分别针对辅音群、辅音吞音、塞音和塞擦音问题进行了实证研究。阎丽莉等通过分析6名大一学生的朗读录音,发现辅音群的误读中,插音类错误最普遍,其次为删音,替换类也较常见。她进一步以优选论为框架解释了中国英语学习者英语辅音群的习得情况。冯友通过检索分析大学四、六级口语语料库(COLSEC)发现,学习者最常见的辅音吞音,按照发音部位是齿槽音、软腭音和双唇音;按照发音方式,则是爆破音、摩擦音和鼻音;清辅音吞音:的情况远远多于浊辅音。最容易发生辅音吞音的位置是词尾,最不容易发生的位置是词首。陈桦。研究了中国英语学习者擦音和塞擦音存在的一些问题,如/6/发成/d/或/z/,/v//w/混淆,用/x/代替/s/等。王茂林采用实验语音学的方法,对比分析了美国人与中国英语学习者词中塞音的发音时长。研究发现,中国学习者英语浊塞音的发音相对较好,而清塞音的发音相对较差。概而言之,中国学生在英语辅音方面的主要发音问题是清辅音与浊辅音的混淆、/l//n/混淆、th音、/w//v/混淆以及辅音群的误读和辅音段音吞音等方面。 (二)对超音位特点的研究
学者们普遍认为外国腔或外国口音与超音段音位的特点密切相关。因此,中国英语口音的特点也更多地体现在超音段音位层面上。杨军等通过梳理与朗读相关的文献,发现外国腔和韵律不当(如重音不当、节律不当、调组划分不当、边界调使用不当、音节时长不当等)是现有的两大研究主题。陈桦论证了我国英语学习者的超音段音位错误比起音段音位错误更为严重,强调超音段音位特征的教学应该在大学英语中占据重要的地位。我们这里主要从词重音、句子重音和节奏、停顿、语调等四个方面进行综述。
1.词重音。单词重音是重要的英语语音特征,既有文献中有关中国大学生的单词重音发音的实证研究仅1项。高琳等分析了非英语专业大学生朗读录音样本及中国学习者英语口语语料库COLSEC中的单词重音错误,发现多音节单词重音位移比较常见,而且重音错发在单词(尤其是名词和形容词)第二音节的倾向更为明显。
2.句子重音和节奏。节奏对于语音的理解起着非常重要的作用。句子重音和节奏的实证研究总共有4项,该系列研究成果主要源自南京大学的陈桦教授。陈桦以8名英国大学生的调核位置为参照标准,对中国45名学习者的英语朗读口语进行了分析。结果发现,学习者采用对比重音和强调重音充当调核的比例少,使用不当的调核词汇多。他们常对诸于介词、人称代词、连接词等功能词赋予重音;陈桦对中国英语学习者4年纵贯研究的结果表明,学生的重音问题呈现一定程度的上升趋势,由重音模式所反映的节奏模式没有明显变化。低分组学生口语中重读、弱读音节不分的程度明显重于高分者。许俊等通过PRRAT软件对比分析了中国英语学习者与母语者的韵律特征,研究发现中国英语学习者缺少元音弱化和省略,而导致了更多地表现为实用音节节奏而非重音节奏;并且在重音的使用中经常出现错误,重读的表现方式仅局限于加大响度。概而言之,学者们从多个实证研究中得出较为一致的结论:中国大学生在句子的重音和节奏上存在问题,没有掌握实词重读、虚词弱读的基本重音规则,口语中带有典型的“音节节拍语言”的节奏特点,与英语的节奏差别较大。
3.停顿。停顿对于口语表达的流利性非常重要,而我国英语学习者过多地使用停顿导致信息破损,影响了信息的传达,极大地降低了口语的流利性和可理解性。既有文献中有4篇进行了停顿的研究。陈桦。研究发现中国英语学习者朗读中停顿数量大大超出本族语者,且停顿位置错误较多。英国语音专家们的评语暗示了学习者过多地依赖停顿来达到语调切分的目的。如:词间隔太多、流利度遭到破坏、语流破碎、语流时断时续、断句有时很不自然等等。杨军通过分析15名大学生的英语朗读后,区分了二语朗读中的两类语调短语划分不当:语调短语标记缺失和语调短语划分失败。两者之间相互关联,受言语风格和在线产出管理的影响。语速及其他因素如任务条件、二语水平和紧张度等均未对语调短语划分产生显著影响。杨萌等分析了30名大学生即席话语中的停顿、及其对停顿原因的内省辨认后发现,他们表现出较高频率的语调短语内部停顿,该频率与口语流利性呈显著相关;停顿位置集中于实词前和首词后;停顿模式主要有非流利串、无填充停顿和非词语填充项。许俊等发现中国英语学习者在一个完整的语义单位中通常出现大量无声停顿和填声停顿,其英语听起来零碎且不连贯。
4.语调。不少学者为中国大学生英语语音语调特点的研究提供了实证数据,相关研究共9项。田朝霞分析了常见于中国英语学习者调核误用现象的原因及其所导致的信息误传,并将其归为三类:调群划分的错误、调核位置的错误及声调模式的误用。杨军研究发现,中国大学生在延续升调的使用上欠缺,表现在音高上扬不够,或音高曲拱不明显,或二者兼具,有着明显的“外国腔”。陈桦研究发现,中国英语学习者对降调和升调的使用掌握得较好,但显示出过度使用降调的特点。其次,学习者在基本调型上与本族语者的模式存在着一定的差异,主要表现在平调的使用上。此外,学习者不能根据意欲表达的语气和态度来选择相应的二级调型,调型使用混乱。毕冉等胡研究了英语专业学生四年中朗读口语中列举句式及简单陈述句音调的变化趋势,发现其音调变化趋势遵循负增长的曲线,且降调使用过多。许俊等研究发现,中国英语学习者在音高重音边界调以及结尾语调的处理上存在较多失误,过度使用降调致使语调平直且缺少变化。
两位学者对中国大学生的边界调使用情况进行了实证研究。夏志华等通过收集自然语料,并借助话语分析软件对其进行标注分析。研究发现,中国学生在话轮转换中使用的边界调类型是齐全的,但其使用边界调暗示说话者变更话轮意图的能力远小于英语本族语者,且低降边界调的误用尤为突出。孟小佳等研究结果发现,除简短的祈使句外,中国英语学习者在朗读陈述句、感叹句、一般疑问句、特殊疑问句等其他六种句型的句末边界调时均与本族语者存在显著性差异,而对句首边界调的把握情况相对较好。
两位学者研究了性别差异对语调习得的影响。林秋茗考察了英语专业本科一年级学生的重音节奏和语调与性别的关系发现,女性的韵律表现只是略占优势,除重读外,男女生在意群停顿连读以及升降调的使用频率上没有显著性差异。蒋红柳借助语音实验的方法,对我国英语专业学习者的英语语调运用模式进行研究。结果表明,男女被试在调核音高上差异显著;而在英语语调运用上,被试则显示出高度的一致性特点。性别间在语调模式选择上的差异不显著。
总体而言,学习者未能意识到语调在信息传递中的重要性,对语调话语交际功能掌握不充分,声调的误用比较常见。平调、降调使用过度,在延续的升凋使用上表现较为欠缺;相对于句首边界调,句末边界凋掌握不好。此外,在语调使用上性别差异不明显。
(三)对各次变体P音的研究
《中国语言地图集》将汉语划分为十大方言,即北方方言、吴方言、湘方言、赣方言、客家方言、粤方言、闵方言、晋语、平话和徽方言。两位学者研究了我国各方言区学生的语音问题。学者们尝试了不同地区方言对英语语音的负迁移,共6项实证研究成果。刘锦明研究了北方方言区、吴方言区、闵方言区的英语专业大学生/l/和/r/的发音问题。姜玉宇通过声学分析,将闽、吴方言元音系统和美语元音系统中的5个相似元音/a//i//u//e//0/进行比较分析,由于两地方言元音系统中相似元音的声学特征非常接近,发现两地学生都很难准确习得目标语音。 四位学者分析了我国各省市学生的英语发音问题。如王鲁男重点分析了四川、贵州学生/l//n/不分,/η//n/不分的现象及其产生的原因。刘锋等运用微变化研究法,考察了练习频率对两名四川受试/I//n/不分语音纠错的作用,1年的跟踪测试结果显示,频率作用对受试/l//n/不分现象有明显改善。谢谜采用微变化研究法,通过高频率的练习、高密度的观察和高精度的分析来研究频率作用对/v//W/分语音纠错的作用及影响。范烨借鉴优选论和感知图理论,分析了母语为北京话的学生在发英语韵尾辅音群时的增音现象,发现一些学生通过插入元音、删除辅音或将原辅音变为元音的方式来消除或简化韵尾辅音群。此外,/v//w/不分在中国英语学习者中也具有一定普遍性(如山东、浙江地区的学生有类似问题)。总之,我国各大方言之间差异很大,除了中国英语口音的共性特点之外,各方言次变体口音有着自己独特的语音特点。
(四)对相关语料库的研究
与中国大学生英语语音问题研究相关的语料库主要有5个。2003年卫乃兴教授主持建立的学习者英语口语语料库(COLSEC)首次为二语语音研究提供了科学的平台。该语料来源为全国大学英语考试口语考试部分的实景音像资料,用随机比例抽样方法,对考生的地区来源、专业考试成绩,交谈话题等按比例选取,标注采用XML语言用一系列符号对话轮转换、语音、语调、停顿、犹豫、打断、非言语交际等进行逐一标注。之后,2005年文秋芳教授主持建立了中国学生英语口笔语语料库(SWECCLE),其语料来源为全国英语专业口语考试语料。该语料库除了提供录音的完整文本外,还将各年的语料按照任务类型(复述、独自和会话)分别切分。此外,文献中还涉及华南师范大学何安平教授主持建立的《国际英语学习者口语语料库》中国子语料库和中国英语学习者纵深口语语料库LSECCI。(Longitudinal Spoken Eng-iish Corpus of Chinese Learners)等等。
(五)对英语口音的态度的研究
关于中国英语口音的态度的实证研究论文虽然2篇,但可喜的是它们都是在世界英语理论视角下进行的研究。周榕等采用言语变体实验法考察了101名英语专业大学生对英美英语的态度和认同感,以及实际英语口音测试法检测了其实际英语口音特点。结果发现,被试在权势地位、语言亲和力和语言表现力维度上,对美国英语的评价都优于英国英语,表现出更偏好美国英语的趋势。但是,他们的实际英语口音则是三分之二为RP、三分之一为GA的混合体,表现出更多英国口音的特点。高一虹等采用定量和定性的研究方法,考察中国大学生奥运志愿者在2008年北京奥运会之前、期间对世界英语变体的态度和多元文化意识。研究结果发现,奥运志愿者的语言态度总体而言趋向保守,认同英美“标准变体”,对其他英语变体的识别能力有限,对中国英语口音的态度比较矛盾。
二、研究评述:多视角的评判
上述文献回顾证明,中国英语口音的研究成果虽然有了一定的积累,但从研究现状来看,相关研究无论从已发表的论文数量上,还是从研究的深度和广度上都亟待进一步提高。我们将从研究内容、研究方法、研究视角以及研究成果应用等四个方面总结研究不足,并进一步提出研究展望。
(一)丰富研究内容,形成中国英语次变体口音特点的系统结论
从研究内容来看,中国英语口音的总体特点研究已经比较成熟,学者们在元音、辅音、重音、句子重音和节奏、停顿、语调等方面的特征已经形成了较为系统的研究结论。然而,我国幅员辽阔,方言丰富,相比之下,中国英语次变体口音的研究严重不足。在汉语十大方言的中国英语次变体口音研究中,最为成熟的是粤方言英语口音研究。国外学者们对香港英语口音进行了全面系统描述,如Huang系统描述了香港英语的音系特征,指出其有8个元音和20个辅音;Bolton描述了香港英语音位和超音位的特点,指出香港英语多用高升调,强弱重音对比不明显。其次是湘方言英语口音的研究和陈桦教授及其团队的吴方言英语口音研究。而其他七大方言(北方方言、客家方言、闵方言、赣方言、平话、晋语和徽方言)的英语口音的实证研究鲜见于文献。此外,中国英语次变体口音之下,我们可进一步研究各省市的次次变体英语口音特点,如文献中的四川、贵州、北京等地英语口音的研究。总之,我们呼吁更多的实证研究,以形成中国英语次变体口音以及中国英语次次变体口音在音位和超音位方面系统的研究结论,并与中国英语口音特点进行对比,分析其共性与个性的特点。
(二)更新研究方法,建立中国英语口音语料库
从研究方法来看,语料库的蓬勃发展为中国英语口音的深入系统研究提供了便利。目前我国已建成的相关语料库多为英语学习者口语语料库(如COLSEC、SWECCLE等),而专门的中国英语口音的语料库建设比较欠缺。如今国际学术界已经建成了各国英语变体的语料库,建设中国英语语料库的构想已被有关专家学者提出。陈桦也介绍了中国学习者英语语音语料库(English Speech Corpus of ChineseLearners)建设的起因、方法和意义。该语料库涵盖中国十大方言区,以国内四个不同层次受教育群体(初中、高中、英语专业本科、英语专业硕士)作为录音对象、以朗读和自主对话为任务而完成。该语音语料库将结合英美标注系统对学习者录音进行多层音段及韵律标注。我们期待该语料库的出版,以便对中国英语口音的共性特征、次变体口音及次次变体口音的.个性特征进行系统描述,结合实验语音学的研究方法,得出系统的研究结论。此外,未来的中国英语口音语料库的建设可进一步与国际上英语作为通用语的语料库建设接轨,如VOICE维也纳牛津国际英语语料库(Vienna Oxford International Corpus of Eng-lish),ELFA学术背景英语作为国际通用语语料库(Corpus of English as a Lingua Franca in AcademicSettings)和东南亚英语语料库(Corpus of South-East Asian Englishes)。唯有这样,才能促进中国英语口音研究的健康发展,并与国际学术界进行对话。 (三)拓宽研究视角,将中国英语口音的研究置于全球化的情景中
在表1的文献梳理中,我们不难发现:从研究视角来看,既有实证研究共34项(占),多从语言迁移理论和音系理论等视角解释中国学生英语的发音特点;或是通过实验语音学的研究方法,以本族语者为参照,找出中国英语学习者的语音问题症结所在。而在世界英语理论或者英语作为国际语理论的视角下对于中国英语口音的态度研究仅2项(占)。而国外学者对于中国英语口音的研究更多地围绕着英语变体口音的态度和可理解性展开。如Jenkins以世界各地12个国家的326名受教育人群为研究对象,对10种世界英语变体口音的态度进行了对比研究发现,发现中国英语口音在正确性上排第八、可接受度上排名第七、在舒适度上排名第八、在熟悉程度上排名第四。在中国英语口音的可理解性研究方面,Kirkpatrick以香港教育学院英语专业的大学生与英国侨民教授的谈话为录音语料,选取新加坡和澳大利亚大学生为听话者。研究结果表明,香港英语口音的国际可理解性和可接受度很高,并建议其作为语音课堂的教学模式。我们呼吁国内学者在世界英语和英语作为国际语视角下对英语变体口音的态度和可理解性进行更多的实证研究。如中国英语学习者对不同英语变体的口音态度如何?他们对于自己的中国英语口音态度如何?中国英语口音的国际可理解性和可接受度如何?中国英语口音的音位和超音位的哪些重要特征影响了国际可理解性?中国英语次变体口音的可理解性又如何?总之,未来研究可更多地在世界英语或英语作为国际语理论视角下进行,如何将中国英语口音的研究置于全球化的情境中,将研究结果与亚洲英语口音以及英语作为通用语的语音共性特征进行对比描述和分析等等都值得进一步深入研究。
(四)应用研究成果,优化中国英语语音教学效果
从研究成果的应用来看,中国英语口音的相关实证研究成果在优化我国英语语音教学效果、英语语音教学大纲的设置、英语语音教材的开发与编写等诸多方面的应用等方面比较欠缺。传统的英语语音教材都足以接近母语者口音(标准英国英语口音和美国英语口音)为教学目标,教学内容涉及所有的音段音位和趟音段音位特点。在英语作为国际语的背景下的英语语音教学,应该以国际可理解性为教学目标,让学生接触各种世界英语变体口音,提高他们对不同英语口音的容忍度,增强他们对中国英语口音的自信心。Jenkins搜集了大量的英语作为通用语的语料,调查了来自不同母语背景的人们之间的英语交流,在实证研究的基础上提出了通用语核心理论(Lingua Franca Core)。她认为,影响国际可理解性的核心部分主要表现在大多数的辅音、辅音群的简化、元音的长短区分以及句子的重音。通用语核心之外的部分,被认为是地方口音,不能称为语音错误。Walker在其专著《英语作为通用语的教学》中也指出,在语音教学中,只有采用英语作为国际语的教学方法才能使可理解性和身份这两个相互矛盾的目标达到和谐。因此,在语音教学中,教师应充分了解中国英语口音的共性特征、各方言区英语次变体口音的个性特征,将教学重点集中在影响可理解性的语音特征上;对于中国英语口音中不影响可理解性的部分,不必过于强求其准确性,从而在语音教学中有的放矢,提高他们在国际口语交流中的有效性。
英语的不断国际化和本土化在世界各地引起了与日俱增的探讨。英国学者Graddol在《英语走向何方》一书中曾预言:亚洲,特别是印度和中国,可能决定全球英语的未来。毋庸置疑,研究具有中国礼会和文化特征的中国英语必将有着深刻的现实意义和长远的历史意义。2011年5月第四届英语作为通用语国际大会在香港大学国际教育学院召开;2012年12月第18届世界英语国际学术会议在香港城市大学和中山大学两地召开;2012年4月“世界英语时代与中国实践”国际研讨会在湖州师范学院召开。这些重要学术活动都标志着中国英语的研究已经进入了全新的发展时代。虽然中国英语口音的研究起步较晚,但是作为汉语母语者,国内学者在此研究领域有着国外学者无法比拟的优越性。我们有理由相信,随着中国对外开放的深入和中国经济的进一步发展以及中国在国际事务中地位的不断提高,中国英语在世界英语大家庭中的地位会随之进一步提高,中国英语口音也将逐步成为世界英语教学研究领域的一项重要探讨课题。
论文:LipNet:END-TO-END SENTENCE-LEVEL LIPREADING 本人在对相关领域的内容进行调研时,由于缺乏指导,在中文网站上也很少见到有对Lipreading相关的文章进行详尽分析,因此也耗费了不少时间精力。这里对领域内的一篇Sentence Level的开山之作(文中自称)进行分析,介绍文章中的重点。在这篇文章之前,大多数Lipreading的工作集中在字母、单词、数字或者短语的识别上,具有一定的局限性。而这篇文章虽然使用的数据中的句式有限定,词汇量也比较小,但是不妨碍它是在语句的尺度上进行的识别,且取得了相当不错的成果。 首先介绍数据集。GRID数据集是一个Sentence-level的数据集,比较包含三万多条数据。每一个数据是一条视频,视频内容是一个人说出一条固定的句子,并对应一条文本标签,文本标签对每个单词的起始时间和终止时间都进行标注。句子的句式是进行了限制的,并不是具有逻辑性的自然语句,即:也就是说,每一条语句都是由6个固定类型的单词组成,上标表示了数据集中这种单词类型的种类数量,比如表示这个位置为一个颜色单词(如blue),而数据集中一共有4种颜色单词。 另外需要了解的是,数据集的视频一共有34个文件夹,对应了对34个不同的人所录制的视频。每一个文件夹包含上千个视频数据,都是对同一个人录制的。而在后期实验时,作者会采用两种不同的方式进行训练和测试:(1)用其中30个人的视频进行训练,而用另外4个人的视频进行测试,即Unseen Speakers;(2)从34个人的视频中,各随机抽取255个视频作为测试数据,其它的作为训练数据; 首先会按照先前在数据集部分的末尾所介绍分组方式将数据拆分为两种训练集和测试集。然后使用已有的面部识别检测器,将视频的每一帧都处理为大小的仅包含嘴部的帧。最后再将每一帧进行标准化。 (1)分别使用常规的图像序列和水平翻转的图像序列进行训练; (2)由于数据集提供了每一个单词的起始和终止时间,因此可以使用每一个单词所对应的图像帧序列来训练模型; (3)随机删除或复制某些帧,概率设置为; 介绍完了数据的组织方式以后,大家也都知道了这是一个Seq2seq的问题,与语音识别的套路极其相似,因此Lipreading的套路很大程度上就是将CV的套路和机器翻译的套路进行整合。 这篇文章的模型结构也没什么特别的,文中的废话比较多,总结起来其实就是用3D卷积对图像帧进行特征提取,然后使用两层双向GRU作为Encoder-Decoder,输出一个预测值,最后再用全连接层输出预测的概率。总体上模型的结构并不复杂,也有一些可以改进的地方 。 此外,损失函数函数值得注意。本文使用的是CTC损失函数,这个损失函数是一个比较经典的用于语音识别相关问题的损失函数,避免了帧与字符进行对齐标注。具体地可以参考 这篇文章 。 指标WER和CER分别为word error rate 和 character error rate,即单词错误率和字符错误率,固然是越低越好。指标分为了两栏:Unseen Speakers和 Overlapped Speakers,对应于在数据集部分介绍的两种数据划分方式下的测试结果。可以看到,LipNet在GRID数据集上的各项指标都达到了当时的最好。后续的很多工作在GRID数据集上的WER已经来到,但是在例如LRS数据集上的表现,远无法达到GRID数据集上的效果,因为GRID数据集中的句式单一,且人脸正对着镜头,只能作为一项基础研究,Lipreading在自然场景下的sentence-level的识别,仍然有很长的路要走。 水平有限,欢迎大家批评指正。有问题可以共同探讨。
351 浏览 4 回答
185 浏览 5 回答
127 浏览 5 回答
284 浏览 2 回答
342 浏览 6 回答
223 浏览 5 回答
101 浏览 5 回答
323 浏览 3 回答
269 浏览 7 回答
84 浏览 6 回答
316 浏览 3 回答
96 浏览 6 回答
197 浏览 6 回答
120 浏览 6 回答
293 浏览 11 回答