1、首先在手机上选择打开【语音备忘录】应用App,如下图所示。
2、在打开的【语音备忘录】应用首页,点击屏幕下方的红色【录制】按钮开始录音,如下图所示。
3、点击【停止】按钮完成录音操作,如下图所示。
4、在【语音备忘录】的录音记录条列表中,选择要进行编辑的录音记录,点击屏幕中【...】打开编辑菜单列表。
5、在【菜单列表】窗口,选择【编辑录音】菜单选项,如下图所示就可以根据自己需要进行编辑了。
不是的不过可以改更改方法如下1、双击音乐播放器的图标,打开音乐播放器软件。2、在弹出的音乐播放器软件窗口中,点击右上方的第二个工具应用图标。3、弹出应用工具窗口,点击格式转化图标,如果格式转化图标为灰色,点击后会自动安装,安装成功后,再点击格式转换。4、打开了格式转换工具,可以看到界面上支持的转换格式包括MP3,APE,WAV,FLAC这4种格式。5、点击格式转换工具中的添加文件按钮,在打开的窗口中选择其他格式的音乐文件,再点击打开按钮。6、其他格式的音乐文件导入成功后,点击转换文件按钮,开始转化文件格式。7、当格式转换列表中显示格式转换完成后,找到转换后的存储路径下查看,已经可以看到转换生成的MP3音乐文件了,然后发送就可以了。
这篇博客的主要内容是对语音合成 (text to speech)的背景知识进行介绍。 希望可以让读者通俗易懂的了解语音合成的工作原理, 并对为了理解state-of-the-art text to speech 的算法做基础。这个简介主要基于这篇论文 “Wavenet: a generative model for raw audio”的附录介绍的。 论文链接如下: , 以及stanford CS224S的课程, 链接如下 语音合成是通过文字人工生成人类声音, 也可以说语音生成是给定一段文字去生成对应的人类读音。 这里声音是一个连续的模拟的信号。而合成过程是通过计算机, 数字信号去模拟。 这里就需要数字信号处理模拟信号信息,详细内容可参考 [1]。 图片1, 就是一个例子用来表示人类声音的信号图。 这里横轴是时间, 纵轴是声音幅度大小。声音有三个重要的指标, 振幅(amplitude) , 周期(period) 和 频率(frequency) 。 振幅指的是波的高低幅度,表示声音的强弱,周期和频率互为倒数的关系, 用来表示两个波之间的时间长度,或者每秒震动的次数。 而声音合成是根据声波的特点, 用数字的方式去生成类似人声的频率和振幅, 即音频的数字化。了解了音频的数字化,也就知道了我们要生成的目标函数。 音频的数字化主要有三个步骤。 取样(sampling) :在音频数字化的过程,采样是指一个固定的频率对音频信号进行采样, 采样的频率越高, 对应的音频数据的保真度就越好。 当然, 数据量越大,需要的内存也就越大。 如果想完全无损采样, 需要使用Nyquist sampling frequency, 就是原音频的频率2倍。 量化 (quantization) : 采样的信号都要进行量化, 把信号的幅度变成有限的离散数值。比如从0 到 1, 只有 四个量化值可以用0, , , 的话, 量化就是选择最近的量化值来表示。 编码 (coding ):编码就是把每个数值用二进制的方式表示, 比如上面的例子, 就可以用2bit 二进制表示, 00, 01, 10, 11。 这样的数值用来保存在计算机上。 采样频率和采样量化级数是数字化声音的两个主要指标,直接影响声音的效果。 对于语音合成也是同样, 生成更高的采样频率和更多多的量化级数(比如16 bit), 会产生更真实的声音。 通常有三个采样频率标准 1. 采样, 用于高品质CD 音乐 2. 采样, 用于语音通话, 中品质音乐 3 . 采样, 用于低品质声音。 而量化标准一般有8位字长(256阶)低品质量化 和16位字长(65536阶)高品质量化。 还有一个重要参数就是通道(channel), 一次只采样一个声音波形为单通道, 一次采样多个声音波形就是多通道。 所以在语音合成的时候,产生的数据量是 数据量=采样频率* 量化位数*声道数 , 单位是bit/s。 一般声道数都假设为1.。 采样率和量化位数都是语音合成里的重要指标,也就是设计好的神经网络1秒钟必须生成的数据量 。 文本分析就是把文字转成类似音标的东西。 比如下图就是一个文本分析,用来分析 “PG&E will file schedules on April 20. ” 文本分析主要有四个步骤, 文字的规范化, 语音分析, 还有韵律分析。 下面一一道来。 文本分析首先是要确认单词和句子的结束。 空格会被用来当做隔词符. 句子的结束一般用标点符号来确定, 比如问号和感叹号 (?!), 但是句号有的时候要特别处理。 因为有些单词的缩写也包含句号, 比如 str. "My place on Main Str. is around the corner". 这些特别情况一般都会采取规则(rule)的方式过滤掉。 接下来 是把非文字信息变成对应的文字, 比如句子中里有日期, 电话号码, 或者其他阿拉伯数字和符号。 这里就举个例子, 比如, I was born April 14. 就要变成, I was born April fourteen. 这个过程其实非常繁琐,现实文字中充满了 缩写,比如CS, 拼写错误, 网络用语, tmr --> tomorrow. 解决方式还是主要依靠rule based method, 建立各种各样的判断关系来转变。 语音分析就是把每个单词中的发音单词标出来, 比如Fig. 3 中的P, 就对应p和iy, 作为发音。 这个时候也很容易发现,发音的音标和对应的字母 不是一一对应的关系,反而需要音标去对齐 (allignment)。 这个对齐问题很经典, 可以用很多机器学习的方法去解决, 比如Expectation–maximization algorithm. 韵律分析就是英语里的语音语调, 汉语中的抑扬顿挫。 我们还是以英语为例, 韵律分析主要包含了: 重音 (Accent),边界 (boundaries), 音长 (duration),主频率 (F0). 重音(Accent) 就是指哪个音节发生重一点。 对于一个句子或者一个单词都有重音。 单词的重音一般都会标出来,英语语法里面有学过, 比如banana 这个单词, 第二个音节就是重音。 而对于句子而言,一样有的单词会重音,有的单词会发轻音。 一般有新内容的名词, 动词, 或者形容词会做重音处理。 比如下面的英语句子, surprise 就会被重音了, 而句子的重音点也会落到单词的重音上, 第二个音节rised, 就被重音啦。 英语的重音规则是一套英语语法,读者可以自行百度搜索。 I’m a little sur prised to hear it cha racterized as up beat . 边界 (Boundaries) 就是用来判断声调的边界的。 一般都是一个短语结束后,有个语调的边界。 比如下面的句子, For language, 就有一个边界, 而I 后面也是一个边界. For language, I , the author of the blog, like Chinese. 音长(Duration) 就是每个音节的发声长度。 这个通俗易懂。 NLP 里可以假定每个音节单词长度相同都是 100ms, 或者根据英语语法, 动词, 形容词之类的去确定。 也可以通过大量的数据集去寻找规律。 主频率 (F0 )就是声音的主频率。 应该说做傅里叶转换后, 值 (magnitude) 最大的那个。 也是人耳听到声音认定的频率。一个成年人的声音主频率在 100-300Hz 之间。 这个值可以用 线性回归来预测, 机器学习的方法预测也可以。一般会认为,人的声音频率是连续变化的,而且一个短语说完频率是下降趋势。 文本分析就介绍完了,这个方向比较偏语言学, 传统上是语言学家的研究方向,但是随着人工智能的兴起,这些feature 已经不用人为设计了,可以用端到端学习的方法来解决。 比如谷歌的文章 TACOTRON: TOWARDS END-TO-END SPEECH SYNTHESIS 就解救了我们。 这个部分就比较像我们算法工程师的工作内容了。 在未来的博客里, 会详细介绍如何用Wavenet 和WaveRNN 来实现这一步骤的。 今天这个博客就是简介一下算法。 这里说所谓的waveform synthesis 就是用这些 语言特征值(text features)去生成对应的声波,也就是生成前文所说的采样频率 和 振幅大小(对应的数字信号)。 这里面主要有两个算法。 串接合成(concatenative speech synthesis) : 这个方法呢, 就是把记录下来的音节拼在一起来组成一句话,在通过调整语音语调让它听起来自然些。 比较有名的有双音节拼接(Diphone Synthesis) 和单音节拼接(Unit Selection Synthesis)。这个方法比较繁琐, 需要对音节进行对齐(alignment), 调整音节的长短之类的。 参数合成 (Parametric Synthesis) : 这个方法呢, 需要的内存比较小,是通过统计的方法来生成对应的声音。 模型一般有隐马尔科夫模型 (HMM),还有最近提出的神经网络算法Wavenet, WaveRNN. 对于隐马尔科夫模型的算法, 一般都会生成梅尔频率倒谱系数 (MFCC),这个是声音的特征值。 感兴趣的可以参考这篇博客 去了解 MFCC。 对于神经网络的算法来说, 一般都是生成256 个 quantized values 基于softmax 的分类器, 对应 声音的 256 个量化值。 WaveRNN 和wavenet 就是用这种方法生成的。 下面是我学习语音合成的一些资料, 其中stanford cs224s 是强力推荐的,但是这个讲义讲的逻辑不是很清楚, 要反复看才会懂。 UCSB Digital Speech Processing Course 课程, 声音信号处理的基础。 建议读一遍, 链接如下, Stanford CS224S WaveRNN, 音频的数字化,
手机适合短文,不适合长篇论文。。长篇最好在电脑上写。苹果自带备忘录没有这个翻页功能。如果需要翻页功能,需要用其他的带有翻页功能的记录软件才行。如印象笔记。
什么时间要呢额给你的
已用系统的邮件设置邮箱,然后打开备忘录,具体的条目那,然后中间那个分享按钮,邮件,然后就能发送了
毕业论文附录直接是放到论文的末尾,以图片和表格形式出现,毕业论文不一定非要附录,可以不要附录。建议你百度下:普刊学术中心,上面很多论文写作教程可以多深入学习下。还有一点的是,毕业论文附录写作与专业也有很大关系,不可一概而论
附录一般都写:附在正文后面与正文有关的文章或参考资料。
附录(appendix):是作为说明书或论文的补充部分,并不是必需的。
1、为了说明书或论文的完整,但编入正文又损于正文的处理和逻辑性,这一类材料包括比正文更为详细的信息研究方法和技术的途述,对于了解正文内容具有重要的补充意义;
2、由于篇幅过大或取材于复制品而不便编入正文的材料;
3、某些重要的原始数据、数学推导、计算程序、注释、框图、统计表、打印机输出样片、结构图等。
附录的格式要求:
1、说明书或论文的附录依次为“附录A”、“附录B”、“附录C”等编号。如果只有一个附录,也应编为“附录A”
2、附录中的图、表、公式的命名方法也采用上面提到的图、表、公式命名方法,只不过将章的序号换成附录的序号,如以“图”“表”“公式”的形式分别列出,所有附录应分条陈列,编辑规范。
3、“附录”二字用三号黑体居中打印。两字中间空一格,下空一行是附录题目(四号黑体居中打印),下空一行是附录内容(用小四号宋体)。若有多项附录,可按顺序附录1、附录2、附录3等编号。
具体的范文模板
链接:
看你上面的应该不是计算机专业的论文,如果仅仅是为了毕业,建议选择一个简单的,但是如果以后想从事这方面的,建议你不要弄ASP方面的,这方面的技术已经很落后了,它是98年出来的,在02年被.net取代,只是一般大学的教材比较落后,如果你搞这方面的搞开发,如果以后不用,则学习浪费时间,即使以后就业时用,基本也是淘汰的,另外应用程序开发VF、VB,这个也是不用的,只有数据仓库应用适合你的要求,但不要搞access数据库,新技术和旧技术是有区别的,虽然是重在精通一门,但为何不在入门之前去做新技术方面的呢
重庆自考管理系统登陆网址是:zkPage/index 自考报名条件 1、凡具有本省正式户籍的公民,不受年龄、职业、学历的限制,均可就近报名并参加考试。外省在我省工作学习的人员,也可就近报名参加考试。 2、经国家教育部正式批准或备案的各类高等学校的专科毕业生,可直接申请报考本科段(独立本科段)。 3、考生专科(基础科段)、本科段(独立本科段)可同时兼报,但在领取本科毕业证书前必须先获取专科毕业证书。 4、实践性学习环节考核、毕业论文、毕业设计、毕业考核等,须按规定在本专业涉及实践课程理论考试全部合格后才能报考。 5、提倡在职人员按照学用一致、理论与实践相结合的原则选择报考专业。对某些行业性较强的专业(如公安管理、医学类专业等)将根据专业考试计划的要求限制报考对象。 重庆自考报名密码忘了怎么办 ①找回密码。 登陆重庆自考管理系统点击忘记密码的提示,输考号与身份证号查询密码),按照要求输入信息可以重置密码。 ②拿身份证到自考办修改。 没有提示找回的,只能拿身份证到自考办修改,直接可以重置。 其中,与自考相关的密码都很重要,大家在设置密码时尽量设置成自己比较常用的密码,实在是担心记不住会忘就用小本本或者电子备忘录记下来哦!自考/成考有疑问、不知道如何总结自考/成考考点内容、不清楚自考/成考报名当地政策,点击底部咨询官网,免费领取复习资料:
有时候同学们喜欢在一些免费论文查重检测的地方检测论文,发现不标准,其实同志们有时候也要从自己身上找原因,可能是论文的格式是错误的,所以存在着很多问题。但说到问题,我们不怕解决问题,但我们仍然想找出解决这些共同问题的办法。PaperCcb论文检测系统关于知网论文检测中常见的问题学校都是用知网,而知网的价格又很贵,所以很多学生就想用自己的小脑瓜去把同学的和自己的论文一起检测,这样就只要出一半的钱,都是你们知道在知网合测论文会有什么问题吗?有些同学根本就就不明白。如果你知道为什么的话,你就不会去合测论文了。事实上,两篇论文加在一起的字数不是一点点,容易导致检测内容的丢失或检测报告的不准确,甚至出现漏检下场。所以所有的检测论文的系统都会提醒同学们,切记合篇检测,否则,不良后果将由你自己承担,但是还是会有同学会合篇检测,所以我再次提醒同学们不要去合篇检测。在论文的检测中,最重要的是论文的格式。论文格式不正确将导致测试报告的查重率特别高。因此,我们需要知道论文格式到底是怎样的,这样才能有效地避免论文查重率,对于这些问题,我们都需要密切关注。
高校一般要求大学生毕业时提交毕业论文,这份毕业论文需要进行查重,提交时附上论文查重报告书。那么,当我们将论文上传到论文检测系统进行检验时,格式会参加查重吗?接下来和paperfree小编一起看看论文格式检测系统有吗? 论文格式检测系统是有的,文章格式检测系统实际上就是我们文章的查重系统,在查重时会根据学校的指定要求,将文章格式设置好后,再上传到论文检测系统进行查重。现在我们的论文查重系统不会检查论文的格式,但查重系统会根据论文的格式来识别论文的各个部分,比如我们对引用的部分格式有要求,学生一定要把引用的格式设置好,如果你的引用格式没有设置好,那么这个部分的重复率就在我们整个论文的重复率上。 目录、摘要、关键词、参考文献、脚注尾注等论文格式错误时,系统无法自动识别,可能会对论文重复率产生不良影响。 综上所述,我们知道查重时不会检测到论文的格式,但会影响论文各部分内容重复率的计算。所以在上传查重时,要根据要求设置整篇论文的格式,有效避免格式错误导致论文重复率高的现象。最后,小编祝大家顺利完成毕业论文,为自己快乐的四年画上完美的句号。
事实上是不允许这样进行检测的,虽然价格会划算点但是其实是在浪费更多的钱。因为进行查重时系统是按照重复长度不等于总长文章长度的方法。如果论文总篇幅有变化那么重复率也会不同。如果几篇文章中有一篇是原创的,那么最终得出的重复率就不会很高。这样合在一起查重全文也只有一次查重率,其他文章重复率就会不确定,得到的也是不准确的知网查重结果,查重后也比较难分清楚是谁的。这样使用下来是很麻烦的不确定因素比较多。我们之所以进行查重就是为了了解重复率以及根据报告对重复部分进行修改。合并进行检测会得到不准确的重复率以及报告也很难区分,无法进行准确的修改。最终我们得到结果作为查重最好是不要进行合测。不要到时候省下了检测费用而查重还是没有通过。前期我们可以现在免费的查重系统进行初步的查重与修改,等定稿后再使用学校要求的查重系统进行最后的查重确保重复率没有问题再上交学校,这样也可以省下费用还能更加保险。
知网论文查重的格式会影响到检测结果吗?内容格式对检测的影响最大。若是工作内容写的出色,有自己的观点、有创新,想要发展顺利的通过进行检测学生就不会太难。然而许多学生忽视了格式对检测成绩的影响,知网查重格式有什么要求呢?若是我们大家对这方面不了解,一定可以不要因为错过下面的介绍。 论文写作格式很重要,正确的格式也是毕业论文查重的一个重要标准。但是我们很多人在进行研究论文写作的时候,对格式关注程度并不是很高。如果你忽视了论文毕业形式的重要性,那肯定会影响你的毕业。在详细举行检测的时候,一旦论文格式不正确,检测结果也会受到影响。知网检测的时间,也和论文格式有关系,因为格式不同必然会影响的检测分段情况,从而影响检测时间。 在使用知网检测的时候,学校会有明确的要求,按照学校的论文格式要求进行排版并检测,这是十分重要的一点。不过由于我们每一个学校的要求自己不同,尤其是在检测格式上,有些学校甚至要求封面格式也进行分析检测,有些则不要求进行查重。详细阅读学校的要求,这样检测结果才更加准确,对论文重复率的后期修改也有借鉴意义。就算学校要求不是很严格,对参考文献格式也要给予重视,很多学生进行知网检测结果不准确,甚至参考文献重复率较高,这就是因为格式不正确,所以一定要对格式给予重视,合理的进行格式的调整,严格按照国家的参考文献标准进行调整。
论文摘要: 小学英语教师的素养直接关系到英语基础教育的成效。本文针对如何提高小学英语教师的语音素养,从语音理论、节奏感和语调三方面进行了论述。 一、语音在小学英语教育中的重要性 语言是有声的。任何语言都是先有声音后有文字,任何掌握语言的过程都是先会听说后会读写。从牙牙学语到入学之前,人的唯一语言实践是听说(通过模仿)。英语也是如此,语音作为学习英语的基础,同时也是其重要的表现形式,在英语教学中的重要地位自然是不言而喻的。一些专家研究了儿童学习外语的规律,经验表明,八岁左右是学习外语的最佳期,在这个年龄段开始外语学习,不与母语学习冲突,效率较高。而且小学生有敏锐的听觉、善于模仿的特点,这成就了他们学好语音的优势。在这形成正确语音语调的关键时期,教师的语音和语调会直接影响到学生的发音。而且小学英语的教学重点是培养学生用“语言进行交流的能力”,①因此小学英语教师的口语自然流利,语音、语调纯正地道尤其重要。教师职业要求教师的专业知识要远远超出教科书的知识量,何况英语教学是一门实践性很强的工具课,只有英语教师本人具有正确的语音、语调和很强的口语表达能力,才能自然流畅地用英语组织课堂教学完成教学工作。 二、教育部对小学英语教师的要求 教育部决定:从2001年秋季开始,全国城市和县城小学逐步设英语课程;2002年秋季,乡镇所在地小学逐步开设英语课程。小学开设英语课程的起始年级一般为三年级。《小学英语课程教学基本要求(试行)》中明确规定:根据小学生的生理和心理特点以及发展需求,小学阶段英语课程的目的是激发学生学习英语的兴趣,培养他们英语学习的积极态度,使他们建立初步的学习英语的自信心;培养学生一定的语感和良好的语音、语调基础;使他们形成初步用英语进行简单日常交流的能力,为进一步学习打下基础。由此可见,小学英语教师除了应具有一般教师的素质即个性品质、教学能力、事业心和教育理论与教学研究能力外,还应具有较高水准的语言能力,既有深厚扎实的语音、语调、词汇、语法等语言知识,还必须熟练掌握听、说、读、写、译的教学技能,特别是口语能力。 三、小学英语教师要具备的语音素养 (一)语音理论素养 《小学英语课程教学基本要求(试行)》中规定:防止和纠正以教授语音和语法等语言知识为主的做法,把教学重点放在培养学生用英语进行交流的能力和兴趣上。②所以小学英语教师是不能够在课堂上直接讲授语音理论的,但是如果教师本身对这门学科没有很透彻地理解和掌握的话,又怎么能够进行教学实践?怎么能够教学生念好每一个词、读好每一句话呢?所以,对于教学中出现的每一个语言现象,教师应该做到了然于胸。比如:对于有些难发的元音,长音要足够长,圆唇音要足够圆,扁唇音要足够扁,还要注意双元音中间的滑流音,等等。教师要利用自己掌握的正确的英语语音理论,给学生做出正确的示范,让学生看清楚口型、听清楚发音,从这两个方面来模仿,以便学生形成良好的英语语音基础。再如发双元音时,会有唇形变化,像发〔au〕音时,嘴唇是先张大然后缩回变圆唇且唇稍向前突出。还有辅音,英语中的辅音很容易受到送气的强弱和用力的大小的影响,这尤其需要教师能够很准确地给学生做出示范,帮助他们辨别其中容易混淆的或者出问题的音。比如〔w〕和〔v〕,发这两个音的时候都要用力,但是前者是圆唇,后者则是上齿轻触下唇,略微露出门牙。再比如,由于受到地方音的影响,我国南方地区的学生易将〔l〕和〔n〕搞混,所以就会将life〔laif〕读成knife〔naif〕。另外,很多学习者都知道当定冠词the置于元音字母开头的单词前时,其发音由〔?奁?藜〕变音为〔?奁i〕,但是深入学习后就知道,实际上在两个词之间还要添加一个〔j〕音,像是the earth的音就是〔?奁ij?谡?藜?蘼θ〕,in the evening的音就是〔in?奁ij?谡i?蘼vni?耷〕。这些现象虽然对词义和使用没有十分的影响,但是对于学好英语却是至关重要的。 (二)教学中注意学生节奏感的培养 我们在说话或朗读一个句子时会发现一个有趣的现象:在每一句话里所出现的一系列音节都有轻重、长短、高低、快慢所自然形成的一种有规律的交替现象。这种现象被称为节奏(rhythm)。③ 例如:He ?谡plays ?谡basketball ?谡every ?谡morning. 1 23 4 56 7 89 这句话汇总有九个音节,其中第2、3、6、8是重读音节,其它的是非重读音节。朗读中,重读音节要念得长些、重些、慢些,非重读音节要念得相对短些、轻些、快些,因此声音就有响亮清楚的差别,这样自然形成的奏中轻重、高低、快慢的交替就构成了英语的基本节奏。 英语是一种节奏感很强的语言,英美人在说英语的过程中很讲究节奏和韵律。小学英语的教学重点是培养学生用语言进行交流的能力,就是培养学生说的能力。④这种绝对不是只把单个的音或词准确地念出来,而是要将单个的词连成句,再顺畅流利地表达出来,并进而讲求节奏。 教师可以利用小学生模仿能力强的特点,从小培养他们的节奏感。英语的语句,总是由节奏群(rhythm group)组成的。节奏群是指人们在说话或朗诵时把音节合成一组一组地念出来。这样一组一组的音节群就被称为节奏群。例如上面的例句就是由四个节奏群所组成,每个节奏群里都有一个中读音节作为主体。例如,第一个节奏群he ?谡plays中的〔pleiz〕,第二个节奏群basketball中的〔?谡b?藁s〕,第三个节奏群every中的〔?谡ev〕,第四个节奏群morning中的〔?谡m?蘅?蘼〕。重读音节是构成节奏群的主体和基础,它跟非重读音节是交替出现的,而且重读音节之间的时距大致是相等的。英语句子由一个或者几个节奏群构成,每个节奏群的时值相当于音乐中的一个节拍,教师可以用击掌或者用尺子敲打桌子等一些体现节拍的手段,让学生有节奏地进行练习。以下是常见的英语句子节奏类型: 《英语课程标准》指出:学生在英语基础教育阶段应该学习和掌握包括语音、词汇、语法、功能和话题等五个方面的基础知识。语言有三大要素:语音、词汇和语法,其中语音是最基本的因素。语音是学好语言的基础,语音教学是语言教学的重要内容之一。自然规范的语音、语调将为有效的口语交际打下良好的基础.在小学英语教学中,教师应特别重视语音教学。 语音教学的目的就是要教会学生正确、流利的发音,以达到能正确地听懂别人的谈话和通过说来表情达意,进而促进读和写的能力的发展。我在小学英语教学实践中发现,语音教学的效果不尽如人意。一些学生没有学好语音,不会诵读,也就难以朗读单词和句子。学生学习英语出现两极分化、掉队,其中一个重要原因就是学生未学好语音,没有过好语音关。因为学生语音未学好,发音不准,听音能力差,不仅学不会口语,甚至连听课、记单词、读句子都有困难,从而对英语学习不感兴趣,产生畏难情绪,甚至放弃学习,丧失学习英语的兴趣和信心。 如何提高语音教学的成效,让学生听得懂、说得出、用得好呢?对于小学英语教学来说,课堂是教学的主阵地,帮助学生形成有效的英语语音学习策略是每位英语教师的职责,也是新课程标准所制定的学习目标之一。教师应根据新课程标准中的二级语音学习目标和学习策略目标来研究如何搞好语音教学以及如何引导学生形成有效的语音学习策略,使其掌握正确的发音要领,养成正确的发音习惯,学会规范的发音,发展自主学习语言的能力。以下是我在小学英语课程教学中采用的一些语音教学策略:1、培养意识策略 培养学生的语音意识是帮助学生形成有效的语音学习策略的首要条件。小学生在学习英语时,已经掌握了汉语的语音,形成了汉语语音的习惯,当他们初学英语语音时往往按汉语的发音去听和发出英语语音。这时,教师在教学过程中就要有意识地分析比较,培养他们英语语音的意识,使他们将自己的发音纳入英语语音系统,从而正确地感知和复现外语语音。例如,有位学生在初学英语时用汉字注单词的音,我发现这一情况后没有立即在课堂上当着全班学生的面批评他(怕产生负面影响,引起其他同学的效仿),而是在课后用正确的语音语调和他用汉字注的音分别把单词读了一遍,他听了以后自己先笑了起来(因为听起来很怪),立刻用橡皮把汉字擦去了。从那以后他课上、课下总是在认真地听、努力地记,最终模仿出了一口纯正的语音语调。2、模仿练习策略 新课程标准指出:在英语教学起始阶段,语音教学主要应通过模仿来进行,教师应提供大量听音、模仿和实践的机会,帮助学生养成良好的发音习惯。 学习英语发音,最基本、最有效的方法是模仿。特别是小学生,他们年龄小,模仿能力强,你怎么教,他就怎么学,不需要作任何讲解。 模仿练习一般分三个步骤。 ①听音。 听音是学习语音的第一步。应该让学生多听音,教师何以提供原声语音资料,使他们接触和学习地道的发音。当然课堂上听的最多的是教师的示范发音。这就要求教师本身发音要准确、规范。只有在听清楚、听准确的基础上,才能使学生模仿,也才能模仿得对,模仿得准确。在教学中,为了让一个班四、五十个学生都能听清、听准,我经常是“走着教语音”,有时在教室前面说一遍,然后走到教室后面让学生转过身再说一遍。这样使每一个学生都能听清,为正确模仿发音打下基础。 ②模仿。 模仿时可采取集体模仿和个别模仿。集体模仿主要是训练学生的发音器官,增加学生的模仿机会。个别模仿可以检查学生是否模仿有错,给予及时的帮助纠正。 ③仿说。 在听音、模仿的基础上可以进行仿说,这可以通过朗读、日常的听说等练习来进行,逐渐培养学生正确的语音语调。 3、总结归纳策略 记忆包括识记、保持、再认和回忆四个过程。小学生的记忆特点是“学得快,忘得快”,这就要求教师要善于启发和引导学生在听和模仿的过程中注意发现和总结、归纳语音规律,帮助学生记忆,以提高学习效率。在教学中,我总是通过开展各种活动去帮助学生掌握字母组合与音素发音的规律,培养学生遇到生词就能根据其拼写正确发音的能力,从而帮助学生形成有效的语音学习策略。例如在外研版教材第八册第五单元第五课Sounds教学中,为了检查学生是否能准确听懂、判断出[ai] [au] [)i]三个双元音,我设计了三首小诗,让学生欣赏,判断小诗含有哪个音并说出,学生非常感兴趣,听的非常认真,结果他们不仅能说出所含音,还能根据读音规律读出小诗,超出了预期的效果。4、整合资源策略 新课程标准指出:语音教学应注重语义与语境、语调与语流相结合,不要一味追求单音的准确性。还指出:英语有不同的口音,如:英国口音、美国口音等。教学中,应让学生在基本掌握一种口音的基础上,适当接触不同的口音,为他们发展交际能力打下基础。这就要求教师在语音教学中要根据学生的心理特点和语言学习规律,寻找符合小学生年龄特点的语音材料。教师将这些资料重新整合,注重语义与语境、语调与语流相结合,设计成适合小学生年龄特点的语音训练活动,帮助学生练习语音。在教学中,我通过说 chant和绕口令,帮助学生练习单音音素的发音及重音;通过教唱英文歌曲、学说歌谣和顺口溜,练习连读、节奏和韵律。这样就能将枯燥的、机械的听音和模仿练习变为有趣的、有意义的活动,充分调动学生学习语音的积极性,使他们养成乐于模仿和善于模仿、善于运用的良好习惯和学习策略。 语音是语言的基础,是语言的物质外壳,是口语的基本物质单位。而学习策略是学生成功学习的保证。帮助学生有效地使用学习策略,不仅有利于他们把握学习的方向、采用科学的途径、提高学习效率,而且还有助于他们形成自主学习的能力,为终身学习奠定基础。
语音合成技术给我们带来了很多惊喜,你知道自己每天都在与它们打交道吗?而开车时的导航就是语音合成的一种。虽然目前的"它们"只会相对机械的朗读文章,但可以肯定的是,语音合成技术已经走出实验室,开始商用,其潜在的巨大市场已露出曙光。
我们的身边总是人声鼎沸。
婴儿牙牙学语,男女互诉爱意。在肺部、气管和声带的共同作用下,声音出现,喉内肌肉协调作用下,我们说出能够代表自己想法的字符,再赋予其愤怒或喜悦或悲伤的 情感 ,人类的语音就此形成。
18世纪末,一个因土耳其行棋傀儡的将在多年后臭名昭著的发明家沃尔夫冈·冯·肯佩伦,花费了人生最后20年的时间,试图模拟人类的语音。他做了一个布满孔洞的空箱,空箱连接着一个奇异形状的鼓风机,鼓风机被压动后将使得内置的簧片振动,这一过程模拟了人类的发声,也确实发出了声音,而这也成就了人类最早的语音合成机械之一。
让机器更像人类,是无数科学家的梦想。这样的梦想被多方位的推进,从机器的外形上、内核的思考运算上,以及对外表达的说话上。
如今,电子设备取代了空盒子,算法则比簧片更能够协调发声。在技术发展下,声音的波动被计算机捕捉、计算、指引,最终发出声音。这一项带着前人梦想的技术,不再单单出现在电影和小说里,也承载起了巨大的市场走进千家万户,这就是语音合成。
从Siri开始的热潮,语音合成潜力无限
同时,Siri的热潮也拉开了语音合成技术运用的大门。
2014年微软推出了"小娜"与"小冰",这是将Siri所拥有的语音识别技术及语音合成技术分开来,小娜负责理解复杂的口语指令并进行执行,而小冰主要能够和人类友好地聊天。
随后,这样的运用逐步增多:2014 年底,亚马逊发布了 Echo 智能音箱,语音助理 Alexa也随之亮相;一年半后,Google 也发布了第一代智能音箱 Google Home 和语音助手 Google Assistant。
国内的巨头也不遑多让,京东叮咚智能音箱、天猫精灵智能音箱、小爱系列智能音箱、小度智能音箱,也纷纷进入了国人的家居生活。
Siri的热潮同步开启的,不仅仅是语音合成技术在硬件上的应用,也包括一系列更具想象力的交互场景,带来了巨大的商机。
2015年春节,本就搭载了语音导航的高德地图与郭德纲合作,推出了高德地图欢笑版。用户打开高德地图,不仅能够听到导航播报,还能听到郭德纲的极具特色的段子。这一次尝试,让高德地图一度跃至苹果App Store榜单第2名。
在今年新冠肺炎疫情期间,"宅经济"大行其道,"听书"市场也快速爆发,有声阅读成为新的阅读潮流。
除此以外,短视频中的AI配音,让视频内容者省去大量配音时间;对已故知名艺人的声音采集,实现过去与现在的交互,圆了一代粉丝的梦想……
我们可以看到,语音合成技术的未来拥有巨大的想象空间,根据赛迪智库数据,预计到2021年智能语音市场规模将达195亿元。在这其中,智能语音就由语音识别技术(ASR)和语音合成技术(TTS)共同组成。
而这两项技术也正在被头部企业迅速推进,市场之下,语音合成已经不仅仅代表人类过去的梦想,更是代表着更"大一统"的 科技 格局,毕竟,这一技术改变着人类与机器的交互方式,也将改变未来人类的机器使用习惯,代表着全新的机会与入口。
从过去到现在,语音合成技术一览
1773年,俄国科学家、在哥本哈根生活的生理学教授克里斯蒂安·克拉特齐斯坦(Christian Kratzenstein)制造了一个特别的设备,通过共鸣管和风琴管的连接,几乎可以完美的发出 a、e、i、o、u 这五个元音。
十多年后,前文提到的沃尔夫冈·冯·肯佩伦也制造了一台类似的机械声学语音机器。随后,多位发明家基于这一机器进行改进,都是试图通过物理机模拟人说话发音。
这样的尝试已经令人难以想象,不过,即使这样的物理机发展得登峰造极,也无法模拟出我们说出的每一个音节、无法拥有人说话的音质,也无法停顿、无法带有情绪。
因此,另一种方式出现——拼接系统,让说话人录制语音存入系统,在合成语音时选择对应的片段进行拼接、合成。这样的拼接系统能够相比物理机极大地接近人声,虽然拼接处的瑕疵难以消除,但是随着如今大数据时代的来临,大语料库的出现,让拼接出的语音逐步真人化,直至如今依然有商业系统在使用。
基于参数的合成技术的诞生背景则是基于神经网络架构的深度学习方法的飞速进展。当时,对语音的识别不再是识别一个简单的词和短词组,而是基于统计的方法,运用声学模型帮助计算机认知每个音素单元的声学特征、运用语言模型帮助计算机实现对人类用词习惯的认知,最终给到用户最高可能性的连接。在这其中,典型的模型是隐含马尔可夫模型(HMM),用来描述如何在可变长的时序特征序列上打词标签。
2017年3月,行业的引领者Google 提出了一种新的端到端的语音合成系统:Tacotron。端到端语音合成是在参数合成技术上演进而来的,把两段式预测统一成了一个模型预测,即拼音流到语音特征流的直接转换,省去了主观的中间特征标注,克服了误差积累,也大幅度提高了语音合成的质量。
然而,为了实现真正像人一样的发音,语音合成系统必须学会语调、重音、节奏等表达因素,这一问题,Tacotron也并未解决。
谷歌曾共享了两篇新论文试图解决这一问题,第一篇论文《Towards End-to-End Prosody Transfer for Expressive Speech Synthesis with Tacotron》介绍了"韵律学嵌入"(prosody embedding)的概念。论文中为 Tacotron 增加了一个韵律学编码器,该嵌入捕捉包括停顿、语调、语速等在内的音频特征可根据一个完全不同的说话者的声音生产语音。
第二篇论文《Style Tokens: Unsupervised Style Modeling, Control and Transfer in End-to-End Speech Synthesis》则在上一篇论文的架构上进一步展开,并且创新性地提出了一种建模潜在语音"因素"的无监督新方法。这一模型之下,学习的不再是时间对齐的精确的韵律学元素,而是较高层的说话风格模式,并且可以迁移于任意不同的短语之中。
如果论文提到的模型实现,那么我们便可以迫使 Tacotron 使用特定的说话风格,不需要参考语音片段,并能创造出语音长度多样化的不同语句,并带有情绪。
在不远的将来,或许我们就将听到,来自机器的人类声音。
国内:积极商用,进展瞩目
在语音合成的重要研究中,因为国内起步较晚,所以我们很少看到突破性的技术发展。但是,即便停留在艰难的 探索 初期,巨头们之于语音合成仍旧趋之若鹜。
我们也惊喜地看到,不少企业在近期通过语音合成的商用落地,展现出了自己的技术实力。
① 京东数科:AI主播"小妮"上岗
京东数科基于京东多年在人工智能、大数据、云计算等领域的技术沉淀,在2018年就开始组建机器人的团队,研究覆盖生命科学、传感器材料乃至运动力学与人机交互。
在全面的机器人开发体系下,今年5月,京东数科推出了令人瞩目的AI主播"小妮",这是京东数科自主研发的AI虚拟数字人产品首次亮相。
小妮的真实是全方位的,在听感、表情、头部动作乃至口型上,小妮都极像真人。从文字到语音,小妮通过自研的轻量级对抗语音合成技术进行转化;而小妮特色鲜明的声音及极具真实性的呼吸和停顿,则是来源于在多人数据上结合深度神经网络进行个性化建模……
更为重要的是,小妮的出现打通了语音、图像、视频,在语音生成视频的阶段,她的形象同样真实。因为京东数科AI实验室利用对抗生成网络来还原更真实的表情,通过3D模型运动追踪技术来确保AI主播在说话时口型准确、表情细腻、头部运动自然。
而除了主播领域以外,AI虚拟数字人还可以用智能客服及招聘领域。在未来,我们可以预见到,AI虚拟数字人在其他高重复性场景的更多运用可能性。而伴随着京东数科全面的机器人体系研发技术的进展,或许也将出现超乎我们想象的AI运用。
② 科大讯飞:为多家企业提供底层技术支持
早在之前,科大讯飞就推出了讯飞录音笔、智能鼠标、阿尔法蛋等涉及语音交互的产品。今年,来自科大讯飞地一款彩色墨水屏阅读器正式面世,一方面,阅读器可以进行常见的新闻播报、语音读书,满足用户的基础要求;另一方面,阅读器结内置了神秘AI主播,可以对话用户、助力用户解决问题。同时,科大讯飞也为多家企业提供底层技术支撑,覆盖智能手机、智能 汽车 等多个领域。
③ 腾讯云:语音累计音色种类达24种
而对于拥有国内最大流量池——微信、QQ的腾讯而言,这家企业则选择为内容创业者提供服务。
今年9月,腾讯云语音合成团队正式开放面向全量用户的合成音频平台,该平台能够帮助用户在零门槛的情况下实现语音合成技术的运用,用户只需要直语音合成控制台上生成和下载文本对应的音频文件即可。该功能的侧重点是帮助内容创作者在公众号、短视频、小视频等内容上更简单、快捷地插入对应所需的音频文件。同时,腾讯云还发布了全新地11种音色,其中甚至包括粤语这样的方言在内,目前累计音色种类达24种。
④ 百度:百度大脑开放全栈语音引擎能力
作为将AI作为战略进行投入的百度,在语音合成上的推进也不容小觑。
去年,已经开放三年的百度发布了语音引擎。这是一套非常全面的系统,覆盖内容非常广泛,包括硬件模组、开发板以及语音交互场景解决方案等。在这其中,百度也专门围绕语音合成的成功进行了发布,推出了6个在线语音合成精品音库和5个离线语音合成精品音库。
未来语音合成将更接近人类的语言
立足现在,我们不禁畅想,未来的语音合成将是什么样,又将出现在哪些地方?
在技术上,毫无疑问,未来的语音合成将更接近人类的语言。一个理想的语音合成系统由三部分组成:文本分析、韵律生成和合成语音,而在这三方面,行业的发展都还有待提高。
在这其中,韵律生成是行业面临的共同问题,如何可以让语音合成更像人类?更具表达力?作为声学模型,还有大量个性化、 情感 化的变化因素需要学习。而值得一提的是,语音合成技术的复杂度也需要降低,从而实现更广度地运用。我们也相信,随着大量语料的有效使用,这一切问题也都将解决,未来,语音合成必将更加"传神"。
而随之而来的,我们的生活也将被改变。
一方面,在 科技 带来革新的同时,传统也将受到冲击。在上文中,小妮被运用与客服以及招聘的部分环节,那么很明显,在不远的未来,具有重复性的语音性质的工作将受到巨大影响。
而另一方面,更为智能的未来也将到来,在将来,人与机器的交互方式或许将被彻底改变,到那时,全新的商业机会也将藏于其中。
为了迎接这一时代,巨头趋之若鹜,而普通人也同样该砥砺前行。
#智能语音##语音合成#
语音识别技术研究让人更加方便地享受到更多的社会信息资源和现代化服务,对任何事都能够通过语音交互的方式。 我整理了浅谈语音识别技术论文,欢迎阅读!
语音识别技术概述
作者:刘钰 马艳丽 董蓓蓓
摘要:本文简要介绍了语音识别技术理论基础及分类方式,所采用的关键技术以及所面临的困难与挑战,最后讨论了语音识别技术的 发展 前景和应用。
关键词:语音识别;特征提取;模式匹配;模型训练
Abstract:This text briefly introduces the theoretical basis of the speech-identification technology,its mode of classification,the adopted key technique and the difficulties and challenges it have to developing prospect ion and application of the speech-identification technology are discussed in the last part.
Keywords:Speech identification;Character Pick-up;Mode matching;Model training
一、语音识别技术的理论基础
语音识别技术:是让机器通过识别和理解过程把语音信号转变为相应的文本或命令的高级技术。语音识别以语音为研究对象,它是语音信号处理的一个重要研究方向,是模式识别的一个分支,涉及到生 理学 、心理学、语言学、 计算 机 科学 以及信号处理等诸多领域,甚至还涉及到人的体态语言(如人在说话时的表情、手势等行为动作可帮助对方理解),其最终目标是实现人与机器进行 自然 语言通信。
不同的语音识别系统,虽然具体实现细节有所不同,但所采用的基本技术相似,一个典型语音识别系统主要包括特征提取技术、模式匹配准则及模型训练技术三个方面。此外,还涉及到语音识别单元的选取。
(一) 语音识别单元的选取
选择识别单元是语音识别研究的第一步。语音识别单元有单词(句)、音节和音素三种,具体选择哪一种,由具体的研究任务决定。
单词(句)单元广泛应用于中小词汇语音识别系统,但不适合大词汇系统,原因在于模型库太庞大,训练模型任务繁重,模型匹配算法复杂,难以满足实时性要求。
音节单元多见于汉语语音识别,主要因为汉语是单音节结构的语言,而 英语 是多音节,并且汉语虽然有大约1300个音节,但若不考虑声调,约有408个无调音节,数量相对较少。因此,对于中、大词汇量汉语语音识别系统来说,以音节为识别单元基本是可行的。
音素单元以前多见于英语语音识别的研究中,但目前中、大词汇量汉语语音识别系统也在越来越多地采用。原因在于汉语音节仅由声母(包括零声母有22个)和韵母(共有28个)构成,且声韵母声学特性相差很大。实际应用中常把声母依后续韵母的不同而构成细化声母,这样虽然增加了模型数目,但提高了易混淆音节的区分能力。由于协同发音的影响,音素单元不稳定,所以如何获得稳定的音素单元,还有待研究。
(二) 特征参数提取技术
语音信号中含有丰富的信息,但如何从中提取出对语音识别有用的信息呢?特征提取就是完成这项工作,它对语音信号进行分析处理,去除对语音识别无关紧要的冗余信息,获得影响语音识别的重要信息。对于非特定人语音识别来讲,希望特征参数尽可能多的反映语义信息,尽量减少说话人的个人信息(对特定人语音识别来讲,则相反)。从信息论角度讲,这是信息压缩的过程。
线性预测(LP)分析技术是目前应用广泛的特征参数提取技术,许多成功的应用系统都采用基于LP技术提取的倒谱参数。但线性预测模型是纯数学模型,没有考虑人类听觉系统对语音的处理特点。
Mel参数和基于感知线性预测(PLP)分析提取的感知线性预测倒谱,在一定程度上模拟了人耳对语音的处理特点,应用了人耳听觉感知方面的一些研究成果。实验证明,采用这种技术,语音识别系统的性能有一定提高。
也有研究者尝试把小波分析技术应用于特征提取,但目前性能难以与上述技术相比,有待进一步研究。
(三)模式匹配及模型训练技术
模型训练是指按照一定的准则,从大量已知模式中获取表征该模式本质特征的模型参数,而模式匹配则是根据一定准则,使未知模式与模型库中的某一个模型获得最佳匹配。
语音识别所应用的模式匹配和模型训练技术主要有动态时间归正技术(DTW)、隐马尔可夫模型(HMM)和人工神经元 网络 (ANN)。
DTW是较早的一种模式匹配和模型训练技术,它应用动态规划方法成功解决了语音信号特征参数序列比较时时长不等的难题,在孤立词语音识别中获得了良好性能。但因其不适合连续语音大词汇量语音识别系统,目前已被HMM模型和ANN替代。
HMM模型是语音信号时变特征的有参表示法。它由相互关联的两个随机过程共同描述信号的统计特性,其中一个是隐蔽的(不可观测的)具有有限状态的Markor链,另一个是与Markor链的每一状态相关联的观察矢量的随机过程(可观测的)。隐蔽Markor链的特征要靠可观测到的信号特征揭示。这样,语音等时变信号某一段的特征就由对应状态观察符号的随机过程描述,而信号随时间的变化由隐蔽Markor链的转移概率描述。模型参数包括HMM拓扑结构、状态转移概率及描述观察符号统计特性的一组随机函数。按照随机函数的特点,HMM模型可分为离散隐马尔可夫模型(采用离散概率密度函数,简称DHMM)和连续隐马尔可夫模型(采用连续概率密度函数,简称CHMM)以及半连续隐马尔可夫模型(SCHMM,集DHMM和CHMM特点)。一般来讲,在训练数据足够的,CHMM优于DHMM和SCHMM。HMM模型的训练和识别都已研究出有效的算法,并不断被完善,以增强HMM模型的鲁棒性。
人工神经元 网络 在语音识别中的 应用是现在研究的又一 热点。ANN本质上是一个自适应非线性动力学系统,模拟了人类神经元活动的原理,具有自学、联想、对比、推理和概括能力。这些能力是HMM模型不具备的,但ANN又不个有HMM模型的动态时间归正性能。因此,现在已有人研究如何把二者的优点有机结合起来,从而提高整个模型的鲁棒性。
二、语音识别的困难与对策
目前,语音识别方面的困难主要表现在:
(一)语音识别系统的适应性差,主要体现在对环境依赖性强,即在某种环境下采集到的语音训练系统只能在这种环境下应用,否则系统性能将急剧下降;另外一个问题是对用户的错误输入不能正确响应,使用不方便。
(二)高噪声环境下语音识别进展困难,因为此时人的发音变化很大,像声音变高,语速变慢,音调及共振峰变化等等,这就是所谓Lombard效应,必须寻找新的信号分析处理方法。
(三)语言学、生 理学 、心理学方面的研究成果已有不少,但如何把这些知识量化、建模并用于语音识别,还需研究。而语言模型、语法及词法模型在中、大词汇量连续语音识别中是非常重要的。
(四)我们对人类的听觉理解、知识积累和学习机制以及大脑神经系统的控制机理等分面的认识还很不清楚;其次,把这方面的现有成果用于语音识别,还有一个艰难的过程。
(五)语音识别系统从实验室演示系统到商品的转化过程中还有许多具体问题需要解决,识别速度、拒识问题以及关键词(句)检测技术等等技术细节要解决。
三、语音识别技术的前景和应用
语音识别技术 发展 到今天,特别是中小词汇量非特定人语音识别系统识别精度已经大于98%,对特定人语音识别系统的识别精度就更高。这些技术已经能够满足通常应用的要求。由于大规模集成电路技术的发展,这些复杂的语音识别系统也已经完全可以制成专用芯片,大量生产。在西方 经济 发达国家,大量的语音识别产品已经进入市场和服务领域。一些用户交机、电话机、手机已经包含了语音识别拨号功能,还有语音记事本、语音智能玩具等产品也包括语音识别与语音合成功能。人们可以通过电话网络用语音识别口语对话系统查询有关的机票、 旅游 、银行信息,并且取得很好的结果。
语音识别是一门交叉学科,语音识别正逐步成为信息技术中人机接口的关键技术,语音识别技术与语音合成技术结合使人们能够甩掉键盘,通过语音命令进行操作。语音技术的应用已经成为一个具有竞争性的新兴高技术产业。
参考 文献 :
[1]科大讯飞语音识别技术专栏. 语音识别产业的新发展. 企业 专栏.通讯世界,:(总l12期)
[2]任天平,门茂深.语音识别技术应用的进展.科技广场.河南科技,
[3]俞铁城.科大讯飞语音识别技术专栏.语音识别的发展现状.企业专栏.通讯世界, (总122期)
[4]陈尚勤等.近代语音识别.西安: 电子 科技大学出版社,1991
[5]王炳锡等.实用语音识别基础.Practical Fundamentals of Speech Recognition.北京:国防 工业 出版社,2005
[6](美)L.罗宾纳.语音识别基本原理.北京:清华大学出版社,1999
点击下页还有更多>>>浅谈语音识别技术论文