您当前的位置:首页 > 发表论文>论文发表

声音检测论文

2023-03-04 14:17 来源:学术参考网 作者:未知

声音检测论文

语音识别技术研究让人更加方便地享受到更多的社会信息资源和现代化服务,对任何事都能够通过语音交互的方式。 我整理了浅谈语音识别技术论文,欢迎阅读!

语音识别技术概述

作者:刘钰 马艳丽 董蓓蓓

摘要:本文简要介绍了语音识别技术理论基础及分类方式,所采用的关键技术以及所面临的困难与挑战,最后讨论了语音识别技术的 发展 前景和应用。

关键词:语音识别;特征提取;模式匹配;模型训练

Abstract:This text briefly introduces the theoretical basis of the speech-identification technology,its mode of classification,the adopted key technique and the difficulties and challenges it have to face.Then,the developing prospect ion and application of the speech-identification technology are discussed in the last part.

Keywords:Speech identification;Character Pick-up;Mode matching;Model training

一、语音识别技术的理论基础

语音识别技术:是让机器通过识别和理解过程把语音信号转变为相应的文本或命令的高级技术。语音识别以语音为研究对象,它是语音信号处理的一个重要研究方向,是模式识别的一个分支,涉及到生 理学 、心理学、语言学、 计算 机 科学 以及信号处理等诸多领域,甚至还涉及到人的体态语言(如人在说话时的表情、手势等行为动作可帮助对方理解),其最终目标是实现人与机器进行 自然 语言通信。

不同的语音识别系统,虽然具体实现细节有所不同,但所采用的基本技术相似,一个典型语音识别系统主要包括特征提取技术、模式匹配准则及模型训练技术三个方面。此外,还涉及到语音识别单元的选取。

(一) 语音识别单元的选取

选择识别单元是语音识别研究的第一步。语音识别单元有单词(句)、音节和音素三种,具体选择哪一种,由具体的研究任务决定。

单词(句)单元广泛应用于中小词汇语音识别系统,但不适合大词汇系统,原因在于模型库太庞大,训练模型任务繁重,模型匹配算法复杂,难以满足实时性要求。

音节单元多见于汉语语音识别,主要因为汉语是单音节结构的语言,而 英语 是多音节,并且汉语虽然有大约1300个音节,但若不考虑声调,约有408个无调音节,数量相对较少。因此,对于中、大词汇量汉语语音识别系统来说,以音节为识别单元基本是可行的。

音素单元以前多见于英语语音识别的研究中,但目前中、大词汇量汉语语音识别系统也在越来越多地采用。原因在于汉语音节仅由声母(包括零声母有22个)和韵母(共有28个)构成,且声韵母声学特性相差很大。实际应用中常把声母依后续韵母的不同而构成细化声母,这样虽然增加了模型数目,但提高了易混淆音节的区分能力。由于协同发音的影响,音素单元不稳定,所以如何获得稳定的音素单元,还有待研究。

(二) 特征参数提取技术

语音信号中含有丰富的信息,但如何从中提取出对语音识别有用的信息呢?特征提取就是完成这项工作,它对语音信号进行分析处理,去除对语音识别无关紧要的冗余信息,获得影响语音识别的重要信息。对于非特定人语音识别来讲,希望特征参数尽可能多的反映语义信息,尽量减少说话人的个人信息(对特定人语音识别来讲,则相反)。从信息论角度讲,这是信息压缩的过程。

线性预测(LP)分析技术是目前应用广泛的特征参数提取技术,许多成功的应用系统都采用基于LP技术提取的倒谱参数。但线性预测模型是纯数学模型,没有考虑人类听觉系统对语音的处理特点。

Mel参数和基于感知线性预测(PLP)分析提取的感知线性预测倒谱,在一定程度上模拟了人耳对语音的处理特点,应用了人耳听觉感知方面的一些研究成果。实验证明,采用这种技术,语音识别系统的性能有一定提高。

也有研究者尝试把小波分析技术应用于特征提取,但目前性能难以与上述技术相比,有待进一步研究。

(三)模式匹配及模型训练技术

模型训练是指按照一定的准则,从大量已知模式中获取表征该模式本质特征的模型参数,而模式匹配则是根据一定准则,使未知模式与模型库中的某一个模型获得最佳匹配。

语音识别所应用的模式匹配和模型训练技术主要有动态时间归正技术(DTW)、隐马尔可夫模型(HMM)和人工神经元 网络 (ANN)。

DTW是较早的一种模式匹配和模型训练技术,它应用动态规划方法成功解决了语音信号特征参数序列比较时时长不等的难题,在孤立词语音识别中获得了良好性能。但因其不适合连续语音大词汇量语音识别系统,目前已被HMM模型和ANN替代。

HMM模型是语音信号时变特征的有参表示法。它由相互关联的两个随机过程共同描述信号的统计特性,其中一个是隐蔽的(不可观测的)具有有限状态的Markor链,另一个是与Markor链的每一状态相关联的观察矢量的随机过程(可观测的)。隐蔽Markor链的特征要靠可观测到的信号特征揭示。这样,语音等时变信号某一段的特征就由对应状态观察符号的随机过程描述,而信号随时间的变化由隐蔽Markor链的转移概率描述。模型参数包括HMM拓扑结构、状态转移概率及描述观察符号统计特性的一组随机函数。按照随机函数的特点,HMM模型可分为离散隐马尔可夫模型(采用离散概率密度函数,简称DHMM)和连续隐马尔可夫模型(采用连续概率密度函数,简称CHMM)以及半连续隐马尔可夫模型(SCHMM,集DHMM和CHMM特点)。一般来讲,在训练数据足够的,CHMM优于DHMM和SCHMM。HMM模型的训练和识别都已研究出有效的算法,并不断被完善,以增强HMM模型的鲁棒性。

人工神经元 网络 在语音识别中的 应用是现在研究的又一 热点。ANN本质上是一个自适应非线性动力学系统,模拟了人类神经元活动的原理,具有自学、联想、对比、推理和概括能力。这些能力是HMM模型不具备的,但ANN又不个有HMM模型的动态时间归正性能。因此,现在已有人研究如何把二者的优点有机结合起来,从而提高整个模型的鲁棒性。

二、语音识别的困难与对策

目前,语音识别方面的困难主要表现在:

(一)语音识别系统的适应性差,主要体现在对环境依赖性强,即在某种环境下采集到的语音训练系统只能在这种环境下应用,否则系统性能将急剧下降;另外一个问题是对用户的错误输入不能正确响应,使用不方便。

(二)高噪声环境下语音识别进展困难,因为此时人的发音变化很大,像声音变高,语速变慢,音调及共振峰变化等等,这就是所谓Lombard效应,必须寻找新的信号分析处理方法。

(三)语言学、生 理学 、心理学方面的研究成果已有不少,但如何把这些知识量化、建模并用于语音识别,还需研究。而语言模型、语法及词法模型在中、大词汇量连续语音识别中是非常重要的。

(四)我们对人类的听觉理解、知识积累和学习机制以及大脑神经系统的控制机理等分面的认识还很不清楚;其次,把这方面的现有成果用于语音识别,还有一个艰难的过程。

(五)语音识别系统从实验室演示系统到商品的转化过程中还有许多具体问题需要解决,识别速度、拒识问题以及关键词(句)检测技术等等技术细节要解决。

三、语音识别技术的前景和应用

语音识别技术 发展 到今天,特别是中小词汇量非特定人语音识别系统识别精度已经大于98%,对特定人语音识别系统的识别精度就更高。这些技术已经能够满足通常应用的要求。由于大规模集成电路技术的发展,这些复杂的语音识别系统也已经完全可以制成专用芯片,大量生产。在西方 经济 发达国家,大量的语音识别产品已经进入市场和服务领域。一些用户交机、电话机、手机已经包含了语音识别拨号功能,还有语音记事本、语音智能玩具等产品也包括语音识别与语音合成功能。人们可以通过电话网络用语音识别口语对话系统查询有关的机票、 旅游 、银行信息,并且取得很好的结果。

语音识别是一门交叉学科,语音识别正逐步成为信息技术中人机接口的关键技术,语音识别技术与语音合成技术结合使人们能够甩掉键盘,通过语音命令进行操作。语音技术的应用已经成为一个具有竞争性的新兴高技术产业。

参考 文献 :

[1]科大讯飞语音识别技术专栏. 语音识别产业的新发展. 企业 专栏.通讯世界,2007.2:(总l12期)

[2]任天平,门茂深.语音识别技术应用的进展.科技广场.河南科技,2005.2:19-20

[3]俞铁城.科大讯飞语音识别技术专栏.语音识别的发展现状.企业专栏.通讯世界,2006.2 (总122期)

[4]陈尚勤等.近代语音识别.西安: 电子 科技大学出版社,1991

[5]王炳锡等.实用语音识别基础.Practical Fundamentals of Speech Recognition.北京:国防 工业 出版社,2005

[6](美)L.罗宾纳.语音识别基本原理.北京:清华大学出版社,1999

点击下页还有更多>>>浅谈语音识别技术论文

关于声音的科技小论文

音乐是美好的,音乐是神奇的,一首动人心扉的音乐,能唤起人们甜蜜的回忆,能奇迹般地给人以生活的勇气和奋进的力量。而人们常常把节奏比作是音乐的脉搏,也就是说,节奏是音乐的生命。本文对节奏与节拍、声音、感觉、律动、速度等五个方面的关系进行了论述,并对一些谱例进行分析,强调了节奏在音乐中的重要作用及掌握好节奏的重要性。

  懂得音乐的人常常不无根据地把音乐作品的节奏比作是音乐的脉搏,换句话说也就是节奏是音乐的生命。我觉得人们这样的比喻是恰好不过的。他们不把节奏和钟表的滴答声相比,而是和脉搏相比,是有理由的。在我们生命存在的每时每刻,我们的脉搏都在跳动,每个健康的人脉搏的跳动是很均匀的,在心绪稳定的情况下,基本上保持在七十次上下,当兴奋一些时,跳得便略快一些,安静时,则跳的慢一些,这些正常的伸缩都是合理的。如果基本次数是一分钟跳七十次,忽然在几秒种之内变成了九十次,一百次,忽然又掉到五十次,六十次,若出现这样的变化,那一定是心脏出了问题了。音乐节奏不可能像机器一样地纹丝不变。一首奏鸣曲,一个乐章虽有一个基本速度,但在欢快时,也许稍稍加快了一点,抒情的地方也许要稍稍放慢一些,但是基本速度不能改变,从整体感觉上,速度必须是统一的,这样,乐曲才能完整。
  节奏和节拍方面的若干普遍的缺点,使人们认为节奏节拍可分为较难的和较易的。在这里,首先明确是节奏与节拍是不同的。节拍包含在节奏的概念中。从人们把节奏的比喻上就可以看出,他们并没有把节奏和摆钟的摆动,钟表的滴答声和节拍器的敲打声上比,其实这些都是节拍,并不是节奏。在音乐的领域里,节奏和节拍最为吻合的情况发生在进行曲中,因为士兵们的步伐最接近节拍的机械而准确的敲击,在音乐作品表演中,节奏应当更接近于节后,而不是接近于无节奏,应当更像健康人的脉搏。
关于一些基本常用的节拍,如四四,四三,八六,八三等。我们首先要养成数拍子,打拍子的习惯,需要的时候也可以借助一下节拍器来帮助没有数拍子习惯的学生。节拍器的使用只是借助一下外力,从根本上来说,还要我们自己有拍子准确的概念和感觉。
  一、对于拍子的错误,我们要从实际练习和弹奏中常常会影响拍子准确的情况:
  1、乐曲中的一些的音。往往没弹够其时值,便匆匆接下去了,这样就会出现缺拍子的现象。
下面这一段是八六拍,每小节六个八分音我们可以数为:一二三博士三,即每小节分为两个节奏组,每组三个八分音符,即三拍。问题常出现在第二与第四小节的第二组拍子上,此外都是一个加符号的四分音符,在以八分音符为一拍的八六拍中,符点四分音符应算三拍。而不少学生弹到这里,都只耽搁了两个八分音符的时间,就提前接下去弹了。这样,这一小节就变成了五拍,前半小节还是三拍,后半小节变成了两拍。导致的后果是节奏不均衡,好像一句话没有说完,不喘气地又抢着说下去了,听起来非常不舒服。
  2、对休止符要重视。在有休止符的地方视而不见,一到休止符,就把拍子抢过去了,匆匆接着往下弹,这样节拍就错了。休止符都是占拍子的,还都要数拍子,这是从最基本的和基础的节拍角度来说的。休止符是音乐和节奏的重要组成部分,对休止符的忽略必将歪曲音乐和节奏。
  这一段谱例最后一小节第三拍是休止符,这一小节一个二分音符占去两拍,休止符占去一拍,加起来正好三拍,但有的同学在弹完两拍的音后就紧接下一小节去了。由于这一小节正好在这一乐段的末尾,虽只是少停了一拍,并没有弹错音,但是却影响了全曲的完整性,成为一个无法弥补的缺憾。
  3、还有一种常见的弹的不准确的情况,其实它和节奏有间接关系。大家都知道,刚开始学琴的学生往往在加强音响时把速度也加快,减弱音响时速度也减慢,他们把渐强、渐快、渐弱和渐慢的概念等同起来。在音乐实践中的许许多多的“渐强但不渐快” 的情况,也同样有许多“渐强并且渐快”的情况。在大多数情况下,作曲家明确地标出是否应当渐快,但有时他们并不标出,忽而这两种情况的意义是截然不同的。所以应当特别小心,不要弄错。
  4、延长记号也必须加以注意。在乐曲中,最容易确定的是渐慢之后的延长记号的时值。只要在思想上把延长记号的那几个长音继续弹渐慢即可。也就是说,用不着增加时值的倍数,这样,延长就成为在它之前的渐慢或更慢的合科逻辑的结束。这中是延长的一种类型。如果延长突然出现,没有先前的减慢或加速,那就应当按基本的,正常的速度来数拍子。只不过要视情况而把写在延长记号下的时值增加一倍,二倍,甚至三倍。重要的是应当区别延长记号在作品中作曲结构上所处的地位。这个“分水岭”是重要的还是不重要的,也就是说它和曲式中的主要分界处相吻合,还是和次要分界处相吻合。
延长记号并不是无关紧要的,不仅延长记号如此,多乐章乐曲中各个乐章之间的间隔也是这样。记得苏联的涅高兹说过:无论是寂静、间歇、停顿或休止都应当是听的清楚的,它们也是音乐。“对音乐的聆听”一秒钟也不能中止!只有这样,一切才会有说服力并且是真实的。在思想上把这些间歇,停顿指挥出来,也是很有用的。

求:关于声现象的物理小论文一篇

无声的世界
幻想一下无声的世界将怎样

在我们这个充满着绚丽色彩的世界中,声音起到着重要的作用。没有声音的世界将会怎样。让我们来幻想一下那将会是一个怎样的世界呢?是有趣的?阴冷的?安静的?还是……
人类是世界的主宰者,首先声音会对人类怎样呢?那就让我们先来谈谈声音对人类的影响吧!如果没有声音,人类会怎样呢?如果没有声音人们说话发不出声音,就像是那些失声的人打着哑语来交谈。人又为什么要耳朵呢?又没有声音能听,难道是用来装饰的吗?现在的那些优美的音乐又怎么会有呢?如果没有声音整个世界都死寂在死一般宁静的宇宙中有何意义呢?如果没有声音,学生们上学如何读书、识字呢?又怎么会有音乐、英语、信息……课程呢?又将如何表达想要表达的意思,难道靠手语吗?我实在无法想象那时的教学会是怎样的。
中国的祖先盘古制造出人类就是他觉得世界太安静了,太缺少生气了,但现在如果没有声音,没有那欢声笑语。那为什么又要有人类呢,有了人类又有何意义呢。我们不是贝多芬,也没有贝多芬的本领,即使听不见,也能够用牙咬住木棍,根据振动颅骨感到声音,但如果没有声音,连声波也没有,即使是贝多芬也不能感受到声音,更别说弹钢琴了。假如没有声音又怎么会有现在的电话呢,如果亲人在远方,他们又将如何交谈呢?难道相隔那么远也能够打手语吗?如果……如果……太多的如果了,我认为这些如果是不可以的,总而言之人类需要声音。
很难想象如果没有声音,人类将怎样生存呢!当然这不只有人类;动物也同样需要声音,如果没有声音连动物也无法生存;举个例子来说吧!蝙蝠可以说是特殊的动物了,它虽然长有一双眼睛,按说听不见总可以看见吧,但是你们可知道被喻为动物界中的“盲人”。它的眼睛是名不副实的,因为它靠得是耳朵。用耳朵听超声波来辨别位置和躲避障碍物的。如果没有声音,蝙蝠听不见声音,捕不到食物,也不能够飞翔,那它还有生存的机会吗,当然不止蝙蝠一种动物,其他动物同样离不开声音。这里举出这个例子强调“地球离不开声音”。
没有声音,人们仿佛生活在真空中,安安静静的,一丝声也没有。没有风声雨声读书声,更加鸟声歌声欢笑声。所以现在有人类生存的这个宇宙中不能没有色彩更加不能没有声音。
如果没有声音,地球将怎样?

相关文章
学术参考网 · 手机版
https://m.lw881.com/
首页