关于语音识别的文献论文范文

语音识别技术研究让人更加方便地享受到更多的社会信息资源和现代化服务，对任何事都能够通过语音交互的方式。我整理了浅谈语音识别技术论文，欢迎阅读!

语音识别技术概述

作者：刘钰马艳丽董蓓蓓

摘要：本文简要介绍了语音识别技术理论基础及分类方式，所采用的关键技术以及所面临的困难与挑战，最后讨论了语音识别技术的发展前景和应用。

关键词：语音识别;特征提取;模式匹配;模型训练

Abstract:This text briefly introduces the theoretical basis of the speech-identification technology,its mode of classification,the adopted key technique and the difficulties and challenges it have to face.Then,the developing prospect ion and application of the speech-identification technology are discussed in the last part.

Keywords:Speech identification;Character Pick-up;Mode matching;Model training

一、语音识别技术的理论基础

语音识别技术：是让机器通过识别和理解过程把语音信号转变为相应的文本或命令的高级技术。语音识别以语音为研究对象，它是语音信号处理的一个重要研究方向，是模式识别的一个分支，涉及到生理学、心理学、语言学、计算机科学以及信号处理等诸多领域，甚至还涉及到人的体态语言(如人在说话时的表情、手势等行为动作可帮助对方理解)，其最终目标是实现人与机器进行自然语言通信。

不同的语音识别系统，虽然具体实现细节有所不同，但所采用的基本技术相似，一个典型语音识别系统主要包括特征提取技术、模式匹配准则及模型训练技术三个方面。此外，还涉及到语音识别单元的选取。

(一) 语音识别单元的选取

选择识别单元是语音识别研究的第一步。语音识别单元有单词(句)、音节和音素三种，具体选择哪一种，由具体的研究任务决定。

单词(句)单元广泛应用于中小词汇语音识别系统，但不适合大词汇系统，原因在于模型库太庞大，训练模型任务繁重，模型匹配算法复杂，难以满足实时性要求。

音节单元多见于汉语语音识别，主要因为汉语是单音节结构的语言，而英语是多音节，并且汉语虽然有大约1300个音节，但若不考虑声调，约有408个无调音节，数量相对较少。因此，对于中、大词汇量汉语语音识别系统来说，以音节为识别单元基本是可行的。

音素单元以前多见于英语语音识别的研究中，但目前中、大词汇量汉语语音识别系统也在越来越多地采用。原因在于汉语音节仅由声母(包括零声母有22个)和韵母(共有28个)构成，且声韵母声学特性相差很大。实际应用中常把声母依后续韵母的不同而构成细化声母，这样虽然增加了模型数目，但提高了易混淆音节的区分能力。由于协同发音的影响，音素单元不稳定，所以如何获得稳定的音素单元，还有待研究。

(二) 特征参数提取技术

语音信号中含有丰富的信息，但如何从中提取出对语音识别有用的信息呢?特征提取就是完成这项工作，它对语音信号进行分析处理，去除对语音识别无关紧要的冗余信息，获得影响语音识别的重要信息。对于非特定人语音识别来讲，希望特征参数尽可能多的反映语义信息，尽量减少说话人的个人信息(对特定人语音识别来讲，则相反)。从信息论角度讲，这是信息压缩的过程。

线性预测(LP)分析技术是目前应用广泛的特征参数提取技术，许多成功的应用系统都采用基于LP技术提取的倒谱参数。但线性预测模型是纯数学模型，没有考虑人类听觉系统对语音的处理特点。

Mel参数和基于感知线性预测(PLP)分析提取的感知线性预测倒谱，在一定程度上模拟了人耳对语音的处理特点，应用了人耳听觉感知方面的一些研究成果。实验证明，采用这种技术，语音识别系统的性能有一定提高。

也有研究者尝试把小波分析技术应用于特征提取，但目前性能难以与上述技术相比，有待进一步研究。

(三)模式匹配及模型训练技术

模型训练是指按照一定的准则，从大量已知模式中获取表征该模式本质特征的模型参数，而模式匹配则是根据一定准则，使未知模式与模型库中的某一个模型获得最佳匹配。

语音识别所应用的模式匹配和模型训练技术主要有动态时间归正技术(DTW)、隐马尔可夫模型(HMM)和人工神经元网络 (ANN)。

DTW是较早的一种模式匹配和模型训练技术，它应用动态规划方法成功解决了语音信号特征参数序列比较时时长不等的难题，在孤立词语音识别中获得了良好性能。但因其不适合连续语音大词汇量语音识别系统，目前已被HMM模型和ANN替代。

HMM模型是语音信号时变特征的有参表示法。它由相互关联的两个随机过程共同描述信号的统计特性，其中一个是隐蔽的(不可观测的)具有有限状态的Markor链，另一个是与Markor链的每一状态相关联的观察矢量的随机过程(可观测的)。隐蔽Markor链的特征要靠可观测到的信号特征揭示。这样，语音等时变信号某一段的特征就由对应状态观察符号的随机过程描述，而信号随时间的变化由隐蔽Markor链的转移概率描述。模型参数包括HMM拓扑结构、状态转移概率及描述观察符号统计特性的一组随机函数。按照随机函数的特点，HMM模型可分为离散隐马尔可夫模型(采用离散概率密度函数，简称DHMM)和连续隐马尔可夫模型(采用连续概率密度函数，简称CHMM)以及半连续隐马尔可夫模型(SCHMM，集DHMM和CHMM特点)。一般来讲，在训练数据足够的，CHMM优于DHMM和SCHMM。HMM模型的训练和识别都已研究出有效的算法，并不断被完善，以增强HMM模型的鲁棒性。

人工神经元网络在语音识别中的应用是现在研究的又一热点。ANN本质上是一个自适应非线性动力学系统，模拟了人类神经元活动的原理，具有自学、联想、对比、推理和概括能力。这些能力是HMM模型不具备的，但ANN又不个有HMM模型的动态时间归正性能。因此，现在已有人研究如何把二者的优点有机结合起来，从而提高整个模型的鲁棒性。

二、语音识别的困难与对策

目前，语音识别方面的困难主要表现在：

(一)语音识别系统的适应性差，主要体现在对环境依赖性强，即在某种环境下采集到的语音训练系统只能在这种环境下应用，否则系统性能将急剧下降;另外一个问题是对用户的错误输入不能正确响应，使用不方便。

(二)高噪声环境下语音识别进展困难，因为此时人的发音变化很大，像声音变高，语速变慢，音调及共振峰变化等等，这就是所谓Lombard效应，必须寻找新的信号分析处理方法。

(三)语言学、生理学、心理学方面的研究成果已有不少，但如何把这些知识量化、建模并用于语音识别，还需研究。而语言模型、语法及词法模型在中、大词汇量连续语音识别中是非常重要的。

(四)我们对人类的听觉理解、知识积累和学习机制以及大脑神经系统的控制机理等分面的认识还很不清楚;其次，把这方面的现有成果用于语音识别，还有一个艰难的过程。

(五)语音识别系统从实验室演示系统到商品的转化过程中还有许多具体问题需要解决，识别速度、拒识问题以及关键词(句)检测技术等等技术细节要解决。

三、语音识别技术的前景和应用

语音识别技术发展到今天，特别是中小词汇量非特定人语音识别系统识别精度已经大于98%，对特定人语音识别系统的识别精度就更高。这些技术已经能够满足通常应用的要求。由于大规模集成电路技术的发展，这些复杂的语音识别系统也已经完全可以制成专用芯片，大量生产。在西方经济发达国家，大量的语音识别产品已经进入市场和服务领域。一些用户交机、电话机、手机已经包含了语音识别拨号功能，还有语音记事本、语音智能玩具等产品也包括语音识别与语音合成功能。人们可以通过电话网络用语音识别口语对话系统查询有关的机票、旅游、银行信息，并且取得很好的结果。

语音识别是一门交叉学科，语音识别正逐步成为信息技术中人机接口的关键技术，语音识别技术与语音合成技术结合使人们能够甩掉键盘，通过语音命令进行操作。语音技术的应用已经成为一个具有竞争性的新兴高技术产业。

参考文献：

[1]科大讯飞语音识别技术专栏. 语音识别产业的新发展. 企业专栏.通讯世界,2007.2:(总l12期)

[2]任天平,门茂深.语音识别技术应用的进展.科技广场.河南科技,2005.2:19-20

[3]俞铁城.科大讯飞语音识别技术专栏.语音识别的发展现状.企业专栏.通讯世界,2006.2 (总122期)

[4]陈尚勤等.近代语音识别.西安: 电子科技大学出版社,1991

[5]王炳锡等.实用语音识别基础.Practical Fundamentals of Speech Recognition.北京:国防工业出版社,2005

[6](美)L.罗宾纳.语音识别基本原理.北京:清华大学出版社,1999

点击下页还有更多>>>浅谈语音识别技术论文

关于语音识别智能家居的毕业论文

山东省大学生电子设计竞赛09年或是08年有个题目是《声音引导系统》，是利用凌阳公司的61板实现的声音控制，其中包括语音识别部分，你参考一下吧。有问题直接Hi我，我也算是略知一二吧，也拿过不少省奖。

语音识别技术研究让人更加方便地享受到更多的社会信息资源和现代化服务，对任何事都能够通过语音交互的方式。我整理了浅谈语音识别技术论文，欢迎阅读!

语音识别技术概述

作者：刘钰马艳丽董蓓蓓

摘要：本文简要介绍了语音识别技术理论基础及分类方式，所采用的关键技术以及所面临的困难与挑战，最后讨论了语音识别技术的发展前景和应用。

关键词：语音识别;特征提取;模式匹配;模型训练

Abstract:This text briefly introduces the theoretical basis of the speech-identification technology,its mode of classification,the adopted key technique and the difficulties and challenges it have to face.Then,the developing prospect ion and application of the speech-identification technology are discussed in the last part.

Keywords:Speech identification;Character Pick-up;Mode matching;Model training

一、语音识别技术的理论基础

语音识别技术：是让机器通过识别和理解过程把语音信号转变为相应的文本或命令的高级技术。语音识别以语音为研究对象，它是语音信号处理的一个重要研究方向，是模式识别的一个分支，涉及到生理学、心理学、语言学、计算机科学以及信号处理等诸多领域，甚至还涉及到人的体态语言(如人在说话时的表情、手势等行为动作可帮助对方理解)，其最终目标是实现人与机器进行自然语言通信。

不同的语音识别系统，虽然具体实现细节有所不同，但所采用的基本技术相似，一个典型语音识别系统主要包括特征提取技术、模式匹配准则及模型训练技术三个方面。此外，还涉及到语音识别单元的选取。

(一) 语音识别单元的选取

选择识别单元是语音识别研究的第一步。语音识别单元有单词(句)、音节和音素三种，具体选择哪一种，由具体的研究任务决定。

单词(句)单元广泛应用于中小词汇语音识别系统，但不适合大词汇系统，原因在于模型库太庞大，训练模型任务繁重，模型匹配算法复杂，难以满足实时性要求。

音节单元多见于汉语语音识别，主要因为汉语是单音节结构的语言，而英语是多音节，并且汉语虽然有大约1300个音节，但若不考虑声调，约有408个无调音节，数量相对较少。因此，对于中、大词汇量汉语语音识别系统来说，以音节为识别单元基本是可行的。

音素单元以前多见于英语语音识别的研究中，但目前中、大词汇量汉语语音识别系统也在越来越多地采用。原因在于汉语音节仅由声母(包括零声母有22个)和韵母(共有28个)构成，且声韵母声学特性相差很大。实际应用中常把声母依后续韵母的不同而构成细化声母，这样虽然增加了模型数目，但提高了易混淆音节的区分能力。由于协同发音的影响，音素单元不稳定，所以如何获得稳定的音素单元，还有待研究。

(二) 特征参数提取技术

语音信号中含有丰富的信息，但如何从中提取出对语音识别有用的信息呢?特征提取就是完成这项工作，它对语音信号进行分析处理，去除对语音识别无关紧要的冗余信息，获得影响语音识别的重要信息。对于非特定人语音识别来讲，希望特征参数尽可能多的反映语义信息，尽量减少说话人的个人信息(对特定人语音识别来讲，则相反)。从信息论角度讲，这是信息压缩的过程。

线性预测(LP)分析技术是目前应用广泛的特征参数提取技术，许多成功的应用系统都采用基于LP技术提取的倒谱参数。但线性预测模型是纯数学模型，没有考虑人类听觉系统对语音的处理特点。

Mel参数和基于感知线性预测(PLP)分析提取的感知线性预测倒谱，在一定程度上模拟了人耳对语音的处理特点，应用了人耳听觉感知方面的一些研究成果。实验证明，采用这种技术，语音识别系统的性能有一定提高。

也有研究者尝试把小波分析技术应用于特征提取，但目前性能难以与上述技术相比，有待进一步研究。

(三)模式匹配及模型训练技术

模型训练是指按照一定的准则，从大量已知模式中获取表征该模式本质特征的模型参数，而模式匹配则是根据一定准则，使未知模式与模型库中的某一个模型获得最佳匹配。

语音识别所应用的模式匹配和模型训练技术主要有动态时间归正技术(DTW)、隐马尔可夫模型(HMM)和人工神经元网络 (ANN)。

DTW是较早的一种模式匹配和模型训练技术，它应用动态规划方法成功解决了语音信号特征参数序列比较时时长不等的难题，在孤立词语音识别中获得了良好性能。但因其不适合连续语音大词汇量语音识别系统，目前已被HMM模型和ANN替代。

HMM模型是语音信号时变特征的有参表示法。它由相互关联的两个随机过程共同描述信号的统计特性，其中一个是隐蔽的(不可观测的)具有有限状态的Markor链，另一个是与Markor链的每一状态相关联的观察矢量的随机过程(可观测的)。隐蔽Markor链的特征要靠可观测到的信号特征揭示。这样，语音等时变信号某一段的特征就由对应状态观察符号的随机过程描述，而信号随时间的变化由隐蔽Markor链的转移概率描述。模型参数包括HMM拓扑结构、状态转移概率及描述观察符号统计特性的一组随机函数。按照随机函数的特点，HMM模型可分为离散隐马尔可夫模型(采用离散概率密度函数，简称DHMM)和连续隐马尔可夫模型(采用连续概率密度函数，简称CHMM)以及半连续隐马尔可夫模型(SCHMM，集DHMM和CHMM特点)。一般来讲，在训练数据足够的，CHMM优于DHMM和SCHMM。HMM模型的训练和识别都已研究出有效的算法，并不断被完善，以增强HMM模型的鲁棒性。

人工神经元网络在语音识别中的应用是现在研究的又一热点。ANN本质上是一个自适应非线性动力学系统，模拟了人类神经元活动的原理，具有自学、联想、对比、推理和概括能力。这些能力是HMM模型不具备的，但ANN又不个有HMM模型的动态时间归正性能。因此，现在已有人研究如何把二者的优点有机结合起来，从而提高整个模型的鲁棒性。

二、语音识别的困难与对策

目前，语音识别方面的困难主要表现在：

(一)语音识别系统的适应性差，主要体现在对环境依赖性强，即在某种环境下采集到的语音训练系统只能在这种环境下应用，否则系统性能将急剧下降;另外一个问题是对用户的错误输入不能正确响应，使用不方便。

(二)高噪声环境下语音识别进展困难，因为此时人的发音变化很大，像声音变高，语速变慢，音调及共振峰变化等等，这就是所谓Lombard效应，必须寻找新的信号分析处理方法。

(三)语言学、生理学、心理学方面的研究成果已有不少，但如何把这些知识量化、建模并用于语音识别，还需研究。而语言模型、语法及词法模型在中、大词汇量连续语音识别中是非常重要的。

(四)我们对人类的听觉理解、知识积累和学习机制以及大脑神经系统的控制机理等分面的认识还很不清楚;其次，把这方面的现有成果用于语音识别，还有一个艰难的过程。

(五)语音识别系统从实验室演示系统到商品的转化过程中还有许多具体问题需要解决，识别速度、拒识问题以及关键词(句)检测技术等等技术细节要解决。

三、语音识别技术的前景和应用

语音识别技术发展到今天，特别是中小词汇量非特定人语音识别系统识别精度已经大于98%，对特定人语音识别系统的识别精度就更高。这些技术已经能够满足通常应用的要求。由于大规模集成电路技术的发展，这些复杂的语音识别系统也已经完全可以制成专用芯片，大量生产。在西方经济发达国家，大量的语音识别产品已经进入市场和服务领域。一些用户交机、电话机、手机已经包含了语音识别拨号功能，还有语音记事本、语音智能玩具等产品也包括语音识别与语音合成功能。人们可以通过电话网络用语音识别口语对话系统查询有关的机票、旅游、银行信息，并且取得很好的结果。

语音识别是一门交叉学科，语音识别正逐步成为信息技术中人机接口的关键技术，语音识别技术与语音合成技术结合使人们能够甩掉键盘，通过语音命令进行操作。语音技术的应用已经成为一个具有竞争性的新兴高技术产业。

参考文献：

[1]科大讯飞语音识别技术专栏. 语音识别产业的新发展. 企业专栏.通讯世界,2007.2:(总l12期)

[2]任天平,门茂深.语音识别技术应用的进展.科技广场.河南科技,2005.2:19-20

[3]俞铁城.科大讯飞语音识别技术专栏.语音识别的发展现状.企业专栏.通讯世界,2006.2 (总122期)

[4]陈尚勤等.近代语音识别.西安: 电子科技大学出版社,1991

[5]王炳锡等.实用语音识别基础.Practical Fundamentals of Speech Recognition.北京:国防工业出版社,2005

[6](美)L.罗宾纳.语音识别基本原理.北京:清华大学出版社,1999

点击下页还有更多>>>浅谈语音识别技术论文

数字化家庭是未来智能小区系统的基本单元。所谓“数字化家庭”就是基于家庭内部提供覆盖整个家庭的智能化服务，包括数据通信、家庭娱乐和信息家电控制功能。数字化家庭设计的一项主要内容是通信功能的实现，包括家庭与外界的通信及家庭内部相关设施之间的通信。从现在的发展来看，外部的通信主要通过宽带接入。intenet，而家庭内部的通信，笔者采用目前比较具有竞争力的蓝牙(bluetootlh)无线接入技术。传统的数字化家庭采用pc进行总体控制，缺乏人性化。笔者根据人工情感的思想设计一种配备多种外部传感器的智能机器人，将此智能机器人视作家庭成员，通过它实现对数字化家庭的控制。本文主要就智能机器人在数字化家庭医疗保健方面的应用进行模型设计，在智能机器人与医疗仪器和控制pc的通信采用蓝牙技术。整个系统的成本较低，功能较为全面，扩展应用非常广阔，具有极大的市场潜力。2 智能机器人的总体设计2．1 智能机器人的多传感器系统机器人智能技术中最为重要的相关领域是机器人的多感觉系统和多传感信息的集成与融合[1]，统称为智能系统的硬件和软件部分。视觉、听觉、力觉、触觉等外部传感器和机器人各关节的内部传感器信息融合使用，可使机器人完成实时图像传输、语音识别、景物辨别、定位、自动避障、目标物探测等重要功能；给机器人加上相关的医疗模块(ccd、camera、立体麦克风、图像采集卡等)和专用医疗传感器部件，再加上医疗专家系统就可以实现医疗保健和远程医疗监护功能。智能机器人的多传感器系统框图如图1所示。2．2 智能机器人控制系统机器人控制系统包含2部分：一是上位机，一般采用pc，它完成机器人的运动轨迹规划、传感器信息融合控制算法、视觉处理、人机接口及远程处理等任务；二是下位机，一般采用多单片机系统或dsp等作为控制器的核心部件，完成电机伺服控制、反馈处理、图像处理、语音识别和通信接口等功能。如果采用多单片机系统作为下位机，每个处理器完成单一任务，通过信息交换和相互协调完成总体系统功能，但其在信号处理能力上明显有所欠缺。由于dsp擅长对信号的处理，而且对此智能机器人来说经常需要信号处理、图像处理和语音识别，所以采用dsp作为智能机器人控制系统的控制器[2]。控制系统以dsp(tms320c54x)为核心部件，由蓝牙无线通信、gsm无线通信(支持gprs)、电机驱动、数字罗盘、感觉功能传感器(视觉和听觉等)、医疗传感器和多选一串口通信(rs-232)模块等组成，控制系统框图如图2所示。 (1)系统通过驱动电机和转向电机控制机器人的运动，转向电机利用数字罗盘的信息作为反馈量进行pid控制。(2)采用爱立信(ericsson)公司的rokl01007型电路作为蓝牙无线通信模块，实现智能机器人与上位机pc的通信和与其他基于蓝牙模块的医疗保健仪器的通信。(3)支持gprs的gsm无线通信模块支持数据、语音、短信息和传真服务，采用手机通信方式与远端医疗监控中心通信。(4)由于tms320c54x只有1个串行口，而蓝牙模块、gsm无线模块、数字罗盘和视觉听觉等感觉功能传感器模块都是采用rs一232异步串行通信，所以必须设计1个多选一串口通信模块进行转换处理。当tms320c54x需要蓝牙无线通信模块的数据时通过电路选通；当t~ms320c54x需要某个传感器模块的数据时，关断上次无线通信模块的选通，同时选通该次传感器模块。这样，各个模块就完成了与1~ms320c54x的串口通信。3 主要医疗保健功能的实现智能机器人对于数字化家庭的医疗保健可以提供如下的服务：(1)医疗监护通过集成有蓝牙模块的医疗传感器对家庭成员的主要生理参数如心电、血压、体温、呼吸和血氧饱和度等进行实时检测，通过机器人的处理系统提供本地结果。(2)远程诊断和会诊通过机器人的视觉和听觉等感觉功能，将采集的视频、音频等数据结合各项生理参数数据传给远程医疗中心，由医疗中心的专家进行远程监控，结合医疗专家系统对家庭成员的健康状况进行会诊，即提供望(视频)、闻、问(音频)、切(各项生理参数)的服务[3]。3．1机器人视觉与视频信号的传输机器人采集的视频信号有2种作用：提供机器人视觉；将采集到的家庭成员的静态图像和动态画面传给远程医疗中心。机器人视觉的作用是从3维环境图像中获得所需的信息并构造出环境对象的明确而有意义的描述。视觉包括3个过程：(1)图像获取。通过视觉传感器(立体影像的ccd camera)将3维环境图像转换为电信号。(2)图像处理。图像到图像的变换，如特征提取。(3)图像理解。在处理的基础上给出环境描述。通过视频信号的传输，远程医疗中心的医生可以实时了解家庭成员的身体状况和精神状态。智能机器人根据医生的需要捕捉适合医疗保健和诊断需求的图像，有选择地传输高分辨率和低分辨率的图像。在医疗保健的过程中，对于图像传送有2种不同条件的需求：(1)医生观察家庭成员的皮肤、嘴唇、舌面、指甲和面部表情的颜色时，需要传送静态高清晰度彩色图像；采用的方法是间隔一段时间(例如5分钟)传送1幅高清晰度静态图像。(2)医生借助动态画面查看家庭成员的身体移动能力时，可以传送分辨率较低和尺寸较小的图像，采用的方法是进行合理的压缩和恢复以保证实时性。3．2机器人听觉与音频信号的传输机器人采集的音频信号也有2种作用：一是提供机器人听觉；二是借助于音频信号，家庭成员可以和医生进行沟通，医生可以了解家庭成员的健康状况和心态。音频信号的传输为医生对家庭成员进行医疗保健提供了语言交流的途径。机器人听觉是语音识别技术，医疗保健智能机器人带有各种声交互系统，能够按照家庭成员的命令进行医疗测试和监护，还可以按照家庭成员的命令做家务、控制数字化家电和照看病人等。声音的获取采用多个立体麦克风。由于声音的频率范围大约是300hz一3400hz，过高或过低频率的声音在一般情况下是不需要传输的，所以只用传送频率范围在1000hz-3000hz的声音，医生和家庭成员就可以进行正常的交流，从而可以降低传输音频信号所占用的带宽，再采用合适的通信音频压缩协议即可满足实时音频的要求。智能机器人的听觉系统如图3所示。3．3各项生理信息的采集与传输传统检测设备通过有线方式连到人体上进行生理信息的采集，各种连线容易使病人心情紧张，从而导致检测到的数据不准确。使用蓝牙技术可以很好地解决这个问题，带有蓝牙模块的医疗微型传感器安置在家庭成员身上，尽量使其不对人体正常活动产生干扰，再通过蓝牙技术将采集的数据传输到接收设备并对其进行处理。在智能机器人上安装1个带有蓝牙模块的探测器作为接收设备，各种医疗传感器将采集到的生理信息数据通过蓝牙模块传输到探测器，探测器有2种工作方式：一是将数据交给智能机器人处理，提供本地结果；二是与internet连接(也可以通过gsm无线模块直接发回)，通过将数据传输到远程医疗中心，达到医疗保健与远程监护的目的。视频和音频数据的传输也采用这种方式。智能机器人的数据传输系统如图4所示。4 蓝牙模块的应用4．1蓝牙技术概况蓝牙技术[4]是用于替代电缆或连线的短距离无线通信技术。它的载波选用全球公用的2．4ghz(实际射频通道为f=2402 k×1mhz，k=0，1，2，…，78)ism频带，并采用跳频方式来扩展频带，跳频速率为1600跳/s。可得到79个1mhz带宽的信道。蓝牙设备采用gfsk调制技术，通信速率为1mbit/s，实际有效速率最高可达721kbit/s，通信距离为10m，发射功率为1mw；当发射功率为100mw时，通信距离可达100m，可以满足数字化家庭的需要。4．2蓝牙模块rokl01007型蓝牙模块[5]是爱立信公司推出的适合于短距离通信的无线基带模块。它的集成度高、功耗小(射频功率为1mw)，支持所有的蓝牙协议，可嵌入任何需要蓝牙功能的设备中。该模块包括基带控制器、无线收发器、闪存、电源管理模块和时钟5个功能模块，可提供高至hci(主机控制接口)层的功能。单个蓝牙模块的结构如图5所示。4．3主，从设备硬件组成蓝牙技术支持点到点ppp(point-t0-point pro-tocol)和点对多点的通信，用无线方式将若干蓝牙设备连接成1个微微网[6]。每个微微网由1个主设备(master)和若干个从设备(slave)组成，从设备最多为7台。主设备负责通信协议的动作，mac地址用3位来表示，即在1个微微网内可寻址8个设备(互联的设备数量实际是没有限制的，只不过在同一时刻只能激活8个，其中1个为主，7个为从)。从设备受控于主设备。所有设备单元均采用同一跳频序列。将带有蓝牙模块的微型医疗传感器作为从设备，将智能机器人上的带有蓝牙模块的探测器作为主设备。主从设备的硬件主要包括天线单元、功率放大模块、蓝牙模块、嵌入式微处理器系统、接口电路及一些辅助电路。主设备是整个蓝牙的核心部分，要完成各种不同通信协议之间的转换和信息共享，以及同外部通信之间的数据交换功能，同时还负责对各个从设备的管理和控制。5 结束语随着社会的进步，经济的发展和人民生活水平的提高，越来越多的人需要家庭医疗保健服务。文中提出的应用于数字化家庭医疗保健服务的智能机器人系统的功能较为全面，且在家用智能机器人、基于蓝牙技术的智能家居和数字化医院等方面的拓展应用非常广阔，具有极大的市场潜力。

语音识别技术在智能家居方面有很大的应用，根据设计人的语音可以让人开家具，这对家里增加了一道保险。

语音识别论文答辩

论文完成后我们就需要对论文进行查重，学校会提供1-2次免费知网查重的机会以此方便同学检测论文重复率。但是在还没有定稿之前尽量不要使用学校的查重，定稿之前我们可以选择其他的查重系统检测重复率同时进行修改，那么怎么去选择查重软件呢？第一、论文查重软件的选择很重要，如果是一些不靠谱的查重不仅浪费钱还会浪费掉宝贵的时间，查重结果可能不准确还会导致论文泄露。所以当我们选择的时候特别要注意不要只关注价格。第二、实在不知道选择我们可以问问学姐学长请他们帮忙推荐几个毕竟都有使用过的经验。我们最好是选择比较热门、官方认证过的论文查重系统，比如知网、维普、万方、paperfree论文查重系统等等，都是有正规营业执照安全性有保障。数据库里面收录的文献数据比较的全面，不同类型的查重都可以进行。第三、初稿我们可以选择免费的查重系统进行修改，一些查重系统还能在线进行修改实时进行查重，能让我们更好地了解到修改的效果。学校要求很严格，论文写作时也要注意尽量不抄袭自己写，重复率过高降导致无法毕业无法参加答辩。定稿建议使用学校规定的查重系统进行检测，其他系统只是做个参考且学校是不认可的最终我们论文还是要上交学校的。

Paperbye论文查重系统曾经在2014年推出的淘宝使用版，主要原因是查重市场也是从淘宝兴起的，通过几年的不懈努力，无论从查重内容准确度，修改论文效率，还是使用体验，都在不断精进，2018年下半年正式推出全新的论文查重系统，不光可以查重还可以自动降重。因此paperbye并不是纯粹的论文查重系统，准确的描述是，自带改重的论文查重系统，解决了目前市场论文查重之后，不知道怎么修改和修改论文效率低的问题，利用软件的“机器人改重”功能，实现软件的自动修改论文重复内容，从而达到迅速自动降低论文重复率，特别是对于第一次写论文的同学，软件自动修改论文内容，会给同学们一些启示或直接使用机器修改的内容进行替换原文内容，提高的文章查重和修改效率。

具体看看有哪些实用功能：

1、机器人智能改重

Paperbye改重是机器人自动修改查重报告里相似的文字内容，自动修改就是论文查重完成后，系统自动把相似内容通过深度学习的数据内容进行替换修改，达到自动降低文章相似率的目的。一篇几万字的文章，10秒内容可以修改完成，这个修改效率是任何人工都无法比拟的，修改文章效率高是机器人修改的独特优势。机器人修改的语句并不是简单的替换关键词和调换语序，主要原理是通过深度学习大量数据后把语义相似的句子进行替换。

2、免费在线改重

在线改重功能是机器人改重功能的延伸和完善，机器改重功能并不是非常完美，就像我们现在的语音识别系统，语音输入并不是100%的完美识别，用手机语音输入文字大家应该有体会。对于机器人修改的语句并不是每句都修改的很完美的，遇到一些专业性比较强的术语修改的会有些牵强，但是不用担心，可以在免费改重工具编辑器里自主修改，通过人工修改相结合达到完美降重效果。

3、同步查重功能

这个功能根据“赫洛克效应”的及时反馈的心理原理，在修改论文的过程中，修改一句话，通过paperbye的“同步查重”功能，马上就可以看到修改效果，达到及时反馈，并且及时检验了修改的方法技巧，使继续修改的信心大增，可以大大提高修改论文的质量和效率。传统的论文查重方式的是你必须把全文或片段改完，重新提交论文到查重系统里重新检测才能知道结果，这种方式无论从流程，还是查重后修改，都比较繁琐，更重的是如果通过修改查重后的相似比例降下来不理想，给人的感觉比较身心疲惫，没有愉悦感，对修改论文极度厌恶。Paperbye论文查重系统解决了这个问题，算是颠覆传统，开创先河，让论文降重不再痛苦。

4、同步查重和在线改重的结合

这两个功能在paperbye查重系统里像一双筷子一样，紧密结合使用的，自己对文章内容修改后，就需要对修改的内容进行查重，点击系统里的“同步查重”，马上就会看到修改后的效果，甚至修改1个字，都可以进行马上查重并反馈修改结果，真正实现一边修改论文，一边进行论文查重。修改、查重同步进行，完美结合。市场上声称“在线改重”，好多同学容易误解，那种改重是必须改完整片文章，再整篇提交，就是传统的论文查重方式，并不能实现修改一句马上看到修改结果。目前paperbye才是真正的实现了边修改边查重的同步效果。

1、万方检测系统很多高校与万方也开展了合作，其真实性和权威性也毋庸置疑了，对于学生来讲万方收费也真的是比较亲民得，操作比较简单，准确率很高。最近在各大学校比较火的大概就是万方官方推出的月/季卡活动了，价格更是讨人喜欢，反馈好评不错。2、维普论文查重系统维普论文查重拥有海量比对资源∞用户体验反馈也不错，论文查重报告详细，在学生群里好评度也蛮高。3、知网这个大家不用多说了，知网在查重市场可谓是老大哥了，不过近期负面信息比较多，价格也实在比较贵，也不对个人开放，对于学生党来讲真的有些不太友好。

题主想要高效地进行英语口语练习，首先要弄清楚的一点是，在英语口语学习过程中，输入决定输出。有足够的input才能有足够的output。绕过这一条，所有的捷径都不存在，所有的努力都是徒劳。

以下列几种我常用到的input:

1.播客

苹果手机自带的app，可以搜索到很多方便英语学习的节目。

我常听的

2. ESLPOD

ESLPOD语速较慢，口语化，非常适合用于英语学习，实用性很高。

3. TED演讲

学英语的同时，也能学到很多东西，岂不是一举两得？

4. 脱口秀节目

5. 生活化的美剧或英剧

如果要通过美剧或英剧来学习英语的话，就必须选择生活化一些的。

比如，英剧IT狂人，美剧老友记、摩登家庭、绝望的主妇等。

像生活大爆炸、神探夏洛克就不太适合，语速较快，很多内容不贴近生活。（事实是，神探夏洛克是我非常喜欢的一部电视剧，虽然不适合用来练口语，但是可以用来磨英音哦）

通过电视剧学习英语，可以使用经典的三步法。

关于字幕：可以下载无字幕视频和分开的中英文srt文件，也可以使用QQ影音等软件打马赛克将对应字幕部分遮住。

关于词汇积累

首推在以上input的过程的积累，其次才是背单词。

专门去背单词效率较低，而且往往背了之后还是不能灵活运用，只能算是词汇积累的一种折衷方法。注意，在背的过程中一定不能只背释义，要注意单词的搭配与在例句中的用法。

关于英语发音

我们学习英语类似于小孩子学习说话，其中的过程必定是模仿、纠错、不断地练习。

首先我们要做的是模仿、跟读。

熟悉单词或句子之后，可以采用录音设备或监听设备，找出与原声的差距并纠正。

能够正确发音之后，就要进行持续的练习了，让口腔的肌肉形成惯性。

学习英语发音过程中，我有以下几点建议：

1. 首先确定自己要选择英式发音，还是美式发音，两者不存在高下之分，只看题主喜欢哪种，适合哪种。

2. 学习音标课程

44个英语音标是必学的内容，好比中文中的汉语拼音一样。很多中国人没有学过音标或者在学习音标的过程中形成了不好的习惯（比如，用中文注释发音），要注意，英语发音中没有任何一个发音与中文一模一样。

在这里推荐大家看BBC官网的音标教学。

如果需要更详细的音标教学的话，市面上也有很多。

在音标学习过程中，要注意相似发音的对比，如（以下采用DJ音标）：

[i:] [i]

[u:] [u]

[ɔ:] [ɔ]

[s] [θ]

[z] [ð]

3. 重读和弱读

我们学习单词时，接触到的都是重读读法，如at/æt/，them/ðem/，have/hæv/。然而在真正的英语口语中，应该重读内容词（content words），这些词一般是名字、形容词、实意动词等，弱读功能词（function words），一般是介词、代词、冠词、助动词、连词等。

举例：Don't look at me!

在这句话中，don't、look要重读，at、me非重读，如果，按照学单词时at/æt/读的话，无疑就非常生硬了。在这里at应读作/ət/，并且t失去爆破，不发音，只保持口型。

举例：There have been laws that have been passed, and many police officers and other authorities are being trained about this.

在这句话中，have非重读，读作/həv/或/əv/。

4. 连读

主要有三种情况可以连读

(1)辅音+元音

比如 take it easy，用音标表示就是/teikiti:zi/

(2)辅音+辅音

当第一个单词以辅音结尾，下一个单词以相同或类似辅音开头时，需要连读。

如 just take it，just以t结尾，take以t开头，前面的t就可以不读，take it同第一种情况，所以连读之后用音标表示为/dʒʌsteikit/

再例如，used to，不需要念/d/，直接念成/juztu/

(3)元音+元音

元音之间主要是加一个滑音来解决问题。

如go out，两个词之间放置一个滑音/w/，音标表示为/gəuwaut/

my apple，两个词之间放置一个滑音/j/，音标表示为/maijæpl/注意，滑音是自然带出来的，千万不要念重了，念太重就变味了。

获取更多英语学习秘籍，欢迎关注微信公众公众号：米洛说英文

语音识别最新的论文研究

沈雨娇为我院2012级英语专业本科学生，2017年考上上海外国语大学英语语言文学专业研究生，研究方向为跨文化交际，师从上外跨文化中心主任顾力行教授（Steve J. Kulich）和复旦大学人类社会学博士张晓佳老师。2021年1月获得日本早稻田大学的博士录取通知书，6月获得国家留学基金委员会公派奖学金，将于2022年4月赴日进行为期三年的博士学习，专业为国际文化与交流，研究方向为视觉文化，师从早稻田大学国际文化与交流学院主任吉本光弘教授。

做好嘈杂环境的语音识别，难点是如何将杂音与人声分离。传统的音频识别需要人工设计模块，并依靠Hidden Markov Models，常常需要大量的人力和经验来调整模型噪音和语音变异。未来的主要研究方向是，通过深度学习来替代Hidden Markov Models，如基于递归神经网络的深度神经网络（DNN）进行声学建模，使得语音识别系统变得更为简单。日立公司宣称自己已经研发出一项新技术，利用对话音量比杂音变化较少的特点，将杂音与话音进行分离。

1.《基于深度学习的自然语言处理技术研究》2.《基于深度学习的计算机视觉技术研究》3.《基于深度学习的语音识别技术研究》4.《基于深度学习的机器翻译技术研究》5.《基于深度学习的自动驾驶技术研究》6.《基于深度学习的智能家居技术研究》7.《基于深度学习的智能机器人技术研究》8.《基于深度学习的智能推荐系统技术研究》9.《基于深度学习的自然语言理解技术研究》10.《基于深度学习的智能安全技术研究》

CMU Sphinx是目前语音识别技术中比较热门的开源技术之一。CMU Sphinx 是一款源于卡内基梅隆大学的产品。它的研发历史大约可以追溯到1988年李开复的一篇论文，目前在 GitHub 和 SourceForge 平台同步更新。在 GitHub 平台有 C 和 Java 两个版本，而且据说分别只有一个管理员维护。但在 SourceForge 平台却有 9 个管理员和十几个开发者。CMU Sphinx 具有包括普通话、英语、法语、西班牙语和意大利语在内的诸多语音可以直接使用的模型。在介绍如何使用CMU Sphinx之前，先简单了解一下语音识别的相关概念。在目前的实践中，语音结构可以理解如下：语音是一种由稳定状态和动态变化的状态混合而成的连续音频流（audio stream）。在这一系列状态中，可以对声音和音素定义若干相似的类别。声波往往由语音内容，发言者和发音方式等各种音素决定。识别语音的一般方法如下：针对一段声波，使用沉默将其分割成若干短发音，然后试着去识别每段发音中的内容。为此，可以用尽可能的单词组合去匹配音频，然后选出最佳的匹配方案，作为语音识别的结果。在这个匹配过程中几个比较重要的概念。首先介绍“特征”的概念。首先语音需要被分解成一系列“帧”，每10毫秒一帧，然后对于每一帧，提取39个数字来表征该段语音，这39个数字称之为“特征向量”。如何从音频的每帧中提取数字是个广泛研究的话题，一种简单的方式就是由声谱衍生出来。接下来介绍一下“模型”的概念。模型是一种汇集了语音的共同属性的数学模型。实际应用中，一个音素的声学模型往往是其最可能的特征向量的高斯混合模型。该语音模型通常称之为隐马尔可夫模型（ Hidden Markov Model，HMM），HMM是语音识别领域中一种常用的模型。然后就是“匹配过程”的概念，匹配过程是将特征向量与所有坑你的模型进行比较，然后得出最佳的匹配方案。根据语音的结构，语音识别过程中需要用到三种不同的模型。参考：

语音识别类毕业论文

不难，我可以帮你写。论文提纲可分为简单提纲和详细提纲两种。简单提纲是高度概括的，只提示论文的要点，如何展开则不涉及。这种提纲虽然简单，但由于它是经过深思熟虑构成的，写作时能顺利进行。没有这种准备，边想边写很难顺利地写下去。编写要点编写毕业论文提纲有两种方法：一、标题式写法。即用简要的文字写成标题，把这部分的内容概括出来。这种写法简明扼要，一目了然，但只有作者自己明白。毕业论文提纲一般不能采用这种方法编写。二、句子式写法。即以一个能表达完整意思的句子形式把该部分内容概括出来。这种写法具体而明确，别人看了也能明了，但费时费力。毕业论文的提纲编写要交与指导教师阅读，所以，要求采用这种编写方法。

原创论文，包通过，包修改。

摘要: 多媒体通信技术是当今世界科技领域中最有活力、发展最快的高新信息技术，它时时刻刻都在影响着世界经济的发展和科学技术进步的速度，并不断改变着人类的生活方式和生活质量。多媒体通信综合了多种媒体信息间的通信，它是通过现有的各种通讯网来传输、转储和接收多媒体信息的通信方式，几乎覆盖了信息技术领域的所有范畴，包括数据、音频和视频的综合处理和应用技术，其关键技术是多媒体信息的高效传输和交互处理。关键词：多媒体图象音频功能The application of multimedia technologyAbstract: Multimedia communications technology is the world's science and technology in the field of the most dynamic and fastest growing high-tech information technology, it always have influence in the world economic development and the pace of scientific and technological progress and changing the human way of life and quality of life . A variety of integrated multimedia communications between the communications media information, it is through the various existing communications network to transmit and receive multimedia information and dump the means of communication, cover nearly the area of information technology in all areas, including data, audio and video The integrated treatment and application technology, its technology is the key to the efficient transmission of multimedia information and interactive processingKey words: Multimedia audio features images引言随着技术的迅速发展，图像、视频等多媒体数据已逐渐成为信息处理领域中主要的信息媒体形式。多媒体通信是信息高速公路建设中的一项关键技术，是多媒体、通信、计算机和网络等相互渗透和发展的产物，它将极大地提高人们的工作效率，改变人们的教育、娱乐等生活方式，是21世纪人们通信的基本方式。第一章多媒体通信技术基础简介多媒体通信的基本概念和特征1.1 基本概念媒体是信息表示和传输的载体，是一个重要的概念。ITU-T I .374建议将媒体划分为感觉媒体、表示媒体、显示媒体、存储媒体和传输媒体5类。多媒体数据是指多种式样信息的载体，如文本、图形、图像、声音等数据。其特点主要有以下几点：（1）多媒体数据种类繁多（大多是非结构化数据），不同来源的媒体，具有完全不同的形式和格式；（2）多媒体数据量庞大；（3）多媒体数据具有时间特性和版本概念，如在视频点播系统中必须考虑到媒体间以及媒体内部在时间上的同步关系。由此可知多媒体数据与传统的数值和字符不同，因而其存储结构和存取方式也具有特殊性，描述它的数据结构和数据模型也是有差别的。在这种情况下就产生了一种全新的数据库系统--多媒体数据库系统。多媒体数据库是能够有效实现多媒体数据的存储、读取、检索等功能的数据库系统。它的主要特点是：（1）继承了传统数据库的一些优点，例如数据独立性、利用数据库查询语言进行高层次查询、开发控制、容错技术等；（2）能对具有时空关系的数据进行同步和管理。但是目前对于多媒体数据库的功能以及实现方法还没有达成共识，因而出现了多种形式的媒体数据库，并且实现方法也各不相同。从其总体发展上看，多媒体数据库的数据模型可分为关系数据模型、面向对象的数据模型和超媒体数据模型3类。基于不同数据模型的多媒体数据库管理系统（DBMS）的功能也有很大差别，通常基于关系数据模型的多媒体DBMS可以实现多媒体数据的存取，对多媒体数据对象之间的语义关系、时态关系、空间关系不加处理，所以这部分工作就留给应用程序去完成了。面向对象的数据模型和超媒体数据类型可以支持多媒体数据对象之间的语义关系、时态关系、空间关系的处理，其抽象程度更高，但DBMS的实现也相对复杂。在多媒体通信系统中另一个常出现的词汇是"超媒体"。在出版物中经常会出现表示注解意思的"注"字，由"注"你可以找到与之相关的一段文字或一篇文章。这种由"注"而链接到一段文字或一篇文章的链即称为超链拨，同理，超级链也可以将若干不同媒体链接起来，其集合便称为"超媒体"。1.2多媒体通信的特征多媒体通信技术的发展打破了传统通信的单一媒体、单一电信业务的通信系统格局，反映了通信向高层次发展的一种趋势，是人们对未来社会工作和生活方式的向往。多媒体通信技术是一种综合技术，涉及多媒体技术、计算机技术、通信技术等多个领域。多媒体通信系统必须同时兼有集成性、交互性、同步性3个主要特征。1.2.1 集成性多媒体通信系统的集成性指的是能对内容数据信息、多媒体和超媒体信息、脚本信息和特定的应用信息等4类信息进行存储、传输、处则和显现的能力。（1）内容数据信息（2）信息是以某一种结构的形式存在的，典型的结构有两种：一种是对象构，其中可处理的最小单元为对象(Object)；另一种是文件结构，其中处理的最小单元为文件（File）。多媒体和超媒体信息多媒体和超媒体信息与单媒体信息不一样，它们是结构化的信息，由结构框架和内容数据2部分组成。多媒体和超媒体信息的最小表达形式由两类，一类称为对象，另一类称为文件。（3）脚本信息脚本信息是一组特定的用语意关系联系起来的、结构化的多媒体和超媒体信息，需要提供表示这一组多媒体信息的运作过程和与外部处理模块间的关系。（4）特定的应用信息上述3类信息都是低层信息，可以由标准来定义和表示。特定的应用信息是高层信息，是与应用密切相关的，将随应用场合的不同有很大的不同，它的表示方法是基于上述3类的基础之上的。1.2.2 交互性交互性指的是在通信系统中人与系统之间的相互控制能力。在多媒体通信系统中，交互性有两个方面的内容。一是人机接口，也就是人在使用系统的终端时用户终端向用户提供的操作界面；二是用户终端与系统之间的应用层通信协议。多媒体通信终端的用户对通信的全过程有完备的交互控制能力，这是多媒体通信系统的一个主要特征，也是区别多媒体通信系统与非多媒体通信系统的一个主要准则。1.2.3 同步性同步性指的是在多媒体通信终端上显现的图像、声音和文字均以同步方式工作。如用户要检索一个重要的历史事件的片断，该事件的活动图像或静止图像存放在图像数据库中，其文字叙述和语言说明则是放在其他数据库中。多媒体通信终端通过不同传输途径将所需要的信息从不同的数据库中提取出来，并将这些图像、声音、文字同步起来，构成一个整体的信息呈现在用户面前。多媒体通信系统中的同步性是多媒体通信系统最主要的特征之一，信息的同步与否决定了系统是多媒体系统还是非多种媒体系统。同步可在链路层级、表示层级和应用层级3个层面上实现第二章多媒体音频技术音频技术发展较早，几年前一些技术已经成熟并产品化，甚至进入了家庭，如数字音响。音频技术主要包括四个方面:音频数字化、语音处理、语音合成及语音识别。音频数字化目前是较为成熟的技术，多媒体声卡就是采用此技术而设计的，数字音响也是采用了此技术取代传统的模拟方式而达到了理想的音响效果。音频采样包括两个重要的参数即采样频率和采样数据位数。采样频率即对声音每秒钟采样的次数，人耳听觉上限在20KHz左右，目前常用的采样频率为11KHz，22KHz和44KHz几种。采样频率越高音质越好，存贮数据量越大。CD唱片采样频率为44.1KHz，达到了目前最好的听觉效果。采样数据位数即每个采样点的数据表示范围，目前常用的有8位、12位和16位三种。不同的采样数据位数决定了不同的音质，采样位数越高，存贮数据量越大，音质也越好。CD唱片采用了双声道16位采样，采样频率为44.1KHz，因而达到了专业级水平。音频处理包括范围较广，但主要方面集中在音频压缩上，目前最新的MPEG语音压缩算法可将声音压缩六倍。语音合成是指将正文合成为语言播放，目前国外几种主要语音的合成水平均已到实用阶段，汉语合成几年来也有突飞猛进的发展，实验系统正在运行。在音频技术中难度最大最吸引人的技术当属语音识别，虽然目前只是处于实验研究阶段，但是广阔的应用前景使之一直成为研究关注的热点之一。第三章多媒体图像视频技术3．1视频技术虽然视频技术发展的时间较短，但是产品应用范围已经很大，与MPEG压缩技术结合的产品已开始进入家庭。视频技术包括视频数字化和视频编码技术两个方面。视频数字化是将模拟视频信号经模数转换和彩色空间变换转为计算机可处理的数字信号，使得计算机可以显示和处理视频信号。目前采样格式有两种:Y:U:V4:1:1和Y:U:V4:2:2，前者是早期产品采用的主要格式，Y:U:V4:2:2格式使得色度信号采样增加了一倍，视频数字化后的色彩、清晰度及稳定性有了明显的改善，是下一代产品的发展方向。视频编码技术是将数字化的视频信号经过编码成为电视信号，从而可以录制到录像带中或在电视上播放。对于不同的应用环境有不同的技术可以采用。从低档的游戏机到电视台广播级的编码技术都已成熟。3.2图像压缩技术图像压缩一直是技术热点之一，它的潜在价值相当大，是计算机处理图像和视频以及网络传输的重要基础，目前ISO制订了两个压缩标准即JPEG和MPEG。JPEG是静态图像的压缩标准,适用于连续色调彩色或灰度图像。它包括两部分:一是基于DPCM(空间线性预测)技术的无失真编码，一是基于DCT(离散余弦变换)和哈夫曼编码的有失真算法。前者图像压缩无失真，但是压缩比很小，目前主要应用的是后一种算法，图像有损失但压缩比很大，压缩20倍左右时基本看不出失真。MJPEG是指MotionJPEG，即按照25帧/秒速度使用JPEG算法压缩视频信号，完成动态视频的压缩。MPEG算法是适用于动态视频的压缩算法，它除了对单幅图像进行编码以外还利用图像序列中的相关原则，将帧间的冗余去掉，这样大大提高了图像的压缩比例。通常保持较高的图像质量而压缩比高达100倍。MPEG算法的缺点是压缩算法复杂，实现很困难。第四章多媒体通信系统1、体系结构多媒体通信(multimedia communcations)是在位于不同地理位置的参与者之间召开的一种会议或者进行的交流，通过局域网(LAN)、广域网(WAN)、内联网(intranet)、因特网(Internet)或者电话网来传输压缩的数字图像和声音信号。像电视那样的多目标广播、录象机那样的流式播放、电话会议、电视会议、IP电话、可视电话和IP传真等等都是多媒体通信技术的一些具体的和各有特色的应用。多年来，国际电信联盟(ITU)为公共和私营电信组织制定了许多多媒体计算和通信系统的推荐标准，以促进各国之间的电信合作。ITU的26个(Series A～Z)系列推荐标准中，与多媒体通信关系最密切的7个系列标准如表4-1所示，三种类型的多媒体通信系统的核心技术标准集如表4-1所示。表4-1 ITU系列推荐标准系列名主要内容Series G 传输系统、媒体数字系统和网络Series H 视听和多媒体系统Series I 综合业务数字网(ISDN)Series J 电视、声音节目和其他多媒体信号的传输Series Q 电话交换和控制信号传输法Series T 远程信息处理业务的终端设备2、网关的功能和结构网关是一台功能强大的计算机或者工作站，它担负线路交换网络(如电话网络)和信息包交换网络(如因特网)之间进行实时的双向通信，提供异种网络之间的连通性，它是传统线路交换网络和现代IP网络之的桥梁。IP电话(见"7.4 IP电话")的出现允许电话呼叫在信息包交换网络上进行，从而引发一场电信工业的革命。但IP电话在成为主流电话服务的道路上遇到了许多障碍。其中最大的一个问题是在IP电话网络和公众交换电话网络之间缺乏连通性。一个重要的原因是早期的网关存在对IP电话进入主流电话服务的限制。例如，通过网关建立呼叫比较困难，而且需要使用非常规的电话号码；不同的网关之间的兼容性妨碍呼叫的建立；声音的质量比较差、有回音以及延迟时间比较长等。这就促进了开发允许IP和PSTN客户能够相互通信的网关，其中的一个措施就是提高网关的处理能力。低档的网关有1～6个端口，典型地使用高档奔腾处理器的PC机方案，提供媒体处理、呼叫控制和信息包的处理等网关功能。高档网关把网关功能分散到几个处理器来实现，这叫做计算机基电话集成(computer-telephony integration，CTI)平台，可提供100多个端口。网关的基本功能可归纳为三种：(1) 转换协议(translating protocols)：网关作为一个解释器，使不同的网络能够建立联系，例如，允许PSTN和H.323网络相互对话以建立和清除呼叫。(2) 转换信息格式(converting information formats)：不同的网络使用不同的编码方法，网关将对信息进行转换，使异种网络之间能够自由地交换信息，例如声音和电视。(3) 传输信息(transferring information)：负责在不同网络之间传输信息。网关的主要部件包括：(1) 线路交换网络(switched-circuit network，SCN)接口卡，这是一种典型的T1/E1或者叫做PRI ISDN线路接口卡，它们与线路交换网络进行通信。主速率接口(primary rate interface，PRI)由23个B通道和一个64 kb/s的D通道组成，叫做23B＋D，相当于T1线的带宽。(2) 数字信号处理器(digital signal processors，DSP)卡，它执行的任务包括声音信号的压缩和回音的取消等。(3) 网络接口(network interfaces)卡，它用来与H.323网络进行通信，典型的网络卡包括10/100BaseT网络接口卡(network interface cards，NIC)，或者把它们的功能集成到主机板上。(4) 控制处理器(control processor)，它协调其他网关部件的所有活动，这个部件通常是在系统的主机板上。网关的主要软件包括：(1) 执行所有网关基本功能和选择功能的网关软件。例如，H.323网关平台(Gateway Platform)执行转换协议、转换消息格式和传输信息等基本功能，支持声音压缩、协议转换、实时的传真解调/再调制以及执行H.323系列协议。(2) 特定网关的应用软件，它执行自定义的功能以及管理和控制功能。3、会务器的功能和结构会务器(gatekeepers)是用于连接IP网络上的H.323电视会议客户，是电视会议的关键部件之一，许多人把它当作电视会议的"大脑"。它提供授权和验证、保存和维护呼叫记录、执行地址转换而不需要你去记忆IP地址、监视网络、管理带宽以限制同时呼叫的数目从而保证电视会议的质量、以及提供与现存系统的接口。会务器的功能一般都是用软件来实现。会务器的功能分成两个部分：基本功能和选择功能。会务器必须要提供的基本功能包括："地址转换(Address Translation)：使用一种可由注册消息(Registration messages)更新的转换表，把别名地址转换成传输地址(Transport Address)。这个功能在线路交换网络上的电话企图呼叫IP网络上的PC时显得尤其重要，在确定网关地址时也很重要。准入控制(Admissions Control)：使用准入请求/准入确认/准入拒绝ARQ/ARC/ARJ(Admission Request, Confirm and Reject)消息，对访问局域网进行授权。H323标准规定必须要有用来对网络服务进行授权的RAS消息(RAS messages)，RAS是一个注册/准入/状态(Registration/Admission/Status)协议，但它不定义授权存取网络资源的规则或者政策，因此服务提供者需要会务器来干预现存的授权方法。此外，企业管理人员和服务提供者也许想使用他自己的标准来授权，例如，根据订金、信用卡等。带宽控制(Bandwidth Control)：支持RAS带宽消息(RAS bandwidth messages)，即带宽请求/带宽确认/带宽拒绝BRQ/BCF/BRJ(Request, Confirm and Reject)消息，以强制执行带宽控制。至于如何管理则要根据服务提供者或者企业管理人员的政策来确定。在许多情况下，如果在网络或者特定的网关不拥挤的况下，对任何带宽的请求都应该给予满足。区域管理(Zone Management)：用于管理所有已经注册的H.323端点(endpoint)，为它们提供上面介绍的功能。至于确定哪个终端可以注册以及地理或者逻辑区域的组成(单个会务器管理的终端、网关和多点控制单元MCU)则由网络设计人员决定。会务器提供的选择功能包括:呼叫控制信号传输方法(Call Control Signalling)：在H.323中有两种呼叫控制信号传输模型：会务器安排呼叫信号传输模型(Gatekeeper Routed Call Signaling Model)和直接端点呼叫信号传输模型(Direct Endpoint Call Signaling Model)。会务器可根据访问提供者的要求进行选择。呼叫授权(Call Authorization)：会务器可根据服务提供者指定的条件对一个给定的呼叫进行授权或者拒绝。其条件可包括会议时间、预定的服务类型、对受限网关的访问权限或者可用的带宽等。带宽管理(Bandwidth Management)：根据服务提供者指定的带宽分配确定是否有足够的带宽用于呼叫。呼叫管理(Call Management)：提供智能呼叫管理。会务器维护一种H.323呼叫表以指示被呼叫终端是否处于忙状态，并为带宽管理(Bandwidth Management)功能提供信息。会务器的结构会务器通常设计成内外两层，如图4-8所示。会务器的内层叫做核心层，它由执行H.323协议堆的软件和实现多点控制单元MCU(multipoint control unit)功能的软件组成，有的软件开发公司把它叫做H.323会务器核心功能部件。MCU的主要功能是连接多条线路并自动或者在会议主持人的指导下手动交换电视号。会务器的外层由许多应用程序的接口组成，用于连接网络上现有的许多服务。外层软件

有必要上这儿来吗，去图书馆的数据库，这样类型的文章多得不得了啊

首页

> 学术发表知识库

关于语音识别的文献论文范文