【关键词】通信终端 智能化 语音 技术
智能化的终端是当代通信技术的发展方向,实现视觉、听觉、语言、思维、推理的功能,通信功能不断趋于人性化、拟人化的人机接口,核心的关键技术主要是语音处理。智能化的语音处理技术,主要是对语言、文字的识别和合成技术,通过实际操作过程的经验总结,不断的完善语音处理功能。
一、智能化语音接口技术
所谓的智能接口就是模拟人的行为功能,建立起来的人机交互环境,语音是人类最基本的通信手段,智能化的语音接口,利用通信、计算机科学、电子、语言识别等技术的结合来实现拟人化的信息交流。世界上有70%的人通过语音通信实现信息交流,这也是最为普遍的通信方式。由此通信终端的主体结构是基于语音通信来实现的。
1.1语音识删。通信终端是基于语音建立的,由此语音识别是智能化通信终端的关键技术之一。早期的语音识别仅限于模版识别,词汇量偏少、有特定限制,不能够进行连续语音识别,无法满足人们对词汇量的需要。智能通信技术的不断发展,也是对语音识别技术提出更高的要求。
(1)电话语音识别。电话语音处理技术是计算机中文信息处理领域的一项关键技术,它是把语音信号转换成数字信号,然后进行压缩存储,或把压缩的数字信号解压还原成语音信号.在当代高速数据通信环境中,我们利用传统的电话语音处理技术,然而由于各种环境因素的影响,干扰数字信号传输,产生了电话语音信号的变化。因此,我们在打电话时,不论处于那种嘈杂的环境中,电话语音识别都不会被影响.由此噪声背景下的语音识别也是我们将要解决的重要问题。
(2)语音识别的增强性。对语音系统使用环境进行测试,我们可以分析发现电话背景噪声的干扰,导致电话信号产生信道和编码噪声干扰,噪声干扰是识别原始语音信号的一大干扰因素,且此类干扰是随机发生。所以,我们需要对每一种噪声干扰环境进行识别和增强技术。目前,针对我国用户群随机的情况,需要建立普适度更高的模型或对不同口音自动适应性。
1.2语音合成。语音合成技术是使电脑或通信终端具有类似于人一样的说话能力,是当今时代信息产业的重要研究领域。和语音识别相比,语音合成技术更成熟一些。是最有希望首先在智能通信终端中得到普遍应用并形成带动作用的一项关键技术。目前。语音合成有高自然度、芯片级、多语种、分步式和口语式的语音合成等发展方向。按照智能化程度的不同层次,语音合成可分为三个层次:从文字到语音;概念到语音;意向到语音的合成。为合成出高质量的语音,除依赖于各种规则,还必须对文字内容进行很好的理解。文字,语音的转换系统。
(1)文本分析。对文本的格式、词语、句子进行分析识别,确定每一个字的发音。具体的文本分析主要是通过分词、识别、发音处理等环节实现。
(2)语音合成器。目前,最流行的语音合成器是采用基音同步的重叠相加(PSOLA)方法来实现波形拼接。PSOLA算法的基本思想是以语音信号基音周期为分析对象,在基音同步基础上对信号声调和时长进行修改。
二、智能终端与语音门户
语音门户,是指基于互联网平台。应用语音识别、合成和转换技术,为固定和移动电话用户提供用语音访问互联网并获取网上信息的门户,是全球互联网发展的最新趋势之一。语音门户应用计算机网络、语音、Web、电信、等技术,建立为语音识别服务的网络平台。为更多的用户提供各类通信终端服务,同时此项技术也为企业的发展,带来了新的机遇和业务。随着近年来语音识别技术的发展和广泛应用,主要有以上所提到的自动语音识别(AsR)、文本转语音、口语对话等人机交互技术、信息处理技术的发展,以及像语音浏览器、嵌入式语音浏览器等Voice Web技术的成熟.为用户终端服务提供了保障,并且语音门户在通信终端的应用种类也得到了增多,确保了语音门户在通信终端的有效作用。
2.1分布式语音处理:(1)分布式语音识别在智能通信终端中。语音识别的主要目标是实现,广大用户利用语音既可以访问计算机服务系统,便于操作和使用。当前我们将语音识别系统的分布使用在移动通信端,通过预处理、提取有效参数,随之通过数据信道将其传输到语音识别系统的远程端。这样就完成了语音识别系统的传输,并且不会干扰语音识别的正确率,从而实现信道不变形的目的。基于语音识别系统的应用,主要是用于网络分布式的语音识别。如当前的呼叫中心,并在基于包交换的VOIP网络进行了测试;(2)分布式语音合成在基于网络应用。当前,分布式语音服务的模式主要是客户机,在服务端和终端之间总是存在差异,加之信道和用户体验功能的综合影响。语音合成分布式主要是将传统的合成环节转化为标准的模块(语音合成、文本分析)。
2.2语音浏览器。所谓的语音游览器,就是不用接触键盘运用语音进行语言识别游览,也是基于XML国际标准的语音可扩展标识语言.像HTML定义图形化网页界面一样定义了语音界面内容,并通过Transcoder服务器直接浏览网上HTML格式的内容。它主要包括Voice XML、电话语音接人、TIS/AsR资源及Transcoder服务器。
2.3嵌入式语音浏览器。嵌人式语音浏览器支持WAP等传输协议及Javascript、扩展XML、Vdcc XML等标记语言,可完成网页潮览功能;适合在非PC的嵌人式信息设备中存在、运行。并完整实现通信传输协议、标记语言所规定的功能;根据嵌入式设备的多样性需求进行裁减和修改。并满足信息设备使用者方便地获取文字、图像、声音、视频等信息;可广泛应用到各种非PC设备或通信终端,如电视上的机顶盒、交互式数字电视、手持上网设备(移动电话、掌上电脑、个人数字助理等)、互联网电话、网络终靖、电子图书阅读器、公共信息查询系统等。
三、结语
简单来看,通信终端智能语音处理技术的不断发展,在一定程度上可以满足人们对于信息交流的需求,不断的研究创新更多的语音处理技术。未来智能通信终端语音处理技术不再局限于一种语言,将向着多种语言通信发展。
参考文献:
[1]王广科.Wang Guangke 几种常用的音频处理方法-物理教学探讨2011,29(4)
[2]徐波 海量音频处理及嵌入式语音交互-2011
[3]隋文红 论数字技术与电影声音空间感的建立-现代电影技术2011(11)