语音识别技术探析

摘　要：摘要：随着信息技术和计算机技术的迅猛发展，语音识别技术已经应用到各个领域中，语音识别已经成为计算机标准的输入手段之一。人们在熟练使用语音输入时，应该对语音识别技术有所了解，本文就对语音识别技术的发展状况、特点、关键技术和遇到的瓶颈问题做一个简要的阐述，已达到抛砖引玉的作用。

关键词：关键词：语音识别技术；探析

中图分类号：TP18    文献标识码：A     文章编号：
    语音识别技术是让计算机识别一些语音信号，并把语音信号转换成相应的文本或者命令的一种高科技技术。语音识别技术所涉及的领域非常广泛，包括信号处理、模式识别、人工智能等技术。近年来已经从实验室开始走向市场，渗透到家电、通信、医疗、消费电子产品等各个领域，让人们的生活更加方便。
1．语音识别技术的发展情况
1.1 国外发展状况
    国外一些发达国家关于语音识别技术的研究是从20世纪50年代开始，第一个语音识别系统是贝尔实验室研究出来的Audry系统，该系统虽然只能识别10个英文数字，但是它却是语音识别的鼻祖，开了语音识别技术的先河。在70年代初，语音识别技术取得了实质性的进展，能够进行特定人、小词汇表、孤立词的识别。20世纪80年代末，语音识别技术取得重大突破，比较有代表性是卡耐基梅隆大学李开复博士研究的Sphinx系统，该系统能够实现对非特定人、大词汇量、连续语音的识别。在语音识别领域上具有划时代的意义，使语音识别技术打破特定人、小词汇量、非连续语音的藩篱。并于20世纪90年代开始从实验室走向市场。许多国际著名的大公司都对语音识别技术的研究投入巨资，语音识别系统的实用化研究得以蓬勃发展，拓展应用到各个领域。
1.2 国内发展状况
    我国关于语音识别技术的研究开始于20世纪50年代，其研究历程主要分为三个阶段：
    一是引进、移植阶段。在20世纪70-80年代中期，我国语音识别技术研究处于探索和起步阶段，这一时期以吸收和引进国外理论和技术为主，主要进行实验室环境条件为主的汉语语音识别研究，为汉语语音识别技术的研究和发展奠定了基础。
    二是自成体系阶段。在20世纪80-90年代中期，在国家863“智能计算机主题”专家组对汉语音识别技术立项的推动下，我国语音识别技术在理论和实践上都有较大进展。逐渐走出一条适合汉语特点的研究路子，缩小了与国际研究水平的差距。
    三是成熟阶段。从90年代中期以来，在国家863《智能计算机主题》项目的推动下，汉语语音识别技术在逐渐走向成熟，在模型匹配设计、参数优化以及自适应方面都取得了突破性进展。
2. 语音识别系统的分类
2.1 从说话者与识别系统的关系考虑
    一是仅考虑对于专人的话音进行识别的特定人的语音识别系统；二是识别的语音与人无关的非特定人的语音识别系统；三是能识别一组人的语音的多人语音识别系统。
2.2 从说话者的方式考虑
    一是输入每个单词都要停顿的语音识别系统；二是能够识别简短的连续语音的语音识别系统；三是能够正确识别大量的连续语音的语音识别系统。
2.3 从识别词汇量大小考虑
    一是只包括几十个词的小词汇量的语音识别系统；二是包括几百个词到几千个词的中等词汇量的语音识别系统；三是包括几千到几万个词的大词汇量的语音识别系统。
3. 语音识别的基本方法
3.1 基于语音学和声学的方法
    在语音识别技术发展之初，就提出了基于语音学和声学方面的研究，但是由于所涉及的领域过于广泛、知识过于复杂，多年来一直没有突破，仍然处于实验室研究阶段，没有走向实用，而且逐渐被其他方法所取代。
3.2 模板匹配的方法
    模板匹配方面经过多年的研究已经取得突破性的进展，目前已比较成熟，开始走向市场进入实用阶段。主要核心技术有动态时间规整、隐马尔可夫和矢量量化三种技术。
3.3 神经网络的方法
    这种语音识别方法起步于80年代末期，该方法模拟了人类神经活动的原理，具有较强的分类功能和输入-输出映射能力。而且自适应性、容错性、并行性及学习特性都非常好。这些特点很吸引那些致力于语音识别技术研究的专家们，但是由于识别、训练时间太长，一直不被人们所接受，目前仍处于实验探索研究阶段。语音识别专家经常把人工神经网络方法和其他方法结合使用进行语音识别。
4. 语音识别系统的结构
    随着语音识别技术的发展，目前已经有成千上万个语音识别系统，虽然每个语音识别系统功能上都有所不同，但是所采用的基本技术都是相似的，一个典型的语音识别系统实现过程如下：
4.1 特征提取
    特征提取是对语音信号进行分析处理，去掉无关的多余信息，获取有用的关键信息，同时对语音信号进行压缩处理以便于存储。
4.2 模式匹配
    将获得的语音信息使用一些算法进行训练产生声学模型，然后将输入的语音信息和模型库中的声学模型进行比较和匹配，以获取需要的语音信息。
5. 语音识别所面临的问题
5.1 语音识别需要进一步突破模型匹配方面的技术
    语言模型和声学模型是语音识别技术的基础，目前语音识别技术在这两个方面仍处于研究探索阶段，所使用的语言模型还是一种概率模型，还没有开发出来以语言学为基础的模型。因此，要使计算机真正能听懂和理解人类的语言，必须进一步突破模型匹配方面的瓶颈问题。
5.2 语音识别技术也要进一步改进以提高其自适应性
    目前，大部分语音识别系统都需要用户在输入之前进行语言训练，让计算机熟悉其声音特点。用户对于大量的训练会感觉到很繁琐甚至厌倦，导致使用语音输入的积极性就差，宁愿使用其它输入方法。这在某种程度上制约了语音识别技术的发展和应用。因此，语音识别系统要想被广大用户的认可，必须提高其自适应性，使之不受用户口音、语速及语调的过多影响。
5.3 语音识别技术还需进一步增强其强健性以适应各种环境
    目前，语音识别技术受环境因素的影响还是很大，在公共场合，来自四面八方的声音，让计算机很难听懂用户所说的话。这极大地限制了语音技术的应用，如何让语音设备从纷繁复杂的声音中获取自己所需要的声音，这确实是个艰巨的任务，需要有很长的路要走。
5.4 多种语言以及专业词汇识别方面还需要改进
    目前使用的声学模型和语言模型比较简单，只能识别一种语言和一些常用的词汇。如果用户突然从一种语言转为另一种语言，或者说出一些专业词汇，计算机就会不知所云，可能会产生奇怪的反应。希望对声学模型和语言模型能够进一步改进，使计算机能够识别多种语言和一些专业的词汇，这样，用户就不会在各种语言和词汇方面进行来回转换。
    由此可见，如果语音识别技术在上述几个方面取得一些进步，人类的生存和交流空间将进一步得到拓展，人类将获得更大的自由，将会带个我们全新的生活空间。
参考文献：
[1] 廖锎.浅析语音识别技术的发展及趋势[J] .科技传播,2010年17期.
[2]任杰.语音识别技术概述[J].大众科技,2010年08期.
[3]焦高超,张原野等.语音识别技术的发展与研究[J].网络财富2010年15期.