5000字计算机毕业论文篇3 浅议计算机数据库安全管理 摘 要:随着计算机和网络的普遍使用,人们或企业通过数据库存放的信息越来越多。计算机数据库的安全与否则涉及到个人隐私或企业等利益各方。 文章 通过对计算机数据库概念和特征的梳理,在明确数据库安全问题的基础上,设定计算机数据库安全管理目标并制定了数据库安全管理系统模式。 关键词:计算机;数据库;安全;模式 八九十年代至此,计算机的使用越来越普遍,个人和企业都倾向于用网络来处理个人的事情,并将很多资料和信息存放在网络上以便使用。而计算机数据库就是对这一活动进行技术支撑。 人们一般将个人资料等存放在计算机数据库中以方便和安全之用。这些个人资料往往包含有个人隐私并且非常重要,只有具有相关权限的人才能够查看相关资料。同样,现代企业几乎都是通过计算机数据库来存储和管理各种业务数据。通过特定的数据库访问模式,可以为企业提供全区域全侯段数据的查询和应用方便,提高 企业管理 效率。企业数据库对企业很是重要。但是如果数据库受到人为或病毒的攻击,个人隐私或企业重要信息就面临被窃取或流失的危险,进而对个人或企业的利益造成损失。 本文通过对计算机数据库概念和特征的梳理,设定数据库管理之目标、分析数据库管理问题进而提出计算机数据库安全管理模式。 一、计算机数据库概念及其安全管理特征 (一)计算机数据库概念 计算机数据库(Database)是为达到一定的目的而将数据组织起来并存储在计算机内数据(记录、文件等)的集合。模型是数据库系统的核心和基础。按照计算机存储和操作数据的方式,从数据库发展形态和模型特点角度,将数据库划分为:网状数据库、层次数据库和关系数据库三类。计算机数据库的应用领域和范围十分广泛。按照数据库应用领域和范围,将数据库划分为:统计数据库系统、海河流域数据库系统、地质数据库系统、生态环境数据库系统、地方志数据库系统等。 总体而言,随着计算机的普及和数据库技术的不断发展,计算机数据库应用范围不断的扩大,受到越来越大的重视,并其安全性得到不断的优化和加强。 (二)数据库安全管理特征 数据库安全管理往往包含数据安全、数据完整、并发控制和故障恢复等四个方面: 1.数据安全 数据的安全是保障数据使用的前提。数据安全涉及数据本身的安全以及数据防护安全两个方面。通常需要注意防止数据在录入、处理、统计或打印中造成的数据损坏或丢失;以及因人为、程序、病毒或黑客等造成的数据损坏或丢失。为了保障数据的安全,通常需要将数据进行分类,也即将需保护信息和其他信息分开;设置用户访问权限,控制不同的用户对不同数据的访问;对数据进行审计和加密。 2.数据完整性 数据的完整是保证接收信息的全面性,包括数据的精确性和可靠性。数据完整性通常包括实体完整性、域完整性、参照完整性和用户定义完整性等四个方面。数据完整与否通常涉及到数据录入等方面。数据由于输入等种种原因,会发生输入无效或错误信息等问题。为了保证数据完整性,通常采用包括外键、约束、规则和触发器等 方法 。系统很好地处理了这四者的关系,并针对不同的具体情况用不同的方法进行,相互交叉使用,相补缺点。 3.并发控制 数据库中的数据信息资源可以说是一个“信息池”,对数据的取用不仅要满足一个用户的使用,还要允许多用户同时对数据的取用。为了保证用户取用数据一致性就涉及到并发控制。并发控制指的是当多个用户同时更新运行时,用于保护数据库完整性的各种技术。并发机制不正确可能导致脏读、幻读和不可重复读等此类问题。并发控制的目的是保证一个用户的工作不会对另一个用户的工作产生不合理的影响。在某些情况下,这些措施保证了当用户和其他用户一起操作时,所得的结果和她单独操作时的结果是一样的。在另一些情况下,这表示用户的工作按预定的方式受其他用户的影响。 4.故障恢复 目前,保护数据库系统免受破坏的措施有很多,它能够保证数据库的安全性和完整性不被破坏以及并发事务能够正确执行,但是计算机的硬件故障、操作人员的事务这些是不能够进行避免的。而数据库中数据的正确性都会受到它的影响,甚至有时会使得数据库受到破坏,导致数据库中的部分或者全部数据的丢失。故障恢复的功能就是能够实现数据库从错误状态向某一已知的正确状态方向进行恢复。 二、数据库安全管理目标 数据的安全和完整使用是计算机数据库管理的目标,包括以下几个方面: 数据共享和统一管理。对具有使用权限的用户实现全区域或全侯段数据信息共享能够提高信息的使用效率,满足企业或个人动态办公的需求。同时数据共享必须保障共享数据的一致性和对数据的统一管理。 数据访问简化。应用程序对数据的访问进行简化,使得在更为逻辑的层次上实现应用程序对数据进行访问。数据访问简化一方面提高了对数据库中数据的使用效率,另一方面提升了个人或企业使用数据的方便性,提高工作效率。 数据有效。数据有效性一方面指数据库中的数据需是可以使用的,不能存在过多的冗杂数据;另一方面数据的逻辑一致性得到保证。 数据独立性保障。数据独立性包括数据的物理独立性和逻辑独立性。把数据的定义从程序中分离出去,加上数据的存取又由DBMS负责,从而简化了应用程序的编制,大大减少了应用程序的维护和修改,保障数据的独立性,减少程序对数据和数据结构的依赖。 数据安全性保障。是保障在数据库共享情况下维护数据所有者利益。数据的集中存放和管理能够保证数据库安全性。数据库安全的具体目标就是提供充分的服务,并且保证关键信息不被泄露。 三、数据库安全管理存在问题 从数据库系统安全性角度来讲,数据库的安全问题包括操作方面问题、系统管理问题和数据库自身问题等三个方面。 操作方面。操作方面往往涉及到病毒、后门、数据库系统以及 操作系统 等方面的关联性。病毒方面,部分病毒可以依附于操作系统从而对数据库造成危害;操作系统后门在方便特征参数设置等的同时,也给黑客等留了后门使其可以访问数据库系统等。 管理方面。对数据库安全管理意识薄弱,重视程度不够,对数据库等的管理往往提留在设置访问权限等方面。数据库安全管控措施较少或不到位,未能定期检测和发现数据库存在的漏洞以及面临的安全威胁。 数据库自身问题。虽然关系数据库系统应用时间较长,特性较强大,产品也较成熟,但是实际中并没有在操作系统和现在普遍使用的数据库系统体现出其应该具有的某些特征,尤其是那些较为重要的安全特性,由此可见,大多数的关系数据库系统的成熟度还是不够。 四、计算机数据库安全管理措施 (一)用户标识与鉴别 用户识别和鉴别是数据库系统的最外层安全保护措施。数据库系统可使用多种识别方法,提高系统的安全级别。其中用户名输入识别、口令识别、身份随即识别等作为常用的安全防范方法。 (二)安全模式 通过安全模式来判断安全重要方面与系统行为关系,并满足关键数据安全的需求。安全模式通常包括多级安全模式和多边安全模型。多级安全模式首先在军用安全保密系统中使用,包括秘密级、机密级和绝密级三个等级。根据不同的需求设置每一级人员的访问权限。多边安全模式则能防范横向信息泄露。 (三)访问控制 按用户身份及其所归属的某项定义组来限制用户对某些信息项的访问,或限制对某些控制功能的使用。访问控制通常用于系统管理员控制用户对服务器、目录、文件等网络资源的访问。访问控制保证具有访问权限的用户的正常访问,是通过主体访问设置保护网络资源。访问控制的功能主要有以下:防止非法的主体进入受保护的网络资源;允许合法用户访问受保护的网络资源;防止合法的用户对受保护的网络资源进行非授权的访问。访问控制实现的策略:入网访问控制、网络权限限制、目录级安全控制、属性安全控制、网络服务器安全控制等。 (四)安全审计 由专业审计人员根据有关的法律法规、财产所有者的委托和管理当局的授权,对计算机网络环境下的有关活动或行为进行系统的、独立的检查验证,并作出相应评价。安全审计涉及四个基本要素:控制目标、安全漏洞、控制措施和控制测试。其中,控制目标是指企业根据具体的计算机应用,结合单位实际制定出的安全控制要求。 五、结束语 数据安全问题是存在于计算机系统和数据库系统中的常见和最为重要的问题。数据库的安全围绕着防范和减轻风险的角度展开。数据库管理最主要的目的就是通过有效的计划和措施,在保障数据共享的基础上,保障数据的安全,确保安全风险不为用户带来风险等。文章在指出数据库系统中存在安全问题的基础上,从用户识别、设置安全模式、进行访问控制等角度提出了数据库安全管理措施。 参考文献: [1]许婷,杨新荣.数据库安全技术理论研究[J].科技情报开发与经济,2007,4. [2]朱良根,雷振甲,张玉清.数据库安全技术研究[J].计算机应用研究,2004,9. [3]隽军利,李天燕,王小龙.浅析计算机数据库系统在信息管理中的应用[J].科技创新导报,2008,12. [4]刘启原,刘怡.数据库与信息系统的安全[M].北京:科学出版社,2000. 5000字计算机毕业论文篇4 浅谈计算机安全技术与防护 摘要:互连网具有开放性和匿名性的特点,这给计算机黑客、病毒利用网络实施各种犯罪活动创造了机会,同时对网络安全构成了威胁。在我们使用网络的过程中,总会感染各种各样的网页病毒,在收发电子邮件、使用QQ进行即时聊天过程中,也会导致密码被盗等情况。同时,由于安全问题,有些网站的数据被破坏,这给我们的工作带来了极大损失。 关键词:计算机;网络;安全技术;防护技术 互联网以其高效率和快捷方便改变着人们的生产与生活,在社会的各个领域得到了广泛的应用,各行各业用其来处理各种事物,比如电子邮件的发送、网上购物、信息的处理、网上炒股和网上办公。所有这些都与互连网的开放性及匿名性有关。也正因为这些特征使互联网存在着一定的安全隐患。但是网络不安全导致人们对网络望而生畏,以上问题也使人们在应用网络与计算机的过程中遭受巨大损失,我在计算机安全技术与防护方面做如下分析。 一、计算机网络信息存在安全隐患 (一)计算机本身存在的问题 计算机的弱项是面对威胁与攻击时容易被破坏甚至导致瘫痪。因为它自身的防御能力较差,被新病毒攻击时束手无策,在建立网络协议时,有些安全问题没有被安排在内,虽然又新加了许多安全服务与安全机制,但是黑客的攻击还是让计算机本身防不胜防,让一些安全措施显得无力,所以在互联网中的安全问题表现的更加严重。 (二)软件中存在的漏洞 所有的操作系统或网络软件都存在着各种各样的问题,主要是有了黑客的攻击或病毒的入侵以后才进行漏洞的修补,所以在操作系统及网络软件中还存在缺陷和漏洞,这给我们的计算机带来了很大的危险,计算机被接入网络受到的攻击也会更多。 (三)计算机安全配置不正确 进行安全配置时,因为配置不正确导致了安全漏洞的存在。比如,没有对防火墙进行配置,那么本身的作用不能得到很好的发挥,在这种特定的网络应用程序中,启动过程中,很多安全缺口也会随之打开,可以与这一软件捆绑在一起的应用软件随之启用。只有在用户禁止此程序的运行,或者对它进行了合理的配置时,才可以排除各种安全隐患。 (四)使用对象的安全意识差 当用户口令设置较简单,有时还把自己的账号借给他人用或者与他人共用,这些给网络安全造成了一定的威胁。 二、计算机病毒的威胁 随着应用的广泛,病毒的种类也在不断增多,破坏性不断增强,病毒的产生与蔓延使信息系统不再可靠,不再安全,计算机受到的威胁是巨大的,同时也给各个单位造成了很多损失,计算机病毒的入侵手段可以归结为以下几类: (一)数据的欺 非法入侵到计算机,对数据进行修改,甚至借机对假数据进行输入。 (二)特洛伊木马 在计算机内通过不正确的手段装入秘密指令或者程序,通过计算机进行犯罪活动。它通过合法的身份隐藏于其他的程序中,某时刻会发作,这时会产生威胁,当本机在完成任务时,它会实施非授权功能。比如复制一段超过系统授权的程序等。 (三)截收信息 黑客或者病毒在进行攻击时,有可能会利用搭线或者是电磁辐射的范围内进行截收,对重要信息进行截获或者借助于信息流以及自身的流向、通信频度及长度等参数加以分析,对有用的信息进行判断及保留。 (四)对程序的攻击 这种病毒的攻击性较强,活动较频繁,它深深地隐藏于计算机的存储器中,借助于木马对用户进行技术性的欺,对用户进行激活。甚至借助于逻辑炸弹来发作,对系统进行攻击并产生较大的危害性活动。 (五) 其它 网络攻击方式 黑客或者病毒破坏网络系统,使其不可用,导致合法用户对网络资源不能进行访问,拒绝各种服务,有的还会严重破坏计算机系统与网络系统,使系统信息不再完整,有些还有可能假装主机对合法用户进行非法入侵,使系统资源遭受破坏等。 三、常用的网络安全技术 (一)操作系统内核的安全性防护技术 操作系统安全内核技术主要是通过传统网络安全技术进行分析,借助于操作系统这一层次对网络的安全性进行分析与假设,对系统内核中可能存在安全性问题在内核中除掉,进一步对系统的安全性问题进行强调,在技术上不断加强。操作系统平台的安全措施主要有:利用安全系数较高的操作系统;对操作系统进行安全配置;借助于安全扫描系统对操作系统的漏洞进行检查等。美国国防部技术标准将操作系统的安全等级划分成D1、C1、C2、B1、B2、B3、A几个等级,它的安全等级主要是从低到高。当前大多数操作系统的安全等级都达到了C2级,它的特征包括:一是利用用户注册名和口令使系统加以识别;二是系统通过用户的注册名对用户访问资源的权限进行裁定;三是通过系统对所有系统中发生的所有事件进行审核与记录;四对其他具有系统管理权限的用户进行创建。 (二)网络防病毒技术 计算机病毒借助于网络环境对系统进行破坏,它的破坏力非常强,它产生的威胁与破坏力是不可估计的,比如CIH病毒及爱虫病毒就充分说明了,如果不对病毒进行提前预防,它所造成损失更大,给社会带来一系列的问题,所以,我们要加强病毒的预防。网络防病毒技术的具体实现方法主要包括对网络服务器中的文件的频繁破坏,频繁扫描与频繁监测,主要通过工作站对防病毒的芯片、网络目录以及各种文件加强了访问权限的设置等。预防病毒主要借助于网络这一整体,提高管理人员的技术与防范意识,经常对全网的客户机进行扫描,对病毒情况进行监测;通过在线报警技术,使网络上的每一台机器发生故障、被病毒入侵时,网管人员能够检测到并及时解决这些问题,使网络被攻击的损失达到最小化。 (三)对 网络技术 的加密 对网络进行加密技术的提高是保障网络安全的行之有效的一项重要措施,做了加密的网络可以防止非法窃听,还可以防止恶意软件的入侵等,对网络信息进行加密主要是对网内的数据进行保护,对网内的文件、口令及控制信息实施保护,对网上传输的数据加以保护。这种对网络实施的加密主要是通过链路加密、端点加密及节点加密几种方式来实现。链路加密的目的是为了对网络节点之间的链路信息安全进行保护;对各个端点进行加密的目的是完成对源端用户到目的端用户的数据所做的加密保护;对节点进行加密主要是对源节点到目的节点之间的传输链路进行加密保护。各用户针对网络情况对上述三种加密方式结合自身情况进行选择。 根据收发双方的密钥的异同进行分类,对这些加密算法可以分为常规密码算法与公匙密码算法。通过对其应用这一过程,人们主要是把常规密码与公钥密码有机结合。比如:使用DES或者IDEA完成对信息的加密,而使用RSA对会话密钥进行传递。假如根据多次加密所处理的比特进行分类,我们可以把加密算法分为序列密码的算法与分组密码的算法,而序列密码的算法在每次计算时只加密一个比特。 (四)加强防火墙技术 网络防火墙主要是对被保护的网络和外界所设置的屏障,它借助于计算机硬件及软件的组合形成了相对安全的网关,对内部网络进行保护,使其不受非法用户的入侵,通过对它的鉴别、限制与更改,使其跨越防火墙的数据流,对通信网络的安全提供保障,为计算机通信网络的发展提供保障。 (五)加强身份验证技术 身份验证技术主要是用户通过系统显示自己身份证明的一个过程。通过身份认证对用户的身份进行证明。通过这两个过程对通信双方真实身份进行判定与验证,借助于这两项工作完成身份的验证。计算机的安全机制主要是对发出请求的用户做出身份验证,对它的合法性进行确认,如果判定为合法用户,对该用户进行审核,判断其是否对所请求的服务或主机可以进行访问。 总之,网络安全是一项综合性、长期性的任务,它主要涉及到技术、管理以及使用的许多问题,主要包括信息系统自身的安全问题,还包括物理方面的和逻辑方面的相应措施。所以,一定要通过多种防范措施,通过各种比较保密的政策及明晰的安全策略,对信息的机密性、完整性和可用性逐步加强,给网络安全提供保障。 参考文献: [1]陈月波.网络信息安全[M].武汉:武汉理工大学出版社,2005 [2]钟乐海,王朝斌,李艳梅.网络安全技术[M].北京:电子工业出版社,2003 [3]张千里.网络安全基础与应用[M].北京:人民邮电出版社,2007 [4]吴金龙,蔡灿辉,王晋隆.网络安全[M].北京:高等教育出版社,2004 猜你喜欢: 1. 计算机专业毕业论文评语 2. 有关大学计算机专业毕业论文范文 3. 计算机系毕业论文范文参考 4. 大学计算机毕业论文范文 5. 关于计算机专业毕业论文范文 6. 计算机专业毕业论文参考
与机器进行语音交流,让机器明白你说什么,这是人们长期以来梦寐以求的事情。语音识别技术就是让机器通过识别和理解过程把语音信号转变为相应的文本或命令的高技术。语音识别是一门交叉学科。近二十年来,语音识别技术取得显著进步,开始从实验室走向市场。人们预计,未来10年内,语音识别技术将进入工业、家电、通信、汽车电子、医疗、家庭服务、消费电子产品等各个领域。语音识别听写机在一些领域的应用被美国新闻界评为1997年计算机发展十件大事之一。很多专家都认为语音识别技术是2000年至2010年间信息技术领域十大重要的科技发展技术之一。语音识别技术所涉及的领域包括:信号处理、模式识别、概率论和信息论、发声机理和听觉机理、人工智能等等。 任务分类和应用 根据识别的对象不同,语音识别任务大体可分为3类,即孤立词识别(isolated word recognition),关键词识别(或称关键词检出,keyword spotting)和连续语音识别。其中,孤立词识别 的任务是识别事先已知的孤立的词,如“开机”、“关机”等;连续语音识别的任务则是识别任意的连续语音,如一个句子或一段话;连续语音流中的关键词检测针对的是连续语音,但它并不识别全部文字,而只是检测已知的若干关键词在何处出现,如在一段话中检测“计算机”、“世界”这两个词。根据针对的发音人,可以把语音识别技术分为特定人语音识别和非特定人语音识别,前者只能识别一个或几个人的语音,而后者则可以被任何人使用。显然,非特定人语音识别系统更符合实际需要,但它要比针对特定人的识别困难得多。另外,根据语音设备和通道,可以分为桌面(PC)语音识别、电话语音识别和嵌入式设备(手机、PDA等)语音识别。不同的采集通道会使人的发音的声学特性发生变形,因此需要构造各自的识别系统。语音识别的应用领域非常广泛,常见的应用系统有:语音输入系统,相对于键盘输入方法,它更符合人的日常习惯,也更自然、更高效;语音控制系统,即用语音来控制设备的运行,相对于手动控制来说更加快捷、方便,可以用在诸如工业控制、语音拨号系统、智能家电、声控智能玩具等许多领域;智能对话查询系统,根据客户的语音进行操作,为用户提供自然、友好的数据库检索服务,例如家庭服务、宾馆服务、旅行社服务系统、订票系统、医疗服务、银行服务、股票查询服务等等。 前端前端处理是指在特征提取之前,先对原始语音进行处理,部分消除噪声和不同说话人带来的影响,使处理后的信号更能反映语音的本质特征。最常用的前端处理有端点检测和语音增强。端点检测是指在语音信号中将语音和非语音信号时段区分开来,准确地确定出语音信号的起始点。经过端点检测后,后续处理就可以只对语音信号进行,这对提高模型的精确度和识别正确率有重要作用。语音增强的主要任务就是消除环境噪声对语音的影响。目前通用的方法是采用维纳滤波,该方法在噪声较大的情况下效果好于其它滤波器。处理声学特征 声学特征的提取与选择是语音识别的一个重要环节。声学特征的提取既是一个信息大幅度压缩的过程,也是一个信号解卷过程,目的是使模式划分器能更好地划分。由于语音信号的时变特性,特征提取必须在一小段语音信号上进行,也即进行短时分析。这一段被认为是平稳的分析区间称之为帧,帧与帧之间的偏移通常取帧长的1/2或1/3。通常要对信号进行预加重以提升高频,对信号加窗以避免短时语音段边缘的影响。常用的一些声学特征* 线性预测系数LPC:线性预测分析从人的发声机理入手,通过对声道的短管级联模型的研究,认为系统的传递函数符合全极点数字滤波器的形式,从而n 时刻的信号可以用前若干时刻的信号的线性组合来估计。通过使实际语音的采样值和线性预测采样值之间达到均方差最小LMS,即可得到线性预测系数LPC。对 LPC的计算方法有自相关法(德宾Durbin法)、协方差法、格型法等等。计算上的快速有效保证了这一声学特征的广泛使用。与LPC这种预测参数模型类似的声学特征还有线谱对LSP、反射系数等等。* 倒谱系数CEP:利用同态处理方法,对语音信号求离散傅立叶变换DFT后取对数,再求反变换iDFT就可得到倒谱系数。对LPC倒谱(LPCCEP),在获得滤波器的线性预测系数后,可以用一个递推公式计算得出。实验表明,使用倒谱可以提高特征参数的稳定性。* Mel倒谱系数MFCC和感知线性预测PLP:不同于LPC等通过对人的发声机理的研究而得到的声学特征,Mel倒谱系数MFCC和感知线性预测 PLP是受人的听觉系统研究成果推动而导出的声学特征。对人的听觉机理的研究发现,当两个频率相近的音调同时发出时,人只能听到一个音调。临界带宽指的就是这样一种令人的主观感觉发生突变的带宽边界,当两个音调的频率差小于临界带宽时,人就会把两个音调听成一个,这称之为屏蔽效应。Mel刻度是对这一临界带宽的度量方法之一。MFCC的计算首先用FFT将时域信号转化成频域,之后对其对数能量谱用依照Mel刻度分布的三角滤波器组进行卷积,最后对各个滤波器的输出构成的向量进行离散余弦变换DCT,取前N个系数。PLP仍用德宾法去计算LPC参数,但在计算自相关参数时用的也是对听觉激励的对数能量谱进行DCT的方法。声学模型语音识别系统的模型通常由声学模型和语言模型两部分组成,分别对应于语音到音节概率的计算和音节到字概率的计算。本节和下一节分别介绍声学模型和语言模型方面的技术。HMM声学建模:马尔可夫模型的概念是一个离散时域有限状态自动机,隐马尔可夫模型HMM是指这一马尔可夫模型的内部状态外界不可见,外界只能看到各个时刻的输出值。对语音识别系统,输出值通常就是从各个帧计算而得的声学特征。用HMM刻画语音信号需作出两个假设,一是内部状态的转移只与上一状态有关,另一是输出值只与当前状态(或当前的状态转移)有关,这两个假设大大降低了模型的复杂度。HMM的打分、解码和训练相应的算法是前向算法、Viterbi算法和前向后向算法。语音识别中使用HMM通常是用从左向右单向、带自环、带跨越的拓扑结构来对识别基元建模,一个音素就是一个三至五状态的HMM,一个词就是构成词的多个音素的HMM串行起来构成的HMM,而连续语音识别的整个模型就是词和静音组合起来的HMM。上下文相关建模:协同发音,指的是一个音受前后相邻音的影响而发生变化,从发声机理上看就是人的发声器官在一个音转向另一个音时其特性只能渐变,从而使得后一个音的频谱与其他条件下的频谱产生差异。上下文相关建模方法在建模时考虑了这一影响,从而使模型能更准确地描述语音,只考虑前一音的影响的称为Bi- Phone,考虑前一音和后一音的影响的称为Tri-Phone。英语的上下文相关建模通常以音素为基元,由于有些音素对其后音素的影响是相似的,因而可以通过音素解码状态的聚类进行模型参数的共享。聚类的结果称为senone。决策树用来实现高效的triphone对senone的对应,通过回答一系列前后音所属类别(元/辅音、清/浊音等等)的问题,最终确定其HMM状态应使用哪个senone。分类回归树CART模型用以进行词到音素的发音标注。 语言模型语言模型主要分为规则模型和统计模型两种。统计语言模型是用概率统计的方法来揭示语言单位内在的统计规律,其中N-Gram简单有效,被广泛使用。N-Gram:该模型基于这样一种假设,第n个词的出现只与前面N-1个词相关,而与其它任何词都不相关,整句的概率就是各个词出现概率的乘积。这些概率可以通过直接从语料中统计N个词同时出现的次数得到。常用的是二元的Bi-Gram和三元的Tri-Gram。语言模型的性能通常用交叉熵和复杂度(Perplexity)来衡量。交叉熵的意义是用该模型对文本识别的难度,或者从压缩的角度来看,每个词平均要用几个位来编码。复杂度的意义是用该模型表示这一文本平均的分支数,其倒数可视为每个词的平均概率。平滑是指对没观察到的N元组合赋予一个概率值,以保证词序列总能通过语言模型得到一个概率值。通常使用的平滑技术有图灵估计、删除插值平滑、Katz平滑和Kneser-Ney平滑。 搜索连续语音识别中的搜索,就是寻找一个词模型序列以描述输入语音信号,从而得到词解码序列。搜索所依据的是对公式中的声学模型打分和语言模型打分。在实际使用中,往往要依据经验给语言模型加上一个高权重,并设置一个长词惩罚分数。Viterbi:基于动态规划的Viterbi算法在每个时间点上的各个状态,计算解码状态序列对观察序列的后验概率,保留概率最大的路径,并在每个节点记录下相应的状态信息以便最后反向获取词解码序列。Viterbi算法在不丧失最优解的条件下,同时解决了连续语音识别中HMM模型状态序列与声学观察序列的非线性时间对准、词边界检测和词的识别,从而使这一算法成为语音识别搜索的基本策略。由于语音识别对当前时间点之后的情况无法预测,基于目标函数的启发式剪枝难以应用。由于Viterbi算法的时齐特性,同一时刻的各条路径对应于同样的观察序列,因而具有可比性,束Beam搜索在每一时刻只保留概率最大的前若干条路径,大幅度的剪枝提高了搜索的效率。这一时齐Viterbi- Beam算法是当前语音识别搜索中最有效的算法。 N-best搜索和多遍搜索:为在搜索中利用各种知识源,通常要进行多遍搜索,第一遍使用代价低的知识源,产生一个候选列表或词候选网格,在此基础上进行使用代价高的知识源的第二遍搜索得到最佳路径。此前介绍的知识源有声学模型、语言模型和音标词典,这些可以用于第一遍搜索。为实现更高级的语音识别或口语理解,往往要利用一些代价更高的知识源,如4阶或5阶的N-Gram、4阶或更高的上下文相关模型、词间相关模型、分段模型或语法分析,进行重新打分。最新的实时大词表连续语音识别系统许多都使用这种多遍搜索策略。N-best搜索产生一个候选列表,在每个节点要保留N条最好的路径,会使计算复杂度增加到N倍。简化的做法是只保留每个节点的若干词候选,但可能丢失次优候选。一个折衷办法是只考虑两个词长的路径,保留k条。词候选网格以一种更紧凑的方式给出多候选,对N-best搜索算法作相应改动后可以得到生成候选网格的算法。前向后向搜索算法是一个应用多遍搜索的例子。当应用简单知识源进行了前向的Viterbi搜索后,搜索过程中得到的前向概率恰恰可以用在后向搜索的目标函数的计算中,因而可以使用启发式的A算法进行后向搜索,经济地搜索出N条候选。 系统实现 语音识别系统选择识别基元的要求是,有准确的定义,能得到足够数据进行训练,具有一般性。英语通常采用上下文相关的音素建模,汉语的协同发音不如英语严重,可以采用音节建模。系统所需的训练数据大小与模型复杂度有关。模型设计得过于复杂以至于超出了所提供的训练数据的能力,会使得性能急剧下降。听写机:大词汇量、非特定人、连续语音识别系统通常称为听写机。其架构就是建立在前述声学模型和语言模型基础上的HMM拓扑结构。训练时对每个基元用前向后向算法获得模型参数,识别时,将基元串接成词,词间加上静音模型并引入语言模型作为词间转移概率,形成循环结构,用Viterbi算法进行解码。针对汉语易于分割的特点,先进行分割再对每一段进行解码,是用以提高效率的一个简化方法。对话系统:用于实现人机口语对话的系统称为对话系统。受目前技术所限,对话系统往往是面向一个狭窄领域、词汇量有限的系统,其题材有旅游查询、订票、数据库检索等等。其前端是一个语音识别器,识别产生的N-best候选或词候选网格,由语法分析器进行分析获取语义信息,再由对话管理器确定应答信息,由语音合成器输出。由于目前的系统往往词汇量有限,也可以用提取关键词的方法来获取语义信息。 自适应与强健性 语音识别系统的性能受许多因素的影响,包括不同的说话人、说话方式、环境噪音、传输信道等等。提高系统鲁棒性,是要提高系统克服这些因素影响的能力,使系统在不同的应用环境、条件下性能稳定;自适应的目的,是根据不同的影响来源,自动地、有针对性地对系统进行调整,在使用中逐步提高性能。以下对影响系统性能的不同因素分别介绍解决办法。解决办法按针对语音特征的方法(以下称特征方法)和模型调整的方法(以下称模型方法)分为两类。前者需要寻找更好的、高鲁棒性的特征参数,或是在现有的特征参数基础上,加入一些特定的处理方法。后者是利用少量的自适应语料来修正或变换原有的说话人无关(SI)模型,从而使其成为说话人自适应(SA)模型。说话人自适应的特征方法有说话人规一化和说话人子空间法,模型方法有贝叶斯方法、变换法和模型合并法。语音系统中的噪声,包括环境噪声和录音过程加入的电子噪声。提高系统鲁棒性的特征方法包括语音增强和寻找对噪声干扰不敏感的特征,模型方法有并行模型组合PMC方法和在训练中人为加入噪声。信道畸变包括录音时话筒的距离、使用不同灵敏度的话筒、不同增益的前置放大和不同的滤波器设计等等。特征方法有从倒谱矢量中减去其长时平均值和RASTA滤波,模型方法有倒谱平移。 微软语音识别引擎 微软在office和vista中都应用了自己开发的语音识别引擎,微软语音识别引擎的使用是完全免费的,所以产生了许多基于微软语音识别引擎开发的语音识别应用软件,例如《语音游戏大师》《语音控制专家》《芝麻开门》等等软件。 语音识别系统的性能指标 语音识别系统的性能指标主要有四项。①词汇表范围:这是指机器能识别的单词或词组的范围,如不作任何限制,则可认为词汇表范围是无限的。②说话人限制:是仅能识别指定发话者的语音,还是对任何发话人的语音都能识别。③训练要求:使用前要不要训练,即是否让机器先“听”一下给定的语音,以及训练次数的多少。④正确识别率:平均正确识别的百分数,它与前面三个指标有关。小结以上介绍了实现语音识别系统的各个方面的技术。这些技术在实际使用中达到了较好的效果,但如何克服影响语音的各种因素还需要更深入地分析。目前听写机系统还不能完全实用化以取代键盘的输入,但识别技术的成熟同时推动了更高层次的语音理解技术的研究。由于英语与汉语有着不同的特点,针对英语提出的技术在汉语中如何使用也是一个重要的研究课题,而四声等汉语本身特有的问题也有待解决。
朋友你好,你所要的先从我提供的网址中找几篇参考论文,真心希望能够对你有。若不满意我给你些网址你还可以自己再找,祝你好运!中文免费论文地址集锦一、综合类1、蓝之韵论文门类较全。2、学生大论文中心、蜂朝无忧论文网门类很全。4、论文下载中心门类很全。5、论文帝国.
90 浏览 5 回答
83 浏览 6 回答
285 浏览 4 回答
109 浏览 7 回答
274 浏览 5 回答
140 浏览 5 回答
143 浏览 7 回答
260 浏览 6 回答
230 浏览 6 回答
190 浏览 6 回答
282 浏览 8 回答
145 浏览 4 回答
224 浏览 3 回答
131 浏览 3 回答
161 浏览 7 回答