45Microcontrollers & Embedded 新器件新技术 NEW PRODUCT & TECH用EP7211实现传呼信息实时语音合成和播放■ 郑州解放军信息工程大学 胡泽明 王鹏摘 要关键词阐述在一款集成传呼功能的二合一PDA系统中,使用嵌入式处理器EP7211实现个人传呼信息的实时语音合成和播放的功能,主要包括字符语音库的建立,字符语音合成算法和Codec语音中断服务例程等3部分.PDA 语音库 语音合成引 言PDA(Personal Digital Assitant,个人数字助理)是近年来继寻呼机和移动电话之后,在国内市场迅速崛起的便携式电子产品.就其扩展意义来讲,它能够集成移动计算,电话和网络等多种功能.根据不同的应用需求,它可以管理个人信息,提供名片存储和日程安排,也可以接收各种寻呼信息(如股市,天气预报等).如果是集成通信模块,还可以作为移动电话使用,进行无线网络互联.广义的PDA包括简单的电子记事本,电子辞典和功能强大的掌上电脑,它们的主要区别表现在操作系统,存储能力,运算速度和数据交换能力等方面.目前国内传统PDA产品经过几年的高速发展后,市场基本饱和,销售额出现负增长.不过由于PDA产品的灵活性,有针对性的行业应用作为一个新亮点,开始为人们所关注.经过行业应用改造后的PDA产品,已经在国内市场大显身手.文曲星展现超强的语言翻译能力,比较适合于大学生和语言翻译者使用;蓝火系列能实时接收股市信息和专家点评,适合工薪阶层的炒股者.国家信息产业部已经鼓励PDA产品在交通,警务,保险等领域的行业应用和推广.分析市场需求,我们研发了集成传呼功能的,专门面向铁路交通行业应用的铁路交通信息系统PDA.本PDA系统除了具备传统PDA的个人名片管理和辞典检索等功能外,同时提供交通行业应用的民航航班查询,铁路列车时刻表查询等功能.本PDA的寻呼系统实现如下功能:能够通过寻呼对列车时刻表,列车晚点信息,列车剩余票额,股道信息等行业数据进行动态更新.作为另一个特色,当接收到个人寻呼时,能够将寻呼内容实时地转换成语音并播放.下面重点介绍本PDA系统中使用嵌入式处理器EP7211实现个人寻呼内容的实时语音转换和播放.该功能的实现包含前后相关的3个部分:字符语音库的建立,字符的语音合成算法和Codec语音中断服务例程.1实现条件和要求PDA属于嵌入式应用系统,其同一般PC机有很大差别.硬件方面,嵌入式处理器基于RISC体系结构,一般工作频率在几十MHz,甚至更低;系统内存容量一般在几百KB~几MB之间;一般使用容量小的ROM或者Flash作为硬盘来存储可执行程序和数据.软件方面,PDA系统一般有专用的嵌入式操作系统和软件开发调试移植环境.个人传呼信息的特点是单条传呼信息长度变化较大,20~50个字符不等.最为常见的是"请回电话***";传呼信息涉及到的字符数量较大,字符语音合成时运算量大,单字符合成后语音数据占用的存储空间多;需要事先建立字符语音库等.由于具体硬件环境的限制,传呼信息的特点和语音合成的要求,该功能能够实现的前提有:语音库占用的空间小;字符合成时速度要快;采用前台进行字符语音合成时,以后台中断方式进行合成语音的播放来保证其实时性和连续性.2具体实现下面分别介绍字符语音库的建立,字符语音合成算法,本PDA系统的框架结构和语音中断服务例程.建立字符语音库我们选用语音压缩编码标准来建立语音库.该标准采用的算法是共轭结构的代数码激励线新器件新技术 NEW PRODUCT & TECH性预测(CS-ACELP),是基于CELP(码激励线性预测)编码模型的算法.这种编码规范的严格性使性能达到或超过了32 Kbps的 ADPCM编码,具有很高的语音质量;同时,它是在语音信号8 KHz取样的基础上得到16 bit线性PCM后进行编码的,压缩后的数据速率仅为8 Kbps,具有相当于8:1的高压缩率.其算法延迟少于16 ms.由于编解码器能够实现很高的语音质量和很低的算法延时,因此被广泛地应用.字符语音库是一个单字发音语音数据的集合,各段数据之间相互独立,不具有相关性.语音库包含了国标一,二级字库中的所有6763个汉字,10个阿拉伯数字和26个英文字符的标准普通话语音数据.每个汉字或字符发音时长为 s,采用8 KHz抽样频率,使用了语音编码算法对上述的语音数据进行压缩,压缩后的数据速率为8 Kbps,相当于具有8:1的高压缩率.在汉字中,同音字占了相当大的比例,而在语音合成中对于同音字的处理是没有区别的,故近7000个汉字,我们只存储1123个不同的发音.经过同音字处理和采用标准压缩字符语音数据,则最终建立的语音库文件大小为729 950字节,完全符合本PDA系统的数据存储要求;否则,语音库数据量太大,本PDA系统不能接受!建立一个语音压缩数据库的具体步骤如下:◇ 将数字和常用汉字的标准发音独立地录入到数据文件中,作为基础数据.使用cooledit2000软件完成语音的录入.◇ 对于输入数据,按照每帧10 ms(80个样点)的长度,将A_law语音通过简单换算变成16 bit PCM数据,作为编码算法的输入.◇ 按照算法标准,对数据进行编码.◇ 将编码后的数据转换为二进制比特流,写入语音库文件中.压缩后数据速率为8 Kbps,具有相当于8:1的高压缩率.用C语言实现这一过程的程序流程如图1所示.字符语音库的建立是在Windows平台及VisualC++编程环境下实现的,最终压缩处理后数据量的大小为729 950字节,每个字符语音数据的大小是650字节.语音合成当收到个人传呼信息时,语音合成程序首先从指定位置获取传呼信息数据,然后在语音库中查找每个汉字,阿拉伯数字或者英文字符的发音,重组一个数据文件.解码程序对该文件进行解码并且输出原始语音.语音合成流程如图2所示.语音合成过程首先是当前字符在语音库的定位.对于10个阿拉伯数字和26个英文字符,将其放在语音库开头.这些字符的查找比较方便.汉字是2字节存储,我们依据其区位码来作为语音库中的定位索引.字符语音库检索结束后的语音压缩数头文件,全局变量,函数原型的说明输入语音文件及压缩后的码文件名初始化编码器,包括滤波器状态的初始化及语音,激励等缓冲区的初始化语音文件是否结束 读1帧语音(80点)(A_Law)转换成16bit线性PCM将参数码字转成串行码流,再转成码字codeword写文件结束编码主函数Coder_ld8a()YN图1 字符语音库的建立流程图查找语音库,将寻呼文字信息替换为压缩语音文件解码器初始化码文件是否结束 读取1帧数据,并转换成二进制码流解码主函数输出数据变为A_LAW信号语音播放结束YN图2 语音合成流程图47Microcontrollers & Embedded 新器件新技术 NEW PRODUCT & TECH据作为该字符解码过程的输入.数据解码过程可以分为参数解码和重构信号后处理2部分.首先要从输入的数据中提取参数符号,对这些符号解码之后,可以获得相应于10 ms话音帧的编码器参数.这些参数包括线性预测系数,自适应码本矢量,固定码本矢量以及它们的增益.解码之后的参数用来计算重建语音信号.得到重构语音信号只有通过后处理过程来对该信号进行放大,包括后向滤波,高通滤波以及按比例因子扩大,最后得到原始的语音数据.字符解码器原理如图3所示.系统的体系结构PDA系统的硬件体系结构如图4所示.PDA系统中嵌入式处理器EP7211进行数据处理,传呼解码芯片接收传呼信息并进行解码, LCD提供数据输出显示,触摸屏提供用户输入接口,Flash用来存储应用程序和数据,SRAM为程序运行提供内存空间,电源电路为嵌入式处理器和外围设备提供所需要的工作电压.嵌入式处理器EP7211是Cirrus Logic公司专门为低成本,超低功耗的嵌入式应用设计的,包含ARM7TDMI处理器内核和丰富的外围接口.外围接口有CODEC音频接口,SPI串行A/D接口,单色LCD接口,DRAM接口,红外接口,2个PWM接口,实时时钟RTC以及电源检测接口.EP7211的内核电路工作在 V,而外围电路工作在 V;可根据具体情况对内核的时钟进行动态编程控制,可工作在18,36,49和74MHz.另外EP7211还有3种基本供电模式:正常操作(operating),空闲(idle)和等待(standby).在等待模式,主时钟被关断,整个CPU及相关外围(除中断和RTC)也关断,但可通过中断或按钮来唤醒.系统软件开发平台采用了我们自主开发研制的,专门面向嵌入式应用系统开发的XGW平台.XGW开发平台采用消息驱动机制,是C语言开发.它功能强大,模块化设计,扩展性强,产品升级容易,总体框架如图5所示.图5全面反应了XGW开发平台的体系结构,包括事件消息驱动机制,内存管理,字符和图形显示输出,图形组件库等.图形组件库中的编辑框,列表框,按钮等为用户应用程序开发提供了系统应用编程接口API.不过,XGW平台对于系统硬件的中断响应没有提供统一的入口和出口,需要开发人员单独处理.XGW开发平台的消息分为鼠标消息,键盘消息和定时器消息等3类.语音中断服务例程嵌入式处理器EP7211本身提供的外设语音录放Codec(coder/decoder)芯片可以实现语音的录入和适应码向量解码增益解码固定码向量解码结构激励MA码增益预测11,GBGA22,GBGA)(nv间隔延时pg^^cg^11,CS22,CS)(zP)(nc编码序号LP综合滤波器)(nu后滤波器)(^ns高通上标定)(nfs LSP解码内插值)(^zALSF LSP序号3210,,,LLLL每帧每子帧210,,PPP图3 字符解码原理框图天线LCD触摸屏时钟,复位,唤醒射频输入FlashSRAM电源管理串行口红外口传呼解码芯片嵌入式处理器EP7211收音设备语音录放电路图4 硬件结构新器件新技术 NEW PRODUCT & TECH播放功能.该模块提供2个独立的16字节长的数据发送和接收缓冲区(FIFO),其为全双工模式,数据收发速率是64 kbps.芯片自身提供工作时钟,定时脉冲以及数据的串/并和并/串转换功能.编程人员通过设置EP7211相应的控制寄存器使能这些项功能,则每当数据收发缓冲区半慢或者半空时(8字节),芯片自身就会产生一次中断信号供外部处理.理论计算芯片中断速率是1 ms/次.语音播放中断服务例程主要完成的工作是,当产生语音中断时,仍然有数据需要播放,则向语音数据发送缓冲区FIFO中写入指定数据,剩下的工作由Codec芯片本身来完成.中断服务例程ISR的伪代码如下(因为具体实现代码没有通用性,故此处用伪码描述):void IRQ_Codec_Handler(void){while(检测系统状态寄存器,发现语音芯片数据发送缓冲区FIFO非满){if(已经播放过的语音数据长度 = 给定的需要播放的语音数据长度) //结束{禁止数据发送缓冲区中断;复位各相关的全局变量;程序返回;}}else{向语音芯片发送数据缓冲区FIFO写入默认数据系统调用通用开发控件字符输出图形输出内存管理用户自定义控件事件消息驱动硬件中断执行ISR中断返回硬件中断执行ISR中断返回用户级应用程序图5 XGW平台的软件体系结构0XFF;}}}3试验结果和分析由于在设计阶段充分考虑过语音合成算法的大运算量和系统的实时性要求,故我们在具体实现的时候也采取了一些措施,比较突出的有:用ARM汇编语言来实现关键性的函数代码;语音合成时提高处理器EP7211的工作频率(处理器正常工作频率是18 MHz);对于一些常用的三角函数计算,采用查表的方式等来加快程序执行速度.在PDA样机测试中,单字符合成时间在650 ms左右,基本上能够满足实际应用需求.数据语音库经过处理之后,占用了729 560字节也能够满足本PDA系统的存储要求.当PDA系统收到1条个人传呼信息时,在语音库的支持下,立刻启动语音合成算法,逐个进行字符语音合成.当第1个字符语音合成结束后,立刻启动语音中断服务例程进行语音播放.这样收到的个人传呼信息,在前台逐个字符解码时,其后台语音播放也在进行.根据实际测试参数,基本上满足了系统的实时性要求.从一定角度看,单字符650 ms的语音合成时间基本能够满足实际应用需要,但还是希望能够进一步减小这个值.这由于我们对ARM处理器的使用还处在研究阶段.ARM本身提供了16位的Thumb指令集和32位的ARM指令集,而且两者在某些方面表现出较大差别.一般来讲,Thumb代码长度是ARM代码长度的65%,而执行效率要比后者高出60%.但在某些方面,32位的ARM指令集也会表现出其优于16位Thumb指令集的强大功能;同时该处理器系统支持ARM指令集和Thumb指令集混合编程模式.随着对二者差别和各自优势的深入理解,结合本系统的硬件体系结构,采用有效的指令集混合编程模式将会使程序执行效率进一步提高,从而使实时性得到进一步加强.参考文献1Cirrus Logic公司. EP7211数据手册2马忠梅. ARM嵌入式处理器结构与应用基础. 北京:北京航空航天大学出版社,20023Gibson Jerry D,等. 多媒体数字压缩原理与标准. 李煜晖等译. 北京:电子工业出版社,2000