变声器是通过改变输入音频的音色、音调,并将变声后的音频输出的工具(百度百科)。其实还有声音快慢,百度百科说漏了,另外声音大小就不需说了,不用变声器也能改变。那么语音四要素中的音质(就是音色)、音调(对应音高)、音强(就是声音大小)、音长(对应声音快慢)都改变了,语音的物理属性已经改变,怎么鉴定呢?
1、不要把“变声器”想得那么高深 在鉴定上,“变声器”不就是个信道吗?信道的定义是信号传输的通道,我们的鉴定名叫声纹鉴定,其实分析检验的不是真正意义上人的语音,而是人的录音——语音信号,各种录音器材都可以看成信道,各种编码方式也可以看成信道,它们都对语音信号进行了改变。举个例子:对讲机、电话,都看以看成信道,你的声音经过对讲机传输,你听感上已经失真,你已经感受到了信道对语音信号的影响。目前市面上的“变声器”,无论是硬件的还是软件的,主要是改变基频,把低沉的声音(男声)变成了尖细的声音(女声、童声)。(关于改变音色这一点,一方面,音色肯定是改变了,经过了重采样及基频的改变,反映音色的共振峰特征肯定有变化。另一方面,其共振峰的变化是整体改变的,其中的相对关系可以看做不变)当然准确的讲,只是我们听感及社会认识中的所谓男声、女声、童声、老年人声。声音不是性特征,不能区分男女,只是统计学上区分。反例就是“郑海霞”这样身材高大——声带厚长(正相关)的语音,网上搜来听听,你感觉是男是女?另外,动画片中柯南用变声器神奇的将其变成毛利小五郎,现实中做不到这么精确,达不到这么好的效果,效果这么好的即时变声器,单从理论上讲,需搜集海量的毛利小五郎的声学数据才能实现。
2、“变声器”改变了语音的物理属性,并非改变了所有鉴定意义上的声学特征 前文所述目前普遍采用的人工通过语音学鉴定方法,其主要的优点就在能区分出计算机难以认知的“高级声纹特征”,如:方言口音、习惯用语、赘语、言语缺陷、韵律特征。这怎么“高级”呢?我们熟人间分辨一个人的语音,首先就是通过这些特征;模仿秀模仿时也非常注重这类特征。但是计算机难以认识,称为“高级特征”。没错,人耳才是最精密的声纹鉴定仪器。而非专业人士所不熟悉的“低级声纹特征”,如:共振峰、基频,却是计算机最“熟悉”的,乃至音强、音长、VOT等都是计算机能认识的。