首页学术期刊 声纹防录音检测论文

声纹防录音检测论文

声纹防录音检测论文碘检测指纹论文螺纹检测论文

可琪宝贝 2023-12-10 05:01:42

共4条回答156浏览

fantienan002

1小时前发布
- 变声器是通过改变输入音频的音色、音调，并将变声后的音频输出的工具（百度百科）。其实还有声音快慢，百度百科说漏了，另外声音大小就不需说了，不用变声器也能改变。那么语音四要素中的音质（就是音色）、音调（对应音高）、音强（就是声音大小）、音长（对应声音快慢）都改变了，语音的物理属性已经改变，怎么鉴定呢？
  
  1、不要把“变声器”想得那么高深在鉴定上，“变声器”不就是个信道吗？信道的定义是信号传输的通道，我们的鉴定名叫声纹鉴定，其实分析检验的不是真正意义上人的语音，而是人的录音——语音信号，各种录音器材都可以看成信道，各种编码方式也可以看成信道，它们都对语音信号进行了改变。举个例子：对讲机、电话，都看以看成信道，你的声音经过对讲机传输，你听感上已经失真，你已经感受到了信道对语音信号的影响。目前市面上的“变声器”，无论是硬件的还是软件的，主要是改变基频，把低沉的声音（男声）变成了尖细的声音（女声、童声）。（关于改变音色这一点，一方面，音色肯定是改变了，经过了重采样及基频的改变，反映音色的共振峰特征肯定有变化。另一方面，其共振峰的变化是整体改变的，其中的相对关系可以看做不变）当然准确的讲，只是我们听感及社会认识中的所谓男声、女声、童声、老年人声。声音不是性特征，不能区分男女，只是统计学上区分。反例就是“郑海霞”这样身材高大——声带厚长（正相关）的语音，网上搜来听听，你感觉是男是女？另外，动画片中柯南用变声器神奇的将其变成毛利小五郎，现实中做不到这么精确，达不到这么好的效果，效果这么好的即时变声器，单从理论上讲，需搜集海量的毛利小五郎的声学数据才能实现。
  
  2、“变声器”改变了语音的物理属性，并非改变了所有鉴定意义上的声学特征前文所述目前普遍采用的人工通过语音学鉴定方法，其主要的优点就在能区分出计算机难以认知的“高级声纹特征”，如：方言口音、习惯用语、赘语、言语缺陷、韵律特征。这怎么“高级”呢？我们熟人间分辨一个人的语音，首先就是通过这些特征；模仿秀模仿时也非常注重这类特征。但是计算机难以认识，称为“高级特征”。没错，人耳才是最精密的声纹鉴定仪器。而非专业人士所不熟悉的“低级声纹特征”，如：共振峰、基频，却是计算机最“熟悉”的，乃至音强、音长、VOT等都是计算机能认识的。
221 评论
kimiko范范

9小时前发布
- 首先要介绍语音特殊性和语音的稳定性，（这是声纹鉴定的基本原理，各种教材上有不同风格的表述，但是说的都是一个事儿，我带学生的第一课就是让他们背下这个原理）：1、语音的特殊性，发音器官分为声门上系统、喉系统、声门下系统，每个人都有自己的一套发音器官，它们的形态、构造各有差别，每次发音需要众多发音器官相互配合、共同运动。这决定了语音的物理属性（也称语音四要素）：音质、音长、音强、音高。这些物理量人各不同，因而语音在声纹图谱上呈现不同的声纹特征，根据这些声纹特征参数，我们不但可以区分语声，而且可以认定同一人的语声。2、语音的稳定性。一个人的发音器官发育成熟后，其解剖结构和生理状态是稳定不变的，加之发音人的言语习惯等语音的社会心理属性，使得每个人在不同时段所说的相同文本内容的话，基本语音特征是稳定不变的。因此，你可以把人的声道看做管乐中的号，长号、短号虽然都是号，但由于声道的形状、长短不同，吹出来的音质也不同。目前的声纹鉴定方法，简单讲分为两种：一是目前我国司法实践中普遍应用的"人工鉴定"——专家鉴定人依靠语音学方法，二是未来发展方向的"自动鉴定"——计算机通过算法来模拟人耳对声学特征的提取、训练、对比来实现。
254 评论
黄先生Simon

10小时前发布
- 声纹识别已成功应用在司法鉴定领域。司法鉴定是指在诉讼活动中鉴定人运用科学技术或者专门知识对诉讼涉及的专门性问题进行鉴别和判断并提供鉴定意见的活动。或者说，司法鉴定是指在诉讼过程中，对案件中的专门性问题，由司法机关或当事人委托法定鉴定单位，运用专业知识和技术，依照法定程序作出鉴别和判断送一种活动。利用声纹识别技术确定犯罪证据，如通过分析电话录音资料来确定犯罪嫌疑人的身份和犯罪行为等做法，已在一些刑事案件的侦破中得到应用。在声纹鉴定中最常用的是宽带声纹图。它是用带宽为300HZ的带通滤波器分析出来的声纹。声纹图的横坐标为时间，纵坐标为频率，浓淡表示音强。每一字的声纹前部（乱纹）是清辅音的频谱，后部是元音频谱；元音频谱中由加强的纵线条构成的水平方向的黑带为共振峰。共振峰的数量、走向及其频率是声纹分析的重要特征。声纹鉴定依如下程序和要求进行：声纹鉴定采集检材语声（录音）在采集犯罪人或证人的语声作检材时，录音宜采用高保真录音机。录音要求是：①录音应当尽量在不被对方发觉的情况下进行，以减少假象的干扰，保证语声的真实；②应尽量防止环境噪声和录音设备的干扰。麦克风与被录对象保持适当距离。尽量不用失真大的袖珍盒式录音机，电源最好用市电，保持电流稳定。电话录音时应使用传感器，不要将听筒直接对着“麦克”录音。磁带应选用优质新带。声纹鉴定采集样本语声（录音）除了遵照采取检材时要求的器材和注意事项外，应尽量保持同采集检材时相同、相近的语声环境、距离、设备及速度；并建议在样本中有与检材相同的词句，以供特征比对。声纹鉴定审听和选择鉴定人员要先对捡材和样本分别反复审听和记录，从中选择正常而清晰的语声段落，再进一步选取相同的字、词、句，作为供比较的部分。然后使用语图仪分别将选好的检材与样本中的字、词、句做出声纹图。声纹鉴定声纹特征的选择在被比较的两种声纹图谱中，分别选取明显、稳定的特征作为比较特征。一般说，共振峰的频率值及其走向是最稳定的特征，而且具有很强的特定性，利用价值最高；而时长、音强、波形等特征稳定性较差，可做参考。在天聪鉴定过程中，还可以从同一个人的语声中选择多个相同字、词或句的语图，在分析比较中抓住其稳定而特殊的特征作为依据。声纹鉴定比较比对检材与样本中相同字、词的声纹中的同类特征（如共振峰频率、走向及波形），进行比较分析，找出相同点和差异点。声纹鉴定综合评断①如果被比较的全部特征完全吻合；或者稳定性强的特征完全吻合，而只是稳定性差的特征有些差异，均可做同一认定结论；②如果被比较的稳定性强的特征差异较大，还可以补充样本再做语图比较，倘仍有差异，又无法解释，则可做否定结论。声纹鉴定声纹送检时的注意事项说话人在不同的环境和不同的心态下，以及不同的语气、不同的健康状况都会引起语音的某些变异。录音环境（噪音、回声、距离）的干扰以及录音设备不良，也会使录制的语音产生假性变异。因此，送检时，要把录制检材和样本时的环境状况、录制距离、录制方式、使用机器、以及在什么情况下录制等情况加以详细记载，一并提交鉴定人，以便对差异点进行客观的分析评断。
335 评论
浦江海鸥

12小时前发布
- 关于声纹识别的N：N聚类算法本文将从如下方面为你一一解读：声纹(Voiceprint)，是用电声学仪器显示的携带言语信息的声波频谱，是由波长、频率以及强度等百余种特征维度组成的生物特征，具有稳定性、可测量性、唯一性等特点。人类语言的产生是人体语言中枢与发音器官之间一个复杂的生理物理过程，发声器官--舌、牙齿、喉头、肺、鼻腔在尺寸和形态方面每个人的差异很大，所以任何两个人的声纹图谱都有差异。每个人的语音声学特征既有相对稳定性，又有变异性，不是一成不变的。这种变异可来自生理、病理、心理、模拟、伪装，也与环境干扰有关。尽管如此，由于每个人的发音器官都不尽相同，因此在一般情况下，人们仍能区别不同的人的声音或判断是否是同一人的声音。 1. 1:1 说话人确认 1:1 说话人确认是确认说话人身份的方法，针对“对于同样的文本内容，有两段录音，这两段录音到底是不是出自一人之口”这样的问题，也就是“两句话到底是不是一个人说“的问题；该类场景相对简单，主要应用于用户的注册和验证，以及APP内的声纹核身； 2. 1:N 说话人确认 1:N说话人辨认是辨认说话人身份的方法，针对“对于一段语音，需要迅速在样本库中进行搜寻比对，以确认这段语音与样本库中哪段语音相似度最高”，也就是说“给定的一段语音属于样本库中谁说的”的问题；该类场景比较常见，主要应用于黑名单用户进线检测，提高安防能力等。 3. N：N说话人聚类对于千亿级别的无标签录音文件，如何做有效的处理？举个例子，假如说你有很多的语音片段（语音的文本内容是相同的），这些语音片段分别归属于甲乙丙丁等人，仅凭人耳辨识是无法分辨出哪些语音片段属于甲，哪些语音片段属于乙，通过N：N聚类的算法，进行声纹的相似度检测，将属于同一个人说话的语音片段不断进行合并归类，最后属于甲说话的语音片段全部被归为一类，属于乙说话的语音片段全部被归为一类，以此类推，类内语音的相似度极高，类间语音的相似度较低，达到将这些语音片段分人整理的目的；简单介绍一下聚类分析：聚类分析是根据在数据中发现的描述对象及其关系的信息，将数据对象分组。目的是，组内的对象相互之间是相似的（相关的），而不同组中的对象是不同的（不相关的）。组内相似性越大，组间差距越大，说明聚类效果越好。聚类效果的好坏依赖于两个因素：1.衡量距离的方法（distance measurement） 2.聚类算法（algorithm）目前主流的说话人聚类算法是在说话人分割的基础上，基于贝叶斯信息判据，采用凝聚分层聚类算法，直接对说话人分割后的语音段进行判决，将属于同一个说话人的语音段合并为一类。其基本思想是从每个语片段中提取特征参数，例如梅尔倒谱参数，计算每两个语音段之间特征参数的相似度，并利用BIC判断相似度最高的两个语音段是否合并为同一类。对任意两段语音都进行上述判决，直到所有的语音段不再合并。 ---摘自“说话人聚类的初始类生成方法” 聚类&声纹识别的主要场景：在跨渠道，跨场景收集语音同时建立声纹库的时候，由于各场景应用的客户账号或许不同，说话人在不同场景中分别注册过声纹，难以筛除重复注册语音，建立统一声纹库；我们如何快速的去筛除属于某一个人在不同情况下录制的多条录音文件？也就是如何保证最终留下的录音文件（声纹库）是唯一的？每一个人只对应一条音频，这就要用到聚类的算法；利用声纹识别N：N说话人聚类，对所有收集到的语音进行语音相似度检测，将同一说话人在不同场景中的多次录制的语音筛选出来，并只保留其中一条，从而保证了声纹库的独特性，节省了大量的人力成本，资源成本。对于目前的场景，我们选择凝聚层次聚类算法，在这种场景下，我们是要筛除重复人说话，那么我们可以将每一个录音文件都当作一个独立的数据点，看最后有凝聚出多少个独立的数据簇，此时可以理解为类内都是同一个人在说话； 1. 我们首先将每个数据点（每一条录音文件）视为一个单一的类，即如果我们的数据集中有 X 个数据点，那么我们就有 X 个类。然后，我们选择一个测量两个类之间距离的距离度量标准。作为例子，我们将用 average linkage，它将两个类之间的距离定义为第一个类中的数据点与第二个类中的数据点之间的平均距离。（这个距离度量标准可以选择其他的） 2. 在每次迭代中，我们将两个类合并成一个。这两个要合并的类应具有最小的 average linkage。即根据我们选择的距离度量标准，这两个类之间的距离最小，因此是最相似的，应该合并在一起。 3. 重复步骤 2 直到我们到达树根，即我们只有一个包含所有数据点的类。这样我们只需要选择何时停止合并类，即何时停止构建树，来选择最终需要多少个类--- 摘自知乎按照实际的场景，如果我们最终要得到1000个不重复的录音文件，为了防止过度合并，定义的退出条件是最后想要得到的录音文件数目；1. 录音重放攻击：攻击者录制目标说话人的语音进行播放，以目标人身份试图通过声纹识别系统的认证。策略：基于随机内容声纹的检测技术：利用随机数字的不确定性，用户在规定的时间内（5-10S）需要念出指定的随机内容，如果超时，则随机内容更新；因为对于录音重放的内容是固定的，很不灵活，所以比较容易做限制 2. 波形拼接攻击攻击者将目标说话人的语音录制下来，通过波形编辑工具，拼接出指定内容的语音数据，以放音的方式假冒目标说话人，试图以目标人身份通过声纹识别系统的认证。策略：同录音重放 3.语音合成攻击攻击者用语音合成技术生成目标说话人的语音，以放音的方式假冒目标说话人，试图以目标人的身份通过声纹识别系统的认证。策略：1. 同录音重放 2. 利用活体检测技术，加强算法的识别度
124 评论

相关问题

热门问题