当前位置：文档库 › 基于深度神经网络的声纹识别技术研究

基于深度神经网络的声纹识别技术研究

摘要

声纹识别（Voiceprint Recognition）也叫做说话人识别，其主要任务是通过人的语音中提取的特征来识别或确定未知用户的身份。声纹识别所提供的安全性可与指纹识别、掌纹识别、虹膜识别等技术相媲美，在取样过程中仅需要麦克风和声音即可，数据采集方便，造价低廉，是一种经济、可靠、便捷、安全的身份鉴别方式。

目前声纹识别技术已经开始应用于各种智能设备，如：使用声纹实现登录设备，说话者确认用作金融交易的安全措施，智能家居中的语音助手等等。本文研究了声纹识别的发展历程和研究现状，改进现有声纹识别的端点检测和语音增强环节，最终构建深度神经网络（DNN）模型，并在自建的声纹语音库上实现声纹识别。具体研究内容和创新点如下：

（1）端点检测技术是语音信号前端处理的重要环节，良好的端点检测技术不但能够将语音信号分割为语音段和无声段，同时能够去除无声段对后续工作的影响，减少数据量。本文针对传统双门限法门限宽泛、抗噪性差等缺点，提出一种使用能熵比和幅度压缩滤波（PEFAC）相结合的端点检测技术。在能熵比进行一级端点粗判之后，使用PEFAC的语音概率进行语音信号二级精确判定。最后将提出的新方法与传统的双门限法和能熵比方法在不同噪声背景下进行对比实验。实验表明，本文提出的方法在低信噪比下能够较准确的确定语音帧的位置，端点检测准确率更高。

（2）噪声干扰一直是影响语音识别和声纹识别准确率的重要因素，如何在不干扰语音特征的情况下对语音信号进行降噪也是研究的热点。本文针对压缩感知语音增强算法中观测矩阵具有随机性，观测结果差距大的问题，利用混沌序列具有随机性与确定性统一的优势，提出使用二值化后的混沌序列作为观测矩阵，在稀疏度未知的情况下进行压缩感知语音增强，并与传统的压缩感知语音增强结果进行对比实验，结果表明，本文的算法，针对语音增强效果更为明显。

（3）声纹识别模型一直是研究的热点和难点，本文针对目前比较热门的神经网络进行了研究，最终搭建了深度神经网络（DNN）声纹识别模型。将声纹信号输入到搭建的DNN模型，并比较隐藏层层数对识别率的影响，最后与传统模型进行对比实验，结果表明，使用本文搭建的DNN模型进行声纹识别，准确率更高。

关键词：声纹识别；端点检测；语音增强；深度神经网络