文档库 最新最全的文档下载
当前位置:文档库 › 自相关语音增强

自相关语音增强

自相关语音增强
自相关语音增强

题目:自相关语音增强-MATLAB软件辅助设计

院(系)信息学院

专业电子信息工程

届别2008级

学号0815212016

姓名翁碧琴

指导老师胡朝炜

华侨大学教务处印制

2012年05月(用阿拉伯数字)

摘要

描述了用自相关的方法进行语音增强的一种方法。利用计算机以及响应的MATLAB标准软件,分别求带噪信号和噪声信号的自相关,用带噪信号的自相关函数减去噪声信号的自相关函数得到纯语音信号的自相关函数,然后利用自相关函数与功率谱是傅里叶变换对的关系求得纯语音信号的功率谱,继而得到其频谱,最后进行傅里叶反变换,得到增强语音信号,从而抑制了噪声。

关键词(宋体小三号):自相关;语音增强;

ABSTRACT

This project intends to describe a way of enhancing speech sound through autocorrelation, this is, by using the computer and relevant standard software MATLAB, get the autocorrelations of signal with noise and noisy signal .Autocorrelation of signal with noise minus autocorrelation of noisy signal to get the autocorrelation of clean speech signal ,

keywords:xxxx,xxxx,xxxx,xxxx

目录(宋体三号居中)

摘要 (xx)

ABSTRACT (xx)

引言 (xx)

一、xxxxx (xx)

二、xxxxx (xx)

三、xxxxx (xx)

结语 (xx)

注释 (xx)

参考文献 (xx)

后记 (xx)

(宋体四号)

引 言(宋体三号居中,上、下各空一行)

现实生活中的语音通讯过程不可避免地要受到周围环境、传播媒介引入的噪声、机械传动带来的噪声、通讯设备本身产生的电噪声以及其他噪音的影响。由于噪声的强弱和种类的不同,会不同程度的影响语音质量,使得有部分听不清到全部听不清,因此需要对带噪语音信号进行语音增强。

目前实现语音增强的方法大体可以分为三类。一类是是采用语音增强算法等,提高语音识别系统前端预处理的抗噪声能力,提高输入信号的信噪比。第二类方法是寻找稳健的耐噪声的语音特征参数。第三类方法是基于模型参数是樱花的噪声补偿算法。本课题用的就是第一类方法——通过语音增强来改善语音质量。常用的语音增强技术有:自相关抗噪法、减谱法、非线性处理法、Weiner 滤波法和滤波法。

1 自相关法语音增强技术

1.1 基本原理

信号的功率谱是其自相关函数的傅里叶变换。自相关法的基本出发点是:从含噪语音中减去宽带噪声的最佳估计。利用信号本身相关,而信号与噪声、噪声与噪声之间可看做不相关的特性,可以将带噪信号进行自相关处理,使其得到与不带噪信号同样的自相关系数帧序列。

设带噪语音信号为n(t)s(t)y(t)+=,则其自相关函数为 (t)d(t))]-n(t)n(t )-n(t)s(t )-s(t)n(t )-[s(t)s(t T 1 (t)d(t))]-n(t )-n(t)][s(t [s(t)T

1 (t)d(t))]-[y(t)y(t T 1)(---w w w R t t t yy ???∞∞∞

+++=++==

ττττττττ 式中,w(t)为窗函数,由于s(t)、n(t)不相关,所以上式第2、3项的交叉乘积项的积分结果为0,故可写为

为信号的自相关。

式中)( )()( )(ττττss nn ss yy R R R R += 由上面的推导过程可知,语音的自相关可以从带噪信号的自相关函数中减去噪声功率估计值的方法来估计。

结语(宋体三号居中,上、下各空一行)(紧接正文,不另起一页,宋体小四号)

注释:(宋体三号,紧接结语,空一行,不另起一页)

[1] 张三. 日本文学史[M]. 北京:人民文学出版社,1998:72.

[2] 山田一郎. 日本近代小说研究[M].李四译. 上海:上海人民出版社,1997:95.

[3] 张文.犯罪构成初探[J] .北京大学学报,1984,(5):36.

[4] 王五. 夏目漱石的小说[J]. 文艺报,2003.5.5.

…………(宋体小四号)

参考文献(宋体三号居中)

1.王名扬.美国行政法[M].北京:中国法制出版社,1995.

2.[英]密尔.论自由[M].程崇华译.北京:商务印书馆,1959.

3.张文.犯罪构成初探[J] .北京大学学报,1984,(5).

4.李四.中山大学成港澳台学生报读首选学校[EB/OL]. 引自中国新闻网,https://www.wendangku.net/doc/0512899395.html,/n/2003-05-25/26/306678.html.

5.

6.

7.

8.

9.

10.

11.

12.

13.

14.

15.

…………(宋体小四号)

后记(宋体三号居中)Xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx,xxxxxxxxxxxxxxxxxxxxxxxxxxx xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx,xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx Xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx,xxxxxxxxxxxxxxxxxxxxxxxxxxx xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx,xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx

(宋体小四号)

作者名

年月日

基于麦克风阵列的语音增强方法

基于麦克风阵列的语音增强方法 概述:在日常生活和工作中,语音通信是人与人之间互相传递信息沟通不可缺少的方式。在语音通信中,语音信号不可避免地会受到来自周围环境和传输媒介的外部噪声、通信设备的内部噪声及其他讲话者的干扰。这些干扰共同作用,最终使听者获得的是被噪声污染过的带噪声语音,严重影响了双方之间的交流。应用阵列信号处理技术的麦克风阵列能够充分利用语音信号的空时信息,具有灵活的波束控制、较高的空间分辨率、高的信号增益与较强的抗干扰能力等特点,逐渐成为强噪声环境中语音增强的研究热点。本文将介绍各种麦克风阵列语音增强方法,并总结各个方法的优劣。最终得出更好的、能够去噪的基于麦克风阵列的语音增强方法。 1麦克风阵列 麦克风阵列是将两个麦克风的信号耦合为一个信号。在频率响应中也可以根据时域中波束形成与空间滤波器相仿的应用,分析出接收到语音信号音源的方向以及其变化。采用该技术,能利用两个麦克风接收到声波的相位之间的差异对声波进行过滤,能最大限度将环境背景声音滤掉,只剩下需要的声波。对于在嘈杂的环境下使用采用了这种配置的设备,在嘈杂的环境下能使听者听起来很清晰,没杂音。 2基于麦克风阵列的语音增强方法 2.1基于自适应波束形成器的麦克风阵列语音增强 自适应波束形成是现在广泛使用的一类麦克风阵列语音增强方法。最早出现的自适应波束形成算法,其基本思想是在某方向有用信号的增益一定的前提下,使阵列输出信号的功率最小。在线性约束最小方差自适应波束形成器的基础上,1982 年Griffiths 和Jim 提出了广义旁瓣消除器成为了许多算法的基本框架。 广义旁瓣消除器(GSC)的工作原理是带噪声的语音信号同时通过自适应通道和非自适应通道,自适应通道中的阻塞矩阵将有用信号滤除后产生仅包含多通道噪声参考信号,自适应滤波器根据这个参考信号得到噪声估计,最后由这个被估计的噪声抵消非自适应通道中的噪声分量,从而得到有用的纯净语音信号。 麦克风阵列的自适应算法通过迭代运算获取波束形成的最优权矢量时,噪声模型的估计是一个非常关键的因素。它的好坏直接影响着系统波束形成的性能。系统地分析了最小均方( LMS) 自适应语音增强算法,并针对阻塞矩阵在估计噪声时存在的缺陷,在该算法的基础上提出了一种利用最小值控制递归平均( MCRA) 来估计噪声的方法。将此方法应用于波束形成,MCRA 估计出的噪声使LMS 自适应语音增强的效果更好和抗噪性更强。 2.2基于固定波束形成的麦克风阵列语音增强 固定波束形成技术是最简单最成熟的一种波束形成技术。1985 年美国学者Flanagan 提出采用延时-相加波束形成方法进行麦克风阵列语音增强,该方法通过对各路麦克风接收到的信号添加合适的延时补偿,使得各路输出信号在某一方向上保持同步,并在该方向的入射信号获得最大增益。此方法易于实现,但要想获取较高的噪声抑制能力则需要增加麦克风数目,然而对非相干噪声没有抑制能力,环境适应性差,因此实际中很少单独使用。后来出现的微分麦克风阵列、超方向麦克风阵列和固定频率波束形成技术也属于固定波束形成。 采用可调波束形成器的GSC麦克风阵列语言增强算法,其实质在GSC结构中的固定波束形成器前端引入各通道可调时延补偿,构造可调波束形成器进行声源方位估计,从而在目标声源方位获取阶段即可利用阵列的空间增益来提高方位估计性能。延迟求和波束形成器主要目的是增强主瓣方向目标信号,而抑制其他方向的噪声信号。

在噪声环境下语音信号的增强

clear clc %在噪声环境下语音信号的增强 %语音信号为读入的声音文件 %噪声为正态随机噪声 sound=wavread('c12345.wav'); count1=length(sound); noise=0.05*randn(1,count1); for i=1:count1 signal(i)=sound(i); end for i=1:count1 y(i)=signal(i)+noise(i); end %在小波基'db3'下进行一维离散小波变换[coefs1,coefs2]=dwt(y,'db3'); %[低频高频] count2=length(coefs1); count3=length(coefs2); energy1=sum((abs(coefs1)).^2); energy2=sum((abs(coefs2)).^2); energy3=energy1+energy2; for i=1:count2 recoefs1(i)=coefs1(i)/energy3; end for i=1:count3 recoefs2(i)=coefs2(i)/energy3; end %低频系数进行语音信号清浊音的判别 zhen=160; count4=fix(count2/zhen); for i=1:count4 n=160*(i-1)+1:160+160*(i-1); s=sound(n); w=hamming(160); sw=s.*w; a=aryule(sw,10); sw=filter(a,1,sw); sw=sw/sum(sw); r=xcorr(sw,'biased');

matlab基于语音增强的研究

基于MATLAB语音增强的研究 摘要: 目前的语音识别系统大都是在安静环境中工作的,但实际工作中在噪声环境中尤其是强噪声环境下,语音识别系统的识别率将受到严重影响。谱减法语音增强是一种对数字语音识别系统的预处理和线性预测编码的预处理,能有效抑制背景噪声,提高语音质量。基于此文中提出并研究语音数字信号增强处理方法及其Matlab 实现,旨在通过理论探讨和实例分析,获知适用的增强语音数字信号的方法和技术。 关键词:谱减法、语音增强。 1.引言 研究语音增强技术在实际中有重要价值。目前,语音增强己在很多方面得到广泛的应用例如语音处理系统、通信、多媒体技术、数字化家电等领域。语音增强的一个主要目标,就是从带噪语音信号中提取尽可能纯净的原始语音。根据与输入语音信号的关系,噪声可分为加性噪声和非加性噪声两类。对某些非加性噪声而言,可以通过一定的变换转换成加性噪声。非加性噪声主要是残响和传送网络的电路噪声等。加性噪声通常分为宽带噪声、冲激噪声、语音干扰噪声、周期噪声等。 2.MATLAB简介 MATLAB是MATrix LABORATORY的缩写,是一款由美国THE MathWorks公司出品的商业数学软件。MATLAB是一种用于算法开发、数据可视化、数据分析以及数值计算的高级技术计算语言和交互环境。除了矩阵运算、绘制函数/数据图像等常用功能外,MATLAB还可以用来创建用户界面及与调用其它语言编写的程序。 3.语音特性 语音具有被称为声学特征的物理性质。语音既然是人的发音器官发出来的一种声波,它就和其他各种声音一样,也具有声音的物理属性。它具有以下一些特性:1音质。它是一种声音区别于其他声音的基本特征。2音调。就是声音的高低。音调取决于声波的频率:频率快则音调高,频率慢则音调低。3声音的强弱。音调即音量,又称响度。它是由声波振动幅度决定的。4声音的长短。也称为音长,它取决于发音持续的长短。语音处理具有上述的声音的物理属性外,它还具有另外一个重要性质,这是语音总是和一定的意义相联系着,一定的语音要表达一定的意义和思想内容,而且还能表达出一定的语气、情感,甚至是许多”言外之意“。因此,语音所包含的信息也是十分丰富和多种多样的。语音是一时变的、非平稳的随机过程,但由于一段时间内(10~30ms)人的声带和声道形状的相对稳定性,可认为其特征是不变的,因而语音的短时谱具有相对稳定性。在语音分析中可利用短时谱的这种平稳性。 语音大体上可以分为清音和浊音两大类,浊音在时域上呈现出明显的共振峰结构,而且能量大部分集中在较低频段内;浊音则没有明显的时域和频域特征,类似于白噪声。 语音感知对语音增强研究具有重要作用,语音增强效果的最终度量是人的主观感受。人耳对背景噪声具有惊人的抑制作用,了解其中机理将大大有助于语音增强技术的发展。(1)

基本语音增强方法

基本语音增强方法概述 摘要:语音增强是当今语音处理的一个非常重要的领域,本文主要介绍当今比较普遍的几种基于人耳掩蔽阈值的语音增强方法:谱减法,维纳滤波法,子空间方法等,并对它们的优缺点作简要论述。 关键词:语音增强、人耳掩蔽、谱减法、维纳滤波、子空间 现今时代的主流步伐将我们带向自动化方向,语音识别在这一背景下显得尤为重要。目前已经开发出好几款语音识别软件,但是如何较为精确地实现人耳的掩蔽效应下的语音增强,仍是大家着重解决的问题。它的首要目标就是在接收端尽可能从带噪语音信号中提取纯净的语音信号,改善其质量。目前已经出现了谱减法等一系列较为普遍的方法。本文将对这几种方法进行简要介绍。 一、语音的特性 语音信号是一种非平稳、时变的随机过程,其产生过程与发声器官的运动紧密相关。而发声器官的状态变化速度比声音振动的速度要缓慢得多,因此语音信号可以认为是短时平稳的。在一段短时间内其特性基本保持不变即相对稳定,从而可以应用平稳随机过程的分析方法来处理语音信号,并可以在语音增强中利用短时频谱的平稳特性。 人耳在嘈杂的环境中,仍然能够清晰地听到自己想听的内容,一个较弱的声音(被掩蔽音)的听觉感受被另一个较强的声音(掩蔽音)影响的现象称为人耳的“掩蔽效应”。被掩蔽音单独存在时的听阈分贝值,或者说在安静环境中能被人耳听到的纯音的最小值称为绝对闻阈。在进行机器语音识别的时候,由于干扰信号和目标信号的强度差别不大,导致机器无法识别。这时语音增强就显得特别重要了。 二、时域方法 此类方法主要依赖于语音生成模型(例如AR模型)的使用,需要提取模型参数(如基音周期、LPC系数等),经常使用迭代方法。这种方法的最大缺点就是如果实际噪声或语音与模型有较大的差别,或者由于某些原因使得提取语音参数较困难,则这方法较容易失败。这类方法常用到一些滤波器,如梳状滤波器、维纳滤波器、卡尔曼滤波器等。 (1)经典的维纳滤波法是根据Winer-Hopf 积分方程求出纯语音和混合音

对语音信号进行分析及处理资料

一、设计目的 1.进一步巩固数字信号处理的基本概念、理论、分析方法和实现方法;使自身对信号的采集、处理、传输、显示和存储等有一个系统的掌握和理解; 2.增强应用Matlab语言编写数字信号处理的应用程序及分析、解决实际问题的能力; 3.培养自我学习的能力和对相关课程的兴趣; 二、设计过程 1、语音信号的采集 采样频率,也称为采样速度或者采样率,定义了每秒从连续信号中提取并组成离散信号的采样个数,它用赫兹(Hz)来表示。 采样位数可以理解为声卡处理声音的解析度。这个数值越大,解析度就越高,录制和回放的声音就越真实 采样定理又称奈奎斯特定理,在进行模拟/数字信号的转换过程中,当采样频率fs不小于信号中最高频率fm的2倍时,采样之后的数字信号完整地保留了原始信号中的信息,一般实际应用中保证采样频率为信号最高频率的5~10倍。 利用Windows下的录音机,录制了一段发出的声音,内容是“数字信号”,时间在3 s内。接着在D盘保存为WAV格式,然后在Matlab软件平台下.利用函数wavread对语音信号进行采样,并记录下了采样频率和采样点数,在这里我们还通过函数sound引入听到采样后自己所录的一段声音。 [x1,fs,bits]=wavread('E:\数字信号.wav'); %读取语音信号的数据,赋给变量x1,返回频率fs 44100Hz,比特率为16 。 2 、语音信号的频谱分析 (1)首先画出语音信号的时域波形; 程序段: x=x1(60001:1:120000); %截取原始信号60000个采样点

plot(x) %做截取原始信号的时域图形 title('原始语音采样后时域信号'); xlabel('时间轴 n'); ylabel('幅值 A'); (2)然后用函数fft 对语音号进行快速傅里叶变换,得到信号的频谱特性; y1=fft(x,6000); %对信号做N=6000点FFT 变换 figure(2) subplot(2,1,1),plot(k,abs(y1)); title('|X(k)|'); ylabel('幅度谱'); subplot(2,1,2),plot(k,angle(y1)); title('arg|X(k)|'); ylabel('相位谱'); (3)产生高斯白噪声,并且对噪声进行一定的衰减,然后把噪声加到信号中,再次对信号进行频谱特性分析,从而加深对频谱特性的理解; d=randn(1,60000); %产生高斯白噪声 d=d/100; %对噪声进行衰减 x2=x+d; %加入高斯白噪声 3、设计数字滤波器 (1)IIR 低通滤波器性能指标通带截止频Hz f c 1000=,阻带截止频率 Hz f st 1200=,通带最大衰减dB 11=δ,阻带最小衰减dB 1002=δ。 (2)FIR 低通滤波器性能指标通带截止频率Hz f c 1000=,阻带截止频率 Hz f st 1200=, 通带衰减1δ≤1dB ,阻带衰减 2δ≥ 100dB 。 (3)IIR 高通滤波器的设计指标,Hz f z 1000=,Hz f p 2000=,阻带最小衰减dB A s 30=,通带最大衰减dB A P 1=。 (4)(4)FIR 高通滤波器的设计指标,Hz f z 1000=,Hz f p 2000=,阻带最小衰减dB A s 50=,通带最大衰减dB A P 1=。 (5)用自己设计的各滤波器分别对采集的信号进行滤波,在Matlab 中,FIR 滤波器利用函数fftfilt 对信号进行滤波,IIR 滤波器利用函数filter 对信号进行滤波。比较滤波前后语音信号的波形及频谱,在一个窗口同时画出滤波前后

语音增强算法的研究与实现

语音增强算法的研究与实现 目录 目 录 ..................................................................... ............................................................ I 河西学院本科生毕业论文(设计)诚信声 明 ................................... 错误~未定义书签。I 河西学院本科生毕业论文(设计)任务 书 ...................................... 错误~未定义书签。II 河西学院本科毕业论文(设计)开题报 告 ..................................... 错误~未定义书签。IV 摘 要 ..................................................................... .................................................................. I Abstract ........................................................... ....................................................................... I 1 引 言 ..................................................................... .. (1) 2 语音增强算法概 述 ..................................................................... (1)

一种改进的子空间语音增强算法精品

【关键字】设计、英语、情况、方法、空间、传统、问题、系统、有效、整体、发展、提出、研究、关键、准则、思想、工程、项目、重点、作用、设置、增强、分析、严格、改善、方向、适应、实现、提高、改进、新方法、有效性 一种改进的子空间语音增强算法-电气论文 一种改进的子空间语音增强算法 任永梅1,2 (1.湖南工学院电气与信息工程学院,湖南衡阳421002; 2.湖南工学院信号与信息处理重点实验室,湖南衡阳421002) 【摘要】为了进一步减少传统子空间语音增强方法增强的语音中的残留噪声,提出一种改进的子空间语音增强算法。新算法首先对带噪语音进行KL(Karhunen-Loeve Transform)变换,得到带噪语音的特征值;接着用递归最小二乘算法(RLS)估计出噪声特征值,对传统子空间算法容易引起的特征值估计偏差问题进行修正;最后用带噪语音特征值减去RLS方法估计出的噪声特征值并由KL逆变换还原出纯净语音。仿真结果表明,在高斯白噪声背景下,与传统子空间语音增强算法相比,新算法提高了增强语音的信噪比,减少了语音失真。 关键词语音增强;子空间;递归最小二乘算法;SNR New Improved Subspace Method of Speech Enhancement REN Yong-mei1,2 (1.School of Electrical and Information Engineering, Hunan Institute of Technology, Hengyang Hunan 421002, China; 2.Key Laboratory of Signal Information Processing, Hunan Institute of Technology, Hengyang Hunan 421002, China) 【Abstract】In order to reduce the residual noise in enhanced speech that by using the traditional subspace speech enhancement method,this

基于麦克风阵列的语音增强算法概述

- 29 - 基于麦克风阵列的语音增强算法概述 丁 猛 (海军医学研究所,上海 200433) 【摘 要】麦克风阵列语音增强技术是将阵列信号处理与语音信号处理相结合,利用语音信号的空间相位信息对语音信号进行增强的一种技术。文章介绍了各种基于麦克风阵列的语音增强基本算法,概述了各算法的基本原理,并总结了各算法的特点及其所适用的声学环境特性。 【关键词】麦克风阵列;阵列信号处理;语音增强 【中图分类号】TN911.7 【文献标识码】A 【文章编号】1008-1151(2011)03-0029-02 (一)引言 在日常生活和工作中,语音通信是人与人之间互相传递信息沟通不可缺少的方式。近年来,虽然数据通信得到了迅速发展,但是语音通信仍然是现阶段的主流,并在通信行业中占主导地位。在语音通信中,语音信号不可避免地会受到来自周围环境和传输媒介的外部噪声、通信设备的内部噪声及其他讲话者的干扰。这些干扰共同作用,最终使听者获得的语音不是纯净的原始语音,而是被噪声污染过的带噪声语音,严重影响了双方之间的交流。 应用阵列信号处理技术的麦克风阵列能够充分利用语音信号的空时信息,具有灵活的波束控制、较高的空间分辨率、高的信号增益与较强的抗干扰能力等特点,逐渐成为强噪声环境中语音增强的研究热点。美国、德国、法国、意大利、日本、香港等国家和地区许多科学家都在开展这方面的研究工作,并且已经应用到一些实际的麦克风阵列系统中,这些应用包括视频会议、语音识别、车载声控系统、大型场所的记录会议和助听装置等。 文章将介绍各种麦克风阵列语音增强算法的基本原理,并总结各个算法的特点及存在的局限性。 (二)常见麦克风阵列语音增强方法 1.基于固定波束形成的麦克风阵列语音增强 固定波束形成技术是最简单最成熟的一种波束形成技术。1985年美国学者Flanagan 提出采用延时-相加(Delay-and-Sum)波束形成方法进行麦克风阵列语音增强,该方法通过对各路麦克风接收到的信号添加合适的延时补偿,使得各路输出信号在某一方向上保持同步,并在该方向的入射信号获得最大增益。此方法易于实现,但要想获取较高的噪声抑制能力则需要增加麦克风数目,然而对非相干噪声没有抑制能力,环境适应性差,因此实际中很少单独使用。后来出现的微分麦克风阵列(Differential Microphone Arrays)、超方向麦克风阵列(Superairective Microphone Arrays )和固定频率波束形成(Frequency-Invariant Beamformers) 技术也属于固定波束形成。 2.基于自适应波束形成器的麦克风阵列语音增强 自适应波束形成是现在广泛使用的一类麦克风阵列语音增强方法。最早出现的自适应波束形成算法是1972年由Frost 提出的线性约束最小方差(Linearly Constrained Minimum Variance,LCMV)自适应波束形成器。其基本思想是在某方向有用信号的增益一定的前提下,使阵列输出信号的功率最小。在线性约束最小方差自适应波束形成器的基础上,1982年Griffiths 和Jim 提出了广义旁瓣消除器(Generalized Sidelobe Canceller, GSC),成为了许多算法的基本框架(图1)。 图1 广义旁瓣消除器的基本结构 广义旁瓣消除器是麦克风阵列语音增强应用最广泛的技术,即带噪声的语音信号同时通过自适应通道和非自适应通道,自适应通道中的阻塞矩阵将有用信号滤除后产生仅包含多通道噪声参考信号,自适应滤波器根据这个参考信号得到噪声估计,最后由这个被估计的噪声抵消非自适应通道中的噪声分量,从而得到有用的纯净语音信号。 如果噪声源的数目比麦克风数目少,自适应波束法能得到很好的性能。但是随着干扰数目的增加和混响的增强,自适应滤波器的降噪性能会逐渐降低。 3.基于后置滤波的麦克风阵列语音增强 1988年Zelinski 将维纳滤波器应用在麦克风阵列延时—相加波束形成的输出端,进一步提高了语音信号的降噪效果,提出了基于后置滤波的麦克风阵列语音增强方法(图2)。基于后置滤波的方法在对非相干噪声抑制方面,不仅具有良好的效果,还能够在一定程度上适应时变的声学环境。它的基本原理是:假设各麦克风接收到的目标信号相同,接收到的噪声信号独立同分布,信号和噪声不相关,根据噪声特性, 【收稿日期】2010-12-30 【作者简介】丁猛(1983-),男,海军医学研究所研究实习员。

多通道语音增强方法简介

多通道语音增强方法简介 【摘要】由于多麦克风越来越多地部署到同一个设备上,基于双麦克风和麦克风阵列的多通道语音增强研究有了较大的应用价值。介绍了自适应噪声对消法、FDM等双通道语音增强方法和波束形成、独立分量分析等麦克风阵列语音增强方法,对各个方法的原理、发展和优缺点进行了详细分析和总结,对多通道语音增强深入研究有一定帮助。 【关键词】语音增强;双通道;麦克风阵列;波束形成 1.引言 语音是人们通讯交流的主要方式之一。我们生活的环境中不可避免地存在着噪声,混入噪声的语音会使人的听觉感受变得糟糕,甚至影响人对语音的理解。在语音编码、语音识别、说话人识别等系统中,噪声也会严重影响应用的效果。语音增强成为研究的一个问题,其模型如图1所示。 图1 语音增强模型 按照采集信号的麦克风数量分类,语音增强方法可被分为单通道(single channel)、双通道(dual-channel)、麦克风阵列(microphone array)三种类型。一般来说,麦克风越多,去噪的效果越好。早期,大部分通信/录音终端都只配有一个麦克风,因此单通道语音增强吸引了大量研究者的目光,方法较为成熟。但单通道方法的缺点是缺少参考信号,噪声估计难度大,增强效果受到限制。近年来随着麦克风设备的小型化和成本的降低,双麦克风和麦克风阵列越来越多地被部署。研究者的注意力也在从单通道语音增强向双通道和麦克风阵列语音增强转移,这里对已有的多通道语音增强算法作以简单介绍。 2.双通道语音增强方法 在语音增强中,一个关键的问题就是获得噪声。在单通道语音增强中,噪声是通过从带噪语音信号中估计得到的,估计算法较为复杂且估计噪声总是与真实噪声存在差异,这就限制了增强效果的提高。为了获得真实噪声,简单的做法就是增加一个麦克风来采集噪声。从带噪语音信号中减去采集噪声来得到语音信号,这种方法叫做自适应噪声对消法(ANC,adaptive noise canceling),是最原始的最简单的双通道语音增强算法。针对双麦克风开发的算法不多,主要有噪声对消法、一阶差分麦克风(FDM,first-order differential microphone)及基于FDM 改进得到的自适应零陷波束形成法(ANF,adaptive null-forming)。 2.1 自适应噪声对消法 噪声对消法采用两个麦克风,一个麦克风采集带噪语音,另一个采集噪声信号,用带噪信号减去噪声信号,得到语音信号。减操作一般在频域进行,如果采

语音增强的发展

语音增强的发展 在二十世纪初期和中期语音增强领域的进步主要是在语音可懂度研究的声学领域,而近几十年来主要的进步是来自于数字信号处理和模式识别。六十到七十年代,关于语音可懂度方面的研究逐渐减少并转入沉寂。语音增强研究的另一个源动力信号处理开始显示其力量。这个源头也起源于第二次世界大战,其关键是自动机械的控制理论和电子计算机。维纳提出了平稳条件下的维纳滤波理论,而战后火箭和卫星等空间技术的迅速发展则导致了用状态变量进行递推滤波的卡尔曼滤波理论。但因为语音信号是非平稳的,而且无法用状态方程,当时没有将滤波理论用于语音增强。 七十年代中后期,半导体发展导致了通用电子计算机的进步,数字信号处理技术因此迅速发展起来,这是语音处理真正的转折点。快速傅利叶变换(FFT-Fast Fourier Transform )和线性系统理论的发展提出了语音发声的模型,见图1-3。 图1-3 语音信号的产生模型 其中Av 和Au 分别是浊音和清音的激励幅度,声道模型的传输函数V(z)用全极点模型(AR-Auto Regressive )近似表示为: ∑=--=N k k k z a z V 111 )( 其中N 是模型阶数,k a 是各阶极点的系数,z 是z 变换域的自变量。此模型可等价为线性预测编码(LPC-Linear Predictive Code)模型,存在由输出信号求解模型系数的快速递推算法。 在上述模型的基础上,借助于计算机的强大计算能力,人们自七十年代末起开始提出基于数字信号处理的语音增强方法。这方面的进展主要反映在每年一届的国际声学、语音学和信号处理会议(ICASSP-International Conference onAcoustic,Speech and Signal Processing)上。 注意到浊音的周期性,人们首先提出用梳状滤波器加强周期性的语音而衰减非周期性的噪音。在自适应噪声抵消的思想指导下发展了自适应滤波的语音增强方案。估计带噪声语音

语音增强技术

语音是人类交换信息最方便快捷的一种方式,在高度发达的信息社会的今天,用数字化的方法进行语音的传送、存储、识别、合成和增强等是整个数字化通信网中最重要、最基本的组成部分之一。随着人类步入信息社会的步伐的加快,越来越多的地方需要采用语音信号处理的相关知识,例如数字电话通信、高音质的窄带语音通信系统、语言学习机、声控打字机、自动翻译机、只能机器人、新一代计算机语言智能终端及许多军事上的应用等,都需要用到语音信号处理的相关技术。语音信号处理的目的是要得到某些语音特征参数以便搞笑的传输或存储,或者是通过某种处理运算以达到某种用途的要求。 语音信号是人类传播和感情交流的重要媒介,是听觉器官对声音传媒戒指的机械振动的感知,也是人类最重要、最有效、最常用、最方便的通信方式。但是在通信过程中语音不可避免的受到外界环境和传输媒介引入的噪声,通信设备内部的电噪声乃至其他讲话者的干扰,这些干扰最终都会使得受到的语音信号并非纯净的原始语音信号,而是受到噪声污染的含噪语音信号。由噪声带来的语音质量的下降会使许多语音处理系统性能的急剧恶化。比如,由于语音生成模型是低速率语音编码的基础,当受到噪音干扰时,提取的模型参数将很不准确,重建的御用质量将会急剧恶化。又如,语音识别系统在实验室换将可以取得相当好的效果,然后在噪声环境中使用时系统将会受到严重的影响。在这样的一些情况下,采用语音增强技术进行预处理,会将有效的改善系统的性能。 语音增强的目标: 对收听人而言主要是改善语音质量,提高语音的可懂度,减少疲劳; 对语音处理系统(如声码器、手机等)而言是提高系统的识别率和抗干扰能力。 抗噪声的三大类解决方法: 1.语音增强算法 2.寻找稳健的语言特征作为特征作为特征参数 3.基于模型参数自适应的噪声补偿算法 语音增强的前提: 语音增强与语音信号处理理论有关,并涉及到人的听觉感知和语音学。由于噪声的来源众多,所以要针对不同的噪声作出不同的抗噪技术,因此研究语音增强首先需要对语音特性、人耳感知特性和噪声特性进行了解。 语音特性: 1.短时平稳性。 语音是时变的,非平稳和非遍历的随机过程。语音发声过程是一个时变过程,但是很多因素造成了发声系统的时变性,比如声音面积随着时间和距离的改变而改变,气流速度随着声门处压力的改变而改变等,但是声道形状却具有相对稳定的特性,在一段时间内,通常指10~30ms,人的声带和声道形状是相对稳定的,可认为其特征是不变的,因而语音的短时谱具有相对稳定的特性,在对语音信号进行分析处理时可将语音信号分为若干分帧,每一帧的语音可认为是准稳定的,语音增强则可利用这种短时平稳性。

语音增强算法的分类

语音增强算法的分类 现实环境中的噪声多种多样,特性各异,很难找到一种通用的语音增强算法适用于各种噪声的消除;同时语音增强算法与语音信号数字处理理论、人的听觉系统和语音学等学科紧密相关,这也促使人们必须根据不同的噪声源来选择不同的对策。以上原因使语音增强技术研究呈现百花齐放的局面。几十年来,许许多多的学者在这方面进行了不懈的努力,总结出了许多有效的方法。 根据信号输入的通道数,可将这些方法分为单通道的语音增强算法与多通道的语音增强算法。单通道的语音系统在现实生活中较常见,手机、耳麦等都属于单通道语音系统。这种情况下,语音与噪声同时存在于一个通道中,语音信号与噪声信号必须从同一个带噪语音中获得。这种系统一般要求信号中的噪声比较平稳,以便在无声段对噪声进行估计,再依据估计得到的噪声参数对有声段进行处理,得到增强语音。而多通道的语音系统中语音增强的一种算法是,利用各个通道的语音信号之间存在的某些相关性,对带噪语音信号进行处理,得到增强的语音。比如,在自适应噪声抵消法中采用了两个话筒作为输入,其中一个采集带噪的语音信号,另外一个采集噪声,从噪声通道所采集的噪声直接当作带噪语音中的噪声,并将它从带噪语音中减去即可。另一种多通道的语音增强算法是采用阵列信号,这种方法采用多个以一定方式排列的采集设备接收信号。由于不同的独立信号源与各个采集设备之间的距离不同,最后在各个接收设备中的合成信号也不同,再根据这些信号将各个独立信号分离出来。 按照所依据原理的不同,我们可以将语音增强分为以下几类: (1)参数方法 此类方法主要依赖于语音生成模型(例如AR模型)的使用,需要提取模型参数(如基音周期、LPC系数等),经常使用迭代方法。这种方法的最大缺点就是如果实际噪声或语音与模型有较大的差别,或者由于某些原因使得提取语音参数较困难,则这方法较容易失败。这类方法常用到一些滤波器,如梳状滤波器、维纳滤波器、卡尔曼滤波器等。 (2)非参数方法 非参数方法不需要从带噪语音信号中估计语音模型参数,这就使得此类方法相对于参数方法而言应用较广。但由于没有利用可能的语言统计信息,故结果一般不是最优的。同时,我们知道,语音信号是非平稳的随机过程,但语音信号特性的缓慢变化使得在较短的时间(比如10~30ms)内,可以视其为平稳的,如果能从带噪语音的短时谱中估计出“纯净”语音的短时谱,即可达到语音增强的目的。由于人耳对语音的感知主要是通过语音信号中各频谱分量的幅度来获得的,而对各分量的相位并不敏感,因此,这类方法的重点是将估计的对象放在语音信号的短时谱幅度上。非参数方法主要包括谱减法、自适应滤波法等。 (3)统计方法 统计方法比较充分地利用了语音和噪声的统计特性,如语音信号可视不同情况和需要采用高斯模型、拉普拉斯模型以及伽玛模型等。此类方法一般是在建立了模型库后,经历一个训练过程来获得初始统计参数,并且在后续的工作过程中要根据实际的数据实时的更新这些统计参数,以使模型能更好的符合实际情况,它与语音系统的联系非常密切。这类方法里面主要包括最小均方误差估计(MMSE,Minimum Mean Square Error)、对数谱估计的最小均方误差(MMSE-LSA,Minimum Mean-Square Error Log-SpectralAmplitude)、听觉掩蔽效应(Masking Effect)等。 (4)多通道方法 多通道方法利用了更多的信息,包括空间信息,可以更好地滤除噪声、分离语音,但对硬件设备要求高,算法一般较复杂。噪声抵消法、延迟一相加波束形成器(delay-sum beamformer)、

语音信号处理_考试参考题(修订版)(1)

一、填空题:(每空1 分,共60分) 1、语音(speech)300-3400kHz,采样率为(8kHz )宽带语音(wide-band speech),带宽7kHz (50-7k),采样率为(14k Hz )带宽20kHz(20-20k),采样率一般为(40k Hz ) 2、语音由肺中的通过(稳定)的气流或声道中的气流激励(喉头至嘴唇的器官的各种作用)而产生。当肺中的气流通过声门时,声门由于其间气体压力的变化而开闭,使得气流时而通过,时而被阻断,从而形成一串周期性脉冲送入声道,由此产生的语音是(浊音)。如果声带不振动,声门完全封闭,而声道在某处收缩,迫使气流高速通过这一收缩部位而发音,由此产生的语音是(清音)。 3、语音信号从总体上是非平稳信号。但是,在短时段(10~30)ms中语音信号又可以认为是平稳的,或缓变的。 4、语音的四要素是音长,音强,音高和音质,它们可从时域波形上反映出来。其中音长特性:音长(长),说话速度必然慢;音长(短),说话速度必然快。音强的大小是由于声源的(震动幅度)大小来决定。 5、声音的响度是一个和(振幅)有密切联系的物理量,但并不就是音强。 6、人类发音过程有三类不同的激励方式,因而能产生三类不同的声音,即(浊音)、(清音)和(爆破音)。 7、当气流通过声门时声带的张力刚好使声带发生较低频率的张弛振荡,形成准周期性的空气脉冲,这些空气脉冲激励声道便产生浊音如果声道中某处面积很小,气流高速冲过此处时而产生湍流,当气流速度与横截面积之比大于某个门限时(临界速度)便产生摩擦音,即(清音)。 8、如果声道某处完全闭合建立起气压,然后突然释放而产生的声音就是(爆破音)。 9、在大多数语音处理方案中,基本的假定为语音信号特性随时间的变化是(平稳随机)的。这个假定导出各种(线性时不变)处理方法,在这里语音信号被分隔为一些短段再加以处理。 10、一个频率为F。的正弦形信号以Fs速率抽样,正弦波的一周内就有(Fs/F0)个抽样。每一周内有两次过零,所以过零的长时间平均率是(2 Fs/F0)过零率/抽样。因此,平均过零率就是一个估计正弦波频率的适当方法。 11、如果过零率(高),语音信号就是清音。如果过零率(低),语音信号就是浊音。语音流由(音位)结合而成的最小单位,同时也是(音节)的最小单位,其英语对应词是phoneme,一个音节由(元音)和(辅音)构成,其英语对应词是Vowel和Consonant。 12、语音信号的最重要持征表现在它的“短时频谱”上。如果从语音流中利用加窗的方法取出其中的一个短段,再对其进行(傅立叶)变换,就可以得到该段语音的(短时)谱。 13、人类听觉系统具有(掩蔽效应),大致是一个单音的声级越(高),对其周围频率声音的掩蔽作用越强。人耳对不同频段声音的敏感程度(不同)。人耳对语音信号的(低频率和高频率)变化不敏感。 14、响度较(大)的频率成分的存在会影响响度较(小)的频率成分的感受,使其变得不容易察觉。 15、浊音的声带振动基频称为(基音频率)。 16、分析综合技术就是通过对信源分析,提取其中具有本质意义的参数,编码仅对这些参数进行。接受端借助一定的规则和模型,结合一定的算法将这些参数再综合成逼近(原语音)。 17、高、低子带信号能量相互混叠的现象也称为(频谱混叠)。 18、声音的掩蔽效应,说明一个声音的存在会影响人耳对另一个声音的听觉能力。掩蔽效应与两个声音的(频率和相对音量)有关。利用掩蔽效应可以用有用声音信号去掩蔽无用声音信号,即将不需要的声音在主观感觉上降低或消除。 19、语音可以用一个(语音生成)系统的输出来表示,该系统具有随时间(变化)的性质。这把我们引向语音分析的一项基本原理,该原理指出,如果我们研究语音信号的每一短段,则以准周期脉冲串或随机噪声信号激励一个()系统所产生的输出信号作为每一段的模型是有效的。 20、语音分析的问题在于估计语音模型的参数并且测量它们随时间的变化。因为一个线性时不变系统的激励信号及其冲激响应是按(级联)方式结合起来的,语音分析问题可以看作是将()的问题。这个问题通常称为()。 21、语音增强的一个主要目标是从带噪语音信号中提取尽可能纯净的原始语音。对于非加性噪声,有些可

开题报告6基于子空间方法的语音增强处理

湖南工学院毕业设计(论文)开题报告 题目基于子空间方法的语音增强处理 学生姓名唐莉佳班级学号10401340214 专业通信工程 一、选题目的和意义: 人们在语音通信的过程中将会不可避免的受到周围噪声环境的干扰,由于这些干扰噪声的存在,接收者收到的语音已不是纯净的语音信号。为了尽可能的避免噪声的干扰,基于语音信号增强处理的研究非常重要。然而,由于干扰通常都是随机的,从带噪语音中提取完全纯净的语音几乎不可能。在这种情况下,语音增强的目的主要有两个:一是改进语音质量,消除背景噪声,使听者乐于接受,不感觉疲劳;二是提高语音可懂度,方便听者理解。这两个目的往往不能兼得,到目前为止还没有哪种语音增强系统可以同时很好地改善语音质量和可懂度这两个指标。目前有一些对低信噪比带噪语音进行语音增强的方法,可以显著的降低背景噪声,改进语音质量,但并不能提高语音的可懂度,甚至略有下降。这是因为在实际环境中,语音总会受到外界环境噪声的干扰,这些噪声包括从周围环境,传输媒介中引入的噪声,电器设备的噪声以及其他说话人的干扰等等。环境噪声会影响语音质量,严重的情况下语音将完全淹没到噪声中,无法分辨。语音质量的下降会使语音处理系统的性能急剧恶化。比如,语音识别系统在实验室环境中可取得相当好的效果,但在噪声环境中,尤其是在强噪声环境中使用时,系统的识别率将受到严重影响。低速语音编码同样会受到噪声的影响。由于语音生成模型是低速率语音编码的基础,当语音受到噪声干扰时,提取的模型参数将很不准确,重建的语音质量急剧恶化。此时,采用语音增强技术进行预处理,将有效的改善系统性能。 语音增强的主要目标是从带噪语音信号中提取原始纯净语言信号,衡量语音增强效果的方法分主观测试和客观测试两种。主观测试方法包括平均意见得分(MOS)判断韵字测试(DRT)和判断满意度测量(DAM)等。客观测试方法主要根据增强语音的时域波形或频域语谱,给出客观的数值度量。例如一种常用的方法是采用信噪比来度量,此时信噪比的定义是原始语音信号功率与归一化后的增强语音和原始语音之差的功率比。同时采用板仓距离来测试。 语音增强不但与语音信号数字处理理论有关,而且涉及到人的听觉感知和语音学。再者,噪声来源众多,随应用场合而异,它们的特性也各不相同。即使在实验室仿真条件下,也难以找到一种通用的语音增强算法能适用各种噪声环境。必须针对不同噪声环境,采用不同的语音增强对策。 二、国内外研究动态: 语音增强是在噪声环境下用以提高语音通信系统质量的一个重要技术。随着语音技术研究的深入和实际应用的增多,各种语音处理系统都面临着进一步提高性能的问题,语音增强是其中的关键技术之一,已有几十年的研究发展历史。其研究起与20世纪60年代,随着数字信号理论的成熟,在70年代曾形成一个理论高潮,取得了一些基础性成果,并使语音增强发展成为语音信号处理的一个重要分支。 1978年,Lim和Oppenheim提出了基于维纳滤波的语音增强方法。 1979年,Boll提出了谱相减方法来抑制噪声。 1980年,Maulay和Malpss提出了软判决噪声抑制方法。 1984年,Ephraim和Malah提出了基于MMSE短时幅度谱估计的语音增强方法。 1987年,Paliwal把卡尔曼滤波引入语音增强领域。 1995年.Ephraim提出了基于信号子空间分解的语音增强方法。 近年来,基于子空间的语音增强技术受到许多研究者的重视,该方法可减少信号的失真和人为噪声的引入。子空间技术将带噪语音信号看成向量空间的一部分,并将此向量空间划分成两个相互正交

OPGW工程设计探讨

OPGW工程设计探讨 刘礼华,江西瑞昌市供电公司,1975年出生,本科学士学历,工程师,主要从事电力系统的设计、施工和配网自动化方面的工作。欧阳剑,江西吉安供电公司,1976年出生,本科学士学历,主要从事电力通信自动化的工作。 田大毛,江西瑞昌市供电公司,1983年出生,本科学士学历,主要从事电力系统的设计和工程项目的工作。 摘要: opgw工程是将光纤电缆和地线复合一起架设的新技术,在尚无国家行业设计标准时,如何做好设计工作,重点关注opgw 工程的选型、光纤及余长、雷电特性、故障电流及热稳定计算、张力、配盘、防振等问题。 关键词: opgw工程光纤特性张力配盘防震 中图分类号:tm715 文献标识码:a 文章编号: 1674-198x(2011)12(a)-0000-00 opgw是架空地线复合光缆的英文缩写(optical fiber composite overhead ground wire),具有电力线路避雷地线和光纤通信的双重功能,工程设计涉及架空线路和电力通信两个专业。目前国家尚未编出opgw设计规范,笔者根据220kv龟峰变~上饶变输电线路opgw 工程和萍乡110kv五陂下~莲花变ⅱ回输电线路opgw工程的设计实践,提出opgw工程设计的基本要求和体会,以供讨论参考。opgw工程介绍及设计标准、规范 1.1 工程案例

江西220kv龟峰~上饶变输电线路opgw总长73公里,光缆纤芯为24芯(16g.652+8g.655),线路单相短路最大电流27.12ka,设计选用良导体jlb30a-70、 jlb20a-50、gj-50地线与opgw-90进行热稳定配合计算。线路途经弋阳县、横丰县、铅山县、上饶县、上饶市境内,地形以丘陵、山地为主,气象条件按江西省典型i类气象区进行设计。 110kv五陂下~莲花变ⅱ回输电线路opgw全长63公里,光缆纤芯为16芯(g.652),线路单相短路最大电流20.576ka,设计选用良导体jlb30/70、jlb20a-50、gj-50地线与opgw-70进行热稳定配合计算。线路沿途经过萍乡市、莲花县境内,地形以高山、山地为主,工程海拔高程在90~800米之间,其气象条件主要按江西省典型ⅱ类气象区(海拔90m~400m)、江西省典型ⅲ类气象区(海拔400m~600m)、重冰区(海拔600m以上,覆冰20mm)进行设计。1.2 工程设计可依据的标准、规范 (1)《110~500kv架空送电线路设计技术规程》dl/t 5092—1999; (2)《架空送电线路杆塔结构设计技术规定》sdgj94—1990;(3)《电力系统光缆通信工程初步设计内容深度规定》dlgj152—2000;(4)《长途通信干线光缆数字传输系统线路工程设计暂行技术规定》ydj14—1991。 2 opgw工程的初步设计 初步设计内容包括:(1) 路径;(2)工程设计条件;(3)opgw选型; (4)地线绝缘型式;(5) 金具。

相关文档