文档库 最新最全的文档下载
当前位置:文档库 › 视频音频信号处理

视频音频信号处理

视频音频信号处理
视频音频信号处理

甘肃政法学院

本科学年论文(设计)题目视频、音频信号处理技术论述

甘肃政法学院院计算机科学学院信息管理与信息系统

专业 09 级信管班

学号:200981020116

姓名:唐占红

指导教师:吴小红

成绩:___________________

完成时间:_________年 _______月

视频、音频信号处理技术论述

摘要:多媒体是20世纪末处互联网外最流行的计算机术语之一。多媒体技术是计算机技术、通信技术和视听技术以及多种交叉学科领域的技术的综合。多媒体技术及其应用将是未来计算机学科重点研究的方向之一。视频、音频信号的处理在多媒体技术研究中占有重要的地位,视频、音频信号处理技术很多,例如:视频和音频信号压缩、视频和音频信号解压、视频和音频信号数字化等。随着多媒体技术的发展,越来越多的管理系统和监控系统应用视频和音频技术,以及视频和音频技术的改进。本文主要介绍音频和视频信号处理的基础知识以及视频和音频信号处理技术简单的应用。MATLAB 是一款数据分析和处理功能都非常强大的科技应用软件,利用它可以灵活方便地分析处理音频信号。文章介绍了用MATLAB 软件处理音频信号的基本流程,并以实例形式列出了几款技术实现程序。随着网络技术、视频编解码技术及视频数据库技术的逐步提高,视频信号的处理也日趋完善。

关键字:视频、音频信号处理数字信号视频编解码数字化

Video, audio signal processing technology is discussed

Abstract:Multimedia is in the Internet of the 20 th century the most popular one of computer terms. The multimedia technology is computer technology, communication technology and audio-visual technology and DuoZhong interdisciplinary field of comprehensive technology. The multimedia technology and its applications will be the future of computer science, one of the key research direction. Video, audio signal processing in the multimedia technology in the study has important position, video, audio signal processing technology many, for example: video and audio signal compression, video and audio signal decompression, video and audio signal digital, etc. Along with the development of multimedia technology, more and more of the management system and monitor system application video and audio technology, as well as video and audio technology improvement. This paper mainly introduces the audio and video signal processing knowledge and video and audio signal processing technology simple application. MATLAB is a data analysis and processing functions are very powerful technology application software, the use of it can be flexible and convenient analysis audio signal. This paper introduces the MATLAB software processing audio signal of the basic process, and with examples listed a few to technology to achieve program. As the network technology, video decoding technology and the gradual

improvement of the video database technology, video signal processing is perfect day by day too.

Key words:Video, audio signal processing ,Digital signal,Video decoding ,digitai

目录

第一章、引言 (1)

第二章、视频音频信号处理技术基础 (2)

2.1 数字视频格式的选择 (2)

2.1.2 运动图像压缩标准MPEG一2 (5)

2.2 视频数据的存储与检索................................................................................. 错误!未定义书签。

2.2.1 视频数据库的数据模型...................................................................... 错误!未定义书签。

2.2.2 对象__关系型数据库中数据的特性.................................................. 错误!未定义书签。

2.2.3 基于内容的视频数据库的检索.......................................................... 错误!未定义书签。

2.3 数字音频格式 (7)

2.3.1 波形音频和MIDI音频....................................................................... 错误!未定义书签。

2.3.2 CD音频、A VI文件格式和AC-3音频.............................................. 错误!未定义书签。第三章、视频、音频信号处理技术及应用................................................................ 错误!未定义书签。

3.1 基于简单MATLAB函数的音频信号处理 (9)

3.1.1语音的录入与打开 (9)

3.2 运动图像压缩标准MPEG一2..................................................................... 错误!未定义书签。

3.2.1 MPEG-2帧内压缩编码技术 ............................................................... 错误!未定义书签。

3.2.2运动补偿压缩编码技术....................................................................... 错误!未定义书签。第四章、总结 ............................................................................................................... 错误!未定义书签。

视频、音频信号处理技术论述

第一章、引言

多媒体技术是将文字、图像、动画、视频、音乐、音效等数字资源通过编程方法整合在一个交互式的整体中,具有图文并茂,生动活泼的动态形式表现出来,给人以很强的视觉冲击力,留下深刻印象。多媒体技术能够利用多种交互手段,使原本枯燥无味的播讲变成互动的双向信息交流。它极大的改变了人们获取信息的传统方法,符合人们在信息时代的阅读方式。所以,多媒体手段往往被广泛用于教育,广告等宣传领域。是企业宣传,产品推广的利器,它的主要载体是CD-ROM光盘,多媒体触摸屏,宽带网站等。多媒体技术兴起于80年代末期,是近年来计算机领域中最热门的技术之一。它集文字、声音、图像、视频、通信等多项技术于一体,采用计算机的数字记录和传输传送方式,对各种媒体进行处理,具有广泛的用途,甚至可代替目前的各种家用电器,集计算机、电视机、录音机、录像机、VCD机、DVD机、电话机、传真机等各种电器为一体。多媒体技术是一个涉及面极广的综合技术,是开放性的没有最后界限的技术。多媒体技术的研究涉及计算机硬件、计算机软件、计算机网络、人工智能、电子出版等,其产业涉及电子工业、计算机工业、广播电视、出版业和通讯业等。

总的来看,多媒体技术正向二个方而发展:一是网络化发展趋势,与宽带网络通信等技术相互结合,使多媒体技术进入科研设计、企业管理、办公自动化、远程教育、远程医疗、检索咨询,文化娱乐、自动测控等领域;二是多媒体终端的部件化、智能化和嵌入化,提高计算机系统本身的多媒体性能,开发智能化家电。研究多媒体计算机系统的一项重要技术就是多媒体数据的压缩与解压缩技术。数字化的视频和声音信号的数据量是非常大的,要使实时处理和传输这些庞大的数据成为可能必须对数据信息进行编码压缩。没有压缩技术的进步,多媒体计算技术是难以走向实用的。在声频媒体方面,人类听觉特性理论的深入发展和数字化技术的广泛应用,以及市场对消费类音乐质量的趋高要求,促使数字音频编解码技术成为了消费电子学的一个重要的研究领域,并已被广泛地应用于数字音频广播(DAB)、高清晰度电视(HDTV)、伴音多媒体网络通信等领域中。

视觉是人类最重要的感觉,也是人类获取信息的主要来源。据统计,人类从外界获取的信息中,75%来自视觉。与其他的信息心形式相比,视频信息具有直观、具体、生动等诸多显著优点,并且包含的信息量很大。20世纪90年代,计算机技术、信息技术、网络技术的发展,进入了信息的数字化时代。在这阶段,视频信号处理技术得到了快速

的发展,特别是视频、音频和多媒体通信方面的国际标准不断推出,有力促进了视频信号处理技术逐步进入实用化阶段,如视频会议、可视电话、数字电视等应用的出现。以视频信号处理为主的多媒体技术已成为21世纪最具有时代特征和最富有活力的研究和应用领域之一。

视频信号处理主要包括视频信号的采集、处理、编码和传输,近年来的研究热点主要集中在视频信号的高效压缩编码。智能视频处理、三维立体视频信号的高效传输与重建等。既然视频、音频信号已成为21世纪不可替代的产物,那么本文主要讲解视频音频的数字化,视频音频信号压缩技术,视频音频数据的存放与检索等。

第二章、视频音频信号处理技术概述

2.1 数字处理技术概述

2.1.1数字视屏格式

在国际上存在着多种数字视频格式,它们各,具特色有着各自的适应范围,本节对它们进行简要的分析和比较,选择出常用的几种数字视频格式。目前主要的视频格式如表2-1所示:

表2-1 不同国际建议中的数字视频格式

视频格式亮度帧尺寸帧频取样帧纵横比彩色格式HDTV 1920*1080 60 逐行16:9 4:2:2

ITU-R601 720*480

720*576 29.97

25

隔行

隔行

4:3

4:3

4:2:2

4:2:2

SIF-625 SIF-525 352*228

352*240

25

29

逐行

逐行

4:3

4:3

4:2:0

4:2:0

CIF QCIF S-QCIF 352*228

176*144

128*94

29.97

29.97

29.97

逐行

逐行

逐行

4:3

4:3

4:3

4:2:0

4:2:0

4:2:0

其中亮度帧尺寸的单位是像素,帧频的单位是赫兹,彩色格式表示亮度与色度的空间取

样比。其中应用最多的是CIF格式(公用中间格式)。目前流行的不同电视制式(PAL、NTSC、

SECAM)的电视信号之间是不相容的,为了实现不同制式之间的通信,以及能给出统一的编解码器的结构,ITU提出把不同制式彩电信号都转换成CIF格式和1/4CIF。它们的参数如图3一l所示。在C1F和f/4C[F格式中,两个色差信号的取样密度,在水平和垂直方向上,均为亮度信号的一半。帧重复频率约为30Hz,采用逐行扫描方式,每像素的亮度信号与色差信号均采用86bit量化。由摄像机进来的PAL制电视信号先经分离得到亮度信号Y与色差信号U和V,再分别经模数转换和预处理,转换为CIF格式的图像。每幅图像先分成一系列的由一个16x 16的亮度块和亮度块所对应的两个8x8的色差块构成的宏块MB(macroblock),然后对每个宏块MB进行压缩编码。首先在前一帧图像中与当前MB对应位置的附近,利用运动补偿的方式找出一个与当前MB的亮度块最近的MB,将其作为当前MB的预测值,得到相应的运动矢量;然后将当前雌中16x16的亮度块分成四个8x8子块,以及两个8x8色差块与其最佳预测块的对应子块相差,求出预测误差,即得到六个预测误差块;再将这些预测误差块进行8x8的DCT变换,得到对应的变换域矩阵:最后再进行

统计和哈夫曼压缩。

2.1.2 视频数据的存储与检索

由于视频数据具有大数据量、集成性、实时性、非解释性、非结构性等特性,在数据模型的选择和数据库管理方面需要考虑许多新的要求。存放到数据库中的视频数据通常应包括:数据原始对象(数据源)、数据对象的说明(元数据等)以及与对象相关联的方法。目前,建立视频数据模型的方法㈣大多是在关系数据模型和面向对象数据模型基础上进行改进的。主要方法有以下几种:扩展现有的关系数据库管理系统(RI)BMS),用于支持类似于二迸制对象的各种数据对象;扩充的面向对象模型;关系模型和面向对象模型的结合,产生对象一关系数据模型。关系数据模型是传统数据库领域中最重要和使用最广泛的数据模型,主要优点是:即具有牢固的理论基础,又具有结构简单、适应性强、易扩充等特点。但传统的关系数据模型缺少支持视频数据库的能力,RDBIdS只是为管理表格字母字形式的数据而设计的,很难实现具有空间关系和时态关系的数据,缺乏演绎和推理操作。为此,关系数据库管理系统使用大二进制对象(BLOB)来存储和管理多媒体对象,BI.0B可用于图像或其它二进制数据类型的对象,在表格的某-N中的每个BLOB值,该列中将只包含一个定位器变量,大型对象本身则存储在表格以外的地方。这种存储策略保护BLOB值不干扰表格物理集聚,而且通过特殊的语句选项可以使表格创建者能够控制BLOB数据在物理介质中的位置,尤其重要的是,一个定位器可以在任何SQL表达中代表一个BLOB值,应用程序可以完成BLOB值的一系列操作,而把实际BLOB数值的具体化推迟到最后一步,从而减少了对夫量数掘修改和移动的次数。但是,应用BLOB仍有几点不

足:它们不支持如派乍和聚合这样的类关系;不能进行具有某种复杂度的长周期事务处

理;也不支持扩展结构的遍历操作所需要的内存驻留对象的概念。所以,为了能在视频数据库中使用关系模型,还必须进行更多的扩充和改进工作。90年代以来,面向对象模型成为另一种表达多媒体数据库的主要方法,面向对象概念是新一代数据库应用所需的强有力数据模型的良好基础,主要原因是因为面向对象概念已经包括了一些传统数据库语言中的数据模型概念,面向对象数据模型一客观自然的方法来描述现实世界中各种实体及实体间的联系。对象对应与现实世界中的实体,每个对象都有一个对应对象的标识和值。一旦定义了类,所有类中的对象就被赋予了类的属性,类定义在应用软件的开发速度上有明显的优势,并且有利于为开发和维护复杂的多媒体应用软件提供更完善的功能及更广泛的对象性能。此外,对象数据库的性能,如消息传递、可扩展性、支持分支结构,对于多媒体系统来说也是非常重要的。但是,面向对象的数据模型目前尚无一个统一的标准,缺乏坚实的理论基础,许多实际技术还不够成熟。为了更好地满足视频数据库管理的要求,也需做进一步的研究和改进。扩充的关系数据库正逐步向面向对象的系统发展,RDBMS的优点在于安全性和事务的完整性,面向对象数据库管理系统(OODBMS)的优点是可扩展性,并允许对数据库应用进行递增,这些修改在过程语言环境中将是非常困难的,可扩展性意昧着对操作、结构及操作约束的设置不是固定的,开发商可以定义新的操作,并按应用的需要加到应用上去。二者的优点是对方所不具备的,将二者的优点结合起来生成了所谓的对象一关系数据库管理系统(ORDBMS),它在处理多媒体数据方面发挥出更好的作用。对象关系型数据库系统的两种基本组件:一个面向对象功能的体系结构和在这一体系结构之上实现的一组关系扩展器。使用关系扩展器,用户可以建立先进的多媒体应用,来处理视频数据;借助对象体系结构,用户可以定义自己的新数据类型、函数和规则,以满足不断发展的需要。经过以上的分析,并考虑到通信电源监

控系统中视频数据的本身特点。采用对象一关系模型的数据库系统。

2.1.3 对象__关系型数据库中数据的特性

视频数据应用存储对象的最重要特性是其绝对尺寸,一个真正的对象一关系型系统必须提供特殊的方法,以提高大型对象应用的性能和尽量减少大型对象哈尔滨理工大学研究生硕士学位论文对系统资源的冲击。ORDBMS通常采用BLOB(二进制大对象数据)来存储视频数据,允许应用程序在数据库和文件之间交换BLOB类型数据值,不需要通过程序缓冲区移动数据。一个程序可以声明一个文件引用变量,包含特定文件的名字,随后文件引用可以代表大型对象文件的内容,用在SOL语句中,通过使用定位器和文件引用,应用软件就可以经常处理大型对象,而无需把实际对象取到程序存储器中。对象。关系型数据库系统D砌允许客户定义新的数据类型和操作【1】。当与大对象结合时,用户定义

类型和用户定义函数工具能使客户表示具有自己内部结构的视频数据。在系统提供的数

据类型的基础上客户能定义新的数据类型,但这些新的数据类型比它的基础类型有不同,却能被DBMS理解并实施正确的操作的语义。ORDBMS的用户定义类型工具为实际应用提供了重要的完整机制,减少了产生误解结果的可能。而且ORDBMS的用户定义类型工具是基于强类型概念,这确保了一个新类型明确定义的函数和操作仅仅能够在那个类型之上被执行。象用户定义类型一样,用户定义函数能使用户通过许多途径来扩展陷MS。用户可以为它们的用户定义类型定义新的操作,为操作不同媒体类型的数据提供了方便,这些函数可以象系统提供的SOL函数一样使用。用户定义函数可以用高级语言(如c++)编写,并且能通过一个新的数据定义能被注册到ORDBMS中的语击‘语句,以这种方式,新的线程和现有的C库线程能被连接到ORDBMS中,这能大量节省代码和测试时间,同时用户定义函数支持重载的概念。ORDBMS的活性数据特性可以分为两类:约束和触发器。约束是~些系统自动执行的声明性语句;触发器是一些自动操作,当探测到一定的事件或条件是,这些操作就会被自动激活。活性数据特性对于保护数据完整性、处理异常条件、产生遗失数据和维护数据库变化的审计跟踪非常有用。系统要执行的规则通过活性数据在数据库中定义而不是在每一个应用中定义,避免了冗余和不一致性,简化了应用开发者的任务。大础对缘、角户定义类型和函数、约束和触发器构成了ORDB惦所提供的对象底层结构,使用这个底层结构,第三方开发商和用户可以写出关系型扩展器来支持特定

的视频应用,会收到很好的效果。

2.1.4 基于内容的视频数据库的检索

视频检索就是要从大量的视频数据中找到所需的视频片断。传统的视频检索只能通过快进和快退等顺序的方法人工查找,因而是一件非常繁琐耗时的工作,这显然已无法满足视频数据库的要求。用户往往希望只要给出例子或特征描述,系统就能自动地找到所需的视频片断点,即实现基于内容的视频检索。视频数据比文本、图象包含更丰富的信息,但是却无法像文本那样直接地给出它的内容或者直接她进行内容的比较.要实现基于内容的视频检索,首先必须对视频进行处理,包括视频结构的分析和视频单元的自动索引。视频结构的分析是指通过镜头边界的检测,把视频分割成基本的组成单元——镜头;视频单元的自动索引是指提取镜头的颜色、纹理和运动等各种特征,形成描述镜头的特征空间,然后依靠这个特征空间来进行镜头内容的比较

2.1.5运动图像压缩标准MPEG一2

MPEG(Moring Picture Experts Group)运动图像专家小组,它的目标是制定针对活动图像的数掘压缩标准,制定出了可用于数字存储介质上的视频及其关联卉频的国际标准,这些国际标准,简称为MPEG系列标准,包括MPEG一1、MPEG一2、MPEG一4、MPEG一7等。在现

在应用最多的是MPEG一2标准,但MPEG一4标准是新兴的标准,提出了全新的概念,是今

后发展的趋势,下面我们着重研究这两种标准在通信电源监控系统的运动图像处理上的应用。MPEG-2标准“盯的系统功能是将~个或更多的音频、视频或其他的基本数据流合成单个或多个数据流,以适应于存储和传输。它的压缩算法依赖于两个基

本技术:其一是基于16×16块的运动补偿,此技术适用于因果预测器(单纯预测编码)和非因果预测器(插补编码),运动补偿又称双向预测,它可以减少帧序列时域冗余度。其二是基于变换域(8×8图像块的DCT)压缩技术。可以减少空域冗余度。在MPEG一2中不仅使用帧内压缩,而且对帧空间预测误差再作ADCT变换,可以减少空域冗余度,以达到迸一步压缩数据的目的。MPEG-2又可用同步和多路交用技术,它用于把数字视频图像和声音复合成单一数据位流,位速率为高达1.5Mbps。它的数据位流分成内外两层,外层为系统层,内层为压缩层。系统层提供在一个系统中使用MPEG数据位流所必须的功能,包括定时、复合和分离视频图像和声音,以及在播放期间视频图像同步;压缩层包括压缩的声音和频率图像位流。可视通信系统的数据经压缩技术处理后,可采用标准的普通电话线路接口,完全符合数字程序控制交换机的标准,只要使用一路普通电话线路就可传播图像和声音。

MPEG-2压缩编码技术,采用静态的帧内压缩编码技术能最好的在设计满足随机读写的要求,但帧内压缩技术是无法达到很高的压缩比的要求的。为了同时满足随机读写和高压缩比的要求,故须同时使用帧间和帧内压缩编码技术。但必须使帧内编码和帧问编码、递归和非递归、时间冗余度减少方面有一个适当的平衡。为解决这个问题,MPEG一2使用了两种帧间编码技术:预测技术和内插法技术。

MPEG一4标准为多媒体数据压缩提供了一个更为广阔的平台,它更多定义的是一种格式和框架,而不是具体的算法,它的出发点就是希望建立起一个更自由的通信与研发环境,人们可以在系统中加入许多新的算法,为用计算机软件做编码、解码提供了更大

的方便。

2.1.6 MPEG-2帧内压缩编码技术

在MPEG一2 中图像分成三种类型:I图像(Intra picture——帧内图),它只能利用自身的相关性进行中等程度的压缩,能提供压缩数据流中随机读写的特点;P图像(Predicted picture——预测图),它是用最近的前一个I图像或前一个P图像预测编码得到的(称前向预测),并可以做为下一个预测(B图像或P图像)的参考图像,提供了更大程度的压缩可能性;B图像(Bidirectional picture一一双向预测图,又称插补图),它在做预测时,既可以使用前一个图像做参考,也可以使用下一个图像做参考,或同时使用前后两个参考图像(双向预测)。帧内压缩编码技术的应用对象是I图像、I宏模和

预测误差块(主要是指经帧间脉冲差分编码后的P 图像),在算法上采用二维离散余弦度变换的快速法,对于正交变换FDCT 和逆交变换IDCT 都是二维变换,变换的数字表达式为:

)( ]

16(2yH)v cos 16)12(cos ),()()([41

),(FDCT) ]

16(2yH)v cos 16)12(cos ),()[()(41

),(70707070IDCT u x v u F v C u C y x f u x y x f v C u C v u F u v x x 逆交变换

π

π

(正交变换

π

π

∑∑∑∑====+=+= 基于二维DCT 变换后,得到的多数值可以化为是对应64点输入信号所含空间频率的 幅度。空间频率为0的系数称为Dc 系数,其余63点称为Ac 系数。通常输入图像点与点样本之间的变化缓慢,经FDCT 变换后,大部分信号都集中在空间频率的低端。典型的8x8样本块经FDCT 变换后,大多数空间频率幅度为0或接近于0,这些幅度为0的点就不必编码,从而达到了压缩的目的。在译码. 中,经过逆变换后的64个系数再做IDCT 变换得到64个系数用来重构图像。从数字来统计64点矢量的DCT 变换图像和空间频率域之间的一对一的变换。如果FDCT 和IDCT 的计算精度足够高,8CT 系数又经过量化处理,那么在IDCT 变换后能够复现原来的64点信号,复现原图像。MPEG 一2算法允许自行选择I 图像的频率和置,这一选择是基于随机读写和场景位置切换的需要。在此设计中,I 图像每秒使用3次。编码时也需要选择在I 图像和P 图像之间的B 图像的数目,这一选择基于帧存储体的数目和被编码图像的特性,对于一个大的序列集而言,在两个参考图像之问也可以有两个B 图像。

2.2 音频信号处理技术概述

目前数字音频领域流行的音频编码技术以数据量的压缩性能分为非压缩音频(如波形音频、MIDI 音频和CD 音频等)和压缩音频(如,MPEG 音频和杜比AC-3 等)两类。现将几种常用的音频编码技术简要介绍如下。

2.2.1 波形音频和MIDI 音频

波形(waveform )音频是一种用于PC 机之间交换声音信息的常用音频编码技术,由微软公司和IBM, 公司作为Windows 3.1的多媒体资源交互文件格式RIFF (Resource Interchange File Formate)的一部分制定开发和所有。波形音频是一种电子数字声音,一般用于存储各种非乐曲的音频数据,包括语音和音效。播放波形文件时,不论音响设备是何种类型,都会听到相似的声音,唯一的差别是声音的质量。在这一点上相比较,,MIDI 音频则严重依赖于播放设备,声音的差别非常大。MIDI 音频也是一种重要的多媒体组成元素。MIDI 即乐器数字化接口(Musicssociatal Instrument Digital

Interface),它是一种通信形式,提供了将电子乐器连结起来的手段和控制乐器所用的软硬件设备的规范,是电子音乐领域中相当重要的标准。MIDI 1.0由.IMA/MMA (International MIDI Association/MIDI Manufacturers Association) 完成规范,并由MMA 维护。该标准明确了将计算机和电声乐器、录音设备连接起来的电缆、硬件和通信协议。通过MIDI 接口的这种连接使计算机系统可以录制和播放音乐。一个MIDI. 系统能够控制可以响应MIDI. 信息的所有乐器,如音乐键盘、打击乐器、管乐器和录音设备等。当播放MIDI. 音频文件时,将模拟发出该乐器的声音【3】。

2.2.2CD音频、A VI文件格式和AC-3音频

CD音频通常被称为红皮书音频标准Red Book Audio:,即通过计算机的CD-ROM 驱动器来播放的CD 音乐。CD 音频代表着高质量的数字音频信息,但其所需的存储空间也最大,典型的存储比特率为176KB/s,也就是说一张容量为649KB 的CD所能存储的音乐长度大约只有70分钟(实际一张CD能够以数字信息的形式存储长74 分钟,采样率为44.1KHZ 的双声道音频信号)。CD 上的音频信息被编码为字(16 位)串的形式,并以长度可变的刻槽(音轨)形式存放在铝制唱片的表面。Windows 环境下大多数多媒体应用程序都使用MCI 播放CD 音频,MCI 既能够满足性能要求,相对而言又容易使用。目前,微软公司为用户提供了标准的媒体播放控件Media Player,可以简单容易地支持CD 音频数据的播放,且控制上也比较全面。目前市场上种类繁多的CD-Audio Disc Com-pact Digital Audio Disc采用的音频技术就是CD音频,并以其高品质的声音效果赢得了广大音乐发烧友的欢迎,丰富着人们的文化娱乐生活。

AVI (Audio/Video Interleaved)文件格式也是微软公司定义的RIFF 文件格式的一种,用于音视频序列的裁剪、编辑和播放应用。实际AVI 文件一般包含多种类型数据的混合流,大多数AVI序列同时用于音频和视频流。有的简单的AVI 序列只包含视频数据而不需要音频流,还有一些特殊的AVI 序列可能含有一个控制轨迹或AVI轨迹作为附加的数据流。这种控制轨迹用于控制如AVI 视盘播放器等外部设备,而MIDI 轨迹用于播控AVI 序列的背景音乐。

美国杜比实验室开发的数字音频编码系统,是性能较为优秀的一种音频压缩技术,其中,AC-1 用于卫星通信和数码有线广播,AC-2 用于专业音频的传输和存储,1991年推出的杜比数码环绕声系统Dolby Digital Surround Audio Code Number 3(AC-3),起初被用于电影制作和相关音视频产品,以获得6声道压缩编码【2】。

AC-3 系统的开发目的就是为了改善和提高三维声场的重现能力。传统的立体声系统仅仅能够提供听者面前的二维声场,而无法描述三维空间感。通过增加左、右环绕声及中置声道,以多声道音频重放的方式来重现三维立体空间,就是AC-3 环绕声系统所

要实现的。具体一些说,AC-3 采用全音域AC-3声道5.1运行方式,即位于室内前部的左前6中置L右前C三个声道和用于高精度定位音场、提高现场实效的左环绕R、右环绕LS声道以及一个附加超低音RS声道。其中前T 个声道的频响范围都是音频全频带即LEF,而3HZ-20KHZ声道的频响范围是LEF,仅占整个频谱的十分之一,因此又称为5.1声道环绕声系统。

第三章、视频、音频信号处理技术及应用

3.1 基于简单MATLAB函数的音频信号处理

3.1.1语音的录入与打开

理论分析:

[y,fs,bits]=wavread('Blip',[N1 N2]);用于读取语音,采样值放在向量y中,fs表示采样频率(Hz),bits表示采样位数。[N1 N2]表示读取从N1点到N2点的值(若只有一个N的点则表示读取前N点的采样值)。

sound(x,fs,bits);用于对声音的回放。向量y则就代表了一个信号(也即一个复杂的函数表达式)也就是说可以像处理一个信号表达式一样处理这个声音信号。

在MATLAB的信号处理工具箱中函数fft和ifft用于快速傅立叶变换和逆变换。函数fft用于序列快速傅立叶变换,它的一种调用格式为y=fft(x),其中,x是序列,y是序列的fft,x可以为一向量或矩阵,若x为一向量,y是x的fft。且和x相同长度。若x 为一矩阵,则y是对矩阵的每一列向量进行fft。

函数fft的另一种调用格式为y=fft(x,N),式中,x,y意义同前,N为正整数。

函数执行N点的fft。若x为向量且长度小于N,则函数将x补零至长度N。若向量x 的长度大于N,则函数截短x使之长度为N。若x 为矩阵,按相同方法对x进行处理。经函数fft求得的序列y一般是复序列,通常要求其幅值和相位。MATLAB提供求复数的幅值和相位函数:abs,angle,这些函数一般和fft同时使用。另外,函数abs(x)用于计算复向量x的幅值,函数angle(x)用于计算复向量的相角。

3.1.2 用MATLAB工具箱函数fft进行频谱分析时需注意

1:函数fft返回值y的数据结构对称性

执行fft运算X=fft(x),结果X(k)和x(n)的维数相同。X(k)的第一行元素对应频率值为0,第五行元素对应频率值为Nyquist频率,即标准频率为1.因此第一行至第五行对应的标准频率为0~1。而第五行至第八行对应的是负频率,其X(k)值是以Nyquist频率为轴对称。

一般而言,对于N点的x(n)序列的FFT是N点的复数序列,其点n=N/2+1对应Nyquist频率,作频谱分析时仅取序列X(k)的前一半,即前N/2点即可。X(k)的后一半序列和前一半序列时对称的。

2:频率计算

若N点序列x(n)(n=0,1,…,N-1)是在采样频率下获得的。它的fft也是N点序列,即X(k)(k=0,1,2,…,N-1),则第k点所对应实际频率值为f=k*f /N.

3:作FFT分析时,幅值大小与FFT选择点数有关,但不影响分析结果。

设计内容:

用matlab对实际声卡采集的男声语音信号(‘ns.wav’)和女声语音信号(‘nvs.wav’进行分析,比较基音的频率有何区别.

程序如下:

[s2,fs2,nbits2]=wavread('nvs');

f2=fft(s2);

f=(0:length(f2)-1)'*fs2/length(f2);

figure(1);plot(f,abs(f2));axis([0,3000,0,1400]);

xlabel('Hz');title('女声频谱');

[s1,fs1,nbits1]=wavread('ns');

f1=fft(s1,50000);

f=(0:length(f1)-1)'*fs1/length(f1);

figure(2);plot(f,abs(f1));axis([0,3000,0,2500]);

xlabel('Hz');title('男声频谱');

结论:

由图可知,女声频谱的最高峰出现在700Hz左右,频带宽度在1500Hz左右。而男声频谱的最高峰出现在400Hz左右,频带宽度在1000Hz左右。因此女声的基音频率要比男声的基音频率要高。

结果如图:

3.1.3用resample函数进行重采样

A:分析:

resample函数可以改变语音信号的采样率,s=resample(s1,fs,fs1),即可将采样率为s1的fs1

信号变成采样率为fs的s信号,而信号的大致形状不变。

B:设计内容:

对一段采样率为fs2=44100Hz的女声语音‘nvs.wav’进行分析,将采样率分别变为10000Hz,5000Hz,1000Hz,画出波形图,和原信号做比较。

程序如下:

[s2,fs2,nbits2]=wavread('nvs');

subplot(2,2,1);plot(s2);

title('fs=44000');

fs=10000;

s=resample(s2,fs,fs2);

subplot(2,2,2);plot(s);

title('fs=10000');

fs=5000;

s=resample(s2,fs,fs2);

subplot(2,2,3);plot(s);

title('fs=5000');

fs=1000;

s=resample(s2,fs,fs2);

subplot(2,2,4);plot(s);

title('fs=1000');

结论:

因为由上组实验可知女声语音‘nvs.wav’的带宽约为1500Hz。可见,当采样率fs 为10000Hz,5000Hz时,采样率大于带宽的两倍,此时,采样率减小导致信号采集的样点数就越少,波形图也越稀松,但大致的形状不变。但是,如果采样率过于低,如fs=1000Hz时,采样率低于带宽的两倍,则波形图发生较大的失真。

结果如图:

第四章、介绍国内、国外新技术的应用及发展趋势

4.1生物特征识别技术的发展趋势及对数字信号处理器的挑战

生物特征识别技术是指利用人体固有的生理特征或行为特征来进行个人身份鉴别

认证的技术。生物特征识别技术包括采用人体固有的生理特征(如人脸、指纹、虹膜、静脉)进行的身份认证技术和利用后天形成的行为特征(如签名、笔迹、声音、步态)进行的身份认证技术。与传统的身份鉴定手段相比,基于生物特征识别的身份鉴定技术具有如下优点:(1)不会遗忘或丢失;(2)防伪性能好,不易伪造或被盗;(3)“随身携带”,随时随地可用。正是由于生物特征身份识别认证具有上述优点,基于生物特征的身份识

别认证技术受到了各国的极大重视。

4.1.1 生物特征识别技术及其发展趋势

目前,常用的生物特征识别技术所用的生物特征有基于生理特征的如人脸、指纹、虹膜,也有基于行为特征的如笔迹、声音等。下面就这些常见的生物特征识别技术的特点及其发展趋势作一简单介绍。

人脸识别:人脸识别作为一种基于生理特征的身份认证技术,与目前广泛应用的以密码、IC卡为媒介的传统身份认证技术相比,具有不易伪造、不易窃取、不会遗忘的特点;而人脸识别与指纹、虹膜、掌纹识别等生理特征识别技术相比,具有非侵犯性、采

集方便等特点。因而人脸识别是一种非常自然、友好的生物特征识别认证技术。

人脸识别技术包括图像或视频中进行人脸检测、从检测出的人脸中定位眼睛位置、然后提取人脸特征、最后进行人脸比对等一系列相关的技术。

最早的人脸识别系统建成于20世纪60年代,该系统以人脸特征点的间距、比率等参数作为特征,构建了一个半自动的人脸识别系统。此时的人脸识别研究多集中于研究如何提取特征点进行人脸识别,如人脸特征器官(眼角、嘴角、鼻孔)的相对位置、大小、形状、面积及彼此间的几何关系等。由于这些特征点难以准确定位、鲁棒性差,因而采用这些方法的人脸识别系统的性能都很低。

自20世纪80年代开始,人脸识别技术出现了基于面部图像的方法。与基于特征点的方法相比,基于面部图像的方法不是提取人脸特征器官这一高层特征,而是将人脸作为一个图像整体,从图像中提取反映人脸特性的特征如DCT变换特征、小波特征、Gabor 特征等等。基于面部图像的方法由于利用了更多的底层信息,以及统计模式识别方法的引入,使得这类方法具有非常高的识别率和非常好的鲁棒性。由于基于面部图像的人脸识别算法具有很高性能,目前已经出现了不少推广人脸识别技术的厂商,如国内的北京海鑫科金高科技股份有限公司、国外的L1ID等。

为了评测基于面部图像的人脸识别算法的性能。美国ARPA和ARL于1993年至1996年建立了FERET数据库,用于评测当时的人脸识别算法的性能。共举行了三次测试FERET94、FERET95、FERET96。FERET测试的结果指出,光照、姿态和年龄变化会严重影响人脸识别的性能。

FERET的测试结果也表明了基于面部图像的方法的缺点。人脸是一个三维非刚体,具有姿态、表情等变化,人脸图像采集过程中易受到光照、背景、采集设备的影响。这些影响会降低人脸识别的性能。

为了克服姿态变化对人脸识别性能的影响,也为了进一步提高人脸识别性能,20世纪90年代后期,一些研究者开始采用基于3D的人脸识别算法。这些算法有的本身就采用三维描述人脸,有的则用二维图像建立三维模型,并利用三维模型生成各种光照、姿态下的合成图像,利用这些合成图像进行人脸识别。

2000年后,人脸识别算法逐渐成熟,出现了商用的人脸识别系统。为了评测这些商用系统的性能,也作为FERET测试的延续,美国有关机构组织了FRVT2000、FRVT2002、FRVT2006测试。测试结果表明,人脸识别错误率在FRVT2006上下降了至少一个数量级,这种性能的提升在基于图像的人脸识别算法和基于三维的人脸识别算法上都得到体现。

此外,在可控环境下,虹膜、静态人脸和三维人脸识别技术的性能是相当的。此外,FRVT2006还展现了不同光照条件下人脸识别性能的显著提高,最后,FRVT2006表明人脸自动识别的性能优于人。值得一提的是,清华大学电子工程系作为国内唯一参加FRVT2006的评测的学术机构,其人脸自动识别性能优于人类。

FRVT2006为人脸识别后续的研究指明了方向,人脸识别中光照、年龄变化依然对人脸识别性能有很大影响,二维人脸识别的性能不比三维人脸识别差。

指纹识别:指纹识别技术是指通过比较不同人指纹中的特征点不同来区分不同人的身份。指纹识别技术通常由三个部分组成:对指纹图像进行预处理;提取特征值,并形成特征值模板;指纹特征值比对。

指纹图像预处理的目的是为了减少噪声干扰的影响,以便有效提取指纹特征值。常用的预处理方法有图像增强、图像平滑、二值化、图像细化等。

特征提取的目的就是从预处理后的指纹图像中,提取出能够表达该指纹图像与众不同的特征点的过程。最初特征提取是基于图像的,从图像整体中提取出特征进行比较,但该方法的精度和性能较低。现在一般采用基于特征点的方法,从图像中提取反应指纹特性的全局特征(如纹形、模式区、核心区、三角点、纹数等)和局部特征(如终结点、分叉点、分歧点、孤立点、环点等)。得到特征点后就可以对特征点进行编码形成特征值模板。

指纹特征值比对就是把当前获得的指纹特征值与存储的指纹特征值模板进行匹配,并给出相似度的过程。

虹膜识别:虹膜相对而言是一个较新的生物特征。1983年,Flom与Safir申请了虹膜识别专利保护,使得虹膜识别方面的研究很少。1993年,Daugman发表了关于虹膜自动识别算法的开创性工作,奠定了世界上首个商业虹膜自动识别系统的基础。随着Flom和Safir专利在2005年的失效和CASIA及ICE2005中虹膜数据集的提供,虹膜识别算法的研究越来越蓬勃。ICE2006首次对虹膜识别算法性能进行了测试。虹膜识别中需要解决如下两个难点问题:一是虹膜图像的获取,二是实现高性能的虹膜识别算法。

4.1.2 生物特征识别技术对数字信号处理的挑战

为了获得更好的性能,研究者们从算法上、应用厂商从应用上对生物特征识别技术进行改进。这些算法根据不同生物特征的特点,采用新的数学模型,有效解决了现有算法的不足,使得生物特征识别技术性能上了一个新台阶。新的数学模型,较之以往的模型更为复杂,计算量更大。为了能够有效的在数字信号处理器上实现这些算法,要求数字信号处理器有更强的处理能力。我们下面结合人脸识别具体说生物特征识别技术对数

字信号处理的挑战。

传统数字信号处理中核心算法之一就是傅立叶变换,该变换在通信、图像传输、雷达、声纳中都有很大的作用。但是,在相当长的时间里,由于傅立叶变换的计算量太大,即使采用计算机也很难对问题进行实时处理,所以并没有得到真正的运用。直到傅立叶变换的快速算法即快速傅立叶变换发现后,傅立叶变换的运算量大大缩短,从而使傅立叶变换在实际中得到了广泛的应用,也使得在数字信号处理器上实现傅立叶变换成为了可能。

尽管傅立叶变换对数学、物理产生了深远的影响,但对于大多数应用例如人脸识别而言是远远不够的。比如说人脸图像中,眼睛所含有的信息较其他部分对识别而言非常重要,需要找到一种方法,提取出眼睛这部分重要的信息,并尽量降低不重要的信息对识别的影响。这就需要对人脸图像进行局部分析。然而,傅立叶变换无法进行局部分析,使得傅里叶变换在人脸识别中的应用很有限。

为了提高性能,研究者将数字信号处理领域中新的复杂的变换如Gabor变换、小波变换引入人脸识别中,采用这些变换进行局部分析,提取出对人脸识别有用的特征,从而大大提高了人脸识别的性能。然而,Gabor变换和小波变换的计算量较之傅立叶变换而言非常大,为了在嵌入式设备上实现人脸识别系统,需要高主频、高性能的数字信号处理器来实现,这就对数字信号处理器的设计提出了一个很大的挑战。

从应用角度而言,为了良好的交互性,在实现人脸识别系统时,要求实时实现从视频采集到人脸识别全过程完成(或者至少在1~2秒钟内实现),否则,给人的感觉就不自然、不流畅。因而,从良好的交互性角度而言,在嵌入式设备上实现人脸识别系统需要高性能的数字处理器。

ADI公司的Blackfin系列处理器是一类专为满足当今嵌入式音频、视频和通信应用的计算要求和功耗约束条件而设计的新型 16~32 位嵌入式处理器。Blackfin 处理器基于由 ADI 和 Intel 公司联合开发的微信号架构(MSA),它将一个 32 位 RISC 型指令集和双 16 位乘法累加(MAC)信号处理功能与通用型微控制器所具有的易用性组合在了一起。这种处理特征的组合使得 Blackfin 处理器能够在信号处理和控制处理应用中均发挥上佳的作用—在许多场合中免除了增设单独的异类处理器的需要。该能力极大地简化了硬件和软件设计实现任务。

目前,Blackfin 处理器在单内核产品中可提供高达 756MHz 的性能。Blackfin 处理器系列中的新型对称多处理器成员在相同的频率条件下实现了性能的翻番。Blackfin 处理器系列还提供了低至 0.8V 的业界领先功耗性能。对于满足当今及未来的信号处理

语音信号分析与处理系统设计

语音信号分析与处理系统设计

语音信号分析与处理系统设计 摘要 语音信号处理是研究用数字信号处理技术和语音学知识对语音信号进行处理的新兴的学科,是目前发展最为迅速的信息科学研究领域的核心技术之一。通过语音传递信息是人类最重要、最有效、最常用和最方便的交换信息形式。 Matlab语言是一种数据分析和处理功能十分强大的计算机应用软件,它可以将声音文件变换为离散的数据文件,然后利用其强大的矩阵运算能力处理数据,如数字滤波、傅里叶变换、时域和频域分析、声音回放以及各种图的呈现等,它的信号处理与分析工具箱为语音信号分析提供了十分丰富的功能函数,利用这些功能函数可以快捷而又方便地完成语音信号的处理和分析以及信号的可视化,使人机交互更加便捷。信号处理是Matlab重要应用的领域之一。 本设计针对现在大部分语音处理软件内容繁多、操作不便等问题,采用MATLAB7.0综合运用GUI界面设计、各种函数调用等来实现语音信号的变频、变幅、傅里叶变换及滤波,程序界面简练,操作简便,具有一定的实际应用意义。 最后,本文对语音信号处理的进一步发展方向提出了自己的看法。 关键字:Matlab;语音信号;傅里叶变换;信号处理;

目录 1 绪论 (1) 1.1课题背景及意义 (1) 1.2国内外研究现状 (1) 1. 3本课题的研究内容和方法 (2) 1.3.1 研究内容 (2) 1.3.2 运行环境 (2) 1.3.3 开发环境 (2) 2 语音信号处理的总体方案 (3) 2.1 系统基本概述 (3) 2.2 系统基本要求 (3) 2.3 系统框架及实现 (3) 2.4系统初步流程图 (4) 3 语音信号处理基本知识 (6) 3.1语音的录入与打开 (6) 3.2采样位数和采样频率 (6) 3.3时域信号的FFT分析 (6) 3.4数字滤波器设计原理 (7) 3.5倒谱的概念 (7) 4 语音信号处理实例分析 (8) 4.1图形用户界面设计 (8) 4.2信号的采集 (8) 4.3语音信号的处理设计 (8) 4.3.1 语音信号的提取 (8) 4.3.2 语音信号的调整 (10)

基于Matlab的语音信号处理与分析

系(院)物理与电子工程学院专业电子信息工程题目语音信号的处理与分析 学生姓名 指导教师 班级 学号 完成日期:2013 年5 月 目录 1 绪论 (3) 1.1课题背景及意义 (3) 1.2国内外研究现状 (3) 1.3本课题的研究内容和方法 (4) 1.3.1 研究内容 (4) 1.3.2 开发环境 (4) 2 语音信号处理的总体方案 (4) 2.1 系统基本概述 (4) 2.2 系统基本要求与目的 (4) 2.3 系统框架及实现 (5) 2.3.1 语音信号的采样 (5) 2.3.2 语音信号的频谱分析 (5) 2.3.3 音乐信号的抽取 (5) 2.3.4 音乐信号的AM调制 (5) 2.3.5 AM调制音乐信号的同步解调 (5) 2.4系统设计流程图 (6) 3 语音信号处理基本知识 (6) 3.1语音的录入与打开 (6)

3.2采样位数和采样频率 (6) 3.3时域信号的FFT分析 (7) 3.4切比雪夫滤波器 (7) 3.5数字滤波器设计原理 (8) 4 语音信号实例处理设计 (8) 4.1语音信号的采集 (8) 4.3.1高频调制与低频调制 (10) 4.3.2切比雪夫滤波 (11) 4.3.3 FIR滤波 (11) 5 总结 (12) 参考文献 (13) 语音信号的处理与分析 【摘要】语音信号处理是研究用数字信号处理技术和语音学知识对语音信号进行处理的新兴的学科,是目前发展最为迅速的信息科学研究领域的核心技术之一。通过语音传递信息是人类最重要、最有效、最常用和最方便的交换信息形式。 Matlab语言是一种数据分析和处理功能十分强大的计算机应用软件,它可以将声音文件变换为离散的数据文件,然后利用其强大的矩阵运算能力处理数据,如数字滤波、傅里叶变换、时域和频域分析、声音回放以及各种图的呈现等,它的信号处理与分析工具箱为语音信号分析提供了十分丰富的功能函数,利用这些功能函数可以快捷而又方便地完成语音信号的处理和分析以及信号的可视化,使人机交互更加便捷。信号处理是Matlab重要应用的领域之一。 本设计针对现在大部分语音处理软件内容繁多、操作不便等问题,采用MATLAB7.0综合运用GUI界面设计、各种函数调用等来实现语音信号的变频、变幅、傅里叶变换及滤波,程序界面简练,操作简便,具有一定的实际应用意义。 最后,本文对语音信号处理的进一步发展方向提出了自己的看法。 【关键词】Matlab 语音信号傅里叶变换低通滤波器

基于MATLAB的语音信号处理系统设计(程序+仿真图)--毕业设计

语音信号处理系统设计 摘要:语音信号处理是研究用数字信号处理技术对语音信号进行处理的一门学科。语音信号处理的目的是得到某些参数以便高效传输或存储,或者是用于某种应用,如人工合成出语音、辨识出讲话者、识别出讲话内容、进行语音增强等。本文简要介绍了语音信号采集与分析以及语音信号的特征、采集与分析方法,并在采集语音信号后,在MATLAB 软件平台上进行频谱分析,并对所采集的语音信号加入干扰噪声,对加入噪声的信号进行频谱分析,设计合适的滤波器滤除噪声,恢复原信号。利用MATLAB来读入(采集)语音信号,将它赋值给某一向量,再将该向量看作一个普通的信号,对其进行FFT变换实现频谱分析,再依据实际情况对它进行滤波,然后我们还可以通过sound命令来对语音信号进行回放,以便在听觉上来感受声音的变化。 关键词:Matlab,语音信号,傅里叶变换,滤波器 1课程设计的目的和意义 本设计课题主要研究语音信号初步分析的软件实现方法、滤波器的设计及应用。通过完成本课题的设计,拟主要达到以下几个目的: 1.1.了解Matlab软件的特点和使用方法。 1.2.掌握利用Matlab分析信号和系统的时域、频域特性的方法; 1.3.掌握数字滤波器的设计方法及应用。 1.4.了解语音信号的特性及分析方法。 1.5.通过本课题的设计,培养学生运用所学知识分析和解决实际问题的能力。 2 设计任务及技术指标 设计一个简单的语音信号分析系统,实现对语音信号时域波形显示、进行频谱分析,利用滤波器滤除噪声、对语音信号的参数进行提取分析等功能。采用Matlab设计语言信号分析相关程序,并且利用GUI设计图形用户界面。具体任务是:

如何利用matlab处理音频信号

Matlab处理音频信号 一、问题的提出:数字语音是信号的一种,我们处理数字语音信号,也就是对一种信号的处理,那信号是什么呢?信号是传递信息的函数。 一、问题的提出: 数字语音是信号的一种,我们处理数字语音信号,也就是对一种信号的处理,那信号是什么呢? 信号是传递信息的函数。离散时间信号%26mdash;%26mdash;序 列%26mdash;%26mdash;可以用图形来表示。 按信号特点的不同,信号可表示成一个或几个独立变量的函数。例如,图像信号就是空间位置(二元变量)的亮度函数。一维变量可以是时间,也可以是其他参量,习惯上将其看成时间。信号有以下几种: (1)连续时间信号:在连续时间范围内定义的信号,但信号的幅值可以是连续数值,也可以是离散数值。当幅值为连续这一特点情况下又常称为模拟信号。实际上连续时间信号与模拟信号常常通用,用以说明同一信号。 (2)离时间信号:时间为离散变量的信号,即独立变量时间被量化了。而幅度仍是连续变化的。 (3)数字信号:时间离散而幅度量化的信号。 语音信号是基于时间轴上的一维数字信号,在这里主要是对语音信号进行频域上的分析。在信号分析中,频域往往包含了更多的信息。对于频域来说,大概有8种波形可以让我们分析:矩形方波,锯齿波,梯形波,临界阻尼指数脉冲波形,三角波,余旋波,余旋平方波,高斯波。对于各种波形,我们都可以用一种方法来分析,就是傅立叶变换:将时域的波形转化到频域来分析。 于是,本课题就从频域的角度对信号进行分析,并通过分析频谱来设计出合适的滤波器。当然,这些过程的实现都是在MATLAB软件上进行的,MATLAB软件在数字信号处理上发挥了相当大的优势。

信号处理实验七音频频谱分析仪设计与实现

哈尔滨工程大学 实验报告 实验名称:离散时间滤波器设计 班级:电子信息工程4班 学号: 姓名: 实验时间:2016年10月31日18:30 成绩:________________________________ 指导教师:栾晓明 实验室名称:数字信号处理实验室哈尔滨工程大学实验室与资产管理处制

实验七音频频谱分析仪设计与实现 一、 实验原理 MATLAB 是一个数据分析和处理功能十分强大的工程实用软件,其数据采集工具箱为实现数据的输入和输出提供了十分方便的函数命令。本实验要求基于声卡和MTLAB 实现音频信号频谱分析仪的设计原理与实现,功能包括: (1)音频信号输入,从声卡输入、从WAV 文件输入、从标准信号发生器输入; (2)信号波形分析,包括幅值、频率、周期、相位的估计、以及统计量峰值、均值、均方值和方差的计算。 (3)信号频谱分析,频率、周期的统计,同行显示幅值谱、相位谱、实频谱、虚频谱和功率谱的曲线。 1、频率(周期)检测 对周期信号来说,可以用时域波形分析来确定信号的周期,也就是计算相邻的两个信号波峰的时间差、或过零点的时间差。这里采用过零点(ti)的时间差T(周期)。频率即为f = 1/T ,由于能够求得多个T 值(ti 有多个),故采用它们的平均值作为周期的估计值。 2、幅值检测 在一个周期内,求出信号最大值ymax 与最小值ymin 的差的一半,即A = (ymax - ymin)/2,同样,也会求出多个A 值,但第1个A 值对应的ymax 和ymin 不是在一个周期内搜索得到的,故以除第1个以外的A 值的平均作为幅值的估计值。 3、相位检测 采用过零法,即通过判断与同频零相位信号过零点时刻,计算其时间差,然后换成相应的相位差。φ=2π(1-ti/T),{x}表示x 的小数部分,同样,以φ的平均值作为相位的估计值。 频率、幅值和相位估计的流程如图1所示。 4、数字信号统计量估计 (1) 峰值P 的估计 在样本数据x 中找出最大值与最小值,其差值为双峰值,双峰值的一半即为峰值。 P=0.5[max(yi)-min(yi)] (2)均值估计 i N i y N y E ∑== 1 )( 式中,N 为样本容量,下同。 (3) 均方值估计 () 20 2 1 ∑== N i i y N y E (4) 方差估计 ∑=-=N i i Y E y N y D 0 2))((1)(

数字信号处理综合分析报告--数字音频信号的分析与处理

数字信号处理综合报告--数字音频信号的分析与处理

————————————————————————————————作者:————————————————————————————————日期:

数字信号处理实验 题目数字音频信号的分析与处理 班级 姓名 学号 日期 2013.06.10-2013.06.24

一、实验目的 1.复习巩固数字信号处理的基本理论; 2.利用所学知识研究并设计工程应用方案。 二、实验原理 数字信号处理技术在音频信号处理中的应用日益增多,其灵活方便的优点得到体现。分频器即为其中一种音频工程中常用的设备。 人耳能听到的声音频率范围为20Hz~20000Hz,但由于技术所限,扬声器难以做到在此频率范围内都有很好的特性,因此一般采用两个以上的扬声器来组成一个系统,不同的扬声器播放不同频带的声音,将声音分成不同频带的设备就是分频器。下图是一个二分频的示例。 图8.1 二分频示意图 高通滤波器和低通滤波器可以是FIR或IIR类型,其中FIR易做到线性相位,但阶数太高, 不仅需要耗费较多资源,且会带来较长的延时;IIR阶数低,但易出现相位失真及稳定性问题。 对分频器的特性,考虑最多的还是两个滤波器合成的幅度特性,希望其是平坦的,如图8.2所示: 图8.2 分频器幅度特性 分频 低频放 高频放 声 音 High Low-

由于IIR 的延时短,因此目前工程中大量应用的还是Butterworth 、Bessel 、Linkwitz-Riley 三种IIR 滤波器。其幅频特性如图8.3所示: 图8.3 三种常用IIR 分频器的幅度特性 巴特沃斯、切比雪夫、椭圆等类型的数字滤波器系数可通过调用MATLAB 函数很方便的计算得到,但Bessel 、Linkwitz-Riley 数字滤波器均无现成的Matlab 函数。 并联系统的系统函数为 级联系统的系统函数为 宁可瑞滤波器(Linkwitz-Riley ),由两个巴特沃斯滤波器级联而成。 N 阶巴特沃夫滤波器等效宁可瑞滤波器的设计 l h h l l h ()()()()()()()()()()()()()()()B=conv(B ,A )+conv(B ,A )A=conv(A ,A ) l h l h l h l h h l l h B z B z H z H z H z A z A z B z A z B z A z B z A z A z A z =+=++==????121212l 212()()()()()()()()() B=conv(B ,B )A=conv(A ,A ) B z B z B z H z H z H z A z A z A z ===?????

语音信号处理系统设计

课题六语音信号处理系统设计 摘要:语音信号处理是研究用数字信号处理技术对语音信号进行处理的一门学科。语音信号处理的目的是得到某些参数以便高效传输或存储,或者是用于某种应用,如人工合成出语音、辨识出讲话者、识别出讲话内容、进行语音增强等。本文简要介绍了语音信号采集与分析以及语音信号的特征、采集与分析方法,并在采集语音信号后,在MATLAB 软件平台上进行频谱分析,并对所采集的语音信号加入干扰噪声,对加入噪声的信号进行频谱分析,设计合适的滤波器滤除噪声,恢复原信号。利用MATLAB来读入(采集)语音信号,将它赋值给某一向量,再将该向量看作一个普通的信号,对其进行FFT变换实现频谱分析,再依据实际情况对它进行滤波,然后我们还可以通过sound命令来对语音信号进行回放,以便在听觉上来感受声音的变化。 关键词:Matlab,语音信号,傅里叶变换,滤波器 1课程设计的目的和意义 本设计课题主要研究语音信号初步分析的软件实现方法、滤波器的设计及应用。通过完成本课题的设计,拟主要达到以下几个目的: 1.1.了解Matlab软件的特点和使用方法。 1.2.掌握利用Matlab分析信号和系统的时域、频域特性的方法; 1.3.掌握数字滤波器的设计方法及应用。 1.4.了解语音信号的特性及分析方法。 1.5.通过本课题的设计,培养学生运用所学知识分析和解决实际问题的能力。 2 设计任务及技术指标 设计一个简单的语音信号分析系统,实现对语音信号时域波形显示、进行频谱分析,利用滤波器滤除噪声、对语音信号的参数进行提取分析等功能。采用Matlab设计语言信号分析相关程序,并且利用GUI设计图形用户界面。具体任务是:

录音合成技术教案-音频信号处理

第四章:音频信号处理-1 信号在时间范畴内的处理 第13 –16 学时

内容 ?混响的概念 ?决定混响的因素?混响时间的选择?时空 ?声源、麦克与环境?术语概念?反射的顺序?条件 ?参数

混响的概念 ◆乐器停止发音后,声音并不马上消失,而是伴有余音的,即分贝 数渐渐下降,这种现象称为混响。 ◆声学上把声音衰减60dB的时间称为混响时间。 ◆混响是由于声音在室内反射造成的,室外是没有混响的。 ◆反映音乐厅质量的主要因素是混响。

决定混响的因素 ◆房间的体积:通常体积越大,混响时间越长; ◆房间内壁的材质:如果内壁是粗糙柔软的吸声材质,那么混响时间会短 些,如果内壁是坚硬光滑的反射材质,那么混响时间会长些,房间的内壁指的是墙壁、天花板、地板,以及音乐厅内一切影响声音传播的障碍物,特别是坐椅,增加有软垫的坐椅数量会缩短混响时间; ◆声音的频率:由于高频声音的反射和衍射能力比低频声音差,所以高频 声音的混响时间比低频声音短。

混响时间的选择 ◆混响时间太短会使声音变得干涩,太长则会使音乐失去清晰的线条,两 者都不利于音乐的欣赏。实践表明,适合乐队演奏的音乐厅,混响时间应在1.5到2秒之间。 ◆最佳的混响时间并不是唯一的,它取决于听众的爱好、音乐的类型、乐 队的规模等诸多因素。 ◆例如:重视音响效果的听众希望混响时间长些(交响乐) ,重视音乐细节 (旋律、节奏等)的欣赏者希望混响时间短些(歌剧)。

时空主题词:干音、湿音、时间、空间、直达、反射、混响、延时 ?我们熟悉的时间与空间 ?室内 ?室外 ?混响 ?反射 ?时间与空间的概念 ?早期反射与后期混响 ?延时与延迟 ?空间尺寸

基于MATLAB的语音信号分析与处理系统的设计

数字信号处理大作业 基于MATLAB的语音信号分析与处理系统的设计 班级:物联网1401 学号: 姓名:zk 目录 一、设计目的 (2)

二、设计内容及要求 (2) 2.1设计内容 (2) 2.2设计要求 (3) 三、详细设计过程 (3) 3.1语音信号的采集 (3) 3.2 原始语音信号的时域频域分析 (3) 3.3原始语音信号加噪 (5) 3.4设计滤波器 (6) 3.5 MATLAB语音信号处理界面设计 (8) 3.6 利用C语言得出声音带宽 (11) 四、调试结果 (11) 五、结论 (12) 参考文献 (13) 一、设计目的 综合运用数字信号处理的理论知识进行频谱分析和滤波器设计,通过理论推导得出相应结论,再利用 MATLAB和C语言作为编程工具进行计算机实现,从而加深对所学知识的理解,建立概念。 二、设计内容及要求 2.1设计内容 ①录制一段自己的语音信号(我是物联网1401班的张坤),并对录制的信号进行采样。

②画出采样后语音信号的时域波形和频谱图。 ③给定滤波器的性能指标,采用窗函数法或双线性变换设计滤波器,并画出滤波器的频率响应。 ④利用设计的滤波器对采集的语音信号进行滤波,画出滤波后信号的时域波形和频谱,并对滤波前后的信号进行对比,分析信号的变化,回放语音信号。 ⑤用 MATLAB 设计一信号处理系统界面。 ⑥利用C语言对录制语音信号进行FFT变换(取其中的1024进行),计算出自己声带的带宽。 2.2设计要求 ①学会 MATLAB 的使用,掌握 MATLAB 的程序设计方法。 ②掌握在 Windows 环境下语音信号采集的方法。 ③掌握数字信号处理的基本概念、基本理论和基本方法。 ④掌握 MATLAB 设计 FIR 和 IIR 数字滤波器的方法。 ⑤学会用 MATLAB 对信号进行分析和处理。 ⑥学会用C语言进行FFT程序的编写和算法效果的仿真。 三、详细设计过程 3.1语音信号的采集 利用PC 机上的声卡和Windows 操作系统实现语音信号的的采集。打开“开始”菜单,选择“程序\附件\娱乐\录音机”项,打开Windows中自带的录音机程序,点击录音机程序界面中的录音按钮,开始声音录制。录完后点击放音按钮,可以实现所录音的重现。以文件名“zhangkun”保存入D:\ 中。文件存储器的后缀默认为.wav ,这是Windows 操作系统规定的声音文件存的标准。 3.2 原始语音信号的时域频域分析 利用MATLAB中的“audioread”命令来读入(采集)语音信号,将它赋值给某一向量。再对其进行采样,记住采样频率和采样点数。根据help文档,下面介绍audioread函数三种调用格式。

音频信号处理

摘要 在机器人技术领域,由于嵌入式处理器的运算能力有限,在某些情况下,尤其是在处理音频信号时,可将一些运算转移至一个远程桌面或服务器上完成。例如,在一个远程处理器上完成话语识别往往效率更高,更加迅速、准确。大多数现代智能手机均以远程方式处理语音识别。 此外,用户可能会希望在机器人上直接使用自己的信号处理算法。例如,用户会希望通过分析输入信号来探测诸如音乐、铃声、语音等不同发声事件。 本文将介绍机器人NAO 上的音频模块的组织方式、如何访问NAO 扩音器声音数据以及如何以本地或远程方式将数据输送至NAO 的扬声器。相关研究成果 ● 随着互联网的不断发展,研究人员成功实现了 众多研究项目,使人们可以通过网络传送大量(音频或视频)数据。为此开发出的许多使用协议还可优化数据传输质量。NAOqi 框架使用的正是其中的一种协议(即“SOAP ”,全称为“Simple Object Access Protocol ”),可以通过网络收发音频信号。● 在NAO 上生成和记录声音时,使用的是ALSA (Advanced Linux Sound Architecture )库。 原理 目前,NAOqi 中包含六个相互关联的音频模块。其组织方式如图1所示。 ALAudioDevice 模块管理音频输入与输出。 因此,所有试图向NAO 的扬声器发送声音的模块,或是处理来自NAO 扩音器声音的模块,都必须与ALAudioDevice 模块交流信息。 图1NAOqi 音频模块 构架 关键性能音频信号处理

实时声音处理 为了实时处理扩音器输入信号,首先需要创建一个“Aud io in”模块。随后,该模块必须订阅至ALAudioDevice 模块。后者将通过一个调回函数发送输入缓冲。ALAudioDevice 按顺序发送缓冲,即输入缓冲首先发送至第一个订阅模块,待第一个模块完成处理后再发送至第二个订阅模块,以此类推。该工作模式请见图2。 ALAudioDevice 模块按照由inputBufferSize 的设定值及输入样本率(48kHz )确定的时间间隔定期读取输入缓冲。因此,订阅模块的总处理用时不得超过这一时间间隔,否则会错失音频缓冲,从而无法实现实时处理。优点 远程处理声音信号的优点在于用户可较为轻松地调试或优化其声音处理算法,而且,与在机器人上运行相比,这些算法可占用更多CPU 负荷。然而,如果用户的模块直接在NAO 上运行,音频缓冲的输送速度会较快。局限 ● 通过ALAudioDevice 模块可获得的最大输入缓冲大小为65536(每个扩音器频道为16384个16位样本)。 因此,一个缓冲的最长处理时间为341ms 。 ● 通过ALAudioDevice 模块可发送的最大缓冲大小为32768(16384个16位立体声样本)。 ● 由于输入样本率为48kHz ,远程声音处理所需的最低链接比特率为384kBits/s 。如果用户使用的网络链接速度过低,或链接质量不佳,就会导致错失音频缓冲。 图2输入缓冲 发送与处理的工作模式

1.4音频信号处理电路

模块1 CRT电视机的维修 任务1.4音频信号处理电路 知识能力 电视机的伴音解调电路的任务是完成电视伴音的解调和放大,使声音信号有足够的功率推动扬声器。伴音电路是由伴音中频滤波器(带通滤波器)、第二伴音中放限幅放大器、鉴频器、前置放大器、音量控制、功率放大器等电路组成。通常把伴音中频放大器、鉴频器和电子音量衰减器做在一块集成电路中,或与图像中频电路做在一起。 1.4.1 音频处理电路的原理

视频检波输出的视频全电视信号(其中包含有6.5MHz的第二伴音中频信号,也有单独供出这一信号的电路方式)进入6.5MHZ滤波器,取出6.5MHz调频伴音中频信号。然后由伴音中放电路作限幅放大,送到鉴频器,解调出伴音音频信号。至此已还原出伴音信号,但它的功率小,不足以推动扬声器,所以这种小音频信号还要经前置音频放大器和功率放大器放大后才最后送扬声器。为了能控制音量,在前置放大和功率放大器之间还插入音量控制电路。音量控制的方法有多种,最简单的是电位器分压法,用电位器做音频前置放大器音频输出的负载,从活动滑臂上取出信号送功率放大级。在集成电路电视机中目前多采用直流电压音量控制法,其方法是在音频前放置放大器与功率器之间设一个电子衰减器。图4-1所示是一个采用电子衰减器的彩电的整机方框图。图中的虚线框即是电子衰减器。它有一个信号输入端和一个直流电压控制输入端,其衰减量的大小决定于输入的直流电压的大小,有的电路是该电压越高,信号衰减越大,输出信号电子越低;有的电路则与此相反。产生控制用直流电压的 方法有两种:1)电位器调节法,如图中的R 2。12V电压加在电位器R 2 两端,调节滑臂,即可 调节直流控制电压;2)键控法。键控信号送入微电脑,再由微电脑控制电路输出直流音量控制电压控制电子衰减器(当然其间还插入接口电路)。由于采用电子衰减器具有直流电压控制衰减功能,故易于开发伴音静噪和静音功能。静音功能是使微电脑控制电路产生一高电位——静音控制电压,送至衰减器音量控制端暂停伴音输出。电子衰减器一般随伴音中频电路或功放电路制作在集成电路中,其直流电压衰减控制端由引脚引出与外电路连接。 目前大多数彩电的伴音通道中,还有两个附属电路:一种是AV接口电路。为了使电视机具有连接录像机、VCD、DVD机等视频设备播放视频节目的功能,设置了AV接口电路。它的主电路是集成化的电子开关,图4-1中给出了音频切换的示意图(视频部分未画)。伴音解调器(鉴频器)输出的音频信号不直接送往音频预置放大电路,而先送往AV接口电路中的模拟开关的一个输入端。外部来的音频信号送往开关的另一个输入端,电子开关可以选择这两路输入信号之一并将它送至音频放大电路。 还有一种是伴音中频制式转换电路。由于世界各地区电视广播的制式的差别,第二伴音中频信号的频率有4.5MHz、5.5MHz、6.0MHz、6.5MHz等多种。因此在多制式电路的机型中,有必要增加伴音中频制式转换电路或多通道鉴频电路。这一电路的本质是使用电子开关、带通滤波器及变频技术,使伴音解调电路适应各制式的伴音中频,而其转换过程则由微电脑来自动控制(也有人工控制的)。 1.4.2、音频处理电路的检修

基于FPGA的音频处理系统设计(毕业设计开题报告)

基于FPGA的音频处理系统设计 1 课题来源: 随着数字记录技术和大规模集成电路技术的迅速发展,消费类电子产品正以日新月异的新姿展现在当代人的面前,音响类娱乐产品的多样化、小型化与数字化及品种的琳琅满目丰富了音响产品市场,满足了多层次消费者的不同需要。在这些科技产品的快速发展过程中,数字音频技术在其中扮演着重要的角色。 现在音频处理技术的任务越来越复杂,对信号处理的效果要求不断提高,音频处理技术的算法也越来越复杂,要求在几十ms甚至几ms的时间内完成音频信号大量的数据采集、处理、存储、传输,这就对音频处理系统处理器的运算速度提出了更高的要求。 2 研究的目的和意义: 随着消费电子的快速发展,数字音频技术的应用显得越来越重要,对数字音频技术的研究符合市场与科技需求。数字音频处理技术涉及生活的方方面面,包括滤波器技术、数字信号处理、人工智能、模式识别、编码学、等多个学科的知识,是信息化技术类学科当中发展极为迅速的一个方向之一。音频信号处理技术包含的内容非常多,主要有信号存储、语音合成、语音识别、音频压缩、语音理解、音频编码、语音识别、语音增强等多个分支,总而言之,音频信号处理技术包括音频信号的数字化处理、数字化实现、数字化变换、数字化存储、数字化传播、及音频的变换、语音的处理、语音的识别等自然科学多个领域的综合运用。 传统的数字滤波器采用乘法和累加结构,需要进行多次的乘法和加法运算。由于乘法器庞大的结构,占用了系统芯片上的大部分面积,消耗了大部分功率,使得音频处理系统在体积和处理速度上存在着不足,所以传统的数字滤波器不能很好的满足家用和便携式音频处理器对体积小、功耗小信号处理速度高的要求。而近些年来使用范围越来越广泛,技术越来越成熟的FPGA器件对于解决对于解决音频信号的高标准、高要求有着其独特的优势。基于FPGA器件的音频信号处理的实现方案,在于对声音信号的收集、处理及应用,工作的重点是在噪声环境中如何

matlab音频信号处理技术

实验一Matlab的音频信号处理技术 一.目的要求 掌握Matlab处理.wav的基本原理和方法。 二.实验内容 【实验题1】音量标准化 (说明:如果有几段音频的电平有大有小,这样的音频保存后,播放时就有的声音大、有的声音小,音量标准化就是把电平大小不同的音频文件,量化到一个既不失真、又有一定标准(100%)的、统一的音量电平,这样就不会出现声音有大有小的情况了。)现以微软自带的“Alarm09.wav”音频信号为例: 1.将Alarm09.wav复制到Matlab当前目录中(或者改变当前目录); 2.再通过音量标准化处理后保存为Alarm09new.wav文件。 实现程序如下: clear; close all; clc [Y, FS, NBITS]=wavread('Alarm09.wav');%将WAV文件转换成变量 FS,NBITS %显示采样频率和量化比特数 Ym=max(max(max(Y)),max(abs(min(Y))));%找出双声道极值 X=Y/Ym;%归一化处理 wavwrite(X,FS,NBITS, 'Alarm09new.wav');%将变量转换成WAV文件 【思考题】 1. 试听标准化处理后的声音,其有何变化? 标准化处理后音量变得稍大。 2. 简单描述“%找出双声道极值”中每一个max和min的意义。 找出wav文件转换为变量后的有最大绝对值的数值,用以归一化处理。

【实验题2】声道分离合并与组合 (说明:立体声或双声道音频信号有左右两个声道利用Matlab实现双声道分离两路声道合并和两个单声道组合成一个双声道等效果这些操作实际利用了Matlab的矩阵抽取、相加和重组运算) 现以“荷塘月色.wav”音频信号为例: clear; close all; clc [X, FS, NBITS]=wavread('荷塘月色.wav'); %将WAV文件转换成变量 X1=X(:,1);%抽取第1声道 X2=X(:,2);%抽取第2声道 wavwrite(X1,FS,NBITS, '荷塘月色1.wav'); wavwrite(X2,FS,NBITS, '荷塘月色2.wav'); X12=X1+X2;%两路单声道合并 X12m=max(max(max(X12)),max(abs(min(X12))));%找出极值 Y12=X12/X12m;%归一化 wavwrite(Y12,FS,NBITS, '荷塘月色12.wav'); X3=[X1,X2];%两路单声道变量组合 wavwrite(X3,FS,NBITS, '荷塘月色3.wav'); 【思考题】 1.比较各种处理后的文件大小。 荷塘月色1和2以及归一化后的12文件较小,只有原来的一半,荷塘月色3和原来一样大。 2.试听处理后的文件,简述有何不同? 效果不明显。本以为可以听到男声和女声的单独声道,但是没有听出区别。

语音信号变声处理系统

数字信号处理课程设计报告 课设题目:语音信号变声处理系统学院:信息与电气工程学院专业:电子信息工程 班级:1102502 姓名:王珂 学号:110250217 指导教师:周志权、赵占锋 哈尔滨工业大学(威海) 2015年1月5日

1.设计任务 电视台经常针对某些事件的知情者进行采访,为了保护知情者,经常改 变说话人的声音,请利用所学的知识,将其实现。 (1)自己录制一段正常的声音文件,或者通过菜单选择的方式选择一段正常声音文件;(2)能够播放该文件; (3)对语音信号进行处理,要求处理后的语音信号基本不影响正常收听与理解; (4)对处理参数能够通过matlab 界面进行调节,以对比不同处理效果;(5)能够对处理后的声音文件与原始声音文件的频谱进行观察、分析。 (6)编制GUI 用户界面。 2.课程设计原理及设计方案 语音科学家将人类发声过程视作一个由声门源输送的气流经以声道、口、鼻腔组成的滤波器调制而成的。人类语音可分为有声语音和无声语音,前者是由声带振动激励的脉冲信号经声腔调制变成不同的音,它是人类语言中元音的基础,声带振动的频率称为基频。无声语音则是声带保持开启状态,禁止振动引发的。一般来说,由声门振动决定的基频跟说话人的性别特征有关,如下表,而无声语音则没有体现这个特征。说话人的个性化音色和语音的另外一个声学参数——共振峰频率的分布有关。儿童由于声道短,其共振峰频率高于成年人,成年女性的声道一般短于成年男性,所以女性的共振峰频率一般高于男性。在进行性别变声时,主要考虑基频和共振峰频率的变化。当基频伸展,共振峰频率也同时伸展时,可由男声变成女声,女声变成童声;反之,基频收缩,共振峰频率也同时收缩时,则由童声变女声,女声变男声。为了获得自然度、真实感较好的变声效果,基频和共振峰频率通常必须各自独立地伸缩变化 图1基频和共振峰频率分布的变化 共振峰频率的改变是基于重采样实现的,从重采样原理知道,这也同时引发了基频的变化,为保证基频变化和共振峰频率变化的独立、互不相关,

语音信号处理综述

语音信号处理综述 摘要:随着信息技术的发展,语音信号处理技术不断地融入到各个领域。作为21世纪信息技术领域最重要的科学技术之一,它成为了人机接口的关键技术,并且越来越受到人们的重视。本文介绍了国内外语音技术的相关发展及该技术在通讯,家具,导航等领域的应用。并对他们的语音技术的优缺点进行了总结。 关键词:语音技术通讯 Review of Speech Signal Processing Abstract: With the development of information technology, the Automatic Speech Recognition (ASR) constantly into the fields. The ASR which is one the most important technology in information fields and it is the key technology of the man-machine interface, and which is more and more appreciated by people. The text introduces the development and application in communication, household and navigation of the ASR. I summer the advantages and disadvantages of their ASR. Key words: ASR communication 一、研究语音信号处理技术的背景及其意义 随着人们进入信息时代,人们的生活、学习、工作领域也越来越智能化。作为人和这些领域沟通的关键接口,语音信号处理技术自然引起里人们的足够重视。该技术就是让机器通过识别和理解把语音信号转变为相应的文本或命令的高级技术。通过该技术人们可以不通过键盘的输入过程而直接通过语音进行操作,并且语音技术的应用已经成为一个具有竞争性的新兴高技术产业。如今,语音技术相关产品已经成为了我们生活的一部分,它的作用越来越被重视,人们对当前语音技术的提高也是越来越期待。 二、语音处理系统的分类 (1)按发音方式分为孤立词、连接词和连续语音的语音识别系统。语音识别系统可能要求说话者以单字、单词、或是短语为发音单位,其间就必须要略微停顿,否则识别就会有问题。以前的语音识别系统,几乎都是以单字或单词为

音频信号处理

一、问题的提出:数字语音是信号的一种,我们处理数字语音信号,也就是对一种信号的处理,那信号是什么呢?信号是传递信息的函数。 一、问题的提出: 数字语音是信号的一种,我们处理数字语音信号,也就是对一种信号的处理,那信号是什么呢? 信号是传递信息的函数。离散时间信号%26mdash;%26mdash;序列%26mdash;%26mdash;可以用图形来表示。 按信号特点的不同,信号可表示成一个或几个独立变量的函数。例如,图像信号就是空间位置(二元变量)的亮度函数。一维变量可以是时间,也可以是其他参量,习惯上将其看成时间。信号有以下几种: (1)连续时间信号:在连续时间范围内定义的信号,但信号的幅值可以是连续数值,也可以是离散数值。当幅值为连续这一特点情况下又常称为模拟信号。实际上连续时间信号与模拟信号常常通用,用以说明同一信号。 (2)离时间信号:时间为离散变量的信号,即独立变量时间被量化了。而幅度仍是连续变化的。 (3)数字信号:时间离散而幅度量化的信号。 语音信号是基于时间轴上的一维数字信号,在这里主要是对语音信号进行频域上的分析。在信号分析中,频域往往包含了更多的信息。对于频域来说,大概有8种波形可以让我们分析:矩形方波,锯齿波,梯形波,临界阻尼指数脉冲波形,三角波,余旋波,余旋平方波,高斯波。对于各种波形,我们都可以用一种方法来分析,就是傅立叶变换:将时域的波形转化到频域来分析。 于是,本课题就从频域的角度对信号进行分析,并通过分析频谱来设计出合适的滤波器。当然,这些过程的实现都是在MATLAB软件上进行的,MATLAB软件在数字信号处理上发挥了相当大的优势。 二、设计方案: 利用MATLAB中的wavread命令来读入(采集)语音信号,将它赋值给某一向量。再将该向量看作一个普通的信号,对其进行FFT变换实现频谱分析,再依据实际情况对它进行滤波。对于波形图与频谱图(包括滤波前后的对比图)都可以用 MATLAB画出。我们还可以通过sound命令来对语音信号进行回放,以便在听觉上来感受声音的变化。 选择设计此方案,是对数字信号处理的一次实践。在数字信号处理的课程学习过程中,我们过多的是理论学习,几乎没有进行实践方面的运用。这个课题正好是对数字语音处理的一次有利实践,而且语音处理也可以说是信号处理在实际应用中很大众化的一方面。 这个方案用到的软件也是在数字信号处理中非常通用的一个软件%26mdash;%26mdash;MATLAB软件。所以这个课题的设计过程也是一次数字信号处理在MATLAB中应用的学习过程。课题用到了较多的MATLAB语句,而由于课题研究范围所限,真正与数字信号有关的命令函数却并不多。 三、主体部分: (一)、语音的录入与打开: [y,fs,bits]=wavread('Blip',[N1 N2]);用于读取语音,采样值放在向量y中,fs表示采样频率(Hz),bits表示采样位数。[N1 N2]表示读取从N1点到N2点的值(若只有一个N的点则表示读取前N点

数字信号处理实验内容 音频信号分析与处理

数字信号处理实验内容—— 音频信号采集、分析及处理 一、实验目的 1.以音频信号为例,熟悉模拟信号数字处理过程,进一步理解数字信 号处理概念。 2.掌握运用Matlab实现对音频信号的时频分析方法; 3.初步掌握数字音频信号合成的方法。 4.掌握运用Matlab设计IIR和FIR滤波系统的方法; 5.掌握运用Matlab实现对加噪的音频信号进行去噪滤波的方法。锻 炼学生运用所学知识独立分析问题解决问题的能力,培养学生创新能力。 二、实验性质 综合分析、设计性实验 三、实验任务 实验内容一:windows系统中的“ding”音频信号的采集、分析、合成

1.音频信号的采集 编写Matlab程序,采集windows系统中的“ding”声,得到*.wav音频文件,而后实现音频信号回放。 2.音频信号的频谱分析 运用Matlab软件实现对音频信号的时域分析和频域分析,并打印相应的图形,完成在实验报告中。 注意:此音频信号的频谱包含两条主要谱线,在进行频谱分析时,注意频谱的完整性,利用MATLAB实现对两条主要谱线的定位并计算谱线所对应的模拟频率。 3.音频信号的分解和合成 运用Matlab软件实现音频信号的分解与合成,将音频信号的频谱中两部分频谱成分进行分解,分别绘制出分解后的两个信号的频谱图;然后将分解后的两个信号再合成为一个新的信号,将合成后的新信号的时域、频域图与原来的信号时域、频域图相比较,绘制出对比效果图。 4.音频信号的回放 运用Matlab软件实现音频信号的回放,将合成后的新信号和原音频信号分别进行回放,对比两个信号的声音效果。

5.音频信号分段傅里叶分析(选作) 分析对一般音频.wav信号进行一次性傅里叶分析时存在的主要问题,利用分段傅里叶变换对该音频信号重新分析并合成。对比一次傅里叶分析结果并进行总结。 实验内容二:任意音频信号的时域和频域分析及数字滤波器设计 1.音频信号的采集 音频信号的采集可以通过Windows自带的录音机也可以用专用的录制软件录制一段音频信号(尽量保证无噪音、干扰小),也可以直接复制一段音频信号(时间为1s),但必须保证音频信号保存为.wav的文件。 2.音频信号的时域、频域分析 运用Matlab软件实现对音频信号的打开操作以及时域分析和频域分析,并画出相应的图形,打印在实验报告中。 3.引入干扰信号 在原有的音频信号上,叠加一个频率为100KHz的正弦波干扰信号(幅度自定,可根据音频信号幅度情况而定)。 4.数字滤波器设计

声音信号处理基本原理

声音信号处理基本原理 一、声音信号之特性 声音是一维信号研究的重要对象,最常见的传播声音的介质是空气,声波和电磁波有很大的不同,例如声波的速度显然比光波慢的多,声音传播的速度与介质的性质和温度有关,例如在空气温度为0 度时,声波的速度为331.5m/s,如果空气温度每升高 1 度时,则声音传播的速度约增加0.6m/s。电磁波是利用电磁感应的方式来传播,而声波的传播方式则通常是机械式的,当介质如空气受到某处震源的压迫时,被压迫的空气分子,就对其平衡位置产生位移,并引起附近空气分子也对其平衡位置产生位移。如所受的压迫是周期性的,而且其频率在声波范围内,此时,空气中就产生声波。声波通常是指振动频率在人能感应范围以内的波动,称为可闻波(Audiblesound)。当频率高于可闻声时称超音波(Ultrasound),其能量较高,一般可用于医学或工程之检测或塑料等材料加工,至于频率比可闻波低时称为低音波(Infrasound),例如地震所引起的地震波。 至于目前声音信号与数字信号处理关系最大的,首推通信方面,由于多媒体信息普及,其数据内容除了文字就是图片与声音,尤其是结合数字电子声音技术的因特网电话,它利用数字信号处理将语音加以数字化压缩,转成数据的形式之后再用线路一部分的频宽移作声音传送,透过因特网传送到通话的彼端,再解压缩回复成为原来的声音,在现在的计算机配备中,计算机音效早已从以往的PC 喇叭变为Adlib 卡、声霸卡等输入及输出的装置,因此使得因特网电话出现广泛的热潮﹐目前已有在网络上面点播歌曲的应用案例。一般电话的语音与电视讯号都是模拟的形式﹐不经过压缩与编码就能传送,但是在频宽与多任务能力方面却远不如因特网﹐因此数字信号处理将掀起未来通信方面的革命。 数字电子声音技术中有一项很重要的工作就是编码的方法,常见的编码方法为脉波码调制(pulse code modalation; PCM) 及高阶脉波数字码调制(advanced pulse code modulation; ADPCM),目前像雷射唱盘、数字录音带、通信卫星、电话通信,都是各式各样的PCM 技术应用的具体例子。影响PCM 的效果的一个因素一为取样频率,一为取样位数,由于这两者其值大小都与人类的听觉与语音能力有关,因此我们先介绍人耳及嘴唇方面的特性。 二、人耳及嘴唇方面的特性 如果我们把人类的语音转到频谱上来分析,可以看到在频谱上人类语音信号大都集中于某一个区段有较高的能量,这也意味着这个能量较高的频带就是人类声腔的共鸣区域,我们通常称这个频带为基本频率(fundamental frequency),每个人的基本频率因为天生的口腔结构而有所不同,通常小孩子的基本频率在250~400HZ 左右,而成年女子约在200~300HZ左右,而成年男子则约在100~150HZ 左右,因此男高音较为少见,也就是这个原因。 当人类发出声音时,如果有利用到声带振动来发音,则称为有声音(Voiced Sound),否则称之为无声音(unvoiecd sound),而语音中又可分为具有稳定声道激发共鸣振动及音源振动变化较多较杂乱的子音。

相关文档
相关文档 最新文档