文档库 最新最全的文档下载
当前位置:文档库 › 深度学习研究进展

深度学习研究进展

第31卷第7期2014年7月

计算机应用研究

ApplicationResearchofComputers

V01.31No.7

Jul.2014深度学习研究进展冰

刘建伟,刘媛,罗雄麟

(中国石油大学自动化研究所,北京102249)

摘要:鉴于深度学习的重要性,综述了深度学习的研究进展。首先概述了深度学习具有的优点,由此说明了引入深度学习的必要性;然后描述了三种典型的深度学习模型,包括卷积神经网络模型、深度信任网络模型和堆栈自编码网络模型,并对近几年深度学习在初始化方法、网络层数和激活函数的选择、模型结构、学习算法和实际应用这四个方面的研究新进展进行了综述;最后探讨了深度学习在理论分析、数据表示与模型、特征提取、训练与优化求解和研究拓展这五个方面中有待进一步研究解决的问题。

关键词:深度学习;神经网络;模型;表示;堆栈;预训练

中图分类号:TPl81文献标志码:A文章编号:1001—3695(2014)07—1921—10

doi:10.3969/j.issn.1001—3695.2014.07.001

Researchanddevelopmentondeeplearning

(ResearchInstitute旷Automation,ChinaUniversity旷Petroleum,Beijing102249,China)

Abstract:Inview-ofthesignificanceofdeeplearning,thispaperreviewedtheresearchanddevelopmentondeeplearning.Firstly,thispapersumnlarizedtheadvantageofdeeplearning,andillustratedthenecessityofintroducingdeeplearning.Sec—ondly,itdescribedthreekindsoftypicaldeeplearningmodels,includedconvolutionalneuralnetworknlodel.deepbeliefnet—worknlodel.andstackedauto—encodernetworkmodel.Thirdly.itreviewednew-researchanddevelopmentondeeplearninginrecentyears,includedthechoiceofinitializationmethods.thenunlberofnetworklayers.andactivationfunction.nlodelstruc—ture,learningalgorithms,andpracticalapplication.Finally,itpresentedtheproblemstobesolvedinaspectsoftheoreticalanalysis,representation

andmodelofdata,featureextraction,trainingandoptimization,andresearchextension.

Keywords:deeplearning;neuralnetwork;model;representation;stacking;pre—training

0引言

许多研究表明,为了能够学习表示高阶抽象概念的复杂函数,解决目标识别、语音感知和语言理解等人工智能相关的任务,需要引入深度学习(deeplearning)。深度学习架构由多层非线性运算单元组成,每个较低层的输出作为更高层的输入,可以从大量输入数据中学习有效的特征表示,学习到的高阶表示中包含输入数据的许多结构信息,是一种从数据中提取表示的好方法,能够用于分类、回归和信息检索等特定问题中。

深度学习的概念起源于人工神经网络的研究,有多个隐层的多层感知器是深度学习模型的一个很好的范例。对神经网络而言,深度指的是网络学习得到的函数中非线性运算组合水平的数量。当前神经网络的学习算法多是针对较低水平的网络结构,将这种网络称为浅结构神经网络,如一个输入层、一个隐层和一个输出层的神经网络;与此相反,将非线性运算组合水平较高的网络称为深度结构神经网络,如一个输入层、三个隐层和一个输出层的神经网络。深度学习与浅学习相比具有许多优点,说明了引入深度学习的必要性:

a)在网络表达复杂目标函数的能力方面,浅结构神经网络有时无法很好地实现高变函数等复杂高维函数的表示,而用深度结构神经网络能够较好地表征。

b)在网络结构的计算复杂度方面,当用深度为A的网络结构能够紧凑地表达某一函数时,在采用深度小于A的网络结构表达该函数时,可能需要增加指数级规模数量的计算因子,大大增加了计算的复杂度。另外,需要利用训练样本对计算因子中的参数值进行调整,当一个网络结构的训练样本数量有限而计算因子数量增加时,其泛化能力会变得很差。

C)在仿生学角度方面,深度学习网络结构是对人类大脑皮层的最好模拟。与大脑皮层一样,深度学习对输入数据的处理是分层进行的,用每一层神经网络提取原始数据不同水平的特征。

d)在信息共享方面,深度学习获得的多重水平的提取特征可以在类似的不同任务中重复使用,相当于对任务求解提供了一些无监督的数据,可以获得更多的有用信息。

深度学习比浅学习具有更强的表示能力,而由于深度的增加使得非凸目标函数产生的局部最优解是造成学习困难的主要因素。反向传播基于局部梯度下降,从一些随机初始点开始运行,通常陷入局部极值,并随着网络深度的增加而恶化,不能很好地求解深度结构神经网络问题。2006年,Hinton等人。1o提出的用于深度信任网络(deepbeliefnetwork,DBN)的无监督

收稿日期:2013—09—17;修回日期:2013—11—05基金项目:国家“973”计划资助项目(2012CB720500);国家自然科学基金资助项目(21006127);中国石油大学(北京)基础学科研究基金资助项目(JCXK一2011—07)

作者简介:刘建伟(1966一),男,副研究员,博士,主要研究方向为智能信息处理、复杂系统分析、预测与控制、算法分析与设计(1iujw@cup.edu.cn);刘媛(1989一),女,硕士研究生,主要研究方向为机器学习;罗雄麟(1963一),男,教授,博士,主要研究方向为智能控制.

?1922?计算机应用研究第31卷

学习算法,解决了深度学习模型优化困难的问题。求解DBN方法的核心是贪婪逐层预训练算法,在与网络大小和深度呈线性的时间复杂度上优化DBN的权值,将求解的问题分解成为若干更简单的子问题进行求解。从具有开创性的文献[1]发表之后,Bengio、Hinton、Jarrett、Larochelle、Lee、Ranzato、Salakhut—dinov、Taylor和Vincent等大量研究人员。2“3。对深度学习进行了广泛的研究以提高和应用深度学习技术。Bengio和Ranzato等人。2’”o提出用无监督学习初始化每一层神经网络的想法;Ethan等人。14o尝试理解无监督学习对深度学习过程起帮助作用的原因;Glorot等人。15。研究深度结构神经网络的原始训练过程失败的原因。许多研讨会,如the2009ICMLWorkshoponLearningFeatureHierarchies,the2008NIPSDeepLearning

Work—shop:FoundationsandFutureDirections,the2009NIPSWorkshoponDeepLearningforSpeechRecognitionandRelatedApplications以及the2010IEEETransonAudio,Speech,andLanguagePro—cessing等,都致力于深度学习及其在信号处理领域的应用。文献[16]对深度学习进行了较为全面的综述,基于无监督学习技术提出贪婪逐层预训练学习过程用于初始化深度学习模型的参数,从底层开始训练每层神经网络形成输入的表示,在无监督初始化之后,堆栈各层神经网络转换为深度监督前馈神经网络,用梯度下降进行微调。用于深度学习的学习方法主要集中在学习数据的有用表示,在神经网络较高层中使学习到的特征不随变化的因素而变化,对实际数据中的突发变化具有更强的鲁棒性。1“。文献[18]给出了训练深度学习模型的相关技巧,尤其是受限玻尔兹曼机(restrictedBoltzmannmachine,RBM),许多来自神经网络训练的想法也可以用于深度结构神经网络学习。1扎”。。Bengio在文献[21]中给出了用于不同种类深度结构神经网络的训练方法的指导意见。深度学习方法已经被成功用于文本数据学习任务和视觉识别任务上旧’钆22“…。

鉴于深度学习的理论意义和实际应用价值,国内对深度结构的研究尚处于起步阶段,这方面已经发表的文献相对较少而且多是侧重于应用领域,与国外已有综述文献[16,21]相比,本文系统综述了深度学习的最新研究进展,为进一步深入研究深度学习理论和拓展其应用领域奠定了一定的基础。

1深度学习概述

1.1深度学习表示模型和网络结构

深度学习方法试图找到数据的内部结构,发现变量之间的真正关系形式。大量研究表明,数据表示的方式对训练学习的成功产生很大的影响,好的表示能够消除输入数据中与学习任务无关因素的改变对学习性能的影响,同时保留对学习任务有用的信息。2扎3。。。

深度学习中数据的表示有局部表示(10calrepresentation)、分布表示(distributedrepresentation)E31’”o和稀疏分布表示(sparsedistributedrepresentation)一…5。三种表示形式。学习输入层、隐层和输出层的单元均取值0或1。举个简单的例子,整数i∈{1,2,…,__、_}的局部表示为向量r(i),该向量有__、_位,由1个1和N一1个0组成,即r,(i)=1…。分布表示中的输入模式由一组特征表示,这些特征可能存在相互包含关系,并且在统计意义上相互独立。对于例子中相同整数的分布表示有log,__、_位的向量,这种表示更为紧凑,在解决降维和局部泛化限制方面起到帮助作用。稀疏分布表示介于完全局部表示和非稀疏分布表示之间,稀疏性的意思为表示向量中的许多单元取值为0。对于特定的任务需要选择合适的表示形式才能对学习性能起到改进的作用。当表示一个特定的输入分布时,一些结构是不可能的,因为它们不相容。例如在语言建模中,运用局部表示可以直接用词汇表中的索引编码词的特性,而在句法特征、形态学特征和语义特征提取中,运用分布表示可以通过连接一个向量指示器来表示一个词。分布表示由于其具有的优点,常常用于深度学习中表示数据的结构。由于聚类簇之间在本质上互相不存在包含关系,因此聚类算法不专门建立分布表示,而独立成分分析(independentconlponentanalysis,ICA)一6。和主成分分析(principalconlponentanalysis,PCA)旧。。通常用来构造数据的分布表示。

典型的深度学习模型有卷积神经网络(convolutionalneuralnelwork)、DBN和堆栈自编码网络(stackedauto—encodernet—work)模型等,下面对这些模型进行描述。

1.1.1卷积神经网络模型

在无监督预训练出现之前,训练深度神经网络通常非常困难,而其中一个特例是卷积神经网络。卷积神经网络受视觉系统的结构启发而产生。第一个卷积神经网络计算模型是在Fukushima。3副的神经认知机中提出的,基于神经元之间的局部连接和分层组织图像转换,将有相同参数的神经元应用于前一层神经网络的不同位置,得到一种平移不变神经网络结构形式。后来,LeCun等人。3扎4。。在该思想的基础上,用误差梯度设计并训练卷积神经网络,在一些模式识别任务上得到优越的性能。至今,基于卷积神经网络的模式识别系统是最好的实现系统之一,尤其在手写体字符识别任务上表现出非凡的性能。

LeCun的卷积神经网络由卷积层和子抽样层两种类型的神经网络层组成。每一层有一个拓扑图结构,即在接收域内,每个神经元与输入图像中某个位置对应的固定二维位置编码信息关联。在每层的各个位置分布着许多不同的神经元,每个神经元有一组输入权值,这些权值与前一层神经网络矩形块中的神经元关联;同一组权值和不同输入矩形块与不同位置的神经元关联。卷积神经网络是多层的感知器神经网络,每层由多个二维平面块组成,每个平面块由多个独立神经元组成。4“。为了使网络对平移、旋转、比例缩放以及其他形式的变换具有不变性,对网络的结构进行一些约束限制:

a)特征提取。每一个神经元从上一层的局部接收域得到输入,迫使其提取局部特征。

b)特征映射。网络的每一个计算层由多个特征映射组成,每个特征映射都以二维平面的形式存在,平面中的神经元在约束下共享相同的权值集。

C)子抽样。该计算层跟随在卷积层后,实现局部平均和子抽样,使特征映射的输出对平移等变换的敏感度下降。

图1是一个用于手写体字符识别的卷积神经网络,由一个输入层、四个隐层和一个输出层组成。由图1可以看出,与完全连接的多层前馈感知器网络相比,卷积神经网络通过使用接收域的局部连接,限制了网络结构。卷积神经网络的另一个特点是权值共享,图中包含大量连接权值,但是由于同一隐层的神经元共享同一权值集,大大减少了自由参数的数量。

卷积神经网络本质上实现一种输入到输出的映射关系,能够学习大量输入与输出之间的映射关系,不需要任何输入和输

深度学习研究进展

作者:刘建伟, 刘媛, 罗雄麟, LIU Jian-wei, LIU Yuan, LUO Xiong-lin

作者单位:中国石油大学自动化研究所,北京,102249

刊名:

计算机应用研究

英文刊名:Application Research of Computers

年,卷(期):2014,31(7)

引用本文格式:刘建伟.刘媛.罗雄麟.LIU Jian-wei.LIU Yuan.LUO Xiong-lin深度学习研究进展[期刊论文]-计算机应用研究 2014(7)

相关文档
相关文档 最新文档