文档库 最新最全的文档下载
当前位置:文档库 › CNN深度学习模型用于表情特征提取方法探究_张昭旭

CNN深度学习模型用于表情特征提取方法探究_张昭旭

CNN深度学习模型用于表情特征提取方法探究_张昭旭
CNN深度学习模型用于表情特征提取方法探究_张昭旭

基于深度学习的图像字幕生成方法研究

基于深度学习的图像字幕生成方法研究 发表时间:2019-02-28T15:08:21.577Z 来源:《基层建设》2018年第36期作者:王珊珊 [导读] 摘要:几年之前,由于计算能力的不足以及大规模图像字幕数据集的缺少,这就导致了国外很少有人做这方面的研究,其所得到的结果也让人不尽满意,在国内更是鲜有人涉及这个方向。 华风气象影视技术中心北京 100000 摘要:几年之前,由于计算能力的不足以及大规模图像字幕数据集的缺少,这就导致了国外很少有人做这方面的研究,其所得到的结果也让人不尽满意,在国内更是鲜有人涉及这个方向。不过,随着近两年计算机运算能力的提高、深度学习(DL)的发展以及众多大规模图像字幕数据集的出现,这才使得这项任务重新回归到人们的视野并逐渐成为了计算机视觉与自然语言处理领域中的一个研究热点。本文就图像字幕生成任务中所涉及的深度学习算法,在总结前人提出的各种网络及其成效的基础上,研究适合图像字幕生成任务的深度学习模型,为该研究方向提供一定的指导意义。 关键词:深度学习;图像字幕;生成方法 1图像字幕生成概述 图像字幕生成是继图像识别、目标定位、图像分割后又一新型计算机视觉任务。在计算机视觉发展的初期,研究者们尝试利用计算机程序来模拟人类视觉系统,并让其告诉我们它看到了什么,这也就是最基本的图像识别。继图像识别之后,人们又提出更高的要求,即在识别的基础上确定目标在图像中的位置或将其从图像中分割出来。但是,上述任务都是将图像划分到一个或者多个离散的标签中去,它既没有描述出图像中各个对象的关系,也没有给出图像中正在发生的事情。为此,图像字幕生成应运而生,图像字幕生成方法也开始逐渐产生、发展并不断成熟起来。上个世纪七十年代,研究者们认为要让计算机理解它所看到的是什么东西时,必须像人眼一样具有立体视觉。在这种认知的情况下,研究者们希望把物体的三维结构从图像中恢复出来,并在此基础上再让计算机理解和判断。到了八九十年代,研究人员发现要让计算机理解图像,不一定要先恢复物体的三维结构,而是靠物体所具有的一些表面或局部特征。例如,当计算机识别一个苹果时,假设计算机事先知道苹果的形状纹理等特征,并且建立了这样一个先验知识库,那么计算机就可以将看到的物体的特征与先验知识库中的特征进行匹配。如果能够匹配,计算机就可以被认为理解了这个物体。随后,研究者们又利用这些特征,设计各种分类器来达到理解图像的目的。在计算机理解图像的基础上,研究者们又设计不同的算法来实现目标定位、图像分割、简单的图像字幕生成。其中,传统的图像字幕生成方法就是在得到图像里面的不同物体的基础上,采用自然语言处理技术通过一些检索的方法生成对应的字幕描述。 2基于深度学习的图像字幕生成方法研究 深度学习是机器学习(ML)领域中的一个新的研究方向,它的概念来源于人工神经网络(ANN)的研究,其实质就是通过构建机器学习模型和利用海量的训练数据,来逐层变化特征,以提升分类或者预测的准确性。同传统的机器学习方法一样,深度学习也有监督学习和无监督学习之分,不同学习框架下建立的学习模型也是不同的。 2.1基于卷积与循环神经网络的图像字幕生成 2.1.1基于卷积神经网络的图像特征提取 图像特征提取是指计算机经过一系列算法将一幅原始RGB图像转化成一个特征向量或一个特征矩阵,该向量或矩阵就在其空间中代表了这幅图像。图像特征一般包括低级特征和高级特征。常见的低级特征包括颜色特征、纹理特征、形状特征、空间关系特征。低级特征的优点是计算简单直接,缺点是对图像敏感,不能反映图像本身所包含的对象信息。图像的高级特征是指该特征包含了一定的语义信息,利用该特征可以更加容易地识别该图像所包含的内容。本文将利用最先进的卷积神经网络结构进行图像特征提取,常见的有AlexNet、VGG、GoogleNet、ResNet等,这些网络在ImageNet图像分类比赛(ImageNet是由美国斯坦福大学计算机视觉实验室建立的,目前世界上最大的图像识别数据库)中可以达到与人类相媲美的优异结果。本文同大多数计算机视觉应用一样,将采用在ImageNet数据集上预训练好的卷积神经网络,然后通过迁移学习的方法将其用于图像字幕生成任务。对于上述任何一个卷积神经网络可以将其简化成如下图的结构: 2.1.2基于循环神经网络的语言建模与生成 图像可以通过卷积神经网络转变成含有高级语义信息的特征向量。类似的,对于句子也要将其转换成向量才能方便后续处理。一般的,句子往往是由很多个单词组成,将每个单词转变成成一个有意义的词向量比向量化整个句子处理起来更加灵活。有了词向量以后,句子则可以通过一系列按顺序排列的词向量表示。为了能表示出所有字幕,本章将字幕集出现过的所有单词组成一个集合,并将该集合形象化地称为“字典(V ocabulary)”。对于字典里的所有单词,可以将其按顺序排列,并将其序号作为其唯一索引。假设字典的大小为V,即字典共包含V个单词。对于每一个单词,为了方便可以将其进行独热(One-hot)编码,即用长度为V的向量S表示,该向量除了单词对应的索引位为1以外其余全部为0。one-hot编码只是给出了单词的唯一索引信息,想要将其应用在其他任务中就必须将其特征向量化,即word2vec (Word to Vector)。常见的word2vec模型有CBoW(Continuous Bag of Words)模型、Skip-grams模型,采用这些模型就必须单独将其在语料库上训练,这同样会导致模型不能进行端到端训练。近些年,研究证明循环神经网络是一种非常适合该任务的时序模型,它不仅可以根据语句的上下文信息完成word2vec,还可以非常方便地生成新的句子。 2.2基于注意力机制模型的图像字幕生成 2.2.1图像特征提取 上一节的图像字幕生成模型所提取的图像特征是来自卷积神经网络最后的全连接层,它是一个一维向量。因此,它只包含了图像全局的语义信息,而丢失了图像内容之间的位置信息。对于图像的卷积运算来说,它有一个很好的特点,就是卷积的结果能够保留输入图像大致的位置信息。因此,不含有全连接网络的卷积神经网络同样具有这个性质。根据上述思想,为了将每个特征向量与二维图像内容的位置

常见的特征选择或特征降维方法

URL:https://www.wendangku.net/doc/c44720033.html,/14072.html 特征选择(排序)对于数据科学家、机器学习从业者来说非常重要。好的特征选择能够提升模型的性能,更能帮助我们理解数据的特点、底层结构,这对进一步改善模型、算法都有着重要作用。 特征选择主要有两个功能: 1.减少特征数量、降维,使模型泛化能力更强,减少过拟合 2.增强对特征和特征值之间的理解 拿到数据集,一个特征选择方法,往往很难同时完成这两个目的。通常情况下,选择一种自己最熟悉或者最方便的特征选择方法(往往目的是降维,而忽略了对特征和数据理解的目的)。 在许多机器学习的书里,很难找到关于特征选择的容,因为特征选择要解决的问题往往被视为机器学习的一种副作用,一般不会单独拿出来讨论。本文将介绍几种常用的特征选择方法,它们各自的优缺点和问题。 1 去掉取值变化小的特征Removing features with low variance 这应该是最简单的特征选择方法了:假设某种特征的特征值只有0和1,并且在所有输入样本中,95%的实例的该特征取值都是1,那就可以认为这个特征作用不大。如果100%都是1,那这个特征就没意义了。当特征值都是离散型变量的时候这种方法才能用,如果是连续型变量,就需要将连续变量离散化之后才能用,而且实际当中,一般不太会有95%以上都取某个值的特征存在,所以这种方法虽然简单但是不太好用。可以把它作为特征选择的预处理,先去掉那些取值变化小的特征,然后再从接下来提到的特征选择方法中选择合适的进行进一步的特征选择。

2 单变量特征选择Univariate feature selection 单变量特征选择能够对每一个特征进行测试,衡量该特征和响应变量之间的关系,根据得分扔掉不好的特征。对于回归和分类问题可以采用卡方检验等方式对特征进行测试。 这种方法比较简单,易于运行,易于理解,通常对于理解数据有较好的效果(但对特征优化、提高泛化能力来说不一定有效);这种方法有许多改进的版本、变种。 2.1 Pearson相关系数Pearson Correlation 皮尔森相关系数是一种最简单的,能帮助理解特征和响应变量之间关系的方法,该方法衡量的是变量之间的线性相关性,结果的取值区间为[-1,1],-1表示完全的负相关(这个变量下降,那个就会上升),+1表示完全的正相关,0表示没有线性相关。 Pearson Correlation速度快、易于计算,经常在拿到数据(经过清洗和特征提取之后的)之后第一时间就执行。 Pearson相关系数的一个明显缺陷是,作为特征排序机制,他只对线性关系敏感。如果关系是非线性的,即便两个变量具有一一对应的关系, Pearson相关性也可能会接近0。 2.2 互信息和最大信息系数Mutual information and maximal information coefficient (MIC)

现代机器学习基于深度学习的图像特征提取

现代机器学习理论大作业(基于深度学习的图像特征提取)

基于深度学习的图像特征提取 摘要:大数据时代的来临,为深度学习理论的发展创造了良好的条件。本文介 绍了深度学习的发展背景,主要讨论了深度学习中的自编码的方法,对自编码方法实现仿真应用,期望在以后能应用到SAR图像上进行自动特征提取,最后阐 述该理论的目前遇到的困难。 关键词:深度学习autoencoder convolution pooling 一引言 机器学习是人工智能的一个分支,而在很多时候,几乎成为人工智能的代名词。简单来说,机器学习就是通过算法,使得机器能从大量历史数据中学习规律, 从而对新的样本做智能识别或对未来做预测。从1980年代末期以来,机器学习的发展大致经历了两次浪潮:浅层学习(Shallow Learning)和深度学习(Deep Learning)。 第一次浪潮:浅层学习 1980年代末期,用于人工神经网络的反向传播算法(也叫Back Propagation 算法或者BP算法)的发明,给机器学习带来了希望,掀起了基于统计模型的机 器学习热潮。这个热潮一直持续到今天。人们发现,利用BP算法可以让一个人工神经网络模型从大量训练样本中学习出统计规律,从而对未知事件做预测。这种基于统计的机器学习方法比起过去基于人工规则的系统,在很多方面显示出优越性。这个时候的人工神经网络,虽然也被称作多层感知机(Multi-layer Perceptron),但实际上是一种只含有一层隐层节点的浅层模型。 90年代,各种各样的浅层机器学习模型相继被提出,比如支撑向量机(SVM,Support Vector Machines)、Boosting、最大熵方法(例如LR,Logistic Regression)等。这些模型的结构基本上可以看成带有一层隐层节点(如SVM、Boosting),或没有隐层节点(如LR)。这些模型在无论是理论分析还是应用都获得了巨大的 成功。相比较之下,由于理论分析的难度,加上训练方法需要很多经验和技巧, 所以这个时期浅层人工神经网络反而相对较为沉寂。 2000年以来互联网的高速发展,对大数据的智能化分析和预测提出了巨大需求,浅层学习模型在互联网应用上获得了巨大成功。最成功的应用包括搜索广告

基于CNN特征提取和加权深度迁移的单目图像深度估计

2019年4月图 学 学 报 April2019第40卷第2期JOURNAL OF GRAPHICS V ol.40No.2 基于CNN特征提取和加权深度迁移的 单目图像深度估计 温静,安国艳,梁宇栋 (山西大学计算机与信息技术学院,山西太原 030006) 摘要:单目图像的深度估计可以从相似图像及其对应的深度信息中获得。然而,图像匹配歧义和估计深度的不均匀性问题制约了这类算法的性能。为此,提出了一种基于卷积神经网络(CNN)特征提取和加权深度迁移的单目图像深度估计算法。首先提取CNN特征计算输入图像在数据集中的近邻图像;然后获得各候选近邻图像和输入图像间的像素级稠密空间形变函数; 再将形变函数迁移至候选深度图像集,同时引入基于SIFT的迁移权重SSW,并通过对加权迁移后的候选深度图进行优化获得最终的深度信息。实验结果表明,该方法显著降低了估计深度图的平均误差,改善了深度估计的质量。 关键词:单目深度估计;卷积神经网络特征;加权深度迁移;深度优化 中图分类号:TP 391 DOI:10.11996/JG.j.2095-302X.2019020248 文献标识码:A 文章编号:2095-302X(2019)02-0248-08 Monocular Image Depth Estimation Based on CNN Features Extraction and Weighted Transfer Learning WEN Jing, AN Guo-yan, LIANG Yu-dong (School of Computer and Information Technology, Shanxi University, Taiyuan Shanxi 030006, China) Abstract: The depth estimation of monocular image can be obtained from the similar image and its depth information. However, the performance of such an algorithm is limited by image matching ambiguity and uneven depth mapping. This paper proposes a monocular depth estimation algorithm based on convolution neural network (CNN) features extraction and weighted transfer learning. Firstly, CNN features are extracted to collect the neighboring image gallery of the input image. Secondly, pixel-wise dense spatial wrapping functions calculated between the input image and all candidate images are transferred to the candidate depth maps. In addition, the authors have introduced the transferred weight SSW based on SIFT. The final depth image could be obtained by optimizing the integrated weighted transferred candidate depth maps. The experimental results demonstrate that the proposed method can significantly reduce the average error and improve the quality of the depth estimation. Keywords: monocular depth estimation;convolution neural network features; weighted depth transfer; depth optimization 收稿日期:2018-09-07;定稿日期:2018-09-12 基金项目:国家自然科学基金项目(61703252);山西省高等学校科技创新项目(2015108) 第一作者:温静(1982 ),女,山西晋中人,副教授,博士,硕士生导师。主要研究方向为图像处理、计算机视觉等。E-mail:wjing@https://www.wendangku.net/doc/c44720033.html,

【CN109933661A】一种基于深度生成模型的半监督问答对归纳方法和系统【专利】

(19)中华人民共和国国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 201910266295.X (22)申请日 2019.04.03 (71)申请人 上海乐言信息科技有限公司 地址 200030 上海市徐汇区番禺路1028号 数娱大厦8楼 (72)发明人 褚善博 沈李斌  (51)Int.Cl. G06F 16/332(2019.01) (54)发明名称 一种基于深度生成模型的半监督问答对归 纳方法和系统 (57)摘要 本发明公开了一种基于深度生成模型的半 监督问答对归纳方法和系统,该方法包括以下步 骤:通过候选问答对生成方法从输入的对话数据 中整理出候选问答对;通过采用基于深度生成模 型的问答对评价方法对所述候选问答对打分;根 据所述候选问答对打分结果利用问答对筛选方 法得到高质量问答对;通过半监督学习方式对所 述深度生成模型进行预先训练后再应用到所述 问答对评价方法中。通过以上方式能够进行自动 化的问答对归纳,极大减少了人工参与并获取高 质量的问答对。权利要求书4页 说明书13页 附图3页CN 109933661 A 2019.06.25 C N 109933661 A

权 利 要 求 书1/4页CN 109933661 A 1.一种问答对归纳方法,其特征在于,问答对归纳的自动化方法包括以下步骤: 通过候选问答对生成方法从输入的对话数据中整理出候选问答对; 通过采用基于深度生成模型的问答对评价方法对所述候选问答对打分; 根据所述候选问答对打分结果利用问答对筛选方法得到高质量问答对; 通过半监督学习方式对所述深度生成模型进行预先训练后再应用到所述问答对评价方法中。 2.一种问答对归纳方法,其特征在于,问答对归纳的自动化方法包括以下步骤: 通过候选问答对生成方法从输入的对话数据中整理出候选问答对; 通过采用基于深度生成模型的问答对评价方法对所述候选问答对打分; 根据所述候选问答对打分结果利用问答对筛选方法得到高质量问答对; 通过半监督学习方式对所述深度生成模型进行预先训练后再应用到所述问答对评价方法中。 3.根据权利要求1所述的问答对归纳方法,其特征在于,所述问答对评价方法使用的半监督学习方式训练的深度生成模型可采用序列到序列(Sequence to Sequence)的深度生成模型,如,基于Transformer的Sequence to Sequence模型,和基于LSTM和GRU等的 encoder、decoder的sequence to sequence模型,还可采用统计机器翻译中用到的生成模型。 4.根据权利要求3所述的问答对归纳方法,其特征在于,所述基于Transformer的Sequence to Sequence模型参数设置为:multi-head的数量设置为8,encoder和decoder中layer为6,进一步地,所述模型的输入端使用预训练的字向量拼接所述字的位置向量,进一步地,使用word2vec训练字向量,字向量维度设置为100。 5.根据权利要求3所述的问答对归纳方法,其特征在于,所述半监督学习方式训练的深度生成模型采用的可采用自学习(Self Learning)的半监督方法、基于EM(Expectation Maximization)算法的生成式半监督方法以及基于图的半监督学习等。 6.根据权利要求5所述的问答对归纳方法,其特征在于,所述采用自学习方式训练的基于Transformer的Sequence to Sequence模型训练步骤进一步包括: 通过问答对生成方法从训练用对话数据中获得训练数据,进一步,从中采样,其中,采样部分数据标记为“未审阅有效问答对”,生成数据集De,剩余部分标记为“未审阅问答对”,生成数据集Dw; 通过人工审阅过程对所述“未审阅有效问答对”数据集De进行审核,得到高质量的问答对数据集Dc; 使用所述数据集Dc与所述数据集Dw作为训练数据,采用所述自学习方式对所述基于Transformer的Sequence to Sequence模型进行训练。 7.根据权利要求6所述的问答对归纳方法,其特征在于,所述问答对生成方法可通过基于启发式规则实现,执行步骤进一步包括: 将训练用对话数据中问题语句和回复语句按照长度过滤,筛选出满足长度条件的对话语句; 按照位置顺序,分别判断每个回复语句在所述对话语句中是否位于两个问题语句之间,或者是否紧接最后一个问题语句且位于所述对话语句的结束句处,若是,寻找对应回复 2

特征提取与选择 总结

第七章特征提取与选择_总结 7.6 特征选择中的直接挑选法 特征的选择除了我们前面学习的变换法外, 也可以在原坐标系中依据某些原则直接选择特征, 即我们这节课要学的直接挑选法。 7.6.1次优搜索法 (一)单独最优的特征选择 单独选优法的基本思路是计算各特征单独使用时的判据值并以递减排序,选取前d个分类效果最好的特征。一般地讲,即使各特征是统计独立的,这种方法选出的d个特征也不一定是最优的特征组合,只有可分性判据J是可分的,即 这种方法才能选出一组最优特征。 (二)增添特征法 该方法也称为顺序前进法(SFS)这是最简单的自下而上搜索方法,每次从未选入的特征中选择一个特征,使它与已选入的特征组合在一起时J值最大,直到选入特征数目达到指定的维数d为止。 设已选入了k个特征,它们记为X k,把未选入的n-k个特征x j(j=1,2,…,n-k)逐个与已选入的特征X k组合计算J 值,若: 则x1选入,下一步的特征组合为X k+1=X k+x1。开始时,k=0,X0=F,该过程一直进行到k=d为止。 该方法比“单独最优的特征选择法”要好,但其缺点也是明显的:即某特征一旦选入,即使后边的n-k特征中的某个从组合讲比它好,也无法把它剔除。 (三)剔减特征法 该方法也称为顺序后退法(SBS)。这是一种自上而下的搜索方法,从全部特征开始每次剔除一个特征,所剔除的特征应使尚保留的特征组合的值最大。 设已剔除了k个特征,剩下的特征组记为,将中的各特征x j (j=1,2,…,n-k)分别逐个剔除,并同时计算值,若: 则在这轮中x1应该剔除。

这里初值,过程直到k=n-d为止。 (四) 增l 减r 法(l-r 法) 为了克服前面方法(二)、(三)中的一旦某特征选入或剔除就不能再剔除或选入的缺点,可在选择过程中加入局部回溯,例如在第k步可先用方法(二)。,对已选入的k个特征再一个个地加入新的特征到k+1个特征,然后用方法(三) 一个个地剔除r个特征,称这种方法为l减r法(l-r法)。 7.6.2最优搜索法 (一)分支定界法(BAB算法) 寻求全局最优的特征选择的搜索过程可用一个树结构来描述,称其为搜索树或解树。总的搜索方案是沿着树自上而下、从右至左进行,由于树的每个节点代表一种特征组合,于是所有可能的组合都可以被考虑。利用可分性判据的单调性采用分支定界策略和值左小右大的树结构,使得在实际上并不计算某些特征组合而又不影响全局寻优。这种具有上述特点的快速搜索方法,称为分支定界算法。 6选2的特征选择问题 (a)搜索树 (b)搜索回溯示意图 树的每个节点表示一种特征组合,树的每一级各节点表示从其父节点的特征 组合中再去掉一个特征后的特征组合,其标号k表示去掉的特征是。由于每一级只舍弃一个特征,因此整个搜索树除根节点的0级外,还需要n-d级,即全树有n-d级。6个特征中选2个,故整个搜索树需4级,第n-d级是叶节点,有

Deep Learning(深度学习)学习笔记整理系列

Deep Learning(深度学习)学习笔记整理系列 目录: 一、概述 二、背景 三、人脑视觉机理 四、关于特征 4.1、特征表示的粒度 4.2、初级(浅层)特征表示 4.3、结构性特征表示 4.4、需要有多少个特征? 五、Deep Learning的基本思想 六、浅层学习(Shallow Learning)和深度学习(Deep Learning) 七、Deep learning与Neural Network 八、Deep learning训练过程 8.1、传统神经网络的训练方法

8.2、deep learning训练过程 九、Deep Learning的常用模型或者方法 9.1、AutoEncoder自动编码器 9.2、Sparse Coding稀疏编码 9.3、Restricted Boltzmann Machine(RBM)限制波尔兹曼机 9.4、Deep BeliefNetworks深信度网络 9.5、Convolutional Neural Networks卷积神经网络 十、总结与展望 十一、参考文献和Deep Learning学习资源 接上 注:下面的两个Deep Learning方法说明需要完善,但为了保证文章的连续性和完整性,先贴一些上来,后面再修改好了。 9.3、Restricted Boltzmann Machine (RBM)限制波尔兹曼机

假设有一个二部图,每一层的节点之间没有链接,一层是可视层,即输入数据层(v),一层是隐藏层(h),如果假设所有的节点都是随机二值变量节点(只能取0或者1值),同时假设全概率分布p(v,h)满足Boltzmann 分布,我们称这个模型是Restricted BoltzmannMachine (RBM)。 下面我们来看看为什么它是Deep Learning方法。首先,这个模型因为是二部图,所以在已知v的情况下,所有的隐藏节点之间是条件独立的(因为节点之间不存在连接),即p(h|v)=p(h1|v)…p(h n|v)。同理,在已知隐藏层h的情况下,所有的可视节点都是条件独立的。同时又由于所有的v和h满足Boltzmann 分布,因此,当输入v的时候,通过p(h|v) 可以得到隐藏层h,而得到隐藏层h之后,通过p(v|h)又能得到可视层,通过调整参数,我们就是要使得从隐藏层得到的可视层v1与原来的可视层v如果一样,那么得到的隐藏层就是可视层另外一种表达,

“深度学习“学习笔记

摘要:人工智能的飞跃发展得益于深度学习理论的突破以及移动互联网创造的大数据。本文梳理了人工智能、机器学习、深度学习的概念以及发展历程;介绍了深度学习基本理论、训练方法、常用模型、应用领域。 关键词: 机器学习、人工神经网路、深度学习、语音识别、计算机视觉 1.概述 2017年5月27日,围棋世界冠军柯洁与Google围棋人工智能AlphaGo的第三场对弈落下帷幕。在这场人机大战中,世界围棋第一人0:3完败于围棋人工智能。人工智能以气势如虹的姿态出现在我们人类的面前。人工智能AI(Artificial Intelligence)从此前的学术研究领域全面进入大众视野。整个业界普遍认为,它很可能带来下一次科技革命,并且,在未来可预见的10多年里,深刻得改变我们的生活。 、人工智能、机器学习、深度学习 什么是人工智能人工智能是研究使计算机来模拟人的某些思维过程和智能行为(如学习、推理、思考、规划等)的学科。该领域的研究包括机器人、语言识别、图像识别、自然语言处理和专家系统等。上世纪50年代人工智能的理念首次提出,科学家们不断在探索、研究,但是人工智能的发展就磕磕碰碰。人工智能的发展经历了若干阶段,从早期的

逻辑推理,到中期的专家系统,直到上世纪80年代机器学习诞生以后,人工智能研究终于找对了方向。 机器学习是一种能够赋予机器学习的能力以此让它完成直接编程无法完成的功能的方法。但从实践的意义上来说,机器学习是一种通过利用数据,训练出模型,然后使用模型对真实世界中的事件作出决策与预测的一种方法。基于机器学习的图像识别和语音识别得到重大发展。人工神经网络(Artificial Neural Networks)成为机器学习中的一个重要的算法,其中反向传播算法(Back Propagation)是最常用的ANN学习技术。基于BP算法的人工神经网路,主要问题是训练困难、需要大量计算,而神经网络算法的运算需求难以得到满足。进入90年代,神经网络的发展进入了一个瓶颈期。其主要原因是尽管有BP算法的加速,神经网络的训练过程仍然很困难。因此90年代后期支持向量机(SVM)算法取代了神经网络的地位。【SVM是个分类器,通过“核函数”将低维的空间映射到高维的空间,将样本从原始空间映射到一个更高维的特质空间中,使得样本在这个新的高维空间中可以被线性划分为两类,再将分割的超凭你们映射回低维空间。】 2006年,加拿大多伦多大学教授、机器学习领域的泰斗Geoffrey Hinton在《科学》上发表了一篇文章,开启了深度学习在学术界和工业界的浪潮。这篇文章有两个主要观点:1、多隐层的人工神经网络具有优异的特征学习能力,学习得到的特征对数据有更本质的刻画,从而有利于可视化或分类;2、深度神经网络在训练上的难度,可以通过“逐层初始化”(layer-wise pre-training)来有效克服,在这篇文章中,逐层

单目深度估计文献翻译unsupervised monocular depth estimation with left-right consistency

左右(视差)一致的非监督式单目深度估计 摘要 以学习为基础的方法已经在对单张图片的深度估计上取得了可观的结果。大多数现有的方法是将深度预测作为监督式的回归问题来处理,然而这种方式需要大量相应的真实深度数据用于训练。然而,单单从复杂环境中获取高质量的深度数据就已经很有难度了。我们将在本文中对已有方式进行创新,不再对深度数据进行训练,而是训练更容易获得的双目立体连续镜头。 我们提出了一种新颖的训练目标,即使在缺少真实深度数据的情况下,仍然能够使用卷积神经网络来完成单张图片的深度估计。利用极线几何限制,我们通过训练有图像重构损失函数的网络生成了视差图像。我们曾发现单独进行图像重构会导致深度图像质量很差。为了解决这个问题,我们提出了一个新颖的训练损失函数,可以使左右图像产生的视差趋于一致,以此来提高当前方式的表现和健壮度。我们的方法在KITTI 驾驶数据集上展示出艺术般的单目深度估计效果,甚至优于基于真实深度数据的监督式学习的效果。 1.简介 在计算机视觉领域,对图片进行深度估计已经有了很久的历史。目前的成熟方式依赖于连续动作、X 射线下的形状、双目和多视角立体模型。然而,多数的上述技术是基于可获取相关场景的观测数据的假设。其中,数据可能是多角度的,或者观测是在不同的光线环境下进行的。为了突破这个限制,近期涌现出大量在监督式学习下对单目深度识别的讨论。这些方法试图直接在线下通过大量真实深度数据训练的模型来对图像中的每一个像素进行深度估计。这些方法虽然已经取得巨大的成功,但是是建立在可获取大量图像数据集和相应的像素深度的情况下的。 在单张图像里获取不受外表干扰的场景形状是机器感知的基础问题。很多此类的应用,比如在计算机图形学中合成对象的插入、在计算机摄影学中对深度的合成、机器人抓握,会使用深度为线索进行人体姿

多目标输出SVM回归的参数优化和特征选择

多目标输出SVM回归的参数优化和特征选择 彭文伟 湖南湘潭湘钢巴塘17-18,邮政编码:411104. Email:pww71@https://www.wendangku.net/doc/c44720033.html,, phone:+86-0732-*******. 摘要:目前多目标输出SVM回归的算法使用多阈值, 其预测效果不理想,且运算量大。另外SVM算法的评价准则采用的是交叉验证的均方误差或相关系数,如果各目标的数据不平衡,这种统计方法无法用于评价多目标输出SVM回归算法。首先,本文提出采用相同阈值的SVM多目标输出回归的算法,然后对交叉验证提出两种误差统计方法:一,各目标均方误差作均匀化处理,二,使用马氏距离最小化的方法。最后,针对大型数据超大运算的问题,提出网络计算机并行运算算法。实验先用遗传算法,粒子群算法和自己的BFS算法分别对相同SVM模型作参数优化,然后用改进的序列极小化特征选择算法优化SVM特征。结果说明:选择ε-SVR算法和Rbf核,和BFS算法的参数优化,交叉验证用均匀化的均方误差作评价准则,效果相对较好。 关键词:支持向量机; 遗传算法; 粒子群算法; BFS算法; 序列极小化特征选择; Abstract: At present, the multi-objective output SVM regression used multi-threshold strategy. However, its prediction result and computational complexity is not satisfactory. In addition, the parameter and feature selection generally used cross-validation as the evaluation criteria. Because of the imbalance data, the statistical methods used to evaluate the cross-validation error cannot always get the optimal effect. In this paper, an algorithm of the multi-objective output SVM regression using the same thresholds for the multi-objective is proposed. Moreover, two error evaluation methods for cross-validation are proposed. Firstly, the mean square error for all objectives are treated homogeneously; Secondly, minimizing the Mahalanobis distance is used。Finally, data for large super-computing problem, the network computer parallel computing algorithm is proposed. experiment by using genetic algorithms, particle swarm optimization and own Breadth-first search algorithm separately on the same SVM model for parameter optimization, and then experiment by using the modified sequential minimal algorithm for feature selection. Results show that: ε-SVR , Gaussian Radial Basis, parameter optimization is using Breadth-first search algorithm, cross-validation with homogenization of the mean square error for the purpose of evaluation criteria, the effect is relatively good. Keyword: svm; genetic algorithms; particle swarm optimization; BFS; The sequential minimal algorithm based on feature selection; 一,引言 支持向量机 (Support Vector Machines, SVM)是Vapnik等人于20世纪90年代建立的,基于统计学习理论且推广能力非常好的一种小样本学习方法[1],,已成功应用于模式分类、回归分析等领域。 SVM回归问题一般都是单目标输出[2-3](SVM回归问题的目标值只有一个)。而目前多目标输出(SVM回归问题目标值超过一个)一般采用多阈值方式[4],不是共同的间隔,相当于用单目标预测方式重复预测多目标,实验效果不是很理想,故提出采用相同阈值的多目标SVM回归算法。 正如大多数学习机算法,支持向量机(SVM)的性能与SVM参数和特征的选择有关[5]。不同的数据类型用不同的SVM模型预测效果有一定的差异,而SVM模型不同其参数和参数范围也不同,因此对于不同的SVM模型,因根据其参数多少和范围来选择不同的参数优化方案。 常用的参数优化办法是网格搜索[6],但是其采用2的n次幂将范围切割为离散数,造成搜索范围不均匀分布,即使提高网格数搜索精度也不高,而且增加运算量。为了提高精度,本人提出启发式广度优先搜索。 目前使用遗传算法和粒子群算法作参数优化的越来越多,但是针对不同的SVM模型,没有对众多参数优化方案进行综合的对比和评价,是缺乏说服力的。 SVM参数和特征的优化过程需要一个评价准则。该准则大多采用k折交叉验证验证的均方误差或相关系数。 先预先设定好某个SVM参数,然后进行k-折交叉验证(k-fold cross vaidation):将训练样本集随机地分成k个互不相交的子集,每个折的大小大致相等。利用k-1个训练子集,对给定的一组参数建立回归模型,利用剩下的最后一个子集的误差平均值评估参数的性能。以上过程重复K次,因此每个子集都有机会进行测试,最后根据k次迭代后得到误差平均值。用该误差平均

基于深度学习的创意三维体素模型的建模系统的构建方法与制作流程

本技术涉及三维体素模型的建模领域,其公开了一种基于深度学习的创意三维体素模型的建模系统的构建方法,构建一种可自动生成具有创意性的三维体素模型,同时具有可交互编辑功能的建模系统。该方法包括:A、制作三维模型的体素数据集以及组成三维模型的语义部件数据集;B、搭建三维模型的生成模型以及三维模型组成部件的生成模型,并采用体素数据集和语义部件数据集分别进行训练;C、基于训练后的三维模型的生成模型中的编码器和训练后的三维模型组成部件的生成模型中的编码器构建语义结构模型,并进行训练;D、将训练后的语义结构模型整合入系统中作为建模算法,同时为用户提供交互界面以及针对生成的三维模型组件的可控编辑接口。 权利要求书 1.基于深度学习的创意三维体素模型的建模系统的构建方法,其特征在于, 包括以下步骤: A、制作三维模型的体素数据集以及组成三维模型的语义部件数据集; B、搭建三维模型的生成模型以及三维模型组成部件的生成模型,并采用体素数据集和语义部件数据集分别进行训练;

C、基于训练后的三维模型的生成模型中的编码器和训练后的三维模型组成部件的生成模型中的编码器构建语义结构模型,并进行训练; D、将训练后的语义结构模型整合入系统中作为建模算法,同时为用户提供交互界面以及针对生成的三维模型组件的可控编辑接口。 2.如权利要求1所述的基于深度学习的创意三维体素模型的建模系统的构建方法,其特征在于, 步骤A中,基于已知数据集ShapeNetCore,并进行人工的分类和对齐来制作三维模型的体素数据集;然后利用MeshLab软件对ShapeNetCore数据集提供的三维模型的部件根据语义结构进行分割和分类,以此制作组成三维模型的语义部件数据集。 3.如权利要求1所述的基于深度学习的创意三维体素模型的建模系统的构建方法,其特征在于, 步骤B中,采用整体变分自编码器作为三维模型的生成模型,采用部件变分自编码器作为三维模型组成部件的生成模型;采用KL散度和二进制交叉熵作为损失函数,利用体素数据集中的数据训练所述整体变分自编码器;采用KL散度和二进制交叉熵作为损失函数,利用三维模型的语义部件数据集中的数据训练所述部件变分自编码器。 4.如权利要求3所述的基于深度学习的创意三维体素模型的建模系统的构建方法,其特征在于, 所述整体变分自编码器和部件变分自编码器均采用编码器-解码器的结构,编码器和解码器均由深度卷积神经网络组成;其中,部件变分自编码器采用的卷积层数少于整体变分自 编码器采用的卷积层数。 5.如权利要求1所述的基于深度学习的创意三维体素模型的建模系统的构建方法,其特征在于,

基于多尺度深度特征的视觉显著性

基于多尺度深度特征的视觉显著性 视觉显著性在认知和计算科学是一个基本的问题,包括计算机视觉。在本文中,我们发现一个高质量的视觉显著性模型可以使用深度卷积神经网络抽取多尺度特征来学习,这些在视觉识别工作中已经有很多成功的例子。为了学习显著性模型,我们提出一种为了在三个不同的尺度提取的特征可以和CNN的顶层充分连接的神经网络架构。接着我们提出了一个细化方法来加强显著性结果的空间一致性。最后,融合多个显著图计算为图像分割的不同水平可以更好的促进性能,收益率显著图比从单一分割产生的图像要好。为了促进视觉显著模型的进一步研究和评价,我们也建立一个新的拥有4447张挑战性图片的大型数据库及其注释。实验结果表明,我们提出的方法在所有公共基准能够实现最先进的性能,在MSRA-B数据集和我们的新数据集(HKU-IS)改善F-Measure的效果分别为5.0%和13.2%,降低了这两个数据集平均绝对误差分别为5.7%和35.1%。 1.介绍 总结,这篇文章有以下贡献: 一个新的视觉显著模型被提出用于从一个拥有多个完全连接层的深度神经网络的嵌套的窗口将多尺度CNN特征提取。用于显著性估计的深度神经网络是可以用一组标记的显著图区域来训练的。 一个完整的显著性框架是由进一步整合我们的用空间一致性模型和多级图像分割基于CNN的显著性模型开发而成的。 HKU-IS是用来显著性模型研究和评估而创建的一个新的具有挑战的数据集。这个数据集是对外公开的。我们提出的显著性模型已经成功地验证了这个新数据集和所有现有的数据集。 2.相关工作 视觉显著计算可以分为自底向上和自顶向下的方法或两者的混合。自底向上的模型主要是基于c enter-surround方案,通过低级视觉属性的线性或非线性结合来计算主显著图,如颜色、强度、结构和方向。自上而下的方法通常需要高层知识的整合,如在计算过程中目标和人脸识别检测。最近,设计区别特征和显著先验的工作已经取得了很大成效。大多数方法基本上都遵循区域对比框架,旨在设计更好的描述图像区域与其周边地区的特殊性的特性。在【26】中,三个新奇特征与条件随机场(条件随机场(conditional random field,简称 CRF),是一种鉴别式机率模型,是随机场的一种,常用于标注或分析序列资料,如自然语言文字或是生物序列。条件随机场为无向性之图模型,图中的顶点代表随机变量,顶点间的连线代表随机变量间的相依关系,在条件随机场当中,随机变量 Y 的分布为条件机率,给定的观察值则为随机变量 X。原则上,条件随机场的图模型布局是可以任意给定的,一般常用的布局是链结式的架构,链结式架构不论在训练(training)、推论(inference)、或是解码(decoding)上,都存在有效率的算法可供演算。)结合。在【33】中提出了一个基于低秩矩阵恢复的模型用于整合底层视觉特征与高层次先验。 显著先验和中心先验与边界先验一样被广泛应用于启发结合低级线索的和改善显著估计。这些显著先验直接结合其他显著的线索权重或者用于特征学习算法。虽然这些经验对于很多图像来说可以改变显著结果,但当显著目标偏离中心或明显在图像边界重叠就会失败。我们应该注意到目标位置线索和基于背景的背景模型在我们的框架中并没有被忽视,而是一直通过CNN的多尺度特征提取和神经网络训练含蓄地纳入进我们的模型。 最近,CNNs在视觉识别工作中取得了很多成就,包括图像分类、目标检测和场景解析。Dona hue等在【11】中指出从ImageNet数据集训练的Krizhevsky的CNN提取的特征可以转化成一般的任务。Razavian等在【30】中拓展他们的结果并得出深度学习和CNNs对于所有的视觉识别任务可以成为一个强有力的候选的结论。然而,CNN特征并没有探索视觉显著性研究主要是因为在【11,30】

相关文档
相关文档 最新文档