文档库 最新最全的文档下载
当前位置:文档库 › 高光谱数据的降维处理方法研究

高光谱数据的降维处理方法研究

高光谱数据的降维处理方法研究
高光谱数据的降维处理方法研究

第31卷 第11期 中南林业科技大学学报 Vol.31 No.11 2011年11月Journal of Central South University of Forestry &Technology Nov.2011

高光谱数据的降维处理方法研究

柳萍萍,林 辉,孙 华,严恩萍

(中南林业科技大学林业遥感信息工程研究中心,湖南长沙410004)

摘 要: 高光谱数据具有波段多、光谱范围窄、数据量大等特点,但巨大的数据量给数据处理带来了困难,同时它的高维也容易导致Hughes现象的产生。因此,对其进行降维处理显得非常必要。以Hyperion数据为研究对象,分别利用特征选择和特征提取的方法达到数据降维的目的。结果表明:(1)波段选择之前进行子空间划分,可剔除相关性大的波段,并能减小数据计算量,避免信息的丢失,从而实现高维遥感数据优化处理和高效利用的目的。(2)MNF变换后高光谱数据的有效端元数可为图像的进一步分析和应用提供参考。

关键词: 高光谱数据;降维;特征提取;Hyperion

中图分类号: S771.8文献标志码: A文章编号: 1673-923X(2011)11-0034-05Dimensionality reduction method of Hyperion EO-1 data

LIU Ping-ping,LIN Hui,SUN Hua,YAN En-ping

(Research Center of Forestry Remote Sensing Information&Engineering,

Central South University of Forestry&Technology,Changsha 410004,Hunan,China)

Abstract:Hyperspectral data have more bands,narrow spectral range,large volumes of data,etc.,but a huge a-mount of data make data processing very difficult,while its high-dimensional phenomenon can easily lead to thegeneration of Hughes.Therefore,dimensionality reduction process is very necessary.By taking Hyperion data asthe research object,using feature selection and feature extraction methods,the purpose of data reduction was a-chieved.The results show that dividing space before sub-band selection can eliminate the band with bigger correla-tion,and can reduce the amount of data calculation,to avoid loss of information,thus realizing optimal high-dimen-sional remote sensing data processing and efficient utilization purposes.

Key words:Hyperspectral data;dimensionality reduction;feature extraction;Hyperion data

高光谱遥感突破了传统单波段、多光谱遥感的波段数以及波段范围的局限性,它具有较窄的波段区间、较多的波段数量的特点,能够从光谱空间中获取地物连续且精细的光谱特征。由于高光谱遥感信量大、波段多且冗余度高的特点使对其的信息处理困难重重,数据降维问题一直是高光谱遥感应用与信息处理的难题[1-3]。高光谱遥感数据虽然拥有庞大的数据量,但相邻波段之间冗余度也相对较大。因此,为解决高维数据的处理问题,国内外的很多学者对此也做了广泛的研究,通常利用特征提取与特征选择方法进行降维处理[4-7]。

降维处理对Hyperion高光谱数据有非常重要

收稿日期:2011-05-10

基金项目:国家自然科学基金项目(30871962);高等学校博士学科点专项科研基金(200805380001);国家林业局林业公益项目专题(201104028)

作者简介:柳萍萍(1986-),女,河北唐山人,硕士生,主要从事林业遥感与地理信息系统应用研究

通讯作者:林 辉(1965-),女,湖北黄冈人,教授,博士,主要从事森林经理学、遥感技术与地理信息系统的教学和科研工作

的意义。一方面,数据降维能够使图像远离噪声,并能使图像的数据质量得到提高;另一方面,去除图像中的无价值波段,从而达到降低计算量,减少波段数的目的,使图像的处理效率得到提高。要实现对高光谱数据的有效利用,降维是不可或缺的部分,而且波段选择的结果直接关系到图像的进一步应用效果。

1 研究区与数据

研究区位于湖南省株洲市攸县黄丰桥国有林场,林场境内森林茂盛,物种丰富。林分类型以杉木人工林为主。

研究采用Hyperion高光谱遥感数据作为主要数据源。Hyperion是EO-1卫星所携带的高空间分辨率与高光谱分辨率成像仪,于2000年11月16日发射成功,为太阳同步轨道,轨道高度705km,倾角98.7°,EO-1带有3个基本遥感系统。Hyperi-on数据的光谱分辨率为10nm,光谱覆盖范围400~2 500nm,空间分辨率为30m。

2 研究方法

高光谱数据的降维方法大致可以分为两类,一类是从原始波段空间直接选择若干有效的波段,而不进行任何变化处理,为特征选择;另一类是对一个或若干个原始波段按照一定的操作函数进行变换,得到不同于原始数据的新的特征组合,成为特征提取。

对高光谱数据而言,最佳波段选择是非常重要的。由于波段宽度窄的特点决定了各波段间的冗余度及相关性的存在,利用波段选择方法来选择所需的波段来进行降维可避免计算的重复,大大降低工作量。各波段的信息量可以作为选择波段的第一评价指标,波段间的标准差反映了图像平均值的离散度和像元灰度值,在一定程度上反映各波段所包含的信息量。通过对图像各波段的分析,可以确定波段各部分或各个波段子集所包含的信息量,波段间标准差越大,其波段所包含的信息量也就越大,地物也就越容易被区分开。利用波段选择法对高光谱数据进行降维处理,选出信息量较大的波段,从而进一步对高光谱影像进行彩色合成。对高光谱数据进行假彩色合成,一般从红光波段、近红外波段、短波近红外波段中各自选出一个最优波段

来进行影像的假彩色合成。

MNF变换为最小噪声分离变换,是高光谱数据特征提取的常见方法之一。通过MNF变换可以确定高光谱数据的维数,识别高光谱数据中的噪声并将其分离,并通过对有效信息的分解来达到对高光谱数据处理时降低计算量的目的[8]。本质上两个串联的主成分变换组成了MNF变换。首先是基于噪声的协方差矩阵进行的变换,波段间的相关性被去除,图像中的噪声分布被重新调节。第二个是标准的主成分变换,变换后所有波段按特征值降序排列,波段从前到后噪声逐步增大而方差依次减小,直至波段只存在噪声。噪声统计是基于像元局部方差来估计的,某个像元的原始值减去其相应的水平方向和竖直方向的图像均值,即可得到一幅虚拟的噪声影像。通过对变换后特征曲线的分析,可得到MNF变换后高光谱数据的有效端元数。

3 结果与分析

3.1 波段选择

Hyperion影像的242个波段中,可见光近红外波段(VNIR)的8~57和短波红外波段(SWIR)的77~224为经过辐射校正的波段,再将受水汽影响的波段剔除后,剩余176个波段。保留的波段中仍有一些波段存在着非正常像元,包括坏线、条纹及噪声等。本研究采用相邻列或行平均值法代替原来值实现修复[9-10]。各波段的标准差一定程度上反映了各波段的信息量,利用ENVI的统计工具计算得到各波段的特征值,可以从图1(左)中看到,176个波段中还存在标准差相对较小的波段,仍需要对176个波段进行再次处理,将噪声大的波段剔除掉,再进行视觉评估,观测其各波段的标准差值,剔除不合理的和质量差的波段,结果选出了质量较好的152个波段,其标准差见图1(右),对比可以看到标准差较小的波段已被部分去除。

由图1可知,在可见光范围,波段549~712nm标准差较小(基本都小于600),在选择波段时可以不予考虑。在可见光红光波段458,488,732nm为中心的波段标准差在该区间较大,可作为候选波段。在近红外波段,973,983,993nm为中心的波段标准差较大(基本都大于1000nm),在曲线图上呈峰值,983nm标准差最大,为最优波段,所以这些

第31卷 中南林业科技大学学报

图1 176波段(左)及152波段(右)Hyp

erion影像的标准差曲线

Fig.1 The standard curves drawing 

of Hyperion at 176bands(left)and 152 bands(rig

ht)波段子集包含的信息量就较多,是理想的候选波段子集。在短波红外波段,去除质量不好的波段后,共84波段,介于1 003~2 324nm之间。其中,1 336~2 

274nm区间标准差较小(基本都小于1 

000nm),所以这些波段包含的信息量少,在选择波段时可以不予考虑。而波段1 003,1 023,1 043nm为中心的标准差较大(大于1 000nm),为最佳候选波段。

对高光谱数据进行假彩色合成,一般从红光波段、

近红外波段、短波近红外波段中各自选出一个最优波段来进行影像的假彩色合成。可将高光谱图像的153个波段根据波长值将其分为3组,即波段426~

752nm为可见光的红光波段、762~993nm为近红外波段、1 003~2 324nm为短波近红外波段。将最佳指数法作为波段选取依据,鉴于到高光谱波段

较窄的特性,

为保证在提取少量波段后图像所含信息仍能保持丰富,

分别在3组波段范围内,每组选择5个标准差较大的波段,

再考虑到高光谱图像相邻波段间的相关性比相隔较远的波段间的相关性高,综合上述指标分别从3组波段中选取含信息量大且波段间相关性小的波段,然后将3个波段合成彩色影像,

如图2所示,为4幅经过波段选择的彩色合成影像及其对应的地物光谱曲线,从曲线中可以看到地物的光谱可分性还是比较明显的

X:401Y:1955为阔叶;X:414Y:1781为针叶;X:495Y:1995为建筑用地

图2 Hyp

erion的假彩色合成影像及其对应的地物光谱曲线Fig.2 Hyperion false color composite images and the reflectivity 

curve drawing63柳萍萍,等:高光谱数据的降维处理方法研究 第1

1期

3.2 最小噪声分离变换(

MNF变换)MNF变换可以确定高光谱数据的内在维数,隔离噪声,使随后的处理和计算减少。本质上MNF变换包含两次叠置处理的主成分变换。利用ENVI软件,能够对高光谱数据进行MNF变换。为了波谱处理的进一步进行,

对最终特征值曲线和其相关影像进行分析,来判定数据内在的维数。

图3为利用ENVI进行MNF变换后生成的各个分量的特征值及其曲线图,特征值的大小是输出分量方差大小的表征。经分析,变换后影像的前10个波段的累计方差达到70%,说明前10个波段包含了影像的大部分信息量。通常,MNF变换后,包含数据的波段其特征值大于1

,当特征值接近于1,表明图像上只余下噪声。图3中可以看到,MNF变换后15波段的特征值为3.14,虽然数值远大于1,但从影像的质量来看,MNF的8波段已含有部分噪声,MNF处理后前8个分量的结果如图4

。高光谱原图像中特征显著端元的数量能够在MNF变换后输出数据的有效维数中得到。从特征

值曲线上能够直接获取端元数量,即在特征值曲线上斜率发生较大变化的波段位置,本高光谱图像的有效端元数为15,即图像上有15种特征显著便于区分的地物,这为高光谱影像的进一步分析和应用提供了有力的参考

图3 MN

F变换后波段的特征值折线图和前10个特征影像的累计方差

Fig.3 Eigenvalue of the MNF and 10 top 

features imagesof the cumulative 

varianc

e图4 MNF处理结果Fig

.4 The result of MNF7

3第31卷 中

南林业科技大学学报

3 结 论

论文利用特征选择和特征提取方法开展了对高光谱数据原始信息的优化处理和降维方面的研究,主要结论如下:

(1)在特征选择方法中,如果直接选择方差最大的波段进行组合,不一定能取得理想效果,在波段选择之前首先对所有波段进行子空间划分,可剔除相关性大的波段,减小数据计算量;

(2)MNF变换后高光谱数据的有效端元数为15个,即高光谱图像上有特征显著便于区分的15种地物,可为图像的进一步分析和应用提供参考;

(3)MNF变换并非适用于所有高光谱数据,若MNF各分量质量连续下降,则应选择其他降维方式。

在实际应用中,可通过特征选择或特征提取的方法来达到数据降维的目的,使高光谱数据的进一步推广应用得到了有力保证。

参考文献:

[1] 童庆禧,张 兵,郑兰芬.高光谱遥感原理、技术与应用[M].北京:高等教育出版社,2006.[2] Hughes G F.On the Mean Accuracy of Statistical Pattern Recog-nition[J].IEEE Trans Info Theory,2008,14(1):55-63.

[3] 杜培军,陈云浩,王行风,等.遥感科学与进展[M].徐州:中国矿业大学出版社,2007:369-370.

[4] Kumar S,Ghosh J,Crawford M M.Best-Bases Feature Extrac-tion Algorithms for Classification of Hyperspectral Data[J].IEEETrans Geosci and Remote Sensing,2001,39(7):1368-1379.[5] Hsu P H.Feature Extraction of Hyperspectral Images UsingWavelet and Matching Pursuit[J].ISPRS Journal of Photogram-

metry &Remote Sensing,2007,62:78-92.

[6] Du Qian,He Yang.Similarity-based Unsupervised Band Selectionfor Hyperspectral Image Analysis[J].IEEE Geoscience and Re-mote Sensing Letters,2008,5(4):564-568.

[7] 张连蓬.基于投影寻踪和非线性主曲线的高光谱遥感图像特征提取及分类研究[D].青岛:山东科技大学,2003.

[8] Tan B X,Li Z Y,Chen E X,et al.Preprocessing of EO-1hype-rion hyperspectral data[J].Remote Sensing Information,2005(6):36-41.

[9] Zhang Xianfeng,Pazner Micha.Preprocessing feature extractionand lithologic mapping using EO-l hyperion data[J].Journal ofImage and Graphics,2007,12(6):981-990.

[10] 孙 蕾,罗建书.高光谱遥感图像微分域三维混合去噪方法[J].光谱学与光谱分析,2009,29(10):2717-2720.

[本文编校:谢荣秀]

3柳萍萍,等:高光谱数据的降维处理方法研究 第11期

PCA降维方法(主成分分析降维)

一、简介 PCA(Principal Components Analysis)即主成分分析,是图像处理中经常用到的降维方法,大家知道,我们在处理有关数字图像处理方面的问题时,比如经常用的图像的查询问题,在一个几万或者几百万甚至更大的数据库中查询一幅相近的图像。这时,我们通常的方法是对图像库中的图片提取响应的特征,如颜色,纹理,sift,surf,vlad等等特征,然后将其保存,建立响应的数据索引,然后对要查询的图像提取相应的特征,与数据库中的图像特征对比,找出与之最近的图片。这里,如果我们为了提高查询的准确率,通常会提取一些较为复杂的特征,如sift,surf等,一幅图像有很多个这种特征点,每个特征点又有一个相应的描述该特征点的128维的向量,设想如果一幅图像有300个这种特征点,那么该幅图像就有300*vector(128维)个,如果我们数据库中有一百万张图片,这个存储量是相当大的,建立索引也很耗时,如果我们对每个向量进行PCA处理,将其降维为64维,是不是很节约存储空间啊?对于学习图像处理的人来说,都知道PCA是降维的,但是,很多人不知道具体的原理,为此,我写这篇文章,来详细阐述一下PCA及其具体计算过程: 二、PCA原理 1、原始数据: 为了方便,我们假定数据是二维的,借助网络上的一组数据,如下: x=[2.5, 0.5, 2.2, 1.9, 3.1, 2.3, 2, 1,1.5, 1.1]T y=[2.4, 0.7, 2.9, 2.2, 3.0, 2.7, 1.6, 1.1, 1.6, 0.9]T 2、计算协方差矩阵 什么是协方差矩阵?相信看这篇文章的人都学过数理统计,一些基本的常识都知道,但是,也许你很长时间不看了,都忘差不多了,为了方便大家更好的理解,这里先简单的回顾一下数理统计的相关知识,当然如果你知道协方差矩阵的求法你可以跳过这里。 (1)协方差矩阵: 首先我们给你一个含有n个样本的集合,依次给出数理统计中的一些相关概念: 均值: 标准差:

降维和特征选择

1.数据降维和特征选择的区别 数据降维,一般说的是维数约简(Dimensionality reduction)。它的思路是:将原始高维特征空间里的点向一个低维空间投影,新的空间维度低于原特征空间,所以维数减少了。在这个过程中,特征发生了根本性的变化,原始的特征消失了(虽然新的特征也保持了原特征的一些性质)。 特征选择,是从 n 个特征中选择 d (d

高维数据降维方法研究

·博士论坛· 高维数据降维方法研究 余肖生,周 宁 (武汉大学信息资源研究中心,湖北武汉430072) 摘 要:本文介绍了MDS 、Isomap 等三种主要的高维数据降维方法,同时对这些降维方法的作用进 行了探讨。 关键词:高维数据;降维;MDS ;Isomap ;LLE 中图分类号:G354 文献标识码:A 文章编号:1007-7634(2007)08-1248-04 Research on Methods of Dimensionality Reduction in High -dimensional Data YU Xiao -s heng ,ZH OU Ning (Research Center for Information Resourc es of Wuhan University ,W uhan 430072,China ) A bstract :In the paper the authors introduce three ke y methods of dimensionality r eduction in high -dimen -sional dataset ,such as MDS ,Isomap .At the same time the authors discuss applications of those methods .Key words :high -dimensional data ;dimensionality reduction ;MDS ;Isomap ;LLE 收稿日期:2006-12-20 基金项目:国家自科基金资助项目(70473068) 作者简介:余肖生(1973-),男,湖北监利人,博士研究生,从事信息管理与电子商务研究;周 宁(1943-),男, 湖北钟祥人,教授,博士生导师,从事信息组织与检索、信息系统工程、电子商务与电子政务研究. 1 引 言 随着计算机技术、多媒体技术的发展,在实际应用中经常会碰到高维数据,如文档词频数据、交易数据及多媒体数据等。随着数据维数的升高,高维索引结构的性能迅速下降,在低维空间中,我们经常采用Lp 距离(当p =1时,Lp 距离称为Man -hattan 距离;当p =2时,Lp 距离称为Euclidean 距离)作为数据之间的相似性度量,在高维空间中很多情况下这种相似性的概念不复存在,这就给基于高维数据的知识挖掘带来了严峻的考验【1】 。而这些高维数据通常包含许多冗余,其本质维往往比原始的数据维要小得多,因此高维数据的处理问题可以归结为通过相关的降维方法减少一些不太相关的数据而降低它的维数,然后用低维数据的处理办法进行处理 【2-3】 。高维数据成功处理的关键在于降维方 法的选择,因此笔者拟先介绍三种主要降维方法, 接着讨论高维数据降维方法的一些应用。 2 高维数据的主要降维方法 高维数据的降维方法有多种,本文主要讨论有代表性的几种方法。 2.1 MDS (multidimensional scaling )方法 MDS 是数据分析技术的集合,不仅在这个空间上忠实地表达数据之间联系,而且还要降低数据集的维数,以便人们对数据集的观察。这种方法实质是一种加入矩阵转换的统计模式,它将多维信息 通过矩阵运算转换到低维空间中,并保持原始信息之间的相互关系 【4】 。 每个对象或事件在多维空间上都可以通过一个 点表示。在这个空间上点与点之间的距离和对象与对象之间的相似性密切相关。即两个相似的对象通过空间临近的两个点来表示,且两个不相似的对象 第25卷第8期2007年8月 情 报 科 学 Vol .25,No .8 August ,2007

降维方法

国内当前流行的文本分类算法有最大熵(MaximumEntropy,ME),K近邻法(KNN),朴素贝叶斯法(NB),支持向量机法(SVM),线性最小平分拟合法(LLSF),神经网络法(Nnet)等,其中KNN、NB和SVM的分类效果相对较好。 文本分类由文本表示,特征降维和分类器训练组成,分类算法只是其中的一个环节,另外两个环节也非常重要。目前普遍采用向量空间模型来表示文本,常见的特征词加权方法有:布尔权重、词频权重、TF—IDF权重等,常见的特征选择方法有文档频率,互信息和统计等。 基于机器学习文本分类的基础技术由文本的表示(representation) 、分类方法及效果(effectiveness)评估3 部分组成。Sebastiani对文本分类发展历程及当时的技术进行了总结,主要内容包括: (1)文本关于项(term)或特征的向量空间表示模型(VSM)及特征选择 (selection)与特征提取(extraction)两种表示空间降维(dimensionality reduction)策略,讨论了χ2,IG,MI,OR 等用于特征过滤的显著性统计量及项聚类和隐含语义索引(LSI)等特征提取方法; (2) 当时较成熟的分类模型方法,即分类器的归纳构造(inductive construction)或模型的挖掘学习过程; (3) 分类效果评估指标,如正确率(precision) 召回率(recall) 均衡点(BEP) F β(常用F1)和精度(accuracy)等,以及之前报道的在Reuters 等基准语料上的效果参考比较。 1、中文评论语料的采集 利用DOM 构建网页结构树,对结构树的分析实现了中文评论的自动采集的方

较大规模数据应用PCA降维的一种方法

计算机工程应用技术 本栏目责任编辑:梁 书 较大规模数据应用PCA 降维的一种方法 赵桂儒 (中国地震台网中心,北京100045) 摘要:PCA 是一种常用的线性降维方法,但在实际应用中,当数据规模比较大时无法将样本数据全部读入内存进行分析计 算。文章提出了一种针对较大规模数据应用PCA 进行降维的方法,该方法在不借助Hadoop 云计算平台的条件下解决了较大规模数据不能直接降维的问题,实际证明该方法具有很好的应用效果。关键词:主成分分析;降维;大数据中图分类号:TP311 文献标识码:A 文章编号:1009-3044(2014)08-1835-03 A Method of Dimensionality Reduction for Large Scale Data Using PCA ZHAO Gui-ru (China Earthquake Networks Center,Beijing 100045,China) Abstract:PCA is a general method of linear dimensionality reduction.It is unable to read all the sample data into the memory to do analysis when the data scale becomes large.A method of dimensionality reduction for large scale data using PCA without Ha?doop is proposed in this paper.This method solves the problem that it can ’t do dimensionality reduction directly on large scale data.Practice proves that this method has a good application effect.Key words:PCA;dimensionality reduction;large scale data 现实生活中人们往往需要用多变量描述大量的复杂事物和现象,这些变量抽象出来就是高维数据。高维数据提供了有关客观现象极其丰富、详细的信息,但另一方面,数据维数的大幅度提高给随后的数据处理工作带来了前所未有的困难。因此数据降维在许多领域起着越来越重要的作用,通过数据降维可以减轻维数灾难和高维空间中其他不相关属性。所谓数据降维是指通过线性或非线性映射将样本从高维空间映射到低维空间,从而获得高维数据的一个有意义的低维表示的过程。 主成分分析(Principal Component Analysis ,PCA )是通过对原始变量的相关矩阵或协方差矩阵内部结构的研究,将多个变量转换为少数几个综合变量即主成分,从而达到降维目的的一种常用的线性降维方法。这些主成分能够反映原始变量的绝大部分信息,它们通常表示为原始变量的线性组合。在实际应用中当数据规模超过计算机内存容量(例如16G)时就无法将样本数据全部读入内存来分析原始变量的内部结构,这成为PCA 在实际应用中存在的一个问题。该文从描述PCA 变换的基本步骤出发,提出了一种不需要Hadoop 等云计算平台即可对较大规模数据进行降维的一种方法,实际证明该方法具有很好的应用效果。 1PCA 变换的基本步骤 PCA 是对数据进行分析的一种技术,主要用于数据降维,方法是利用投影矩阵将高维数据投影到较低维空间。PCA 降维的一般步骤是求取样本矩阵的协方差矩阵,计算协方差矩阵的特征值及其对应的特征向量,由选择出的特征向量构成这个投影矩阵。 ?è???????? ÷÷÷÷÷÷cov(x 1,x 1),cov(x 1,x 2),cov(x 1,x 3),?,cov(x 1,x N )cov(x 2,x 1),cov(x 2,x 2),cov(x 2,x 3),?,cov(x 2,x N ) ?cov(x N ,x 1),cov(x N ,x 2),cov(x N ,x 3),?,cov(x N ,x N )(1)假设X M ×N 是一个M ×N (M >N ),用PCA 对X M ×N 进行降维分析,其步骤为:1)将矩阵X M ×N 特征中心化,计算矩阵X M ×N 的样本的协方差矩阵C N ×N ,计算出的协方差矩阵如式(1)所示,式中x i 代表X M ×N 特征中心化后的第i 列; 2)计算协方差矩阵C N ×N 的特征向量e 1,e 2...e N 和对应的特征值λ1,λ2...λN ,将特征值按从大到小排序; 3)根据特征值大小计算协方差矩阵的贡献率及累计贡献率,计算公式为: θi =λi ∑n =1 N λn i =1,2,...,N (2) 收稿日期:2014-01-20基金项目:国家留学基金资助项目(201204190040)作者简介:赵桂儒(1983-),男,山东聊城人,工程师,硕士,迈阿密大学访问学者,主要研究方向为多媒体信息处理。 1835

高维数据的低维表示综述

高维数据的低维表示综述 一、研究背景 在科学研究中,我们经常要对数据进行处理。而这些数据通常都位于维数较高的空间,例如,当我们处理200个256*256的图片序列时,通常我们将图片拉成一个向量,这样,我们得到了65536*200的数据,如果直接对这些数据进行处理,会有以下问题:首先,会出现所谓的“位数灾难”问题,巨大的计算量将使我们无法忍受;其次,这些数据通常没有反映出数据的本质特征,如果直接对他们进行处理,不会得到理想的结果。所以,通常我们需要首先对数据进行降维,然后对降维后的数据进行处理。 降维的基本原理是把数据样本从高维输入空间通过线性或非线性映射投影到一个低维空间,从而找出隐藏在高维观测数据中有意义的低维结构。(8) 之所以能对高维数据进行降维,是因为数据的原始表示常常包含大量冗余: · 有些变量的变化比测量引入的噪声还要小,因此可以看作是无关的 · 有些变量和其他的变量有很强的相关性(例如是其他变量的线性组合或是其他函数依赖关系),可以找到一组新的不相关的变量。(3) 从几何的观点来看,降维可以看成是挖掘嵌入在高维数据中的低维线性或非线性流形。这种嵌入保留了原始数据的几何特性,即在高维空间中靠近的点在嵌入空间中也相互靠近。(12) 数据降维是以牺牲一部分信息为代价的,把高维数据通过投影映射到低维空间中,势必会造成一些原始信息的损失。所以在对高维数据实施降维的过程中如何在最优的保持原始数据的本质的前提下,实现高维数据的低维表示,是研究的重点。(8) 二、降维问题 1.定义 定义1.1降维问题的模型为(,)X F ,其中D 维数据空间集合{}1N l l X x ==(一般为D R 的一个子集),映射F :F X Y →(),x y F x →=

高光谱数据处理基本流程

高光谱数据处理基本流 程 The document was finally revised on 2021

高光谱分辨率遥感 用很窄(10-2l)而连续的光谱通道对地物持续遥感成像的技术。在可见光到短波红外波段其光谱分辨率高达纳米(nm)数量级,通常具有波段多的特点,光谱通道数多达数十甚至数百个以上,而且各光谱通道间往往是连续的,每个像元均可提取一条连续的光谱曲线,因此高光谱遥感又通常被称为成像光谱(Imaging Spectrometry)遥感。 高光谱遥感具有不同于传统遥感的新特点: (1)波段多——可以为每个像元提供几十、数百甚至上千个波段; (2)光谱范围窄——波段范围一般小于10nm; (3)波段连续——有些传感器可以在350~2500nm的太阳光谱范围内提供几乎连续的地物光谱; (4)数据量大——随着波段数的增加,数据量成指数增加; (5)信息冗余增加——由于相邻波段高度相关,冗余信息也相对增加。 优点: (1)有利于利用光谱特征分析来研究地物; (2)有利于采用各种光谱匹配模型; (3)有利于地物的精细分类与识别。 ENVI高光谱数据处理流程: 一、图像预处理 高光谱图像的预处理主要是辐射校正,辐射校正包括传感器定标和大气纠正。辐射校正一般由数据提供商完成。 二、显示图像波谱 打开高光谱数据,显示真彩色图像,绘制波谱曲线,选择需要的光谱波段进行输出。 三、波谱库 1、标准波谱库 软件自带多种标准波谱库,单击波谱名称可以显示波谱信息。 2、自定义波谱库

ENVI提供自定义波谱库功能,允许基于不同的波谱来源创建波谱库,波谱来源包括收集任意点波谱、ASCII文件、由ASD波谱仪获取的波谱文件、感兴趣区均值、波谱破面和曲线等等。 3、波谱库交互浏览 波谱库浏览器提供很多的交互功能,包括设置波谱曲线的显示样式、添加注记、优化显示曲线等 四、端元波谱提取 端元的物理意义是指图像中具有相对固定光谱的特征地物类型,它实际上代表图像中没有发生混合的“纯点”。 端元波谱的确定有两种方式: (1)使用光谱仪在地面或实验室测量到的“参考端元”,一般从标准波谱库选择; (2)在遥感图像上得到的“图像端元”。 端元波谱获取的基本流程: (1)MNF变换 重要作用为:用于判定图像内在的维数;分离数据中的噪声;减少计算量;弥补了主成分分析在高光谱数据处理中的不足。 (2)计算纯净像元指数PPI PPI生成的结果是一副灰度的影像,DN值越大表明像元越纯。 作用及原理:

常见的特征选择或特征降维方法

URL:https://www.wendangku.net/doc/a95025099.html,/14072.html 特征选择(排序)对于数据科学家、机器学习从业者来说非常重要。好的特征选择能够提升模型的性能,更能帮助我们理解数据的特点、底层结构,这对进一步改善模型、算法都有着重要作用。 特征选择主要有两个功能: 1.减少特征数量、降维,使模型泛化能力更强,减少过拟合 2.增强对特征和特征值之间的理解 拿到数据集,一个特征选择方法,往往很难同时完成这两个目的。通常情况下,选择一种自己最熟悉或者最方便的特征选择方法(往往目的是降维,而忽略了对特征和数据理解的目的)。 在许多机器学习的书里,很难找到关于特征选择的容,因为特征选择要解决的问题往往被视为机器学习的一种副作用,一般不会单独拿出来讨论。本文将介绍几种常用的特征选择方法,它们各自的优缺点和问题。 1 去掉取值变化小的特征Removing features with low variance 这应该是最简单的特征选择方法了:假设某种特征的特征值只有0和1,并且在所有输入样本中,95%的实例的该特征取值都是1,那就可以认为这个特征作用不大。如果100%都是1,那这个特征就没意义了。当特征值都是离散型变量的时候这种方法才能用,如果是连续型变量,就需要将连续变量离散化之后才能用,而且实际当中,一般不太会有95%以上都取某个值的特征存在,所以这种方法虽然简单但是不太好用。可以把它作为特征选择的预处理,先去掉那些取值变化小的特征,然后再从接下来提到的特征选择方法中选择合适的进行进一步的特征选择。

2 单变量特征选择Univariate feature selection 单变量特征选择能够对每一个特征进行测试,衡量该特征和响应变量之间的关系,根据得分扔掉不好的特征。对于回归和分类问题可以采用卡方检验等方式对特征进行测试。 这种方法比较简单,易于运行,易于理解,通常对于理解数据有较好的效果(但对特征优化、提高泛化能力来说不一定有效);这种方法有许多改进的版本、变种。 2.1 Pearson相关系数Pearson Correlation 皮尔森相关系数是一种最简单的,能帮助理解特征和响应变量之间关系的方法,该方法衡量的是变量之间的线性相关性,结果的取值区间为[-1,1],-1表示完全的负相关(这个变量下降,那个就会上升),+1表示完全的正相关,0表示没有线性相关。 Pearson Correlation速度快、易于计算,经常在拿到数据(经过清洗和特征提取之后的)之后第一时间就执行。 Pearson相关系数的一个明显缺陷是,作为特征排序机制,他只对线性关系敏感。如果关系是非线性的,即便两个变量具有一一对应的关系, Pearson相关性也可能会接近0。 2.2 互信息和最大信息系数Mutual information and maximal information coefficient (MIC)

数据降维方法分析与研究_吴晓婷

收稿日期:2008211226;修回日期:2009201224 基金项目:国家自然科学基金资助项目(60372071);中国科学院自动化研究所复杂系统与智能科学重点实验室开放课题基金资助项目(20070101);辽宁省教育厅高等学校科学研究基金资助项目(2004C031) 作者简介:吴晓婷(19852),女(蒙古族),内蒙古呼伦贝尔人,硕士研究生,主要研究方向为数据降维、模式识别等(xiaoting wu85@hot m ail . com );闫德勤(19622),男,博士,主要研究方向为模式识别、数字水印和数据挖掘等. 数据降维方法分析与研究 3 吴晓婷,闫德勤 (辽宁师范大学计算机与信息技术学院,辽宁大连116081) 摘 要:全面总结现有的数据降维方法,对具有代表性的降维方法进行了系统分类,详细地阐述了典型的降维方法,并从算法的时间复杂度和优缺点两方面对这些算法进行了深入的分析和比较。最后提出了数据降维中仍待解决的问题。 关键词:数据降维;主成分分析;局部线性嵌入;等度规映射;计算复杂度 中图分类号:TP301 文献标志码:A 文章编号:100123695(2009)0822832204 doi:10.3969/j .jssn .100123695.2009.08.008 Analysis and research on method of data dimensi onality reducti on WU Xiao 2ting,Y AN De 2qin (School of Co m puter &Infor m ation Technology,L iaoning N or m al U niversity,D alian L iaoning 116081,China ) Abstract:This paper gave a comp rehensive su mmarizati on of existing di m ensi onality reducti on methods,as well as made a classificati on t o the rep resentative methods systematically and described s ome typ ical methods in detail.Further more,it deep ly analyzed and compared these methods by their computati onal comp lexity and their advantages and disadvantages .Finally,it p r oposed the crucial p r oble m s which needed t o be res olved in future work in data di m ensi onality reducti on . Key words:data di m ensi onality reducti on;p rinci pal component analysis (PCA );l ocally linear e mbedding (LLE );is ometric mapp ing;computati onal comp lexity 近年来,数据降维在许多领域起着越来越重要的作用。通过数据降维可以减轻维数灾难和高维空间中其他不相关属性,从而促进高维数据的分类、可视化及压缩。所谓数据降维是指通过线性或非线性映射将样本从高维空间映射到低维空间,从而获得高维数据的一个有意义的低维表示的过程。数据降维的数学描述如下:a )X ={x i }N i =1是D 维空间中的一个样本集, Y ={y i }N i =1是d (d <

高光谱数据处理基本流程

高光谱分辨率遥感 用很窄(10-2l)而连续的光谱通道对地物持续遥感成像的技术。在可见光到短波红外波段其光谱分辨率高达纳米(nm)数量级,通常具有波段多的特点,光谱通道数多达数十甚至数百个以上,而且各光谱通道间往往是连续的,每个像元均可提取一条连续的光谱曲线,因此高光谱遥感又通常被称为成像光谱(ImagingSpectrometry)遥感。 高光谱遥感具有不同于传统遥感的新特点: (1)波段多——可以为每个像元提供几十、数百甚至上千个波段; (2)光谱范围窄——波段范围一般小于10nm; (3)波段连续——有些传感器可以在350~2500nm的太阳光谱范围内提供几乎连续的地物光谱; (4)数据量大——随着波段数的增加,数据量成指数增加; (5)信息冗余增加——由于相邻波段高度相关,冗余信息也相对增加。 优点: (1)有利于利用光谱特征分析来研究地物; (2)有利于采用各种光谱匹配模型; (3)有利于地物的精细分类与识别。 ENVI高光谱数据处理流程: 一、图像预处理 高光谱图像的预处理主要是辐射校正,辐射校正包括传感器定标和大气纠正。辐射校正一般由数据提供商完成。 二、显示图像波谱 打开高光谱数据,显示真彩色图像,绘制波谱曲线,选择需要的光谱波段进行输出。 三、波谱库 1、标准波谱库 软件自带多种标准波谱库,单击波谱名称可以显示波谱信息。 2、自定义波谱库 ENVI提供自定义波谱库功能,允许基于不同的波谱来源创建波谱库,波谱

来源包括收集任意点波谱、ASCII文件、由ASD波谱仪获取的波谱文件、感兴趣区均值、波谱破面和曲线等等。 3、波谱库交互浏览 波谱库浏览器提供很多的交互功能,包括设置波谱曲线的显示样式、添加注记、优化显示曲线等 四、端元波谱提取 端元的物理意义是指图像中具有相对固定光谱的特征地物类型,它实际上代表图像中没有发生混合的“纯点”。 端元波谱的确定有两种方式: (1)使用光谱仪在地面或实验室测量到的“参考端元”,一般从标准波谱库选择; (2)在遥感图像上得到的“图像端元”。 端元波谱获取的基本流程: (1)MNF变换 重要作用为:用于判定图像内在的维数;分离数据中的噪声;减少计算量;弥补了主成分分析在高光谱数据处理中的不足。 (2)计算纯净像元指数PPI PPI生成的结果是一副灰度的影像,DN值越大表明像元越纯。 作用及原理: 纯净像元指数法对图像中的像素点进行反复迭代,可以在多光谱或者高光谱影像中寻找最“纯”的像元。(通常基于MNF变换结果来进行)

多组分分析方法综述

重金属多组分分析的研究现状 近年来,随着科技的进步,单组分重金属的检测技术已经非常成熟,但是在实际污染体系中重金属离子种类繁多,且它们之间往往存在相互干扰,传统的化学分析方法和化学分析仪器难以一次性精确的检测出各个重金属离子的浓度,需要对共存组分进行同时测定。 对共存组分进行同时测定,传统的化学分析方法是首先通过加入各种掩蔽剂进行组分的预分离,然后采用单组分重金属检测技术进行分析检测。这种方法的分离过程往往冗长繁琐,实验条件苛刻,费时费力,而且检测精度低,无法应用于污染现场的检测。 随着计算机科学技术、光谱学和化学信息学的发展,复杂体系的多组分分析已成为当今光谱技术的研究热点,应用范围涉及环境监测、石油化工、高分子化工、食品工业和制药工业等领域,而且需求日益显著。由于多重金属离子共存时会产生重金属离子间的相互作用,因此在用化学分析仪器检测时会产生相干数据干扰,对实验结果产生影响,为了使测试结果更加准确,需要在实验的基础上建立数学模型,用于数据处理,消除各重金属离子共存时产生的相干数据干扰。近年来,引入化学计量学手段,用“数学分离”部分代替复杂的“化学分离”,从而达到重金属离子的快速、简便分析测定[1]。 化学计量学是一门通过统计学或数学方法将对化学体系的测量值与体系的状态之间建立联系的学科,它应用数学、统计学和其他方法和手段(包括计算机)选择最优试验设计和测量方法,并通过对测量数据的处理和解析,最大限度地获取有关物质系统的成分、结构及其他相关信息。目前,已有许多化学计量学方法从不同程度和不同方面解决了分析化学中多组分同时测定的问题,如偏最小二乘法(PLS)、主成分回归法(PCR)、Kalman滤波法、多元线性回归(MLR)等,这些方法减少了分离的麻烦,并使试验更加科学合理。 (1) 光谱预处理技术 这些方法用来降噪、消除无关信息。 ①主成分分析法 在处理多元样本数据时,假设总体为X=(x1,x1,x3…xn),其中每个xi (i=1,2,3,…n)为要考察的数量指标,在实践中常常遇到的情况是这n个指标之间存在着相关关系。如果能从这n个指标中构造出k个互不相关的所谓综合指标(k

红外与近红外光谱常用数据处理算法

一、数据预处理 (1)中心化变换 (2)归一化处理 (3)正规化处理 (4)标准正态变量校正(标准化处理)(Standard Normal Variate,SNV)(5)数字平滑与滤波(Smooth) (6)导数处理(Derivative) (7)多元散射校正(Multiplicative Scatter Correction,MSC) (8)正交信号校正(OSC) 二、特征的提取与压缩 (1)主成分分析(PCA) (2)马氏距离 三、模式识别(定性分类) (1)基于fisher意义下的线性判别分析(LDA) (2)K-最邻近法(KNN) (3)模型分类方法(SIMCA) (4)支持向量机(SVM) (5)自适应boosting方法(Adaboost) 四、回归分析(定量分析) (1)主成分回归(PCR) (2)偏最小二乘法回归(PLS) (3)支持向量机回归(SVR)

一、数据预处理 (1) 中心化变换 中心化变换的目的是在于改变数据相对于坐标轴的位置。一般都是希望数据集的均值与坐标轴的原点重合。若x ik 表示第i 个样本的第k 个测量数据,很明显这个数据处在数据矩阵中的第i 行第k 列。中心化变换就是从数据矩阵中的每一个元素中减去该元素所在元素所在列的均值的运算: u ik k x x x =- ,其中k x 是n 个样本的均值。 (2) 归一化处理 归一化处理的目的是是数据集中各数据向量具有相同的长度,一般为单位长度。其公式为: 'ik x = 归一化处理能有效去除由于测量值大小不同所导致的数据集的方差,但是也可能会丢失重要的方差。 (3)正规化处理 正规化处理是数据点布满数据空间,常用的正规化处理为区间正规化处理。其处理方法是以原始数据集中的各元素减去所在列的最小值,再除以该列的极差。 min() 'max()min() ik ik k k x xk x x x -= - 该方法可以将量纲不同,范围不同的各种变量表达为值均在0~1范围内的数据。但这种方法对界外值很敏感,若存在界外值,则处理后的所有数据近乎相等。 (4) 标准化处理(SNV )也称标准正态变量校正 该处理能去除由单位不同所引起的不引人注意的权重,但这种方法对界外点不像区间正规化那样的敏感。标准化处理也称方差归一化。它是将原始数据集各个元素减去该元素所在列的元素的均值再除以该列元素的标准差。 ';ik k ik k k x x x S S -==

高维面板数据降维与变量选择方法研究

高维面板数据降维与变量选择方法研究 张波方国斌 2012-12-14 14:35:56 来源:《统计与信息论坛》(西安)2012年6期第21~28页内容提要:从介绍高维面板数据的一般特征入手,在总结高维面板数据在实际应用中所表现出的各种不同类型及其研究理论与方法的同时,主要介绍高维面板数据因子模型和混合效应模型;对混合效应模型随机效应和边际效应中的高维协方差矩阵以及经济数据中出现的多指标大维数据的研究进展进行述评;针对高维面板数据未来的发展方向、理论与应用中尚待解决的一些关键问题进行分析与展望。 关键词:高维面板数据降维变量选择 作者简介:张波,中国人民大学统计学院(北京100872);方国斌,中国人民大学统计学院,安徽财经大学统计与应用数学学院(安徽蚌埠233030)。 一、引言 在社会现象观测和科学实验过程中经常会产生面板数据。这类数据通过对多个个体在不同时间点上进行重复测度,得到每个个体在不同样本点上的多重观测值,形成时间序列和横截面相结合的数据,也就是所谓的“面板数据”。由于应用背景的不同,面板数据有时也称作纵向数据(longitudinal data)。面板数据广泛产生于经济学、管理学、生物学、心理学、健康科学等诸多领域。

随着信息技术的高速发展,数据采集、存储和处理能力不断提高,所谓的高维数据分析问题不断涌现。对于多元统计分析而言,高维问题一般指如下两种情形:一种是变量个数p较大而样本量n相对较小,例如药物试验中有成千上万个观测指标而可用于实验观测的病人个数较少;另一种是变量个数户不大但是样本个数n较多,例如一项全国调查牵涉到大量的调查对象,而观测指标个数相对较少。面板数据高维问题较多元(时序)高维问题更为复杂,因为面板数据至少包括两个维度:时间和横截面。在实际应用中,不同个体在不同时间进行观测时可以获得多个指标值。为了以下论述的方便,用p表示指标个数,T表示观测期长度,N表示个体(individual)或主题(subject)个数。数理统计中所提到的高维(大维)问题,通常是指个体数N、时期长度T或指标个数p这三个变量中的一个或多个可以趋向于无穷。具体应用中,只要N、T和p中有一个或多个大于某个给定的临界值,都称为高维问题。 本文主要研究两种基本类型的高维面板问题:一类为面板数据分析中解释变量个数p非常多,超过个体数N和时期数T,比如零售商业网点成千上万种商品扫描数据,央行和国家统计部门得到的多个指标在不同个体宏观经济观测数据等;另一类是混合效应模型中随机效应和固定效应设定时方差协方差矩阵所需确定的参数个数较多,某些参数的值趋向于零,要对方差协方差矩阵进行变量选择,此时针对固定效应和随机效应可以采用不同的变量选择策略。 二、高维面板数据因子模型 大型数据集构成的社会经济面板的特点是具有成百上千个观测指标,也就是具有所谓的高维特征。由于这种特征的存在,采用经典统计计量分析方法很难进行处理。因子模型(factor model)不仅可以有效降低数据的维度,而且可以充

大数据降维的经典方法

大数据降维的经典方法 近来由于数据记录和属性规模的急剧增长,大数据处理平台和并行数据分析算法也随之出现。 近来由于数据记录和属性规模的急剧增长,大数据处理平台和并行数据分析算法也随之出现。于此同时,这也推动了数据降维处理的应用。实际上,数据量有时过犹不及。有时在数据分析应用中大量的数据反而会产生更坏的性能。 最新的一个例子是采用2009 KDD Challenge 大数据集来预测客户流失量。该数据集维度达到15000 维。大多数数据挖掘算法都直接对数据逐列处理,在数据数目一大时,导致算法越来越慢。该项目的最重要的就是在减少数据列数的同时保证丢失的数据信息尽可能少。 以该项目为例,我们开始来探讨在当前数据分析领域中最为数据分析人员称道和接受的数据降维方法。 缺失值比率(Missing Values Ratio) 该方法的是基于包含太多缺失值的数据列包含有用信息的可能性较少。因此,可以将数据列缺失值大于某个阈值的列去掉。阈值越高,降维方法更为积极,即降维越少。该方法示意图如下: 低方差滤波(Low Variance Filter) 与上个方法相似,该方法假设数据列变化非常小的列包含的信息量少。因此,所有的数据列方差小的列被移除。需要注意的一点是:方差与数据范围相关的,因此在采用该方法前需要对数据做归一化处理。算法示意图如下: 高相关滤波(High Correlation Filter) 高相关滤波认为当两列数据变化趋势相似时,它们包含的信息也显示。这样,使

用相似列中的一列就可以满足机器学习模型。对于数值列之间的相似性通过计算相关系数来表示,对于名词类列的相关系数可以通过计算皮尔逊卡方值来表示。相关系数大于某个阈值的两列只保留一列。同样要注意的是:相关系数对范围敏感,所以在计算之前也需要对数据进行归一化处理。算法示意图如下: 随机森林/组合树(Random Forests) 组合决策树通常又被成为随机森林,它在进行特征选择与构建有效的分类器时非常有用。一种常用的降维方法是对目标属性产生许多巨大的树,然后根据对每个属性的统计结果找到信息量最大的特征子集。例如,我们能够对一个非常巨大的数据集生成非常层次非常浅的树,每颗树只训练一小部分属性。如果一个属性经常成为最佳分裂属性,那么它很有可能是需要保留的信息特征。对随机森林数据属性的统计评分会向我们揭示与其它属性相比,哪个属性才是预测能力最好的属性。算法示意图如下: 主成分分析(PCA) 主成分分析是一个统计过程,该过程通过正交变换将原始的n 维数据集变换到一个新的被称做主成分的数据集中。变换后的结果中,第一个主成分具有最大的方差值,每个后续的成分在与前述主成分正交条件限制下与具有最大方差。降维时仅保存前m(m < n) 个主成分即可保持最大的数据信息量。需要注意的是主成分变换对正交向量的尺度敏感。数据在变换前需要进行归一化处理。同样也需要注意的是,新的主成分并不是由实际系统产生的,因此在进行PCA 变换后会丧失数据的解释性。如果说,数据的解释能力对你的分析来说很重要,那么PCA 对你来说可能就不适用了。算法示意图如下: 反向特征消除(Backward Feature Elimination)

数据分析中常用的降维方法有哪些

数据分析中常用的降维方法有哪些 对大数据分析感兴趣的小伙伴们是否了解数据分析中常用的降维方法都有哪些呢?本篇文章小编和大家分享一下数据分析领域中最为人称道的七种降维方法,对大数据开发技术感兴趣的小伙伴或者是想要参加大数据培训进入大数据领域的小伙伴就随小编一起来看一下吧。 近来由于数据记录和属性规模的急剧增长,大数据处理平台和并行数据分析算法也随之出现。于此同时,这也推动了数据降维处理的应用。实际上,数据量有时过犹不及。有时在数据分析应用中大量的数据反而会产生更坏的性能。 我们今天以2009 KDD Challenge 大数据集来预测客户流失量为例来探讨一下,大多数数据挖掘算法都直接对数据逐列处理,在数据数目一大时,导致算法越来越慢。因此,下面我们一下来了解一下数据分析中常用的降维方法。 缺失值比率(Missing Values Ratio) 该方法的是基于包含太多缺失值的数据列包含有用信息的可能性较少。因此,可以将数据列缺失值大于某个阈值的列去掉。阈值越高,降维方法更为积极,即降维越少。 低方差滤波(Low Variance Filter) 与上个方法相似,该方法假设数据列变化非常小的列包含的信息量少。因此,所有的数据列方差小的列被移除。需要注意的一点是:方差与数据范围相关的,因此在采用该方法前需要对数据做归一化处理。 高相关滤波(High Correlation Filter) 高相关滤波认为当两列数据变化趋势相似时,它们包含的信息也显示。这样,使用相似列中的一列就可以满足机器学习模型。对于数值列之间的相似性通过计算相关系数来表示,对于名词类列的相关系数可以通过计算皮尔逊卡方值来表示。相关系数大于某个阈值的两列只保留一列。同样要注意的是:相关系数对范围敏感,所以在计算之前也需要对数据进行归一化处理。 随机森林/组合树(Random Forests) 组合决策树通常又被成为随机森林,它在进行特征选择与构建有效的分类器时非常有用。一种常用的降维方法是对目标属性产生许多巨大的树,然后根据对每个属性的统计结果找到信息量最大的特征子集。例如,我们能够对一个非常巨大的数据集生成非常层次非常浅的树,每颗树只训练一小部分属性。如果一个属

相关文档