文档库 最新最全的文档下载
当前位置:文档库 › 基于点分布特征的多元时间序列模式匹配方法

基于点分布特征的多元时间序列模式匹配方法

基于点分布特征的多元时间序列模式匹配方法
基于点分布特征的多元时间序列模式匹配方法

ISSN 1000-9825, CODEN RUXUEW E-mail: jos@https://www.wendangku.net/doc/c59457685.html,

Journal of Software, Vol.20, No.1, January 2009, pp.67?79 https://www.wendangku.net/doc/c59457685.html, doi: 10.3724/SP.J.1001.2009.03450 Tel/Fax: +86-10-62562563

? by Institute of Software, the Chinese Academy of Sciences. All rights reserved.

?

基于点分布特征的多元时间序列模式匹配方法

管河山1, 姜青山2+, 王声瑞3

1(厦门大学计算机科学系,福建厦门 361005)

2(厦门大学软件学院,福建厦门 361005)

3(Department of Computer Science, University of Sherbook, Quebec, Canada)

Pattern Matching Method Based on Point Distribution for Multivariate Time Series

GUAN He-Shan1, JIANG Qing-Shan2+, WANG Sheng-Rui3

1(Department of Computer Sciences, Xiamen University, Xiamen 361005, China)

2(School of Software, Xiamen University, Xiamen 361005, China)

3(Department of Computer Science, University of Sherbook, Quebec, Canada)

+ Corresponding author: E-mail: qjiang@https://www.wendangku.net/doc/c59457685.html,

Guan HS, Jiang QS, Wang SR. Pattern matching method based on point distribution for multivariate time

series. Journal of Software, 2009,20(1):67?79. https://www.wendangku.net/doc/c59457685.html,/1000-9825/3450.htm

Abstract: Common methods for matching multivariate time series such as the Euclid method and PCA method

have difficulties in taking advantage of the global shape of time series. The Euclid method is not robust, while the

PCA method is not suitable to deal with the small-scale multivariate time series. This paper proposes a pattern

matching method based on point distribution for multivariate time series, which is able to characterize the shape of

series. Local important points of a multivariate time series and their distribution are used to construct the pattern

vector. To match pattern of multivariate time series, the Euclid norm is used to measure the similarity between the

pattern vectors. The global shape characteristic is used in the method to match patterns of series. The results of

experiments show that it is easy to characterize the shape of multivariate time series with this method, with which

various scales can be dealt with in series data.

Key words: multivariate time series; local important point; point distribution; shape characteristic; similarity

measure; pattern matching

摘要: 多元时间序列模式匹配的常用方法难以刻画序列的全局形状特征,比如,Euclid方法的鲁棒性不够强;而

PCA方法不适合处理小规模多元时间序列.基于点的统计分布提出了一种能够有效刻画多元时间序列形状特征的

模式匹配方法.首先,提取多元时间序列样本的局部重要点,作为模式描述的方式;然后,根据重要点的统计分布特点

构建特征模式向量,并借助Euclid范数来度量两个特征模式向量之间的相似程度,进而进行多元时间序列模式匹配.

采用该方法进行模式匹配,充分利用了序列的全局形状特征.实验结果表明,基于点分布特征的多元时间序列模式匹

配能够有效地刻画序列的形状特征,且能处理多种规模的序列数据.

? Supported by the National Natural Science Foundation of China under Grant No.10771176 (国家自然科学基金); the National 985

Project of China under Grant No.0000-X07204 (国家“九八五”工程二期基金)

Received 2007-11-21; Accepted 2008-08-07

68 Journal of Software 软件学报 V ol.20, No.1, January 2009

关键词: 多元时间序列;局部重要点;点分布;形状特征;相似性度量;模式匹配 中图法分类号: TP311 文献标识码: A

多元时间序列包括了医学、音频、视频和过程监控等方面的数据.随着相关领域发展的需求和计算机技术的进步,多元时间序列数据的收集变得越来越庞大,而多元时间序列挖掘的研究工作也得到了极大的挑战和发展,比如多元时间序列的分类、预测和模式挖掘等都得到广泛的研究[1?5].从其应用研究角度来看,多元时间序列挖掘的相关技术也得到广泛的应用.比如,医生可以根据心电图来判定病人的状况[1?2];生产过程控制中,监控人员可以根据历史数据来形成经验,并在监控过程中及时发现错误并予以纠正[3?5];此外,音频检索和视频检索也可借助多元时间序列模挖掘的相关技术.目前,时间序列挖掘的相关研究中,大多数研究都利用了相似性度量的技术,其中,有很多一元时间序列的相似性度量研究,也产生了一套比较成熟的理论[6?13],而多元时间序列的相似性度量研究相对较少[14?21].可以说相似性度量的研究是时间序列挖掘的核心技术之一,也是时间序列挖掘的重大挑战之一,时间序列的模式匹配与相似性度量也是紧密关联的.

时间序列模式匹配主要是指从时间序列中寻找变化规律并预测未来的发展趋势,从而有效地对客观事物规律进行预报和控制.我们主要针对小规模多元时间序列来展开模式匹配的研究,比如Robot Execution Failures 数据[22](每个序列样本为15×6阶的矩阵).Robot 的监控数据可以分为正常状态和非正常状态两种类型,通过对Robot 收集相应的监控数据,并借助已有的决策系统可以对其实现实时监控、错误诊断和修复等相关工作.本文提出基于点分布特征的模式匹配方法(point distribution,简称PD 方法),该方法可以对Robot 监控这样的小规模多元时间序列数据进行有效的模式匹配,也可以处理其他领域的小规模多元时间序列数据,而且对大规模的多元时间序列进行模式匹配也有较好的效果.

给定一个多元时间序列12(,,...,)t t t lt X X X X ′=,其中l 为一个正整数,时间t=1,2,…,n ,该序列为一个l 元的时间序列,其中序列规模可以根据l ×n 的取值来判定,若取值较小,则定义小规模的多元时间序列.多元时间序列模式匹配的流程如图1所示.通常,模式匹配需要解决两大关键问题:模式的定义方式(模式表示)和相似性度量的方式.多元时间序列由于其不同维度之间的关系复杂,使得模式匹配的研究工作开展得相对缓慢,特别是在相似性度量的研究方面,多元时间序列远远落伍于一元时间序列.比如,在多元时间序列模式匹配的研究当中,PCA(principal component analysis)是一种常用的方法[14,15],然而主成分的求解通常需要大量的数据才能得到合适的解,在处理小规模的多元时间序列数据时,PCA 方法难以得到合理的结果;Euclid 模式匹配方法是指采用Euclid 函数[21]直接计算模式之间的距离,然后进行模式匹配,这也是一种可行的方法,然而该方法的稳健性不够,特别是它只能处理规模相同的多元时间序列样本.PCA 方法是采用主成分作为模式表示的准则,而Euclid 方法则直接采用原数据作为模式表示的准则.

Fig.1 Process of pattern matching for multivariate time series

图1 多元时间序列相似模式匹配流程

针对多元时间序列模式匹配的研究,我们提出一种新的多元时间序列模式表示方法,该方法能够刻画不同规模的多元时间序列的形状特征.具体做法通过两步来完成,首先抽取多元时间序列的局部重要点作为多元时间序列的模式表示;然后,根据局部重要点的统计分布特征构建一个特征模式向量,并借用Euclid 距离函数来刻画特征模式向量之间的差异,建立新的多元时间序列相似性度量方法.基于点分布特征的模式表示可以很好地刻画多元时间序列的形状特征,并且能够处理多种规模的序列数据,即l ×n 可以等于任意的正整数,特别是对小规模的多元时间序列数据处理更能发挥其独特的优势.我们将在实验部分详细地分析该方法对不同规模的多

管河山 等:基于点分布特征的多元时间序列模式匹配方法 69

元时间序列进行模式匹配时的性能.

本文第1节介绍时间序列模式匹配的相关研究,特别是多元时间序列的模式表示和相似性度量的研究.第2节详细介绍提取多元时间序列局部重要点的方法,并构建统计特征向量作为多元时间序列的相似性度量.第3节列举5个数据集进行实验,并与Euclid 方法和PCA 方法加以对比.第4节进行总结,并提出展望.

1 相关研究

时间序列挖掘究其具体的研究工作而言,包括了时间序列聚类、分类、检索、分割、预测、可视化和模式匹配等多方面的内容;究其研究对象而言,可以分为一元时间序列挖掘和多元时间序列挖掘.多元时间序列的相关研究(包括多元时间序列模式匹配)在很大程度上受制于多元时间序列相似性度量,由于多元时间序列样本不同维度之间的相关性,使其相似性度量的研究成果远不及一元时间序列.多元时间序列的相关研究中常有的方法包括参数法和非参数法.参数化方法主要是指对多元时间序列进行建模,然后利用模型参数来衡量不同序列之间的相似程度,比如,Raquel [20]通过建立多元时间序列的VAR 模型(vector autoregressive),提取模型的系数作为相似性度量的依据.常用的非参数化方法有Euclid 方法、PCA 方法[14?16]、修正的PCA 方法(modified PCA [17])、基于概率分布的距离方法[15]、多重自相关函数的距离方法[18]和形状特征向量方法[19]等,后几种方法有其独特的应用背景,其中,Euclid 方法和PCA 方法是本文的分析重点.

多元时间序列的参数化分析方法主要是指针对多元时间序列样本建立相应的模型,并提取模型的系数作为多元时间序列的模式表示方式,该方法的性能在很大程度上取决于所建立模型的合理性.我们主要是针对多元时间序列的非参数化分析方法展开研究和对比分析,多元时间序列非参数化分析方法研究颇多,比如,Wang [21]对一个模拟的流动接触反应数据(fluid catalytic cracking)进行多元时间序列聚类研究,他将数据张开成一个长的行向量(a long row vector),使用张开后的向量作为特征,然后采用Euclid 距函数计算特征之间的相似性程度[21].该方法要求被分析的数据具有相同的观察个数,且难以有效地刻画多元时间序列的整体形状特征.Krzanowski [16]提出一种基于PCA 的多元时间序列相似性度量,如式(1):

211

1cos m m

PCA ij i j S m θ===

∑∑ (1) 其中,ij θ表示第i 个主成分和第j 个主成分之间的夹角,m 表示主成分的个数,m 的取值是根据方差(或者特征根) 来决定的,通常要求所选取的前m 个主成分所对应的特征根的和占所有特征根总和的95%以上[15].在PCA 的相关研究中,张军等人[14]在研究多变量时间序列的模式挖掘时将多变量的数据集分段平均为连续矩阵,并采用基于主成分分析和奇异值分解的方法来对矩阵进行相似性比较,最后通过相邻片断的合并来组成更高层次的时序片断,以提高模式的匹配范围.

众多的研究表明,Euclid 方法的鲁棒性不好,它对时间序列在垂直方向波动和水平方向波动的鲁棒性都不好[10,11,19],因此对时间序列的形状描述能力很有限.目前,时间序列挖掘的相关研究中通常避免直接采取Euclid 方法进行分析.然而,PCA 方法通常要求足够的样本点才能有效地求解得到其主成分向量,而且PCA 方法在计 算夹角余弦2cos ij θ时,并不考虑主成分向量的正负方向(比如ij θ=30o 和ij θ=50o 两种情况,PCA S 的结果是相同的), 而且PCA 方法计算特征根、主成分、夹角余弦和除以m 时,通常需要精确到较高的小数位(本文精确到10位小数).本文提出的PD 方法,从“样本点构建多元时间序列的形状特征”的角度出发,通过提取多元时间序列的局部重要点集来初步描述多元时间序列的样本点特征,然后通过“9维向量”来进一步提取样本点的分布特征,并建立相应的相似性度量.该方法通过捕捉多元时间序列的样本点主要分布特征来描述多元时间序列的形状特征,这符合人们对时间序列形状特征的直观认识.该方法对小规模的多元时间序列处理具有良好的性能,优于PCA 方法和Euclid 方法,为小规模多元时间序列模式匹配提供了一条新的途径,同时,该方法对大规模的多元时间序列处理也能得到较好的结果,但稍逊于PCA 方法的性能.

70 Journal of Software 软件学报 V ol.20, No.1, January 2009

2 基于点分布的多元时间序列模式匹配(PD )

多元时间序列可以通过三维空间来描述其图形,其形状特征是由所有的样本点来形成的,因此,利用样本点的分布特点来刻画多元时间序列的形状特征是一条可行的途径,我们正是从多元时间序列的样本点的统计特征来展开模式表示和相似性度量的相关研究的,提出了一种新的多元时间序列模式表示(基于局部重要点的模式表示),并提出新的相似性度量方式(基于局部重要点分布的特征模式向量).

任意给定的一个多元时间序列12(,,...,)t t t lt X X X X ′=,其中,l >1,t=1,2,…,n .对其不同维度的l 个一元时间序列,可以按照l 取值的某种方式排序,本文称其为l 排序,之所以要考虑多元时间序列不同维度之间的排序关系,是因为不同的排序会造成不同的序列图像,造就不同的形状特征.对所有给定的多元时间序列,应该按照同一种固定的l 排序方式来处理所有的序列样本,此时,所有序列样本的形状特征之间才具有可比性.大致来说,某种l 排序形式下的两个相似多元时间序列,在另一种l 排序形式下也呈现出相当的相似程度,并在三维空间中描绘出一个多元时间序列图像,以此来探讨多元时间序列的形状特征.比如给定医学中一个EEG 数据(electroencephalogram,即一个多元时间序列样本,该数据来自文献[23],编号为co2c0000337的第5个样本),可以

按照l 递增顺序和l 递减顺序分别绘制其3D 图像,如图2所示

.

(a) Sort l increasingly (a) l 递增的顺序

(b) Sort l decreasingly (b) l 递减的顺序

Fig.2 Illustration of multivariate time series

图2 多元时间序列图像

2.1 基于局部重要点的多元时间序列模式表示

多元时间序列模式表示的方法有很多,最直接的办法就是用原数据来表示多元时间序列,该方法能够精确地刻画多元时间序列所有的特征,保留完整的信息.然而,有时候更需要关注于多元时间序列的形状特征概貌,而不过多地注重其细节的形状特点,为此,采用某种合适的方式来进行多元时间序列模式描述,也显得格外重要.我们根据多元时间序列样本点的分布特征来进行模式抽取,即提取多元时间序列的局部极大值点和极小值点(称为局部重要点),利用点集作为多元时间序列模式表示的方法.

对多元时间序列局部重要点的定义,需借助函数局部极小值点和极大值点的概念.给定一个多元时间序列12(,,...,)t t t lt X X X X ′=,t=1,2,…,n ,则样本点的取值是时间t 和维度数l 的一个函数,记为式(2);根据函数极值点的

定义,函数在点F (t ,l )的邻域G (对应于数据区间X [i 1:i 2,j 1:j 2])内有定义,且对该领域内任意点(t+h ,l+h ),满足式(3):

(,)X F t l = (2) (,)(,)F t h l h F t l ++≥或者(,)(,)F t h l h F t l ++≤ (3) 称为极小值点(或极大值点),其中h 为任意小的数.给定一个多元时间序列,下面具体地介绍一下局部重要点的提取方法.首先给出多元时间序列局部重要点的定义如下:

定义1. 给定一种分割方式,点x [i ,j ]的邻域G (即X [i 1:i 2,j 1:j 2]),i 为i 1和i 2的均值,表示矩阵的行数;j 为j 1和i 2

的均值,表示矩阵的列数.如果点x [i ,j ]为邻域G 中的最大值点,则称为局部极大值重要点,如图3(a)所示;如果点x [i ,j ]为邻域G 的最小值点,则称为局部极小值的重要点,如图3(b)所示.

要提取多元时间序列样本中所有的局部重要点,必须提取所有的局部极大值点和极小值点,此时,必须首先

管河山 等:基于点分布特征的多元时间序列模式匹配方法

71

定义时间序列样本的分割方式.假定已有的一个分割方式为X [i 1:i 2,j 1:j 2],可采用一种算法来求得所有的局部重

要点,具体描述如下

:

(a) Maximum point (a) 极大值点

(b) Minimum point (b) 极小值点

Fig.3 Local important point

图3 局部重要点示意图

算法1. 局部重要点提取算法 Loc_Imp_Point. 输入:多元时间序列X .

输出:多元时间序列X 的局部重要点.

Step 1. 给定一个多元时间序列X ,为l ×n 阶;并给定一种分割方式X [i 1:i 2,j 1:j 2],且其中心点为x [i ,j ];

Step 2. 如果点x [i ,j ]为小块X [i 1:i 2,j 1:j 2]中的最大值,则记为X 的局部极大值点;如果点x [i ,j ]为小块X [i 1:i 2,j 1:j 2]中的最小值,则记为X 的局部极小值点;

Step 3. 遍历X 中所有点,找出所有的局部极值点x [i ,j ],作为X 的局部重要点.

提取所有的局部重要点后,构成局部重要点的点集,以该点集作为多元时间序列模式表示(如图4所示).此

外,提取多元时间序列的局部重要点需要事先对样本进行分割.分割块的大小由局部重要点的保留率λ来决定,保留率是指多元时间序列的局部重要点个数与该序列的总样本点个数的比率.对多元时间序列的纵横分割比

例λ1和λ2,分别采用式(4)和式(5)来定义和计算:

121()/i i l λ=? (4)

221()/j j k λ=? (5)

纵横分割比例越小,表示每个分割块越细,观察的粒度越细,此时,保留的重要点个数越多,反之保留的重要点个数越少.比如,采用EEG 数据中的一个多元时间序列样本[23](编号为co2c0000337的第5个样本),该序列样本大小为256×64,在不同分割方式下,计算纵横分割比例、

保留率λ 和重要点个数的值,见表1.为了描述方便,对分割方式采用了另一种描述方式,见表1中的第1列.显然,分割块越细,保留的重要点个数就越多.

Table 1 Segmentation approach of EEG data

表1 EEG 数据分割方式

Segmentation

λ1 and λ2

Ratio λ Number of important points

[32:32,8:8]X i i j j ?+?+

11/4λ=,21/4λ= 0.002 197 336

[16:16,8:8]X i i j j ?+?+ 11/8λ=,21/4λ= 0.003 295 954 [16:16,4:4]X i i j j ?+?+ 11/8λ=,21/8λ= 0.006 713 9110 [8:8,4:4]X i i j j ?+?+ 11/16λ=,21/8λ= 0.011 352 5186 [8:8,2:2]X i i j j ?+?+ 11/16λ=,21/16λ=0.021 911 6359 [4:4,2:2]X i i j j ?+?+ 11/32λ=,21/16λ=0.040 954 6671 [4:4,1:1]X i i j j ?+?+

11/32λ=,21/32

λ=0.068 542 5

1 123

实验时,对所有多元时间序列样本应采用同一种分割方式,才能确保局部重要点模式之间的可比性.本文研究的重点是针对小规模的多元时间序列数据,此时,多元时间序列本身的数据点个数较少,即l ×n 为一个较小的

72 Journal of Software 软件学报 V ol.20, No.1, January 2009

数,为了保留足够多的局部重要点以进行分析,可直接设定为最细分割形式X [i 1:i 2,j 1:j 2],即i 2?i 1=2, j 2?j 1=2.此外,

对X 的行边缘点,比如行的某个边缘点x [1,j ],小块X [i 1:i 2,j 1:j 2]中的i 1可能出现负值,此时分割块定义为X [1:i 2,j 1:j 2];同理,对列边缘点也采用同样的处理方式.

如果处理的是大规模的多元时间序列数据集,设共有q 个序列样本构成的数据集,则此时按照纵横等分割比的原则,可以采取多种分割方式对所有序列样本进行分割,假设得到的重要点个数分别为I ={I 1,I 2,…,I q },我们定义重要点个数分布的极值如式(6)所示:

1,2,...,1,2,...,max min i i q

i q

i r I I ===? (6)

本文优先选取重要点个数为二位数以上,集合中的最大值和最小值相差一个数量级的情况,然后取r 值最小的分割方式作为该数据集中样本的分割方式. 2.2 基于点分布特征的相似性度量

抽取局部重要点作为多元时间序列模式表示,还需要提供一个合适的相似性度量(或者说提供一个合适的距离函数)来刻画模式之间的相似程度.常用的相似性度量有Euclid 距离、夹角余弦和相关系数等方法,但这些方法都不适合局部重要点模式之间的相似性刻画,因为不同的多元时间序列样本在同一种分割方式下所提取的重要点的个数可能不同.为了能够发挥局部重要点的多元时间序列模式表示的优势,我们提出了一种新的相似性度量,该度量结合了点分布特征和Euclid 距离函数的优势.

通常提取的局部重要点只是占原数据点数的小百分比,即保留率λ取值往往较小,设该点集为P ={P 1, P 2,…,P h },h 为所提取的局部重要点的个数.图4是一个EEG 数据重要点提取的示意图(该数据来自文献[23],编

号为co2c0000337的第5个样本).所提取的重要点只是col1=0(根据上文,将多元时间序列看成是时间(t )和维度数(l )的一个函数F ,则为F (t ,l )=0平面)平面上方、下方和平面上的一些点集.此时,需提取这些局部重要点的统计分布特点,以构建特征模式向量作为相似性度量

.

Fig.4 Distribution of local important points

图4 局部重要点分布示意图

采用分位点来描述点集的分布特征是统计学中一种常用的思路[24,25],本文采用9个常用的分位点来描述多元时间序列局部重要点集P 的分布特征.考虑到多元时间序列的局部重要点集P 的样本点规模和实际分析的需求,具体采用的分位点包括盒子图中的5个分位点,即极大值(max)、75%分位点、50%分位点、25%分位点和极小值(min)5个分位点,并结合常用的95%分位点和5%分位点、90%分位点和10%分位点等4个对称的百分位点[24,25],共采用9个特征来分析点集P .理论上来说,采取的分位点的个数越多,则对点集P 的特征描述得越精确,然而考虑到小规模多元时间序列的局部重要点个数通常较少(比如第3节中的robot 实验数据,其局部重要点个数通常是十几个、或者几十个的数量级),因此,提取的分位点个数不宜过多,提取这9个特征也是与小规模多元时间序列的实际应用相符合的.本文采用这9个特征来构建特征模式向量,并建立相似性度量.

9()()21

(,)()X Y i i i d X Y F F ==?∑ (7)

管河山 等:基于点分布特征的多元时间序列模式匹配方法 73

3 实验与结果分析

基于点分布特征的模式匹配能够有效地刻画出多元时间序列的整体形状特征,且对各种规模的序列数据都能得到较好的结果.这里,我们列举4个小规模数据和1个大规模数据来进行实验,并对实验结果进行详细的分析.所列举的5个数据都已知分类结果,采用k -近邻的方法进行实验,具体描述如下:

假定待分析的实验数据集中含有n 2个多元时间序列样本,任意从该数据集中抽取一个样本,记为输入样本X .提取该数据集中所有样本的局部重要点,并建立相应的特征模式向量,然后从该数据集中找出与输入样本X

最相似的“k 个样本”,比如k 取10个、5个或1个最相似性的样本.统计这“k 个样本”与输入样本X 类别相同的样本个数n 1,按照式(8)计算准确率:

1/e n k = (8)

对其他任意一个样本,都一一作为输入样本,然后重复以上实验,并计算相应的准确率,这样就可以得到n 2个模式匹配的准确率.对PCA 方法[15,16]和Euclid [21]方法重复以上实验,分别得到准确率以进行比较分析.

采用k -近邻的方法进行实验,根据公式(8)计算模式匹配的准确率,然后根据公式(9)进一步计算这些准确率的期望值.按照本文的实验方式,所有的准确率取值e 可能为{0,0.1,0.2,...,1.0},共11个可能值(见实验部分),记为12311{,,,...,}e e e e .将准确率作为一个离散随机变量ε,此时,该随机变量的期望值可按照式(9)来确定.

111

()i i i P p e e ε===∑ (9)

3.1 Robot Execution Failure (REF )数据

数据Robot Execution Failure 共有5个子数据集[22],采用其中的3个子数据集分别进行实验.我们借助多元时间序列模式匹配的方法来对Robot 进行监控,此时,匹配的准确率越高,说明该方法对过状态的识别能力越高(判别过程是否正常).我们首先采用第1个子数据集LP1进行实验,该数据已知分为4类,即normal 类、collision

类、fr_collision 类和obstruction 类,共88个样本.每个序列样本为15×6=90阶的矩阵,为小规模的多元时间序列.分割形式为[1:1,1:1]X i i j j ?+?+.

分别采用PD,PCA 和Euclid 这3种方法进行模式匹配,并计算相应的准确率,见表2,所有的准确率保留2位有效数字.总体看来,在成功率为小概率事件的情况下(比如取值为0和0.1等),PD 方法和Euclid 方法所对应的次数都比PCA 方法要少,而在成功率为大概率事件的情况下(比如取值为0.8和0.9等),PD 方法和Euclid 方法所对应的次数都比PCA 方法要多.特别地,当准确率为1(即100%)时,在3种模式匹配的情况下(即取1个相似样本、5个相似样本或10个相似样本),PD 方法和Euclid 方法所对应的次数都远多于PCA 方法.从准确率分布情况来看,PCA 方法在处理该数据集时,得不到理想的结果,这表明,在多元时间序列规模较小的情况下,PCA 方法不再是一种合适的模式匹配方法.

Table 2 Experimental results of LP1 dataset (N represents number, R represents ratio)

表2 LP1数据集的实验结果(N 表示个数,R 表示比率)

PD PCA Euclid

Parameter k

1 5 10 1 5 10 1 5 10 e N R N R N R N R N R N R N R N R N R 0 1

2 0.14 40.05

3 0.03290.3390.1050.06120.1

4 4 0.0

5 30.030.1 0 0 00 2 0.0200 00 60.0700 0 0 40.050.2 0 0 50.0

6 6 0.0700 130.1530.0300 5 0.06 80.090.3 0 0 00 3 0.0300 00 80.0900 0 0 50.060.4 0 0 50.06 4 0.0500 100.11170.1900 8 0.09 70.080.5 0 0 00 2 0.0200 00 220.2500 0 0 80.090.6 0 0 60.0

7 6 0.0700 240.2790.1000

8 0.0

9 40.050.7 0 0 00 6 0.0700 00 60.0700 0 0 70.080.8 0 0 120.14 9 0.1000 200.2370.0800 14 0.16 60.070.9 0 0 00 2 0.0200 00 40.0500 0 0 120.141

76

0.86

560.64

45

0.51

59

0.67

120.14

1

0.01

760.86 49 0.56

24

0.27

进一步地,分别计算在3种相似性模式匹配的情况下,3种方法的准确率期望值,见表 3.显然,PD 方法和

74 Journal of Software 软件学报 V ol.20, No.1, January 2009

Euclid 方法的准确率期望值高于PCA 方法.在3种模式匹配的情况下,PD 方法的准确率期望值约为80%左右,

而PCA 方法的准确率期望值约为50%左右,如此低的准确率通常不能满足实际应用的需求,这也进一步表明,PCA 方法在处理小规模多元时间序列时,其性能远不及PD 方法.在匹配出的相似样本个数较多(比如取10个)时,Euclid 方法的准确率期望值约为65%左右,这远远不如PD 方法.

Table 3 Accuracy expectations of LP1 datatset

表3 LP1数据集的准确率期望值

为了形象地说明不同方法的实验效果,我们采用第32个样本,记为lp1_32(其他多元时间序列样本也采用同种方式命名),称为输入样本,采用上述3种方法进行相似模式匹配.列举出最相似的1个模式所对应的样本,如图5所示.PD 方法所得到的样本,与输入样本lp1_32在形状上都具备很大的相似性,而Euclid 和PCA 两种方法所得到的结果在形状上与输入样本不具备良好的相似性,因此,其匹配效果不如PD 方法

.

lp1_32

(a) Inputted sample lp1_32 (a) 输入样本lp1_32

lp1_31

(b) Result with the PD (b) PD 方法的匹配结果

lp1_25

(c) Result with the PCA (c) PCA 方法的匹配结果

lp1_8

(d) Result with the Euclid (d) Euclid 方法的匹配结果

Fig.5 Results of matching similar pattern for the LP1 dataset

图5 LP1数据的相似模式匹配结果

此外,再考虑采用其他4个子数据集进行实验,其中第2个子数据集lp2有5种类别,而其样本总个数仅47个,此时,某些类(比如,collision to the right 类)的样本个数还不到10个,按照我们设计的实验方式,该数据不适合进行实验,所以在此我们不采取第2个子数据集lp2;同理,也不采取第3个子数据集lp3.我们采用第4个子数据集lp4和第5个子数据集lp5进行实验,它们的样本总数分别为117个和164个,类别数分别为3类和5类.简单起见,我们只是给出了3种方法实验结果的准确率期望值,见表4和表5,而不详细列出具体的准确率分布表.从表4和表5可以看出,在3种模式匹配的情况下,PD 方法和Euclid 方法的准确率期望值比PCA 方法要高,这进一步表明PCA 方法在处理小规模多元时间序列时,其性能远不及PD 方法.此外,Euclid 方法的准确率期望值也较高,这也表明,在处理小规模多元时间序列时,如果所有样本的规模都一样,则该方法能够得到较好的匹配结果,然而该方法不能处理多种规模的样本,见第3.2节.

Parameter k PD PCA Euclid

10 0.76 0.47 0.65 5 0.82 0.56 0.79 1 0.86 0.67 0.86

管河山 等:基于点分布特征的多元时间序列模式匹配方法 75

Table 4 Accuracy expectations of LP4 dataset

表4 LP4数据集的准确率期望值

Parameter k PD PCA Euclid

5 0.88 0.68 0.79 1 0.90 0.73 0.88

Table 5 Accuracy expectations of LP5 dataset

表5 LP5数据集的准确率期望值

Parameter k PD PCA Euclid

5 0.59 0.45 0.61 1 0.62 0.51 0.68

3.2 apanese Vowel (JV )数据

PD 方法也可以处理样本规模不同的小规模多元时间序列,我们列举数据Japanese Vowel [26]来进行实验,该

数据常用于多元时间序列的分类研究.采用其中的训练子数据进行实验,该数据已知分为9种类别,共270个样本.每个样本序列含有12个一元序列,时间长度位于7~29的区间内,为小规模的多元时间序列.该数据采用的分

割形式为[1:1,1:1]X i i j j ?+?+.

该时间序列数据的时间长度不一致,因此Euclid 和PCA 方法不能处理该数据.我们在此直接采用PD 进行模式匹配,并计算相应的准确率,见表6和表7,所有的准确率保留2位有效数字.该数据集共计9个类别,因此,对每个样本而言,随机寻找最相似的样本,其成功的概率为1/9.而采用PD 方法在处理该数据集时,从准确率期望值来看,远远大于1/9.这进一步表明PD 方法在处理小规模多元时间序列时所具有的优势.该实验也表明,PD 方法能够同时处理规模不同的多元时间序列数据集.

为了形象地说明不同方法的实验效果,我们采用了第6个样本,记为jv_6(其他多元时间序列样本也采用同种方式命名),称为输入样本,采用上述3种方法进行相似模式匹配.列举出最相似的1个模式所对应的样本,如图6所示.PD 方法所得到的样本(jv_8)与输入样本jv_6在形状上都具备较好的相似性.

Table 6 Experimental results of JV dataset (N represents number, R represents ratio)

表6 JV 数据集的实验结果(N 表示个数,R 表示比率)

PD

Parameter k

1 5 10 PCA Euclid e N R N R N R

0 125 0.46 28 0.10 9 0.03 0.1 0 0 0 0 23 0.09 0.2 0 0 53 0.20 34 0.13 0.3 0 0 0 0 39 0.14 0.4 0 0 57 0.21 41 0.15 0.5 0 0 0 0 30 0.11 0.6 0 0 66 0.24 27 0.10 0.7 0 0 0 0 25 0.08 0.8 0 0 38 0.14 25 0.08 0.9 0 0 0 0 11 0.04 1

145

0.54

28

0.10

6

0.02

? ?

(a) Inputted sample jv_6 (a) 输入样本jv_6

(b) Result with the PD, jv_8 (b) PD 方法的匹配结果,jv_8

Fig.6 Results of matching similar pattern for JV dataset

图6 JV 数据的相似模式匹配结果

76 Journal of Software 软件学报 V ol.20, No.1, January 2009

Table 7 Accuracy expectations of JV dataset

表7 JV 数据集的准确率期望值

Parameter k PD PCA Euclid

10 0.45 ? ? 5 0.49 1 0.54

3.3 EEG 数据

PD 方法在对大规模的多元时间序列进行处理时,较Euclid 方法而言也能达到较好的效果,这里,我们列举

了EEG 数据来进行实验分析[23].该脑电图用256Hz 的电极同时在64个部位测量得到的一组数据,数据收集来源于两种人群:alcoholic subjects 和control subjects,一共有122个测试者的数据,每个测试者共120次测试.本文只是采用了前2位测试者的2个数据,编号为:co2a0000364和co2c0000337,2种类别,共166个样本.每个序列样

本为256×64阶的矩阵,是大规模的多元时间序列.该数据采用的分割形式为[16:16,4:4]X i i j j ?+?+.

分别采用PD,PCA 和Euclid 这3种方法进行模式匹配,并计算相应的准确率,见表8,所有的准确率保留2位有效数字.总体看来,在成功率为小概率事件的情况下(比如:取值为0和0.1等),PD 方法和PCA 方法所对应的次数都比Euclid 方法要少,而当成功率为大概率事件的情况下(比如取值为0.8和0.9等),PD 方法和PCA 方法所对应的次数都比Euclid 方法要多.特别地,当准确率为1(即100%)时,在3种模式匹配的情况下(即取1个相似样本、5个相似样本或10个相似样本),PD 方法和PCA 方法所对应的次数都多于Euclid 方法.从准确率分布情况来看,PCA 方法在处理该数据集时能够得到理想的结果,这表明,在多元时间序列规模较大的情况下(256×64阶矩阵),PCA 方法是一种合适的模式匹配方法.另外,PD 方法在处理该数据集时优于Euclid 方法.

Table 8 Experimental results of EEG dataset (N represents number, R represents ratio)

表8 EEG 数据集的实验结果(N 表示个数,R 表示比率)

PD

PCA Euclid

Parameter k

1 5 10 1 5 10 1 5 10 e N R N R N R N R N R N R N R N R N R 0 29 0.17 1 0.01 1 0.01250.1510.010 0 310.19 5 0.03 1 0.010.1 0 00 0 0 00000 1 0.01000 0 5 0.030.

2 0 09 0.05 8 0.050020.01 1 0.010010 0.06 8 0.050.

3 0 00 0 2 0.010000

4 0.02000 0 7 0.040.4 0 018 0.11 8 0.0500150.09 6 0.040018 0.11 7 0.040.

5 0 00 0 8 0.050000 100.06000 0 15 0.090.

6 0 021 0.13 1

7 0.1000150.09

8 0.050026 0.16 16 0.100.7 0 00 0 8 0.050000 200.12000 0 12 0.070.8 0 024 0.14 15 0.0900330.20170.100030 0.18 18 0.110.

9 0 00 0 15 0.090000 270.16000 0 17 0.101

137 0.8393 0.56

84 0.511410.85

100

0.60

72

0.43

1350.81 77 0.46

60 0.36

采用k -近邻方法进行多元时间序列的模式匹配,根据公式(8)分别计算3种方法的准确率分布,然后根据公式(9)分别计算3种方法的准确率期望值,得到的结果见表9.其中PCA 方法的准确率期望值最高,PD 方法的准确率期望值稍低于PCA 方法,而Euclid 方法的准确率期望值都低于前两种方法.PD 方法的准确率期望值都在

80%以上,这表明PD 方法在处理大规模的多元时间

序列数据时有较好的效果,但却不及PCA 方法.为了形象地说明不同方法的实验效果,我们采用co2c0000337

中的第47个样本,记为

Co2c0000337_47(其他多元时间序列样本也采用同

种方式命名),称为输入样本,采用上述3种方法进行相似模式匹配.列举出最相似的1个模式所对应的

Table 9 Accuracy expectations of EEG dataset

表9 EEG 数据集的准确率期望值

Parameter k PD PCA Euclid

10 0.82 0.84 0.73 5 0.82 0.86 0.76 1 0.84 0.86 0.81

管河山 等:基于点分布特征的多元时间序列模式匹配方法

77

样本,如图7所示.PD 和PCA 两种方法得到的样本,与输入样本Co2c0000337_47在形状上都具有很大的相似性,

而Euclid 方法所得到的结果在形状上与输入样本不具备良好的相似性,因此,其匹配效果不如前两种方法.从多元时间序列的形状特点来看,基于点分布的模式表示能够很好地刻画多元时间序列的形状特征

.

Co2c0000337_47

(a) Inputted sample Co2a0000364_47 (a) 输入样本Co2a0000364_47

Co2c0000337_43 (b) Result with the PD (b) PD 方法的匹配结果

Co2c0000337_6 (c) Result with the PCA (c) PCA 方法的匹配结果

Co2a0000364_40 (d) Result with the Euclid (d) Euclid 方法的匹配结果

Fig.7 Results of matching similar pattern for EEG dataset

图7 EEG 数据的相似模式匹配结果

总之,在进行小规模多元时间序列模式匹配时,PD 方法能够有效地刻画出多元序列的形状特征,且能处理多种规模的序列数据.这是PCA 方法和Euclid 方法所不及的.从PD 方法的计算过程来看,该方法充分利用了多元时间序列的样本点的统计分布特征来进行形状刻画,这样更能从全局来刻画其形状特征.这3种模式匹配方法的详细对比见表10,我们从模式表示、相似性度量及所处理的数据规模这3个角度对上述3种方法进行了详细的对比.

Table 10 Comparison of pattern matching methods

表10 模式匹配方法的对比

Methods PD

PCA

Euclid Patter description Important points

Principal component

Original data Similarity measure

Fractile

Cosine Euclid Data scale

Be able to deal with multi-scale data, especially

small-scale data

Be able to deal with large-scale data

Data scale must

be same

4 结论与展望

模式匹配是时间序列挖掘研究中的重要一支.多元时间序列的模式匹配与模式定义是直接关联的.本文从形状特征来定义多元时间序列的模式,并提出基于点分布特征的模式表示方法和相似性度量方式来进行模式匹配.该方法能够有效地刻画出多元时间序列的形状式特征,在一定程度上不受多元时间序列规模大小的制约.我们所提出的PD 方法对小规模的多元时间序列进行模式匹配具有较好的性能,对某些大规模的多元时间序列的处理性能稍逊于PCA 方法,因此,借鉴PD 方法和PCA 方法的各自优势,建立一种新的方法以便处理各种规模的多元时间序列数据,这将是我们下一步研究工作的重点.

78 Journal of Software软件学报 V ol.20, No.1, January 2009 致谢感谢给予本文有价值建议的匿名审稿人,感谢厦门大学国际数据挖掘中心的同学们对本文提供的帮助.

References:

[1] Zhou Y, Zhao Y, Xie LL, Zhou LM, Chen ZY. Computation and analysis of parameters in phase space reconstruction of epileptic

EEG signal. Acta Scientiarum Naturalium Universitatis Sunyatseni, 2007,46(3):5?9 (in Chinese with English abstract).

[2] Wang XY, Luo C, Qiu TS. Nonlinear dynamic research on EEG in HAI experiment. Chinese Journal of Biomedical Engineering,

2007,24(4):408?415 (in Chinese with English abstract).

[3] Singhal A, Seborg DE. Matching patterns from historical data using PCA and distance similarity factors. In: Krogh BH, ed. Proc. of

the 2001 American Control Conf. Arlington, 2001,2:1759?1764.

[4] Liu B, Liu J. Multivariate time series prediction via temporal classification. In: Rakesh A, ed. Proc. of the 18th Int’l Conf. on Data

Engineering. Washington: IEEE Computer Society, 2002. 268.

[5] Camarinha-Matos LM, Seabra Lopes L, Barata J. Integration and learning in supervision of flexible assembly systems. IEEE Trans.

on Robotics and Automation, 1996,12(2):202?219.

[6] Liu HT, Ni ZW, Li JY. An effective algorithm to match similar time series pattern. Journal of Computer-Aided Design & Computer

Graphics, 2007,19(16):725?729 (in Chinese with English abstract).

[7] Huang H, Huang K, Hang XS, Xiong FL. Algorithm for fast time-series pattern recovery in a long sequence. Computer Engineering

and Applications, 2003,39(21):192?194 (in Chinese with English abstract).

[8] Ge XP, Padhraic S. Deformable Markov model templates for time-series pattern matching. In: Proc. of the 6th ACM SIGKDD Int’l

Conf. on Knowledge Discovery and Data Mining. New York: ACM Press, 2000. 81?90.

[9] Pratt KB, Fink E. Search for patterns in compressed time series. Int’l Journal of Image and Graphics, 2002,2(1):89?106.

[10] Wang XH. Study on time series similarity and trend prediction [Ph.D. Thesis]. Tianjin: Tianjin University, 2003 (in Chinese with

English abstract).

[11] Dong XL, Gu CK, Wang ZG. Research on shape-based time series similarity measure. Journal of Electronics & Information

Technology, 2007,29(5):1228?1231 (in Chinese with English abstract).

[12] Wu SC, Wu GF, Wang W, Yu ZC. A time-sequence similarity matching algorithm for seismological relevant zones. Journal of

Software, 2006,17(2):185?192 (in Chinese with English abstract). https://www.wendangku.net/doc/c59457685.html,/1000-9825/17/185.htm

[13] Kalpakis K, Gada D, Puttagunta V. Distance measures for effective clustering of ARIMA time-series. In: Nick C, ed. Proc. of the

IEEE Int’l Conf. on Data Mining. Washington: IEEE Computer Society Press, 2001. 273?280.

[14] Zhang J, Wu SC, Wang W. Research of data mining method on multivariate time series. Computer Engineering and Design, 2006,

27(18):3364?2266 (in Chinese with English abstract).

[15] Singhal A, Seborg DE. Pattern matching in multivariate time series databases using a moving window approach. Ind. Eng. Chem.

Res., 2002,41(16):3822?3838.

[16] Krzanowski WJ. Between-Groups comparison of principal components. Journal of the American Statistical Association, 1979,

74(367):703?707.

[17] Singhal A, Seborg DE. Pattern matching in historical batch data using PCA. IEEE Control Systems Magazine, 2002,22(5):53?63.

[18] Guan HS, Jiang QS, Wang SJ. A new similarity measure for clustering multivariate time series. Journal of Computational

Information Systems, 2007,3(5):2031?2036.

[19] Huang H, Shi ZZ, Zheng Z. Similarity search based on shape k-d tree for multidimensional time sequences. 2006,

17(10):2048?2056 (in Chinese with English abstract).

[20] Raquel P, Francisco M, Gabriel H. Multivariate time series modeling and classification via hierarchical VAR mixtures.

Computational Statistics & Data Analysis, 2006,51(3):1445?1462.

[21] Wang XZ, McGreavy C. Automatic classification for mining process operational data. Industrial & Engineering Chemistry

Research, 1998,37(6):2215?2222.

[22] https://www.wendangku.net/doc/c59457685.html,/databases/robotfailure/robotfailure.html. 1999.

[23] Archive P. 1999. https://www.wendangku.net/doc/c59457685.html,/databases/eeg/eeg.html

管河山等:基于点分布特征的多元时间序列模式匹配方法79

[24] Ruan GH, et al. SAS Statistic Analysis and it Application. Beijing: Tsinghua University Press, 2003. 48?57 (in Chinese).

[25] Bernstein S, Wrote; Shi DJ, Trans. Theory of Statistic. Beijing: Science Press, 2002. 139?139 (in Chinese).

[26] https://www.wendangku.net/doc/c59457685.html,/databases/JapaneseVowels/JapaneseVowels.html. 2000.

附中文参考文献:

[1] 周毅,赵怡,解玲丽,周列民,陈子怡.癫痫EEG信号相空间重构参数的计算和分析.中山大学学报(自然科学版),2007,46(3):5?9.

[2] 王兴元,骆超,邱天爽.HAI实验中EEG信号的非线性动力学研究.中国生物医学工程学报,2005,23(4):408?415.

[6] 刘慧婷,倪志伟,建洋.时间序列相似模式的有效匹配.计算机辅助设计与图形学学报,2007,19(16):725?729.

[7] 黄河,黄轲,杭小树,熊范纶.时间序列中快速模式发现算法的研究.计算机工程与应用,2003,39(21):192?194.

[10] 王晓华.时间序列数据挖掘中相似性和趋势预测的研究[博士学位论文].天津:天津大学,2003.

[11] 董晓莉,顾成奎,王正欧.基于形态的时间序列相似性度量研究.电子与信息学报,2007,29(5):1228?1231.

[12] 吴绍春,吴耿锋,王炜,蔚赵春.寻找地震相关地区的时间序列相似性匹配算法.软件学报,2006,17(2):185?192.

https://www.wendangku.net/doc/c59457685.html,/1000-9825/17/185.htm

[14] 张军,吴绍春,王炜.多变量时间序列模式挖掘的研究.计算机工程与设计,2006,27(18):3364?2266.

[19] 黄河,史忠植,郑征.基于形状特征k-d树的多维时间序列相似搜索.软件学报,2006,17(10):2048?2056. https://www.wendangku.net/doc/c59457685.html,/

1000-9825/17/2048.htm

[24] 阮桂海,等.SAS统计分析实用大全.北京:清华大学出版社,2003.48?57.

[25] Bernstein S,著;史道济,译.统计学原理.北京:科学出版社,2002.139?139.

管河山(1981-),男,湖南衡阳人,博士生,主要研究领域为数据挖掘,时间序列挖掘,统计学,数据分析,数学建模.

王声瑞(1963-),男,博士,教授,博士生导师,主要研究领域为模式识别,人工智能,数据挖掘,图像处理和理解

.

姜青山(1962-),男,博士,教授,博士生导

师,主要研究领域为数据挖掘,数据库系

统,聚类分析,模糊集理论与应用.

地理区域时间分布特征

陆军军官学院五四比武 数学建模竞赛 参赛组编号:022******* 所属队别:学员二旅26队 参赛队员姓名:夏旭东刘小均刘豪 参赛选择的题号是: A 论文题目:地理区域气温时间分布特征

地理区域气温时间分布特征 摘要 1.问题一 问题一是对较短时间内气温的预测,为了能够较准确的预测较短时间段的气温,我们需要对所给数据进行处理,由于问题一是为了求出一天、几天或者一周的气温,我们首先需要计算出三个区每天的平均温度,其次引入三次指数平滑法,并建立时间序列模型,较精确的预测出较短时间的气温,预测结果如下: 20070624 20070624~26 20070624~30 原平均温度22.4 25.37 25 预测值23.91 26.17 26.43 2.问题二 问题二要预测冬季的最高或最低气温,实际上是在第一问的基础上,预测冬季三个月的气温,但这加大了运算量,其实对于最高气温和最低气温是在一个固定的时间段获得的,因此对一年四季随机抽取三天,观察其气温变化曲线,得出了两个时间段,即0-6时和12-16时能达到每日的最低和最高气温,再利用问题一中的基于EMD的神经网络预测,以所给数据为输入,预测下一年同期气温,比较得出最高和最低气温,如下图: 最高气温最低气温 时间20070221 20061223 平均温度17.6 -9.5 3.问题三 问题三要对2007年冬季气温整体进行分析,由于没有给出2007年的真实冬季气温,我们首先要预测出2007年冬季的气温,第二问我们利用基于EMD的神经网络预测法对2006年的冬季最高气温与最低气温进行了预测,而得出的预测值与真实值相比,非常接近。因此我们预测2007年冬季的平均气温,也在原有的模型基础上进行求解。然后分析:1.对07年冬季气温的整体性分析2.对07年冬季气温的地域情况的分析3.对2007年冬季气温最高和最低的时间的分析 关键词:主成分分析希尔伯特黄变换 EMD经验模态分解法神经网络预测时间序列法

地理空间分布特征完整版

地理空间分布特征 HUA system office room 【HUA16H-TTMS2A-HUAS8Q8-HUAH1688】

地理事物空间分布特征描述专题 一、点状事物分布特征描述 1.(2011课标卷)下图示意2007年中国大陆制造业企业500强总部的空间分布。读 图,回答下列问题。 简述中国大陆制造业企业500强总部空间分布的特点。(6分) 2.下图表示2009年我国八大经济区地级市工业竞争力空间格局。 简述我国各地级市工业竞争力的空间分布特征(6分) 3.分析该流域城镇的地理分布特点。(4分) 答: 二、线状地理事物的分布特征描述

(单条线描述)下图是我国某区域≥10℃积温等值线图(单位:℃) 4.描述4500 ℃等积温线的分布特征。(6分 (多条线描述)5.读“我国某区域年等降水量分布图”,概括图中降水量线分布特点。 (6分) 三、面状地理事物分布特征描述 6.(2009浙江卷)读下图中国部分区域水土流失状况分布示意图,完成下列问题。图示区域中,水土流失地区分布规律是什么? 7.据图2分别归纳南疆、北疆绿洲农业空间分布的形态特征并说明其自然原因。 (湖北省黄冈中学2016届高三5月第一次模拟考试)根据下列材料,结合所学知识,完 成下列问题。 材料一福建省年降水量分布图 (1)描述福建省年降水量空间分布特征,并分析其影响因素。(10分) (1)年降水量线的分布与海岸线大体平行;(2分)年降水量大致从东南沿海向西北内陆起伏式递增;(2分)山地多于平原。(2分)形成原因:福建降水主要由东南季风带

来湿润水汽受地形抬升形成;(2分)两大山带中一些海拔较高的山峰,降水量多;(2分)闽东南沿海地区地势起伏较小,地形对气流的抬升作用弱,降水少。 答案 1.【参考答案】 分布不均衡(2分); 集中分布在东部沿海省市(2分); 以环渤海地区(或京津冀地区)、长江三角洲地区最为集中(2分); 西北部的省区总部数量较少。(2分) 2.地级市工业竞争力的空间分布不均,地区差异大;(2)东部地带地级市的共轭竞争力 较强,中西部地带地级市的工业竞争力较弱;(2)大部分省会城市和直辖市的工业竞争力强。(2分) 3. 分布极不均匀,主要集中于西南地区; 沿河流与交通线分布。 4. 4500 ℃等积温线大体沿秦岭-淮河分布;(2分) 东段(110°E以东):大致为东西走向;(2分) 西段(110°E以西):大致为西南-东北走向。(2分) 5. 大体呈东北-西南方向延伸(与海岸平行);

时间序列分析方法及应用7

青海民族大学 毕业论文 论文题目:时间序列分析方法及应用—以青海省GDP 增长为例研究 学生姓名:学号: 指导教师:职称: 院系:数学与统计学院 专业班级:统计学 二○一五年月日

时间序列分析方法及应用——以青海省GDP增长为例研究 摘要: 人们的一切活动,其根本目的无不在于认识和改造世界,让自己的生活过得更理想。时间序列是指同一空间、不同时间点上某一现象的相同统计指标的不同数值,按时间先后顺序形成的一组动态序列。时间序列分析则是指通过时间序列的历史数据,揭示现象随时间变化的规律,并基于这种规律,对未来此现象做较为有效的延伸及预测。时间序列分析不仅可以从数量上揭示某一现象的发展变化规律或从动态的角度刻画某一现象与其他现象之间的内在数量关系及其变化规律性,达到认识客观世界的目的。而且运用时间序列模型还可以预测和控制现象的未来行为,由于时间序列数据之间的相关关系(即历史数据对未来的发展有一定的影响),修正或重新设计系统以达到利用和改造客观的目的。从统计学的内容来看,统计所研究和处理的是一批有“实际背景”的数据,尽管数据的背景和类型各不相同,但从数据的形成来看,无非是横截面数据和纵截面数据两类。本论文主要研究纵截面数据,它反映的是现象以及现象之间的关系发展变化规律性。在取得一组观测数据之后,首先要判断它的平稳性,通过平稳性检验,可以把时间序列分为平稳序列和非平稳序列两大类。主要采用的统计方法是时间序列分析,主要运用的数学软件为Eviews软件。大学四年在青海省上学,基于此,对青海省的GDP十分关注。本论文关于对1978年到2014年以来的中国的青海省GDP(总共37个数据)进行时间序列分析,并且对未来的三年中国的青海省GDP进行较为有效的预测。希望对青海省的发展有所贡献。 关键词: 青海省GDP 时间序列白噪声预测

时间序列分析——最经典的

【时间简“识”】 说明:本文摘自于经管之家(原人大经济论坛) 作者:胖胖小龟宝。原版请到经管之家(原人大经济论坛) 查看。 1.带你看看时间序列的简史 现在前面的话—— 时间序列作为一门统计学,经济学相结合的学科,在我们论坛,特别是五区计量经济学中是热门讨论话题。本月楼主推出新的系列专题——时间简“识”,旨在对时间序列方面进行知识扫盲(扫盲,仅仅扫盲而已……),同时也想借此吸引一些专业人士能够协助讨论和帮助大家解疑答惑。 在统计学的必修课里,时间序列估计是遭吐槽的重点科目了,其理论性强,虽然应用领域十分广泛,但往往在实际操作中会遇到很多“令人发指”的问题。所以本帖就从基础开始,为大家絮叨絮叨那些关于“时间”的故事!

Long long ago,有多long?估计大概7000年前吧,古埃及人把尼罗河涨落的情况逐天记录下来,这一记录也就被我们称作所谓的时间序列。记录这个河流涨落有什么意义?当时的人们并不是随手一记,而是对这个时间序列进行了长期的观察。结果,他们发现尼罗河的涨落非常有规律。掌握了尼罗河泛滥的规律,这帮助了古埃及对农耕和居所有了规划,使农业迅速发展,从而创建了埃及灿烂的史前文明。 好~~从上面那个故事我们看到了 1、时间序列的定义——按照时间的顺序把随机事件变化发展的过程记录下来就构成了一个时间序列。 2、时间序列分析的定义——对时间序列进行观察、研究,找寻它变化发展的规律,预测它将来的走势就是时间序列分析。 既然有了序列,那怎么拿来分析呢? 时间序列分析方法分为描述性时序分析和统计时序分析。 1、描述性时序分析——通过直观的数据比较或绘图观测,寻找序列中蕴含的发展规律,这种分析方法就称为描述性时序分析 ?描述性时序分析方法具有操作简单、直观有效的特点,它通常是人们进行统计时序分析的第一步。

如何描述地理事物的空间分布特征(特点)

如何描述地理事物的空间分布特征(特点) 一、点状地理事物的描述 试题通常以某一区域图为背景图来呈现点状事物的分布状况,在读图时要注意从点 的大小、疏密、组成的形状来观察点状事物代表的含义。 描述的角度:疏密+数量+极值+方位。具体描述:①总体分布特征(疏密状况)总分结构描述(是否均衡;如果不均,哪多,哪少);②极值区位置名称(最多、最少、最集中的地带在哪,沿什么线分布,或者说出最稠密或最稀薄区的地区名称等。)③点组成的形状——反应什么规律。其他——大小,代表的含义(如城市等级),点的动态变化等。当然,描述时要看图说话,突出重点,因题而宜(不一定要面面俱到)。 【例1】(2013四川卷)阅读下列材料,回答问题。 下图是甲国地图。甲国是美国重要的服装进口国,服装生产中心在A城;首都B城是该国重要的工业中心,纺织、食品、制糖是其主要工业部门。 (2)与甲国东部城市比较,指出该国西部城市分布的突出特点。(6分) 【答案】(2)城市分布较密集(2分);主要分布在铁路沿线(或湖、海沿岸及其附近)(2分);多等级较高的城市(2分)。 【例2】(2011课标卷)下图示意2007年中国大陆制造业企业500强总部的空间分布。读图,回答下列问题。 简述中国大陆制造业企业500强总部空间分布的特点。

【答案】分布不均衡。集中分布在东部沿海省市,以环渤海地区(或京津冀地区)、长江三角洲地区最为集中。西北部的省区总部数量较少。 二、线状地理事物的分布 线状地理分布图,常用线状符号来表示交通线、河流、山脉、等值线等。带箭头的表示动态,不带箭头的表示静态。线段的长短、粗细表示量的大小(或标上数值)。具体可分为两类: (1)描述一条线(通常为等值线)的分布情况 这类试题只要求描述某一特定线条的地理事物,如年等降水量线、等温线等,可从走向、延伸方向去考虑。读图时注意观察曲线“拐点”的位置,以便分段描述。这类题目大部分都需要分段描述;如“我国一月0 ℃等温线”分布,可描述为:东段大致东西走向,大致沿秦岭淮河一线;西段大致东北——西南走向、近似于与青藏高原东缘山麓平行。

2如何描述地理事物的空间分布特征(特点)

2如何描述地理事物的空间分布特征(特点) -CAL-FENGHAI-(2020YEAR-YICAI)_JINGBIAN

如何描述地理事物的空间分布特征(特 点) 一、点状地理事物的描述 试题通常以某一区域图为背景图来呈现点状事物的分布状况, 在读图时要注意从点的大小、疏密、组成的形状来观察点状事 物代表的含义。 描述的角度:疏密+数量+极值+方位。具体描述:①总体分布特征(疏密状况,是否均衡;如果不均,哪多,哪少);② 极值区位置名称(最多、最少、最集中的地带在哪,沿什么线 分布,或者说出最稠密或最稀薄区的地区名称等。)③点组成 的形状——反应什么规律。其他——大小,代表的含义(如城市 等级),点的动态变化等。当然,描述时要看图说话,突出重 点,因题而宜(不一定要面面俱到)。 【例1】(2013四川卷)阅读下列材料,回答问题。 下图是甲国地图。甲国是美国重要的服装进口国,服装生产中心在A城;首都B城是该国重要的工业中心,纺织、食 品、制糖是其主要工业部门。 与甲国东部城市比较,指出该国西部城市分布的突出特 点。(6分) 【答案】城市分布较密集(2分);主要分布在铁路沿线(或 湖、海沿岸及其附近)(2分);多等级较高的城市(2分)。

提示:本题没有考查图示区域城市的分布特点,而是让学生通过观察该区域东西城市分布的差异,说出西部地区城市的分布特点。侧重考查图示信息的获取能力和比较分析能力。注意从疏密和城市等级两角度解答。 【例2】(2011课标卷)下图示意2007年中国大陆制造业企业500强总部的空间分布。读图,回答下列问题。 简述中国大陆制造业企业500强总部空间分布的特点。 【答案】分布不均衡。集中分布在东部沿海省市,以环渤海地区(或京津冀地区)、长江三角洲地区最为集中。西北部的省区总部数量较少。 二、线状地理事物的分布 线状地理分布图,常用线状符号来表示交通线、河流、山脉、等值线等。带箭头的表示动态,不带箭头的表示静态。线段的长短、粗细表示量的大小(或标上数值)。具体可分为两类: (1)描述一条线(通常为等值线)的分布情况 这类试题只要求描述某一特定线条的地理事物,如年等降水量线、等温线等,可从走向、延伸方向去考虑。读图时注意观察曲线“拐点”的位置,以便分段描述。这类题目大部分都需要分段描述;如“我国一月0 ℃等温线”分布,可描述为:东

平稳时间序列预测法

7 平稳时间序列预测法 7.1 概述 7.2 时间序列的自相关分析 7.3 单位根检验和协整检验 7.4 ARMA模型的建模 回总目录 7.1 概述 时间序列取自某一个随机过程,则称: 一、平稳时间序列 过程是平稳的――随机过程的随机特征不随时间变化而变化过程是非平稳的――随机过程的随机特征随时间变化而变化回总目录 回本章目录 宽平稳时间序列的定义: 设时间序列 ,对于任意的t,k和m,满足: 则称宽平稳。 回总目录

回本章目录 Box-Jenkins方法是一种理论较为完善的统计预测方法。 他们的工作为实际工作者提供了对时间序列进行分析、预测,以及对ARMA模型识别、估计和诊断的系统方 法。使ARMA模型的建立有了一套完整、正规、结构 化的建模方法,并且具有统计上的完善性和牢固的理 论基础。 ARMA模型是描述平稳随机序列的最常用的一种模型; 回总目录 回本章目录 ARMA模型三种基本形式: 自回归模型(AR:Auto-regressive); 移动平均模型(MA:Moving-Average); 混合模型(ARMA:Auto-regressive Moving-Average)。回总目录 回本章目录 如果时间序列满足 其中是独立同分布的随机变量序列,且满足:

则称时间序列服从p阶自回归模型。 二、自回归模型 回总目录 回本章目录 自回归模型的平稳条件: 滞后算子多项式 的根均在单位圆外,即 的根大于1。 回总目录 回本章目录 如果时间序列满足 则称时间序列服从q阶移动平均模型。或者记为。 平稳条件:任何条件下都平稳。

三、移动平均模型MA(q) 回总目录 回本章目录 四、ARMA(p,q)模型 如果时间序列 满足: 则称时间序列服从(p,q)阶自回归移动平均模型。 或者记为: 回总目录 回本章目录 q=0,模型即为AR(p); p=0,模型即为MA(q)。 ARMA(p,q)模型特殊情况: 回总目录 回本章目录 例题分析 设 ,其中A与B 为两个独立的零均值随机变量,方差为1;

如何描述地理事物的空间分布特征(同名8466)

如何描述地理事物的空间分布特征(同名8466)

如何描述地理事物的空间分布特征(特点) 一、点状地理事物的描述 试题通常以某一区域图为背景图来呈现点状事物的分布状况,在读图时要注意从点的大小、疏密、组成的形状来观察点状事物代表的含义。 描述的角度:疏密+数量+极值+方位。具体描述:①总体分布特征(疏密状况,是否均衡;如果不均,哪多,哪少);②极值区位置名称(最多、最少、最集中的地带在哪,沿什么线分布,或者说出最稠密或最稀薄区的地区名称等。)③点组成的形状——反应什么规律。其他——大小,代表的含义(如城市等级),点的动态变化等。当然,描述时要看图说话,突出重点,因题而宜(不一定要面面俱到)。 【例1】(2013四川卷)阅读下列材料,回答问题。 下图是甲国地图。甲国是美国重要的服装进口国,服装生产中心在A城;首都B城是该国重要的工业中心,纺织、食品、制糖是其主要工业部门。 与甲国东部城市比较,指出该国西部城市分布的突出特点。(6分)

【答案】城市分布较密集(2分);主要分布在铁路沿线(或湖、海沿岸及其附近)(2分);多等级较高的城市(2分)。 提示:本题没有考查图示区域城市的分布特点,而是让学生通过观察该区域东西城市分布的差异,说出西部地区城市的分布特点。侧重考查图示信息的获取能力和比较分析能力。注意从疏密和城市等级两角度解答。 【例2】(2011课标卷)下图示意2007年中国大陆制造业企业500强总部的空间分布。读图,回答下列问题。 简述中国大陆制造业企业500强总部空间分布的特点。 【答案】分布不均衡。集中分布在东部沿海省市,以环渤海地区(或京津冀地区)、长江三角洲地区最为集中。西北部的省区总部数量较少。 二、线状地理事物的分布

地理事象的时空分布特征及规律问题专题复习

地理事象的时空分布特征及规律问题专题复习 高考考点: 高考考点: ◆描述地理事物及现象时空分布特征和规律。(时间:季节年际日) [空间:水平垂直纬度(南北)海陆(东西)] ◆阐释地理事物及现象时空分布成因、原理及其与人类的关系。 (一)、点状地理事物的描述 地理事物呈点状,说明其背景比例尺很小,往往是要求描述其分布特点。描述时应从大范围去考虑。 例1:读图3,说明历届现代夏季奥运会举办城市的地区分布特点。 主要集中分布在北半球中纬度地区(或欧洲和北 美洲)。 答案分析: 此题要求描述的是点状地理事物的位置属性。图 中给出的是海陆简图,不是地形图,不需要考虑 海拔差异。又因为这些城市都是分布在陆地上, 也不必考虑海陆差异。所以只需纬度(南北)差 异。 例2:M江是珠江水系三大河流之一,流域面积 90%在广东省境内。流域内拥有较丰富的水资源、 土地资源、矿产资源、生物资源、旅游资源。根 据下述资料,结合所学知识,回答问题。(共14 分)(08广东卷) 4)分析该流域城镇的地理分布特点和成因。(5分) 答:地理分布特点: ①沿河流与交通线分布; ②南部和中部多,北部少。 成因: ①水、陆交通便利,供水方便; ②中、南部地势低平,有利于城镇建设; ③中、南部经济发展水平较北部高,较有利于城镇发展。疏 密 方 位 叠 加

1、点状分布图答题方法 (3)甲区域的城镇分布有明显特征。请你归纳出三点。(6分) 答:主要分布在东部;沿交通线分布;沿谷地(沿河流)分布。 2.读图6,从自然条件和社会经济条件两方面分析我国汽车工业中心的分布特点。 多数分布在季风区内,沿河近海的平原地区; 多数 分布在交通便利,经济较发达的人口、城市密集地 区。 3.读“某国南部水系及其城市分布图”,回答下列 问题:概括乙河南部地区城市分布的特点。 城市多沿河分布,较为均匀,等级较高的城市数目 少,且距离较远。

如何描述地理事物的空间分布特征

如何描述地理事物的空间分布特征(特点) 一、点状地理事物的描述试题通常以某一区域图为背景图来呈现点状事物的分布状况,在读图时要注意从点的大小、疏密、组成的形状来观察点状事物代表的含义。 描述的角度:疏密+数量+极值+方位。具体描述:①总体分布特征(疏密状况,是否均衡;如果不均,哪多,哪少);②极值区位置名称(最多、最少、最集中的地带在哪,沿什么线分布,或者说出最稠密或最稀薄区的地区名称等。)③点组成的形状——反应什么规律。其他——大小,代表的含义(如城市等级),点的动态变化等。当然,描述时要看图说话,突出重点,因题而宜(不一定要面面俱到)。 【例1】(2013四川卷)阅读下列材料,回答问题。 下图是甲国地图。甲国是美国重要的服装进口国,服装生产中心在A城;首都B城是该国重要的工业中心,纺织、食品、制糖是其主要工业部门。 与甲国东部城市比较,指出该国西部城市分布的突出特点。(6分) 【答案】城市分布较密集(2分);主要分布在铁路沿线(或湖、海沿岸及其附近)(2分);多等级较高的城市(2分)。提示:本题没有考查图示区域城市的分布特点,而是让学生通过观察该区域东西城市分布的差异,说出西部地区城市的分布特点。侧重考查图示信息的获取能力和比较分析能力。注意从疏密和城市等级两角度解答。 【例2】(2011课标卷)下图示意2007年中国大陆制造业企业500强总部的空间分布。读图,回答下列问题。简述中国大陆制造业企业500强总部空间分布的特点。

【答案】分布不均衡。集中分布在东部沿海省市,以环渤海地区(或京津冀地区)、长江三角洲地区最为集中。西北部的省区总部数量较少。 二、线状地理事物的分布 线状地理分布图,常用线状符号来表示交通线、河流、山脉、等值线等。带箭头的表示动态,不带箭头的表示静态。线段的长短、粗细表示量的大小(或标上数值)。具体可分为两类: (1)描述一条线(通常为等值线)的分布情况 这类试题只要求描述某一特定线条的地理事物,如年等降水量线、等温线等,可从走向、延伸方向去考虑。读图时注意观察曲线“拐点”的位置,以便分段描述。这类题目大部分都需要分段描述;如“我国一月0℃等温线”分布,可描述为:东段大致东西走向,大致沿秦岭淮河一线;西段大致东北——西南走向、近似于与青藏高原东缘山麓平行。 【例3】(03全国卷)描述图中10℃等温线的走向,并说明其原因 【答案】10℃等温线东半段接近东西走向(与纬线平行),主要受纬度(太阳辐射)因素的影响;该等温线西半段呈东北-西南走向,受东北-西南走向的太行山(黄土高原东缘)影响。 (2)描述多条线状地理事物的分布。

季节性时间序列分析方法

季节性时间序列分析方 法 LG GROUP system office room 【LGA16H-LGYY-LGUA8Q8-LGA162】

第七章季节性时间序列分析方法 由于季节性时间序列在经济生活中大量存在,故将季节时间序列从非平稳序列中抽出来,单独作为一章加以研究,具有较强的现实意义。本章共分四节:简单随机时间序列模型、乘积季节模型、季节型时间序列模型的建立、季节调整方法X-11程序。 本章的学习重点是季节模型的一般形式和建模。 §1 简单随机时序模型 在许多实际问题中,经济时间序列的变化包含很多明显的周期性规律。比如:建筑施工在冬季的月份当中将减少,旅游人数将在夏季达到高峰,等等,这种规律是由于季节性(seasonality)变化或周期性变化所引起的。对于这各时间数列我们可以说,变量同它上一年同一月(季度,周等)的值的关系可能比它同前一月的值的相关更密切。 一、季节性时间序列 1.含义:在一个序列中,若经过S个时间间隔后呈现出相似性,我们说该序列具有以S为周期的周期性特性。具有周期特性的序列就称为季节性时间序列,这里S为周期长度。 注:①在经济领域中,季节性的数据几乎无处不在,在许多场合,我们往往可以从直观的背景及物理变化规律得知季节性的周期,如季度数据(周期为4)、月度数据(周期为12)、周数据(周期为7);②有的时间序列也可能包含长度不同的若干种周期,如客运量数据(S=12,S=7) 2.处理办法: (1)建立组合模型; (1)将原序列分解成S个子序列(Buys-Ballot 1847)

对于这样每一个子序列都可以给它拟合ARIMA 模型,同时认为各个序列之间是相互独立的。但是这种做法不可取,原因有二:(1)S 个子序列事实上并不相互独立,硬性划分这样的子序列不能反映序列{}t x 的总体特征;(2)子序列的划分要求原序列的样本足够大。 启发意义:如果把每一时刻的观察值与上年同期相应的观察值相减,是否能将原序列的周期性变化消除( 或实现平稳化),在经济上,就是考查与前期相比的净增值,用数学语言来描述就是定义季节差分算子。 定义:季节差分可以表示为S t t t S t S t X X X B X W --=-=?=)1(。 二、 随机季节模型 1.含义:随机季节模型,是对季节性随机序列中不同周期的同一周期点之间的相关关系的一种拟合。 AR (1):t t S t S t t e W B e W W =-?+=-)1(11??,可以还原为:t t S S e X B =?-)1(1?。 MA (1):t S t S t t t e B W e e W )1(11θθ-=?-=-,可以还原为:t S t S e B X )1(1θ-=?。 2.形式:广而言之,季节型模型的ARMA 表达形式为 t S t S e B V W B U )()(= (1) 这里,?? ? ??----=----=?=qS q S S S pS P S S S t d S t B V B V B V B V B U B U B U B U X W 2212211)(1)()(平稳。 注:(1)残差t e 的内容;(2)残差t e 的性质。 §2 乘积季节模型 一、 乘积季节模型的一般形式 由于t e 不独立,不妨设),,(~m d n ARIMA e t ,则有

时间序列的分析课后作业

《应用时间序列分析》 实训报告 实训项目名称时间序列预处理 实训时间 2013年10月14日 实训地点实验楼309 班级统计1004班 学号 1004100415 姓名范瑛

《应用时间序列分析》 实训(实践) 报告 实训名称时间序列预处理 一、实训目的 目的:熟悉平稳性检验方法和纯随机性检验方法的相关理论和软件实现的过程,并对结果给出解释,加深对理论的理解,提高动手能力。 任务:Eviews软件的常用菜单方式和命令方式操作;时间序列的自相关函数计算;序列的初步分析,并序列进行平稳性和纯随性进行检验,并写出实训报告。 二、实训要求 1、掌握Eviews软件的工作文件建立方法; 2、对时间序列进行初步分析,总结特征; 3、学会用Eviews软件计算时间序列分析相关函数的; 4、对序列进行平稳性和纯随性检验; 5、在上完机后要写出实验报告。 三、实训内容 1、熟悉Eviews软件的菜单操作和命令操作,包括工作文件的建立、数据的输入 与编辑、新序列的产生、在工作文件窗口中删除、更名变量、序列的各种观察(线图、各种统计量)以及时间序列的差分运算和相关函数的计算。本部分主要由教师来演示介绍。 2、初步对序列进行观察,对序列进行观察分析,求出序列的自相关函数和Q-统 计量,并对序列进行平稳性检验和纯随机性检验。 四、实训分析与总结 第一题 根据Eviews分析所得时间序列图如图1所示:

图1:系列样本序列时序图 该时序图显示系列样本有明显的递增趋势,所以它一定不是平稳序列。 Autocorrelation Partial Correlation AC PAC Q-Stat Prob . |****** | . |****** | 1 0.729 0.729 12.293 0.000 . |**** | . | . | 2 0.511 -0.042 18.682 0.000 . |*** | . | . | 3 0.342 -0.033 21.712 0.000 . |**. | . | . | 4 0.215 -0.025 22.983 0.000 . |* . | . | . | 5 0.124 -0.016 23.435 0.000 . | . | . | . | 6 0.063 -0.008 23.560 0.001 . | . | . | . | 7 0.026 -0.002 23.584 0.001 . | . | . | . | 8 0.008 0.003 23.586 0.003 . | . | . | . | 9 0.001 0.005 23.586 0.005 . | . | . | . | 10 0.000 0.003 23.586 0.009 . | . | . | . | 11 0.000 -0.001 23.586 0.015 . | . | . | . | 12 0.000 -0.001 23.586 0.023 图2:系列样本序列自相关图 从图中我们发现序列的自相关系数递减到零的速度相当缓慢,在很长的延迟 时期里,自相关系数一直为正。这是具有单调趋势的非平稳序列的一种典型的自 相关图形式。这和该序列时序图显示的显著的单调递增性是一致的。 第二题 根据Eviews分析所得时间序列图如图3所示:

时间序列模式挖掘

第6章时间序列和序列模式挖掘(讲稿) 6.1时间序列及其应用 时间序列(Time Series)挖掘是从大量的时间序列数据中提取人们事先不知道的但又是潜在有用的信息和知识,是数据挖掘中的一个重要研究分支,有广泛的应用价值。 近年来,时间序列挖掘在宏观的经济预测、市场营销、客流量分析、太阳黑子数、月降水量、河流流量、股票价格变动(长期的观察,有周期性)等众多领域得到应用。事实上,社会、科学、经济、技术等领域中广泛存在着大量的时间序列数据有待进一步的分析和处理。 时间序列数据挖掘通过研究信息的时间特性,深入洞悉事物进化的机制,是获得知识的有效途径。 从统计意义上来讲,所谓时间序列就是将某一指标在不同时间上的不同数值,按照时间先后顺序排列而成的数列。它可以是观察值也可以是记录值。 这种数列由于受到各种偶然因素的影响。往往表现出某种随机性,彼此之间存在着在统计上的依赖关系。虽然每一时刻上的取值或数据点的位置具有一定的随机性,不可能完全准确地用历史值来预测将来。但前后时刻的数值或数据点的相关性往往呈现某种趋势性或周期性变化----这是时间序列挖掘的可行性之所在。 时间序列挖掘通过对过去历史行为的客观记录分析,揭示其内在规律(如波动周期,振幅,趋势),进而完成预测未来行为等决策性工作。人们希望通过对时间序列的分析,从大量的数据中发现和揭示某一现象的发展变化规律或从动态的角度刻画某一现象与其他现象之间的内在数量关系,以掌握和控制未来行为。 简言之,时间序列数据挖掘就是要从大量的时间序列数据中提取人们事先不知道的、但又是潜在有用的与时间属性相关的信息和知识,并用于短期、中期或长期预测,指导人们的社会、经济、军事和生活等行为。 从数学意义上来讲,如果我们对某一过程中的某一变量进行X(t)观察测量,在一系列时刻t1,t2,…,t n(t为自变量,且t1

专题1 地理事象的时空分布特征及规律问题专题复习

专题复习1《描述地理事物和现象的时空分布特征及规律问题》 高考考点: ◆描述地理事物及现象时空分布特征和规律。(时间:季节年际日;空间:水平垂直纬 度(南北)海陆(东西)) ◆阐释地理事物及现象时空分布成因、原理及其与人类的关系。 描述和阐释地理事物的特征是地理高考中强调的能力之一。但在本文中只尝试讲解“描述地理事物特征。” 描述地理事物特征包括两个方面的内容: (1)对地理事物进行正确的定性概括。 (2)对地理事物的位置属性和数量属性进行定量表述。 一、定性概括 对地理事物进行定性概括在教材里经常看到,如对某地理事物的定义。在考试中常见的定性概括有:地形特点、水文特征、自然地理特征、气温特点等。 1、地形特点:地形种类、海拔高度、地表起伏(地势特点)、分布特点,主要特征地形。 例1:简答德国的地形特点。 参考答案:地势南高北低。南部为巴伐利亚高原和阿尔卑斯山地;中部为宽谷山地,北部为平原。 答案分析: 地形种类:巴伐利亚高原、阿尔卑斯山地、宽谷山地、平原; 地表起伏:地势南高北低; 分布特点:南部为……,中部为……,北部为…… 回忆中国地形特征: 也有只考查地势特征的题目,地势特征应从“起伏(高差)、坡度”等方面描述。 例2:图1示意格尔木至拉萨的地形剖面,读图1回答: 图1 c 、d两段地形变化的特点是。 参考答案:高差大(地势起伏大)、坡度陡 答案分析: 地势起伏大→高差大→坡度陡; 地势起伏小→高差小→坡度缓 2、河流水文特征:水位、流量、含沙量、结冰期、水能蕴藏量、汛期等 例3:松花江是我国东北地区的重要河流,请描述该河流的水文特征。 参考答案: 流量较大(水量丰富);有两个(或春夏)汛期;含沙量小;有结冰期(或结冰期较长)。 答案分析: 前面所列的河流水文特征描述要点只是一个大致方向,应用时要根据实际情况进行取舍。如该参考答案中突出松花江有两个汛期。

高考地理——区域特征分析

专题4区域特征分析 (时间:45分钟满分:100分) 考点分布表 (2013·广东汕头测评)中国某地居民就地取材,用竹木扎制屋架,茅草覆顶,建造的传统民居远看像船底,因而被称为船形屋(下图)。根据材料回答1~2题。 1.该村落最可能位于 ()。 A.青藏高原B.黄海沿岸 C.海南岛山区D.东北平原 2.该传统民居能够反映当地的环境特点是 ()。 A.高寒缺氧B.潮湿、多虫鼠 C.多火山、地震D.干旱缺水 解析第1题,根据题干提示“某地居民就地取材,用竹木扎制屋架”,结合四个选项,具有竹子地区是海南岛山区。第2题,根据上题的结论,海南

属于热带季风气候,降水量大,气温高,所以该传统民居能够反映当地的环境特点是潮湿、多虫鼠。 答案 1.C 2.B (2013·江西宜春五校联考)中央电视台中文国际频道“边疆万里行”摄制组初秋到新疆北部采访,路遇一条河流,他们乘坐的越野车必须在天黑前从河流中开过去,否则将会出现严重后果。据此回答3~4题。 3.关于这条河流的判断,正确的是 ()。 A.一定是一条内流河 B.一定自西向东流 C.一定以冰雪融水补给为主 D.一定以降水补给为主 4.摄制组的越野车必须在天黑前越过河流,其主要原因是 ()。 A.午后气旋活动频繁、降水多,河流傍晚前后会涨水 B.午后冰雪融水增多,河流傍晚前后会涨水 C.午后风大,傍晚前后可能会出现沙尘天气 D.昼夜温差大,河流傍晚前后会结冰 解析第3题,新疆地处我国西北内陆,该地区河流以冰雪融水补给为主。 第4题,必须天黑前越过河流,是因为午后冰雪融水增多,经过一段时间后,河流到了傍晚前后会涨水。 答案 3.C 4.B (2013·北京海淀区期末)下图为我国各地的传统民居景观,读图回答第5题。

金融时间序列分析复习资料

金融时间序列分析复习资料

一、单项选择题(每题2分,共20分) P61关于严平稳与(宽)平稳的关系; 弱平稳的定义:对于随机时间序列y t ,如果其期望值、方差以及自协方差均不随时间t 的变化而变化,则称y t 为弱平稳随机变量,即y t 必须满足以下条件: 对于所有时间t ,有 (i ) E (yt )=μ为不变的常数; (ii ) Var (yt )=σ2为不变的常数; (iii ) γj =E[y t -μ][y t-j -μ],j=0,±1,,2,… (j 为相隔的阶数) (μ=0,cov (y t ,y t-j )=0,Var (yt )=σ2时为白噪音过程,常用的平稳过程。) 从以上定义可以看到,凡是弱平稳变量,都会有一个恒定不变的均值和方差,并且自协方差只与y t 和y t-j 之间的之后期数j 有关,而与时间t 没有任何关系。 严平稳过程的定义:如果对于任何j 1,,j 2,...,j k ,随机变量的集合(y t , y t+j1,,y t+j2,…,y t+jk )只依赖于不同期之间的间隔距离(j 1,j 2,…, j k ),而不依赖于时间t ,那么这样的集合称为严格平稳过程或简称为严平稳 过程,对应的随机变量称为严平稳随机变量。 P46 t X 的k 阶差分是;△ k X t =△ k-1 X t -△ k-1 X t-1,△ 表示差分 符号。 滞后算子;P54对于AR : L p y t =y t-p ,对于MA :L p εt =εt-p AR (p )模型即自回归部分的特征根—平稳性;确定好差分方程的阶数,则其特征方程为:λp -α1λp-1-α2λp-2-…-αp =0,若所有的特征根的│λ│<1则平稳 补充:逆特征方程为:1-α1z1 -α2z2-…-αp zp =0,若所有的逆特征根│z│>1,则平稳。注意:特征根和逆特征方程的根互为倒数。 如:p57作业3: y t =1.2y t-1-0.2y t-2+εt ,为二阶差分,其特征方程为:λ2-1.2λ+0.2=0,解得λ1=1,λ2=0.2,由于λ1=1,所以不平稳。 MA(q )模型121.10.24t t t t X εεε--=-+,则移动平均部分的特征根----可逆性;p88 所谓可逆性,就是指将MA 过程转化成对应的AR 过程 MA 可逆的条件是其逆特征方程的根全部落在单位圆外, 即1+θ1z 1 +θ2z2+…+θp zp =0,│z│>1,

金融时间序列分析复习资料

一、单项选择题(每题2分,共20分) P61关于严平稳与(宽)平稳的关系; 弱平稳的定义:对于随机时间序列y t,如果其期望值、方差以及自协方差均不随时间t的变化而变化,则称y t为弱平稳随机变量,即y t必须满足以下条件: 对于所有时间t,有 (i) E(yt)=μ为不变的常数; (ii) Var(yt)=σ2为不变的常数; (iii) γj=E[y t-μ][y t-j-μ], j=0,±1,,2,… (j为相隔的阶数) (μ=0,cov(y t,y t-j)=0,Var(yt)=σ2时为白噪音过程,常用的平稳过程。) 从以上定义可以看到,凡是弱平稳变量,都会有一个恒定不变的均值和方差,并且自协方差只与y t和y t-j之间的之后期数j有关,而与时间t没有任何关系。 严平稳过程的定义:如果对于任何j1,,j2,...,j k,随机变量的集合(y t,y t+j1,,y t+j2,…,y t+jk)只依赖于不同期之间的间隔距离(j1,j2,…,j k),而不依赖于时间t,那么这样的集合称为严格平稳过程或简称为严平稳过程,对应的随机变量称为严平稳随机变量。 P46 的阶差分是;△kX t=△ k-1X t-△ k-1X t-1,△表示差分符号。 滞后算子;P54对于AR: L p y t=y t-p,对于MA:Lpεt=εt-p AR(p)模型即自回归部分的特征根—平稳性;确定好差分方程的阶数,则其特征方程为:λp-α1λp-1-α2λp-2-…-αp=0,若所有的特征根的│λ│<1则平稳 补充:逆特征方程为:1-α1z1-α2z2-…-αpzp=0,若

所有的逆特征根│z│>1,则平稳。注意:特征根和逆特征方程的根互为倒数。 如:p57作业3: y t=1.2y t-1-0.2y t-2+εt,为二阶差分,其特征方程为:λ2-1.2λ+0.2=0,解得λ1=1,λ2=0.2,由于λ1=1,所以不平稳。 MA(q)模型,则移动平均部分的特征根----可逆性;p88 所谓可逆性,就是指将MA过程转化成对应的AR过程 MA可逆的条件是其逆特征方程的根全部落在单位圆外, 即1+θ1z1+θ2z2+…+θpzp=0,│z│>1, 此题q为2,逆特征方程为:1-1.1z+0.24z2=0, 解得:Z= 关于AR(p)模型与MA(q)的拖尾与截尾---建模观察相关图定阶;如表所示: AR(p)MA(q)ARMA(p,q)ACF拖尾q期后截尾拖尾 PACF P期后截尾拖尾拖尾 若一序列满足ARIMA( p, d, q)模型(d > 0) , 则此序列平稳吗? 答:平稳,因为ARIMA( p, d, q)模型表表示经过d次差分后的序列,其必定是平稳时间序列。 二、填空题(每题2分,共20分)。 平稳时间序列的特点:平稳时间序列的特征方程的单位根的绝对值都小于1,逆特征方程的根的绝对值都大于1。 (i) E(yt)=μ为不变的常数; (ii) Var(yt)=σ2为不变的常数; (iii) γj=E[y t-μ][y t-j-μ], j=0,±1,,2,… (j为相隔的阶数) ARMA 所对应的AR特征方程为?其MA逆特征方程为?

如何描述地理事物的空间分布特征剖析

如何描述地理事物的空间分布特征 一、点状地理事物的描述 试题通常以某一区域图为背景图来呈现点状事物的分布状况,在读图时要注意从点的大小、疏密、组成的形状来观察点状事物代表的含义。 描述的角度:疏密+数量+极值+方位。具体描述:①总体分布特征(疏密状况,是否均衡;如果不均,哪多,哪少;②极值区位置名称(最多、最少、最集中的地带在哪,沿什么线分布,或者说出最稠密或最稀薄区的地区名称等。③点组成的形状——反应什么规律。其他——大小,代表的含义(如城市等级,点的动态变化等。当然,描述时要看图说话,突出重点,因题而宜(不一定要面面俱到。 【例1】(2013四川卷阅读下列材料,回答问题。 下图是甲国地图。甲国是美国重要的服装进口国,服装生产中心在A城;首都B 城是该国重要的工业中心,纺织、食品、制糖是其主要工业部门。 与甲国东部城市比较,指出该国西部城市分布的突出特点。(6分

【例2】(2011课标卷下图示意2007年中国大陆制造业企业500强总部的空间分布。读图,回答下列问题。 简述中国大陆制造业企业500强总部空间分布的特点。

二、线状地理事物的分布 线状地理分布图,常用线状符号来表示交通线、河流、山脉、等值线等。带箭头的表示动态,不带箭头的表示静态。线段的长短、粗细表示量的大小(或标上数值。具体可分为两类: (1描述一条线(通常为等值线的分布情况 这类试题只要求描述某一特定线条的地理事物,如年等降水量线、等温线等,可从走向、延伸方向去考虑。读图时注意观察曲线“拐点”的位置,以便分段描述。这类题目大部分都需要分段描述;如“我国一月0 ℃等温线”分布,可描述为:东段大致东西走向,大致沿秦岭淮河一线;西段大致东北——西南走向、近似于与青藏高原东缘山麓平行。 【例3】(03全国卷描述图中10℃等温线的走向,并说明其原因

时间序列分析法原理及步骤

时间序列分析法原理及步骤 ----目标变量随决策变量随时间序列变化系统 一、认识时间序列变动特征 认识时间序列所具有的变动特征, 以便在系统预测时选择采用不同的方法 1》随机性:均匀分布、无规则分布,可能符合某统计分布(用因变量的散点图和直方图及其包含的正态分布检验随机性, 大多服从正态分布 2》平稳性:样本序列的自相关函数在某一固定水平线附近摆动, 即方差和数学期望稳定为常数 识别序列特征可利用函数 ACF :其中是的 k 阶自 协方差,且 平稳过程的自相关系数和偏自相关系数都会以某种方式衰减趋于 0, 前者测度当前序列与先前序列之间简单和常规的相关程度, 后者是在控制其它先前序列的影响后,测度当前序列与某一先前序列之间的相关程度。实际上, 预测模型大都难以满足这些条件, 现实的经济、金融、商业等序列都是非稳定的,但通过数据处理可以变换为平稳的。 二、选择模型形式和参数检验 1》自回归 AR(p模型

模型意义仅通过时间序列变量的自身历史观测值来反映有关因素对预测目标的影响和作用,不受模型变量互相独立的假设条件约束,所构成的模型可以消除普通回归预测方法中由于自变量选择、多重共线性的比你更造成的困难用 PACF 函数判别 (从 p 阶开始的所有偏自相关系数均为 0 2》移动平均 MA(q模型 识别条件

平稳时间序列的偏相关系数和自相关系数均不截尾,但较快收敛到 0, 则该时间序列可能是 ARMA(p,q模型。实际问题中,多数要用此模型。因此建模解模的主要工作时求解 p,q 和φ、θ的值,检验和的值。 模型阶数 实际应用中 p,q 一般不超过 2. 3》自回归综合移动平均 ARIMA(p,d,q模型 模型含义 模型形式类似 ARMA(p,q模型, 但数据必须经过特殊处理。特别当线性时间序列非平稳时,不能直接利用 ARMA(p,q模型,但可以利用有限阶差分使非平稳时间序列平稳化,实际应用中 d (差分次数一般不超过 2. 模型识别 平稳时间序列的偏相关系数和自相关系数均不截尾,且缓慢衰减收敛,则该时间序列可能是 ARIMA(p,d,q模型。若时间序列存在周期性波动, 则可按时间周期进

相关文档