文档库 最新最全的文档下载
当前位置:文档库 › 基于时间序列分析的输变电设备状态大数据清洗方法

基于时间序列分析的输变电设备状态大数据清洗方法

基于时间序列分析的输变电设备状态大数据清洗方法

严英杰1,盛戈皞1,陈玉峰2,江秀臣1,郭志红2,秦少鹏3

(1.

上海交通大学电子信息与电气工程学院,上海市200240;2.国网山东省电力公司电力科学研究院,山东省济南市250002;3.国网四川省电力公司广安供电公司,四川省广安市638500)

摘要:数据清洗是输变电设备状态评估数据预处理的一个关键步骤,有助于提高数据质量和数据

利用率.文中将设备状态信息等效成各状态量的时间序列,提出了一种基于时间序列分析的双循环迭代检验法.首先,将时间序列中的异常数据进行了分类,并将缺失值归纳为其中一类异常值.然后,分析了不同类别异常值对时间序列模型的影响,并阐述了迭代检验法的实现步骤.最后,利用所述方法对南网某变压器和线路的监测数据进行了数据清洗,结果表明该方法能识别并修正数据中的噪声点,填补缺失值,满足数据清洗要求.关键词:大数据;数据清洗;时间序列;电力设备状态数据

收稿日期:2014-01-11;修回日期:2014-09-02.

国家自然科学基金资助项目(51477100);国家高技术研究发展计划(863计划)资助项目(SS2012AA050803);国家电网公司科技项目.

0 引言

传统的设备评估诊断大多基于单一部件二单一参量的阈值判断,由于设备测试手段的局限性二故障机理的复杂性二运行环境的多样性二知识的不精确性导致诊断评价结果片面二缺少故障发展全面分析和

预测的手段等问题[1-2]

.对设备在线监测二带电检

测二离线试验等设备全景状态信息进行状态检测,提升输变电设备评价与异常诊断的准确性是设备状态

评估诊断技术的发展趋势[

3-6]

.大数据是目前学术界和产业界共同关注的研究

主题,具有广阔的应用前景.随着电力系统的发展,电力设备在线监测数据及生产管理二运行调度等数据逐步在统一的信息平台上完成集成共享,为大数据技术融合输变电设备状态数据的分析处理创造了条件.目前大数据技术在电力行业中的应用主要集

中在电网大数据的传输和存储[7-8]

及电力负荷数据的分析处理上[

9-11]

.输变电设备全景状态信息呈现来源多二信息异

构二数量庞大二属性繁多等特点,其数据往往是不完整的二有噪声的和不一致的.状态量原始的数据质量往往不能满足后续状态评价模型的要求,因此,在状态评估或诊断分析之前进行数据清洗是必不可少

的.数据清洗通过填充缺失值二平滑噪声数据和识别离群点来提高数据质量,有助于提高数据挖掘过

程的准确率和效率[

12-13]

.在输变电设备数据清洗方面,国内外的研究如

文献[14-16]所示.文献[14]在建立故障与信息的映射关系时将海量数据通过粗糙集信息熵的方法进

行了约简,从而解决了数据缺失的问题,但是破坏了数据自身信息的完整性.文献[15-16]

在处理支持向量机训练集的噪声和异常数据时使用了模糊C

均值聚类方法,通过计算数据到聚类中心的距离来分离出噪声数据.但是这种聚类方法将分离出的噪声数据直接剔除,破坏了状态量数据链的连续性.以上研究在数据清洗过程中造成了数据的丢失,不利于在后续状态评估中对数据本身信息的挖掘.

本文提出了一种基于时间序列分析的数据清洗方法,其原理是利用时间序列模型识别各状态量的时间序列,检测出数据的异常模式,判断异常数据是能提取设备故障信息的 有用数据 还是可被清洗的

无用数据

.当异常数据是由设备异常状态产生时,用时间序列干预模型进行拟合以提取有效故障信息.在数据清洗时,根据序列中异常值的种类选择不同的修正公式,从而达到修正噪声点数据和填补缺失值的目的.相比于传统的删除噪声点,本文方法清洗出的数据是不带有噪声点和缺失值的数据,从而避免了时间序列中有用信息的丢失,更能有效地反映原始时间序列的动态变化,适应输变电设备状态数据的特点.

31Vol.39No.7A p r.10,2015

DOI :10.7500/AEPS20140111003

1 基于时间序列的输变电设备状态数据清洗方法原理

1.1 状态数据的特点及时间序列方法适用性输变电设备状态量的检测是由各个传感器来完成的,但是经过底层的预处理而上传到数据库进行状态评估的原始数据可以认为是按时间序列排列的特征量数据.这些数据的统一格式为 时间.特征量=数值 ,因此,可认为采集的所有状态量形成了一个单元或多元的连续而完整的时间序列[17],如矩

阵X所示:

X=X11X12 X1h

X21X22 X2h

???

X l1X l2 X lh

é

?

ê

ê

ê

ê

ê

ù

?

?

?

?

?

?

(1)

式中:X lh为在h时刻状态量l的数值.

输变电设备正常运行状态下的状态数据一般呈现如下3种规律,并都可适用于时间序列方法:①状态量幅值变化较小,如导线拉力二接地电流二油中气体C2H2等,这些状态量数据都属于平稳序列,可直接用自回归移动平均函数ARMA(p,q)拟合;②状态量呈缓慢上升趋势,如油中气体CO和CO2,可以通过差分方法转化为平稳序列,并用自回归求和移动平均函数ARIMA(p,d,q)拟合;③状态量呈周期性变化,在时间序列上表现为s个时间间隔后的观测点呈现相似性,如油温二导线温度等,可通过ARIMA(p,d s,q)拟合.

根据输变电设备的运行特点,状态数据中的异常通常表现为两种形式:①可用于数据清洗的异常,即噪声点和缺失值;②设备运行状态受到干扰而导致的数据异常.噪声点是批由于仪器异常或设备系统的扰动引起的严重偏离期望值的数据,这些数据不仅会影响模型拟合的精度,而且会导致后续状态评估出现偏差,引起误诊.缺失值是批由于传感器的短时失效二通信端口异常二记录失误等因素引起的数据中断,状态数据中存在的缺失值破坏了系统运行的连续性,不利于后续的状态评估和趋势检验.设备在运行过程中会产生突发性故障二绝缘劣化等,这些常常会引起数据的水平迁移异常和趋势改变性异常,此类异常数据反映了设备运行工况的异常,不属于清洗范畴.设备状态数据的时间序列中往往含有多个异常数据,修复所有的噪声点和缺失值是设备状态数据清洗的目标,同时也要实现突发性故障信息的有效获取,而不是作为异常数据剔除.1.2 可用于清洗的异常数据

1.2.1 噪声点和缺失值的模型分类

时间序列中的噪声点可以分为新息异常值(IO)二附加异常值(AO)和两种类型异常值的组合[18].设X t是无异常值的时间序列,X t服从ARIMA(p,d,q),可表示为:

X t=θ

(B)

φ(B)Δd a t(2)θ(B)=1-θ1B-θ2B2- -θq B q(3)

φ(B)=1-φ1B-φ2B2- -φq B q(4)式中:B为延迟算子;θ(B)和φ(B)分别为没有公共因子的平稳和可逆算子;θ1,θ2, ,θq为θ(B)的相应参数;φ1,φ2, ,φq为φ(B)的相应参数;a t为相互独立,具有相同分布N(0,σ2a)的白噪声序列,其中σa为含异常值的残差的标准差;Δ=1-B,适用于1.1节中符合第2和第3种规律的状态数据(即具有趋势性二周期性的时间序列).

用Z t表示观测到的时间序列,那么T时刻(脉冲发生时刻)包含噪声点的ARIMA(p,d,q)可表示为以下3种噪声点模型.

1)IO模型

Z t=X t+ωθ

(B)

φ(B)Δd I(T)t=

θ(B)

φ(B)Δd(a t+ωI(T)t)(

5)

I(T)t=

1 t=T

0 t?T

{(6)

式中:ω为异常值影响因子;I(T)t为脉冲函数.

IO影响了T时刻之后的所有观测值Z T, Z T+1, .其影响效应与Z t的模型形式有关,通过θ(B)/φ(B)所描述的系统动态特性而影响后面的所有观测序列.

2)AO模型

Z t=X t+ωI(T)t=θ

(B)

φ(B)Δd a t+ωI(T)t(7) AO只影响该干扰发生的那一时刻T上的序列值,而不影响该时刻以后的序列值.AO通过未知的ω而起作用.时间序列中的缺失值可以认为是一种AO.

3)多个异常值的模型

在通常情况下,一个被观测的时间序列可以在不同的时间点上受不同类型的异常值的影响,因此,得到下面两种异常值组合的模型:

Z t=X t+ek j=1ωj v j(B)I(T)t(8)

v j(B)=

θ(B)

φ(B)Δd IO

1 AO

ì

?

í

êê

ê

(9)

式中:k为异常值个数;ωj和v j分别为对应于不同异常值的影响因子和算子.

931

严英杰,等 基于时间序列分析的输变电设备状态大数据清洗方法

htt p://www.ae p s-info.com

1.2.2 异常数据对时间序列拟合的影响

异常数据会影响时间序列拟合的精度,通过对拟合残差的分析可以将两类异常数据的影响量化.设时间序列拟合的残差为e t ,则

e t =π(B )Z t

(10)

π(B )=θ(B )φ

(B )Δ

d =1-π1B -π2B 2

- (

11)式中:π(B )为表征残差影响的算子;π1,π2,

为π(B )

的相应参数.在观测到的时间序列Z t 中存在异常数据时,

拟合残差序列e t 可以表示为:

e t ,AO =

ωπ(B )I (T )

t +a t (12)e t ,IO =

ωI (T )

t +a t (13) 式(12)和式(13)

分别表示了异常数据为AO 和IO 时,

拟合残差序列与白噪声序列的关系.将式(12)用矩阵的方式扩展开来,对长度为n 的时间序列,式(12)

可写为:e 1,AO ?e T -1,AO e T ,AO

e T +1,AO ?e n ,AO é?êêêêêêêêêêù???????????=ω0?01-π1?-πn -T é?êêêêêêêêêêù??

?????

?

???+a 1?a T a T +1a T +2?a n é?êêêêêêêêêêù?

??????????(14) 由于a t 是白噪声序列,根据式(14)由最小二乘理论算得噪声点AO 对时间序列拟合的影响ω^AO

为:

ω^AO =

e T ,AO -en -T

i =1

πi e T +i ,AO

en -T

i =0

π

i

(15)

同理,噪声点IO 对时间序列拟合的影响ω^IO

为:

ω^IO =e T ,IO

(16) 因此,在时刻T ,IO 对时间序列拟合影响的最

好量化估计是残差e T ,IO ,而AO 影响的最好量化估

计是残差e T ,AO ,e T +1,AO , ,e n ,AO 的线性组合,其权

数依赖于时间序列的结构.

1.2.3 异常数据的检验统计量

时间序列中异常值的存在将使得参数估计产生严重的偏差,这些偏差根据1.2.2节中噪声点AO 和IO 对时间序列拟合的影响ω^AO 和ω^IO ,可以综合成噪声点的检验统计量,当检验统计量超过一定的限值时,可以判断其对应的时刻T 存在噪声点.每个观测点的AO 和IO 的检验统计量如下:T t

?IO =

ω^IO σa

(17)

T t ?AO

=ω^AO σa en i =T

π2

i (18)式中:t ?为异常数据产生的时刻;T t

?AO 为AO 的检验

统计量,T t

?IO 为IO 的检验统计量,两者的极限分布

均为标准正态分布.

1.3 反映设备状态的异常数据

通过对输变电设备突发性故障的统计分析[19-20]

可知,故障时其状态数据往往会产生水平迁移和快速变化的趋势,这种情况下状态数据用式(1)拟合时在某一时间点后的残差序列均远大于之前的值,因

此,可直接判断数据不可做清洗,只能通过时间序列

干预模型拟合.状态数据的两种干预响应结构如下.

1)

反映水平迁移的干预响应结构为:ωB b S (T

)

t (19)S (T )

t =

0 t <T

1 t ?T

{

(20)

式中:S (T )

t 为阶跃函数;b 为延迟时间.

该结构说明输入的干预变量是S (T )

t ,输出的状

态量延迟b 后做出反应且强度为ω,以后再不回到以前的状况.这类干预影响反映出了状态量的水平

迁移,如变压器对地绝缘故障时铁芯接地电流迅速变大而超过限值(100mA )

等.2)

反映趋势改变的干预响应结构为:ωB b 1-δB

S (T )

t (21)

式中:δ为延迟算子的相应参数.

此类干预影响常常用来表示趋势性状态量趋势的变化.如反映变压器固体绝缘的CO /CO 2,在正常情况下其数值是缓慢上升的,当变压器固体绝缘受到破坏而导致劣化加速时,CO 数值会呈快速上升趋势,时间序列的斜率比正常情况下大很多.在对CO 的时间序列做一阶差分后符合该类干预影响结构.

2 输变电设备状态信息数据清洗步骤

设备状态信息获取方式的多样性及采集间隔的不确定性使得各状态量时间序列的参数是未知的二异常数据产生的时刻T 是不确定的,因此,时间序

列模型的搭建二模型参数估计二异常数据类型识别是必不可少的数据清洗步骤.由于异常数据的存在将使时间序列参数的估计产生偏差,因此,针对噪声点出现时刻与个数未知二预先没有模型参数的情况,使

412015,39(7)?研制与开发?

htt p ://www.ae p s -info.com

用迭代检验的方法对观测的时间序列进行数据清

洗,共分为7个步骤(流程图见附录A 图A1)

.步骤1:假定不存在异常值,对观测序列Z t 建立时间序列模型,并由所估计的模型计算初始残差,即

e ^t =π^(

B )Z t =φ^(B )Δ

d θ^(B )

Z t (22)

式中:e ^t 为初始拟合的残差序列;π^(

B )为π(B )的初始值;θ^(B )和φ^(

B )分别为初始拟合的平稳和可逆算子.

残差方差的初始估计σ^2

a

为:

σ^2

a

=1

n en

t =1

e ^

2t (23) 步骤2:

观测拟合残差序列.若从某时间点开始残差序列呈现水平迁移,并远大于之前的残差值,则原始时间序列需用干预模型拟合,跳至步骤7;否则跳至外循环.

步骤3:在外循环中,利用已估计的模型,对t =1,2, ,n ,

计算每个观测点的检验统计量T t AO 和T t IO .

定义λT max =max {|T t AO |,|T t IO |},这里T max 为最大值发生的时刻.当λT max >C 时,其中C 是预先

确定的常数,通常取3和4之间的值,则说明存在异

常数据,进入内循环修正数据.

步骤4:在内循环中修正数据.

当λT max =|T T max

AO |>C 时,可以确定在时刻

T max 存在异常数据AO ,其对模型拟合的影响ω^AO 通

过式(15)可以求得.通过式(7)修正原始时间序列数据,得到新的时间序列Z ~

t 为:

Z ~

t =Z t -ω^AO I (

T )

t (24) 并由式(12)修正得到新的残差e ~

t ,AO 为:e

~

t ,AO

=e ^t -ω^AO π^(

B )I (T )

t (25) 当λT max =|T T

max IO |>C 时,

确定在时刻T max 存在异常数据IO ,其对模型拟合的影响ω^IO 可通过

式(16)求得,利用式(5)修正数据,则IO 的影响可以消除,即

Z ~t =Z t -θ^(B )φ

^(B )Δ

d

ω^IO I (T )

t (26) 并由式(13)修正得到新的残差e ~

t ,IO 为:

e ~

t ,IO =e ~

t -ω^IO I (T

)

t (27) 使用迭代的方法识别并修正时间序列所有的噪

声点.在修正后的残差e ~t ,AO ,e ~t ,IO 和残差标准差σ~2

a

的基础上再次计算每个观测点的检验统计量T t ?AO 和

T t

?IO ,

并重复步骤4,直到所有的异常数据都被识别出来.当λT max <C 时,则说明此步外循环已修复异

常数据,内循环结束.

步骤5:假设在内循环结束后有K 个异常数据在时刻T 1,T 2, ,T K 被识别出,

其影响分别为ω~(1)1,ω~(1)2, ,ω~(1)

K ,同时异常数据被修正而得到了新的时间序列Z ~

(1)

t (右上角的1表示这是第1次外

循环迭代得到的序列).此时重新回到步骤3,进入外循环,根据式(2)

重新估计该时间序列参数θ~

(1)(B ),φ~(1)

(

B ),π~(1)(B ),并根据式(22)和式(23)得到时间序列模型残差e ~(1)

t

为:e ~(1)

t

=π

~(1)

(B )(

Z

~(1)

t

-eK

j =1

ω(1

)j v

~(1)

j

(B )I (T j

)

t )

(28)

v ~(1)j (B )=θ~

(1)

(B )φ~(1

)(

B )Δ

d IO 1AO

ì?íêêê(29) 根据重估的时间序列参数计算检验统计量,

当λT max <C 时外循环结束,

当λT max >C 时重新进入外循环,直到所有的异常数据都被修复.

步骤6:在最后一次外循环结束后,针对修正了噪声点的时间序列Z ~

t 进行联合估计,得到拟合异常值的模型.

Z ~

t =eK

j =1ω~j v ~

j (

B )I (T j )t +θ~

(B )φ~(

B )Δ

d a t (30)

式(30)中,各参数θ~

(B ),φ~(

B ),ω~j ,v ~

j 是在最后一次迭代中得到的,该联合估计的目的是验证数

据清洗的数学模型是否与真实数据相近,即拟合残差属于可接受范围.此时,将式(30)中异常时间点的数据作为 修正 的数据,以替代原始数据,而其他时间点的数据仍保留原始值.

步骤7:使用式(19)和式(21)

的时间序列干预模型拟合原始数据,并求出干预点发生时间.

3 算例分析

3.1 数据清洗算例

算例1选取南方电网某输电线路采集的导线温度数据,如图1中实线所示,该时间序列不存在噪声

点和缺失值,属于周期性时间序列,可用季节型

ARIMA (p ,d s ,q )

拟合.为了检验本文数据清洗方法的实用性,将原来的观测时间点t =140的数值剔除(成为缺失点),观测时间点t =26和t =49分别

41严英杰,等 基于时间序列分析的输变电设备状态大数据清洗方法

加入一个AO 和IO 异常值,从而生成了一个带清洗的时间序列Z t ,如图1虚线所示.

20

140

120100806040导线温度原妈数据

200

14016012010080180

6040观测时间点

导线温度/℃

加入噪声点和缺失值的数据

图1 原始数据和含有异常值的数据

Fi g .1 Ori g inal data and the simulated data with outliers

利用MATLAB 软件对时间序列Z t 进行数据清洗,步骤如下.

步骤1:进入外循环,首先对时间序列Z t 拟合

季节型ARIMA (p ,d s ,q )

,得到ARIMA (1,0,0)(s 为12)如式(31)

所示.(1-0.914B )(1-B 12)Z t =1.02+a t (31)

观察拟合模型的残差序列初步推断该序列可能

存在多个异常值.

步骤2:

进入内循环,计算每个观测点的检验统计量T AO 和T IO ,逐次迭代直到所有的噪声点都被检验出来,结果如表1所示.

表1 检验出的异常值类型

Table 1 T yp es of tested outliers

迭代次数

观测时间点

类型1

140AO 249IO

326

AO 因此,考虑如下的修正模型:

Z t =θ0+ω1I (26)

t +ω2

1(1-φ1B )Δ

12

I (49)

t +

ω3I (140)

t +1(1-φ1B )Δ

12

a t

(32)

式中:θ0为θ(B )

的相应参数.根据表中的拟合影响对时间序列的噪声点和缺

失值数值进行修正,同时,根据式(32)对修正后的时间序列重新估计其参数,得到第1次修正后的时间序列及残差图如图2所示.

步骤3:根据图2中的残差可判断原数据的噪声点和缺失值全部被检验了出来.但由于噪声点对于观测时间点的数值拟合残差过大,不符合赤池信息准则(AIC )检验,因此,需要返回外循环进行迭代计算,进一步修正时间序列,以提高数据清洗质量.步骤4:在通过两次外循环的迭代之后(逐步拟

合结果见表2),得到最终清洗后的时间序列,如图3红色点所示,与原始数据基本符合.

观测时间点

导线温度/℃

图2 加入异常值的序列和初始拟合残差序列

Fi g .2 Ori g inal series with outliers and the

initial fittin g residual series

表2 逐步拟合结果

Table 2 Fittin g results of each ste p

迭代次数

θ0

φ1

ω1

ω2

ω3

1.0930.8680.821

-0.513

0.990

21.1050.85

0.133

-0.320

支持向量机对异常点的修复结果

本文的导线温度数据;

原妈的导线温度数据

观测时间点

(a) 两种方法清洗结果对比

观测时间点

(b) 两种方法修复数据的误差支持向量机修复数据的误差

本文方法的拟合误差;导线温度/℃

误差/℃

图3 原始数据二最终拟合的数据二最终拟合误差

和支持向量机的修复结果

Fi g .3 Ori g inal data ,final fittin g data ,the final fittin g

errors and the results of su pp ort vector machine

从图3可以看出,虽然清洗后的时间序列与原始时间序列在异常值发生时刻附近存在偏差,但是偏差都在10%以下,不影响后续的状态评估,属于可接受的范畴.作为对比,使用k 阶近邻法聚类来检测数据中的噪声点和缺失值,并使用回归支持向量机修复数据.两种方法的对比结果如表3所示,由于温度数据不平稳且周期性变化的特点,支持向量机前向和后向预测结果差别大,精确度不如本文方法.图3中的绿色点表示检测出的噪声点,其结果与本文方法相近,检测出了时间点26,48,49,50为噪声点,时间点140为零值(缺失值)

.2

412015,39(7)?研制与开发?

htt p ://www.ae p s -info.com

表3 两种方法结果对比

Table 3 Results com p arison of two different methods

时间点原始数值/?本文方法修复值/?本文方法

误差/%支持向量机修复值支持向量

机误差/%26

75.1

78.2

4.079.2

5.3

4843.840.77.137.514.44939.036.95.335.39.55042.439.87.0

34.219.35139.838.53.314027.928.93.633.921.5

算例2是对多元时间序列的数据清洗(见附录B ).以上两个算例表明,基于时间序列的数据清洗方法是针对数据整体规律而言的,能够修复时间序列中的噪声点和缺失值,完成数据清洗的目标.支持向量机方法对局部平稳性或固定趋势性序列的清洗结果与本文方法相近,但是对非平稳或季节性数据清洗结果差,具有局限性.

3.2 干预模型算例

算例3为某变电站油中气体CH 4的在线监测数据,如图5所示,通过ARIMA (1,0,1)模型拟合后得到数据的初始拟合结果和拟合误差,其中CH 4

含量表示每升空气中CH 4的含量.可以看出,在观

测时间点t =50左右时间序列发生了趋势的改变,

CH 4气体的值由平稳趋势变为上升趋势,可以定性地判断变压器的内部绝缘出现劣化加速趋势.因

此,针对此类异常数据,应使用时间序列的干预模型获取故障有效信息,不可用作数据清洗.

1.41.21.61.8

2.02.2020

406080100

120

65

6055504540观测时间点

(a) 原妈数据和初妈拟合结果

20

406080

100120

观测时间点(b) 初妈拟合误差

原妈数据

初妈拟合结果

C H 4含量/μL

误差/μL

图4 CH 4气体的原始数据及初始拟合结果和误差Fi g .4 Ori g inal data of CH 4and initial fittin g results

and errors

由于t =50处气体数据发生了趋势改变,因此,

可以用第2类干预结构来拟合原始数据:

(1-B )Z t =μ+

ωB 1

-δ

B S (50)

t +a t (33)

异常数据的最终拟合结果如图5所示.从该干预模型可以得出结论,在t =50处变压器出现了异常运行状态,需要运维人员密切关注.实际情况是变压器低压侧上夹件内衬铁斜边与C 相端处相碰,

形成了故障接地点,从而与原接地点形成了环流,使

得变压器过热,与本文方法结论一致

.

40-2

-10123

65

60555045C H 4含量/μL

误差/μL

观测时间点(a) 最终拟合结果

02040

6080100120

观测时间点(b) 最终拟合误差

图5 异常数据的最终拟合结果Fi g .5 Final fittin g results of outliers

4 结语

本文基于时间序列分析这一大数据技术,利用

模型拟合残差的迭代检验法来检验出输变电设备状态数据中的噪声点和缺失值,并能在迭代过程中对异常数据进行修正.相比于传统的删除噪声点,本文方法清洗出的数据是不带有噪声点和缺失值的数据,从而避免了时间序列中有用信息的丢失.3个应用实例表明本文方法能实现输变电设备状态信息海量历史数据的校验和清洗,不仅可以自动去除 脏

数据 ,而且能够提升数据的质量,避免设备状态的误诊.

附录见本刊网络版(htt p ://www.ae p s -info.

com /ae p s /ch /index.as p x )

.参考文献

[1]宁辽逸,

吴文传,张伯明.运行风险评估中的变压器时变停运模型:(一)基于运行工况的变压器内部潜伏性故障的故障率估计

方法[J ].电力系统自动化,2010,34(15):9-13.

NING Liao y i ,WU Wenchuan ,ZHANG Bomin g .Time -var y in g transformer outa g e model for o p erational risk assessment :Part one condition based failure rate estimation method for

transformer internal latent fault estimation [J ].Automation of

Electric Power S y stems ,2010,34(15):9-13.

[2]郭创新.采用分层多源信息融合的电网故障诊断方法[J ].

高电压技术,2010,36(12):2976-2983.

GUO Chuan g xin.Hierarchical fault dia g nosis for p ower g rid

with information fusion usin g multi data resources [J ].Hi g h

Volta g e En g ineerin g ,2010,36(12):2976-2983.

[3]张金江,

郭创新,曹一家,等.变电站设备状态监测系统及其IEC 模型协调[J ].电力系统自动化,2009,33(20):67-72.

ZHANG Jin j ian g ,GUO

Chuan g xin ,CAO

Yi j ia ,et

al.

Substation e q ui p ment condition monitorin g s y stem and IEC

model coordination [J ].Automation of Electric Power S y stems ,

2009,33(20):67-72.

[4]王慧芳,

杨荷娟,何奔腾,等.输变电设备状态故障率模型改进分析[J ].电力系统自动化,2011,35(16):27-31.

41严英杰,等 基于时间序列分析的输变电设备状态大数据清洗方法

WANG Huifan g,YANG He j uan,HE Benten g,et al.Im p rovement of state failure rate model for p ower transmission and transformin g e q ui p ment[J].Automation of Electric Power S y stems,2011,35(16):27-31.

[5]王德文,邸剑,张长明.变电站状态监测IED的IEC61850信息建模与实现[J].电力系统自动化,2012,36(3):81-86.WANG Dewen,DI Jian,ZHANG Chan g min g.Information modellin g and im p lementation for status monitorin g IED in substation based on IEC61850[J].Automation of Electric Power S y stems,2012,36(3):81-86.

[6]张海波,易文飞.基于异步迭代模式的电力系统分布式状态估计方法[J].电力系统自动化,2014,38(9):125-131.ZHANG Haibo,YI Wenfei.Distributed state estimation method for p ower s y stems based on as y nchronous iteration mode[J].Automation of Electric Power S y stems,2014,38(9):125-131.[7]张斌,张东来.电力系统稳态数据参数化压缩算法[J].中国电机工程学报,2011,31(1):72-79.

ZHANG Bin,ZHANG Don g lai.Parametric com p ression al g orithm for p ower s y stem stead y data[J].Proceedin g s of the CSEE,2011,31(1):72-79.

[8]宋亚齐,周国亮,朱永利.智能电网大数据处理技术现状与挑战[J].电网技术,2013,37(4):927-935.

SONG Ya q i,ZHOU Guolian g,ZHU Yon g li.Present status and challen g es of bi g data p rocessin g in smart g rid[J].Power S y stem Technolo gy,2013,37(4):927-935.

[9]CHEN Ji y i,LI Wen y uan,LAU A,et al.Automated load curve data cleansin g in p ower s y stems[J].IEEE Trans on Smart Grid,2010,1(2):213-221.

[10]BRIGHENTI C,SANZ-BOBI M A.Auto-re g ressive p rocesses ex p lained b y self-or g anized ma p s:a pp lication to the detection

of abnormal behavior in industrial p rocesses[J].IEEE Trans on

Neural Networks,2011,22(12):2078-2090.

[11]MESSINA A R,VITTAL V.A structural time series

a pp roach to modelin g d y namic trends in p ower s y stem data

[C]//Proceedin g s of2012IEEE Power and Ener gy Societ y

General Meetin g,Jul y22-26,2012,San Die g o,USA:8p.[12]叶鸥,张璟,李军怀.中文数据清洗研究综述[J].计算机工程与

应用,2012,48(14):121-129.

YE Ou,ZHANG Jin g,LI Junhuai.Surve y of Chinese data

cleanin g[J].Com p uter En g ineerin g and A pp lications,2012,48(14):121-129.

[13]魏武雄.时间序列分析:单变量和多变量方法[M].北京:中国人民大学出版社,2009.

[14]吴立增,朱永利,苑津莎.基于贝叶斯网络分类器的变压器综合故障诊断方法[J].电工技术学报,2005,20(4):45-51.

WU Lizen g,ZHU Yon g li,YUAN Jinsha.Novel method for

transformer faults inte g rated dia g nosis based on Ba y esian

network classifier[J].Transactions of China Electrotechnical

Societ y,2005,20(4):45-51.

[15]YANG Xiaowei,ZHANG Guan gq uan,LU Jie,et al.A kernel fuzz y c-means clusterin g-based fuzz y su pp ort vector machine

al g orithm for classification p roblems with outliers or noises[J].IEEE Trans on Fuzz y S y stems,2011,19(1):105-115.[16]BATUWITA R,PALADE V.FSVM-CIL:fuzz y su pp ort vector machines for class imbalanced learnin g[J].IEEE Trans

on Fuzz y S y stems,2010,18(3):558-571.

[17]BRANDT P T,WILLIAMS J T.Multivariate time series model[M].USA:SAGE Publications Inc.,2006.

[18]王振龙.应用时间序列分析[M].北京:中国统计出版社,2010.[19]IEEE Standard C57104 2008IEEE g uide for the inter p retation of g ases g enerated in oil-immersed transformers

[S].2009.

[20]国家电网公司运维检修部.变压器类设备典型故障案例汇编[M].北京:中国电力出版社,2012.

严英杰(1988 ),男,通信作者,博士,主要研究方向:输变电设备状态评估.E-mail:y an y in gj ie@s j tu.edu.cn

盛戈皞(1974 ),男,教授,主要研究方向:输变电设备智能化技术.E-mail:shen g he@s j tu.edu.cn

陈玉峰(1970 ),男,高级工程师,主要研究方向:输变电设备管理及状态检修.

(编辑 万志超)

Cleanin g Method for Bi g Data of Power Transmission and Transformation E q ui p ment

State Based on Time Se q uence Anal y sis

YAN Yin gj ie1,S H ENG Gehao1,C H EN Yu f en g2,J IANG Xiuchen1,GUO Zhihon g2,QI N Shao p en g3(1.School of Electronic Information and Electrical En g ineerin g,Shan g hai Jiao Ton g Universit y,Shan g hai200240,China;

2.Electric Power Research Institute of State Grid Shandon g Electric Power Com p an y,Jinan250002,China;

3.Guan g an Power Su pp l y Com p an y of State Grid Sichuan Electric Power Com p an y,Guan g an638500,China)Abstract:Data cleanin g is a ke y ste p in data p re p rocessin g for state assessment of p ower e q ui p ment to hel p im p rove data q ualit y and utilization.As the device status information can be made e q uivalent to the multivariate time se q uence of each state,an iterative data cleanin g method based on time se q uence anal y sis is p ro p osed.First,the abnormal data in time se q uence is classified with the missin g values treated as one of the t yp es of the anomalies.Then the im p act of different t yp es of anomalies on the se q uential model is q uantified and several im p lementation ste p s of the iterative method are described.Finall y,the a pp roach is tested on the on-line monitorin g data of a p ower e q ui p ment of the China Southern p ower g rid.The results show that this method is ca p able of not onl y effectivel y identif y in g the abnormal data,but also re p airin g the noise p oints and missin g values in meetin g the data cleanin g re q uirement.

This work is su pp orted b y National Natural Science Foundation of China(No.51477100),National Hi g h Technolo gy Research and Develo p ment Pro g ram of China(863Pro g ram)(No.SS2012AA050803)and State Grid Cor p oration of China. Ke y words:bi g data;data cleanin g;time se q uence;state data of p ower e q ui p ment

441

2015,39(7)?研制与开发?

基于时间序列分析的输变电设备状态大数据清洗方法

作者:严英杰, 盛戈皞, 陈玉峰, 江秀臣, 郭志红, 秦少鹏, YANYingjie, SHENGGehao,CHENYufeng, JIANGXiuchen, GUOZhihong, QIN Shaopeng

作者单位:严英杰,盛戈皞,江秀臣,YANYingjie,SHENGGehao,JIANGXiuchen(上海交通大学电子信息与电气工程学院,上海市,200240), 陈玉峰,郭志红,CHENYufeng,GUOZhihong(国网山东省电力公

司电力科学研究院,山东省济南市,250002), 秦少鹏,QIN Shaopeng(国网四川省电力公司广

安供电公司,四川省广安市,638500)

刊名:

电力系统自动化

英文刊名:Automation of Electric Power Systems

年,卷(期):2015(7)

引用本文格式:严英杰.盛戈皞.陈玉峰.江秀臣.郭志红.秦少鹏.YANYingjie.SHENGGehao.CHENYufeng. JIANGXiuchen.GUOZhihong.QIN Shaopeng基于时间序列分析的输变电设备状态大数据清洗方法[期刊论文]-电力系统自动化 2015(7)

相关文档