文档库 最新最全的文档下载
当前位置:文档库 › 关联数据及其应用现状综述_沈志宏

关联数据及其应用现状综述_沈志宏

关联数据及其应用现状综述_沈志宏
关联数据及其应用现状综述_沈志宏

数字图书馆

X I ANDA I TUSHU Q I NGBAO JIS HU 1

关联数据及其应用现状综述

沈志宏

1,2,3

张晓林

1

1(中国科学院国家科学图书馆 北京100190)2(中国科学院计算机网络信息中心 北京100190)3

(中国科学院研究生院 北京100049)

摘要 自主、异类、异构和分布的海量数据间的语义关联一直是知识组织和知识发现的核心问题,关联数据(L i nked D ata)技术的出现为此提供一种轻型、渐增化、可伸缩和可扩展的动态机制。基于对大量文献的梳理和分析,描述L i nked D ata 的原则与技术体系,介绍L inked D ata 发布、L i nk 浏览器、L inked D ata 搜索引擎、L i nk 更新维护等核心技术,简要介绍若干典型应用,提出在具体领域实施L i nked D ata 应用的关键挑战。 关键词 关联数据 关联开放数据 语义网 数据网络 分类号 TP393

L i nked Data and Its Applicati ons :An Overvie w

Shen Zhi hong

1,2,3

Zhang X iaoli n

1

1

(N ati onal Science L i br ary ,Ch i nese A cade m y of Sciences ,Beiji ng 100190,Chi na)

2

(Co mputer N et wor k I nfor mat i on Center ,Chinese A cade m y o f Sciences ,Beiji ng 100190,Chi na)

3

(G raduate U ni versity of Ch i nese A cade m y of Sci ences ,Beiji ng 100049,Chi na)

Abst ract Se mantic li nking of mult i genre ,mult i typed ,a utono mous ,a nd d i stri buted data is a l w ays i n the center o f kno w ledge orga n ization a nd disc over y ,and the concept of li nked data prov i des a li ght-we i ght ,incre menta,l scalable a nd extensi ble mec ha n is m.Base d on syste man i c rev i e w of the fiel d ,the paper descri bes the four rules and the basic techn ical fra m e wor k of li nked data ,presents the key tec hniques enabling linked data publishing ,link i ng parsi ng and bro wsi ng ,li nked data searc h engines ,li nk update andm ai nte nace .A fe w typical applications are given and key challe nges in apply i ng li nke d data i n a practical do m ai n are also explored .

K eywor ds L i nked data L inki ng open data Se manticW eb W eb of data

收稿日期:2010-10-19

收修改稿日期:2010-11-12

1 问题的提出

互联网日益丰富的海量信息资源具有异类(即具有不同内容类型和体裁,例如小说、戏剧、论文、专著、数据记录、Tw itter 消息、财务报表、博客文章等)、异构(即具有不同的数据格式及相应的语义规则)和分布的特点,在这样的环境下,如何根据信息内容中的知识对象、知识关系连接和集成相互关联的内容,从而支持基于网络的知识组织和知识发现,一直是互联网信息服务希望解决的问题,也是互联网信息革命需要跨越的核心门槛之一。 对此,人们从多个角度进行了努力。除了元搜索技术

[1]

、集成数据平台

[2-4]

外,W ebServ i ce 技术

[5]

为网络信

2 现代图书情报技术

息环境的集成提供基础,语义网(Se m ant icW e b)[6]

技术试图基于知识本体系统地揭示知识对象和知识关

系,而M ashup 技术

[7]

则试图利用基于开放接口的多种

信息服务的融汇来提供更加便捷的解决方案。但是,它们要么依赖复杂的集中系统,要么缺乏语义的细粒度描述和解析,都不能很好地适应海量、自主、异类、异构、分布和动态变化的网络知识环境。

2006年,T m i Ber ners-Lee 提出 L i nked Data 的概念

[8]

,其原理是用一种轻型的、可利用分布数据集及其

自主内容格式、基于标准的知识表示与检索协议、可逐步扩展的机制来实现可动态关联的知识对象网络,并支持在此基础上的知识组织和知识发现。2007年,Chris B izer 与R ichard Cygania k 向W 3C S WEO (Se m a ntic W eb Educ ation a nd O utreach)提交关联开放数据

[9]

(L i nki ng Open D ata ,L OD )的项目申请, L inke d Data 自此很快流传开来,现已成为互联网的热门研究领域。从2008年起,历届互联网年度大会(WWW Conference)都举办了关于L i nked Data On the W e b(L DOW )的专门会议。此外,在IS WC (I nternati ona l Se m ant i c W e b Conference)、DIS T (Data I ntegrati on thro ugh Se m a ntic Tec hno l ogy)大会上也经常会有相关的专门会议,如2010年11月,I S WC2010大会在上海召开,其中就有一个Consu m i ng L i nke d Data (COLD)专门会议,讨论如何消费L i nked D ata 。

国内在L inked Data 方面也在进行着一系列的跟踪与研究,上海图书馆数字图书馆研究所结合语义网、数字图书馆背景,对L i nked Data 的理念展开深入研究

和探讨[10,11]

。中国科学院国家科学图书馆设有项目

组,研究利用LOD 实现数字图书馆中数字资源与知识内容关联揭示的技术方法,并针对L inked D ata 在图书馆中的应用及W eb 应用现状进行研究

[12,13]

。中国科

学技术信息研究所的研究团队,以国家社会科学基金项目为契机,开展基于关联数据技术(L i nked D ata)对信息组织深度序化的研究

[14]

。2010年8月23日,上

海市普陀区图书馆举行了 2010图书馆前沿技术论坛:关联数据与书目数据的未来 专题会议。

2 L inki n g Open Data 项目

L i nking O pe n Data 项目是开放数据运动(O pe n D ata M ove m e nt)

[15]

在L i nked D ata 上的延续,它旨在将W e b

上的开放数据源如W i kipe d i a 、G eo Na mes 、M usic Brai nz 、W or dN et 、DBLP B ibliogra phy 等以RDF 的方式发布出来,同时生成数据源之间的RDF 链接,以供L i nked D ata 浏览器、搜索引擎以及更高级的应用程序使用。

L i nke d Data 数据源包含三层要素:数据内容、描述数据内容的元数据格式、基于相应元数据格式转换为RDF 格式发布的数据内容(或数据内容的描述信息集)。目前人们讨论的L i nked Data 数据源往往指关联开放数据源(L inki ng O pe n Data Collect i ons),其特点除上述三层要素外,还支持开放获取。LOD 项目启动后短短的三年中,越来越多的数据拥有者将他们的数据以L inked D ata 的形式发布到Web 上,截至2010年9月,LOD 已收录203个数据集,250亿条RDF 三元组,以及3.95亿条RDF 链接。

图1 LOD 数据云图

[9]

图1展示了LOD社区发布的最新的LOD数据云图,其中收录了很多知名的数据集,如DBpedi a、DBLP B i bliography、G eo N a m es、R evyu、R iese、UM BEL、Sensorpe

di a、FOAF、DOAP、O penPSI、M usic Brai nz等,这些数据集涉及地理、生命科学、医药、出版、媒体、社会网络等领域。表1列出了一些常见的LOD数据集。

表1 LOD数据集列表

数据集名称数据内容元数据格式网址

B io2RDF27个生物、基因与医疗数据集B i oPAX

ChEB I On t ology

Ense m b lOntology

KEGG On tol ogy

Un i Prot

htt p://b i o2rd.f w i k.i s ourcef https://www.wendangku.net/doc/ad13962887.html,/

DBLP Berli n 计算机科学论文与作者编目,包含80万

篇文章,40万作者

Dub lin Core

FOAF Vocabu l ary

htt p://www4.w i w is s.f u-b erli n.d e/db l p/

DB ped i a Link ed Dat a化的W i k iped i a htt p://dbped i https://www.wendangku.net/doc/ad13962887.html,/

DrugB ank 5000个美国FDA批准的小分子和生物

技术药物

DrugBank Vocabu lary

htt p://www4.w i w i ss.f u-berli n.d e/drug

bank/

FOAF人群(Fri end O fA F ri end)FOAF Vocabu l ary htt p://www.foaf-pro j https://www.wendangku.net/doc/ad13962887.html,/ GeoNa m es地名(8亿条)Geo N a m es Ontol ogy htt p://www.geona m https://www.wendangku.net/doc/ad13962887.html,/

L i nked M DB电影htt p://www.li https://www.wendangku.net/doc/ad13962887.html,/

M usicBra i nz艺术家相册FOAF Vocabu l ary htt p://https://www.wendangku.net/doc/ad13962887.html,/mu sicbrai n z/ OpenC yc Link ed Dat a化的OpenC yc Open Cyc On t ology htt p://s w.open https://www.wendangku.net/doc/ad13962887.html,/

RDF Book M ashup 图书编目数据,来源于Am az on、Google、

Y ahoo

Dub lin Core

GoodR el ations Ontol ogy

htt p://www4.w i w iss.f u-berli n.de/bizer/

book m as hup/

U M BEL2万个主题概念,来源于W i k iped i a UM BEL On t o l ogy htt p://www.um be.l org/

YAGO200万条人员、组织、城市等实体YAGO Ontology htt p://www.mp i-i n.f m pg.de/yago-na ga/yago/

实际上,L inked D ata并不仅仅适用于开放数据(O pen Data)。除LOD之外,由Zepheira T ea m主导的连接企业数据(L ink i ng Enter prise D ata,LED)[16]则重点关注企业的数据。与开放数据相比,企业数据更关注一些额外的限制条件,如法律法规遵从情况以及企业优势等。

3 L inked Data原则与技术体系

不同于Docu m ent W eb,L i nked D ata将互联网上任一信息内容或其子内容看成是一个可采用标准方法规范描述和调用的知识对象,通过创建和发布关于各类知识对象及其与各类其他知识对象之间关系的规范化描述信息,通过建立基于知识内容的检索以及基于知识关系的分析关联机制,L i nked D ata便可支持在特定信息环境下对不同知识对象的关联发现。

L inked D ata制订了关于内容对象的描述原则:

(1)使用UR I来标识事物(U se UR Is as na mes for th i ngs);

(2)使用HTTP UR I使人们可以访问到这些标识(U se HTTP UR Is so that people ca n look up those

na m es);

(3)当有人访问到标识时,提供有用的信息(Whe n so m eone looks up a na m e,pr ovi de useful i nfor m at i on); (4)尽可能提供关联的UR I,以使人们可以发现更多的事物(Include li nks to other UR Is so that they can discoverm ore thi ngs)。

前两条原则分别建立规范化命名机制和调用内容对象的机制,第三条原则要求用结构化、规范化方式来描述内容对象,第四条原则要求建立内容对象与其他内容对象的关联,以支持从内容对象出发对相关内容对象的关联检索。这些原则并没有对内容对象的内部组织机制、系统调用接口、关联解析机制等提出具体要求,因此人们可以使用多种方式来实现关联检索,这使得L i nked Data成为一种普适的、轻量的、低成本的数据关联机制。

这组原则及其实现要求奠定了L inked D ata的整体技术体系。本文认为,这个体系包括4个部分,如图2所示。

(1) L i nked Data数据内容组织 可以是任意数据组织形式下的具体数据内容,但要求能用UR I予以标

X I ANDA I TUSHU Q I NGBAO JIS HU 3

4 现代图书情报技术

图2 L i nked D ata 技术体系

识、能通过HTTP 调用,例如http ://qi nghail ake .csdb .cn /res/ri ver/buha 。这个UR I 可用来指代青海湖基础数据集中的布哈河,但由于这个HTTP UR I 本身只是一个抽象的概念,L i nke d D ata 发布时常常需要采用内容协商

[17]

实现从这个UR I 到实际数据记录的映射,以

返回实际的内容(HTM L 网页、图像、用RDF /X M L 表示的文本数据等)。

(2) L i nked Data 创建与发布 是实现L i nked Data 的关键环节,需满足以下三个要求:

用规范形式(通常是RD F)来描述内容对象的内部结构及其内含内容的语义(例如一本专著的标题、作者、出版社、主题、章节题名、内含图表、内含数据集、内含软件等),这个描述的深度取决于内容对象本身的内容深度和所依据元数据格式(M etadata F or m ats)的丰富程度,描述的结果是基于元数据格式转换的RDF 记录。

在上述描述信息里建立这个内容对象与其他内容对象的关联描述(Incl udes L i nks to O t her UR Is),与其他内容对象的不同的关联关系则需要根据不同的关联种类来分析和确定,这属于整个L i nked D ata 体系中最富有挑战性的工作。只有建立了这种关联描述,所创建和发布的才是L inked D ata 。 以某种系统机制存储所建立的RDF 描述信息,并支持以公共方法进行检索和解析。

(3) L i nked Data 浏览与检索 要求能用标准方法检索和解析RDF 信息(通常采用SPARQL ),并能挖掘和利用RDF 描述中丰富的结构与关系信息来支持对其他内容对象的基于知识点和知识关系的检索,及在此基础上对复杂关联的多个内容对象的结构与关系表达。人们往往通过支持L i nked D ata 的浏览器来实现检索与关联。在结构与关系比较复杂的情况下(例如UM LS R elations N et work 所支持的复杂关系),这种检索与关联会面临许多挑战。

(4) L i nked Data 互联与维护 是采用自动或半自动的方法,创建不同数据集数据之间的关联,并在源内

容对象和目标内容对象发生变化时保持关联信息的准确及时。在数据量很大的情况下,自动的关联发现算法很有必要,这一般可通过配置化的规则来生成。一旦某些数据发生变化,其他的数据集有必要及时增加、删除或者修改与之的链接。这通常需要自动的同步机制与同步语言来实现,在满足多个数据源间消息及时传递的同时,还要保证消息的通信不会造成太大的性

能上的降低。

4 L inked Data 创建与发布

在L i nked D ata 出现之前,人们已经通过各种途径积累了大量的数据资源,如何快速地将现有的数据资源以L i nked Data 的形式发布,成为急需解决的问题。 选择发布L i nked D ata 的技术方案需要考虑三个问题

[17]

:待发布的数据量的大小(H o w m uch data do

you w ant to ser ve ?)、数据的更新频率(H o w often does your data change ?)、以及数据的存储方式(H o w i s your data currently store d ?)。如果数据量很小(几百条RDF 三元组或者更少),可以采用静态的RDF 文件(静态发布)。如果数据量很大,则需要将它们放进RDF 库中,并选择Pubby

[18]

等服务器作为L i nked D ata 服务的前

端。如果数据的更新频率很大,就需要引入更新机制,或在请求数据时再根据原始数据在线生成(O n-the-fl y T ranslation)RDF 。

对于那些以数据库方式存储的数据内容,可以使用类似于D2RQ 平台

[19]

这样的转换工具(类似的工具

还有V irtuosoU niversa l Server [20]

、T ri plify [21]

等)来发布。很多数据集(如D r ugBank 、L i nked MDB 、M usic Brainz 等)都采用了D2RQ 作为发布平台。D2RQ 平台由D2R 引擎、D 2R 服务器以及D 2RQ 映射语言组成,如图3所示。

D2R 引擎将用户输入的SPARQL 转换成SQL 提交给关系型数据库管理系统,并将SQL 查询结果封装成RDF 三元组。D2R 服务器基于D2R 引擎之上提供了W eb 化界面(包括HTML 、RDF 和SP ARQL 界面),通过界面,浏览器用户可以查看数据网页,L i nked Data 客户程序可以获取RDF 数据,SP ARQL 客户程序则可以通过SPARQL 查询获取结果。D 2RQ 映射语言

[22]

持从关系型数据库到RDF 数据转换规则的编写,通过该语言,用户可以定义如何将关系型数据库中的表、

图3 D2RQ平台体系结构[19]

列、行、列值、外键值映射成RDF数据中的类、属性、资源、文本、RDF链接。手动编写映射文件比较麻烦,因此D2RQ提供了G enerate-M appi ng脚本支持映射文件的自动生成,用户可以在生成的映射文件(n3格式)的基础上再进行修改。

如果数据内容可以通过程序化的API或者Web化的服务接口(如OA I-P MH协议)得到,就需要开发一些包装器完成服务到L inke d D ata接口的转换,如: OA I2LOD Ser ver[23]。对于其他一些通用格式,如:M i crosoft Excel、CS V或者Bib T e X,也有一些RDF izer可供选择,如:JPEG2RDF[24]、M ARC/M ODS2RDF[25]、Em ail2RDF[26]等。有时候,还需要构造更为复杂的发布框架,以RDF Book M ashup[27]为例,它通过远程调用Amazon A PI和Google Base AP I获取图书信息,并包装成L i nked Data格式。RDF BookM ashup的技术架构如图4所示:

图4 BookM ashup数据发布框架[27]

除以上类型的数据和服务外,还有人在研究如何发布原始数据文件。如文献[28]提出T ri pFS,研究如何将文件系统以L inked Data接口暴露出来。文献[29]介绍I M(Interli nking M u ltm i edia),它将多媒体项的片段发布成L i nked D ata。文献[30]则研究如何将实时的流数据发布出来。

在L i nked Data创建与发布的过程中,还存在一些挑战,如:词表的定义和选择、复杂数据(如化学结构式)的结构化(RDF化),以及数据集内数据关联的自动生成等。

5 L inked Data浏览与检索

当人们纷纷将数据集发布成L inked D ata之后,就需要合适的浏览器来浏览这些数据,并通过各数据之间的RDF链接指引用户在不同的数据源之间导航。常见的L i nked Data浏览器如表2所示:

表2 L i nked D ata浏览器列表

浏览器开发者网址

T a bul a t or RDF Bro wser T i m Berners-L ee等

h t tp://www.w3.o r g/2005/

ajar/t ab/

D i sco H yperdat a

Bro w ser

F re i e U ni vers i t y Be rli n

h t tp://sit es.w i w i ss.f u-ber

li n.de/suh l/b i ze r/ng4j/di sco/ OpenL i nk D ataW eb

Bro w ser

OpenL i nk

h t tp://de m o.openli nksw.co m/

DAV/JS/rdf bro wser/i ndex.ht

m l/

Ob j ectvie wer Se m anti c WebCent ra l

h t tp://obj ec t v i e wer.se m we b

ce n t ra.l org/

M a r b l es

h t tp://m arbl es.sourceforge.

ne t/

与传统意义上的浏览器不同,L i nke d D ata浏览器大多数运行在服务器端,为用户提供基于W eb浏览器的浏览界面,只有少数才提供客户端浏览器插件。此外,还有一些RDF浏览器,如:Longwell、M Space、Facet、Bro wse RDF、RDFG ravity以及Isa V iz。但是由于它们不能实现跨数据源的语义网浏览,所以还不能称之为L inked D ata浏览器。

除浏览器外,人们也可以借助搜索引擎技术来检索所需要的数据。常见的L i nke d Data搜索引擎如表3所示:

表3 L i nked D ata搜索引擎列表

搜索引擎开发者收录RDF文档数网址

F alco ns I W S Chi na700万

http://i w https://www.wendangku.net/doc/ad13962887.html,/

se r v ices/falc ons/

Si nd i ce DER I Irel and大于2000万http://www.si ndi ce.co m/

W atson KM,i UK

http://watson.k m.i open.

https://www.wendangku.net/doc/ad13962887.html,/W atson WU I/

Se m anticW eb

Sea rc h Eng i ne

(S WSE)

DER I Irel and https://www.wendangku.net/doc/ad13962887.html,/

S woog le UMBC U SA230万http://swoo g le.u m bc.e du/ L i nked D ata浏览与检索技术往往可以结合起来,从而给用户提供更加智能的数据浏览服务。M arbles 是几款L inked Data浏览器中比较有特色的一款。M ar b l es采用了Fresnel[31]与样式单,通过对RDF内容的选择、排序及格式化,从而为机器可读(M achi ne-R eada

X I ANDA I TUSHU Q I NGBAO JIS HU 5

6 现代图书情报技术

ble)的RDF 数据产生比较友好的人读(Human-R ead able)界面,而在这方面,其他浏览器生成浏览界面往往都比较单调。M arbles 浏览器会同时加载来自于多个数据源的数据,并集成在一个页面中显示。在加载指定UR I 的RDF 资源数据的同时,M arbles 会从Si ndice 与Falcons 中加载关于该资源的关联信息,并从Revyu 加载关于该数据的评论,并最终在同一个界面中展示给用户。图5是在M ar bles 中浏览T m i Ber ners -Lee 信息的情形,其中不同颜色的彩球代表来源于不同的数据源。

图5 在M arbles 浏览器中查看T m i

Ber ners-Lee 的信息

在实现L i nked Data 浏览与检索过程中,还有其他一些细节问题需要解决,如RDF 数据的可视化、浏览轨迹的跟踪、海量索引数据的存储与快速检索、数据访问统计与用法评价、检索结果的排名等。

6 L inked Data 互联与维护

L inked D ata 鼓励人们在发布RDF 数据的同时,发布数据之间的RDF 链接,以帮助人们发现更多的知识。L i nked D ata 的互联技术研究已成为近年来的研究热点。在LDOW2010(WWW 2010W orkshop on L i nked Data O n theW eb)中,数据互联是会议的一大专题,其他专题包括L inke d D ata 发布、基础设施与架构、L inked Da ta 应用等。另外,在COLD2010(I nternat i onal W or kshop on Consum i ng L inke d D ata)发布的几大研究热点中,居于首位的就是L inke d D ata 的互联算法,其次是溯源与信任、数据集动态、用户界面、分布式查询、评估。 以M P3音乐数据为例,可以通过某首音乐的作曲

者姓名,生成指向M usi cBrai nz 中关于该作曲者的描述记录的链接,如果再做更深的关联计算,甚至可以根据该音乐的标题,生成指向DBpedia /YAGO 中引用到该音乐的电影的链接。比较实际的例子如L i nke d MDB

[32]

,它实现了与其他LOD 数据集如DBpedia/YA

GO 、Geo N a m es 、F lickr W rapper 、RDF Book M ashup 、M u si cBrai nz 、Revyu .co m 的互联。L i nked M DB 包含实体233103项,指向其他LOD 数据的关联数为162199项,这种关联如图6所示:

图6 L i nkedMDB 与其他LOD 数据集之间的关联

[32]

有一部分研究关注于如何通过一些自动和半自动的方法来发现数据之间的关联,R am i ond 等结合音乐数据集

[33]

,介绍了自动关联的几种途径:基于实体的

文本映射(简单文本查找、扩展文本查找)及基于图相似度的映射。基于规则的互联框架Sil k

[34]

则允许用户

制定Sil k-LSL (Sil k L ink Specifi cat i on Language)规则文件,S ilk 框架通过这些规则自动生成不同数据集之间的实例级的链接。Silk 不仅能够生成数据之间的o w :l sa m e A s 关联,也可以生成其他类型的关联,如:DB pedia 电影与L i nke d M DB 导演之间的dbpedia :director 关联。S ilk 主要通过给定的两个数据集中数据的属性相似度来计算它们之间的关联关系。Sil k-LSL 支持的相似度算法包括Jaro 距离、Jaro -W i nkler 、Leve nsh tei n 、Q -gra m s 文本相似性计算、文本等价性、数值距离、日期距离等算法。

X I ANDA I TUSHU Q I NGBAO JIS HU 7

如果数据集实现了互联,一旦某个数据集的内容发生更改,就需要适当的机制及时通知关联的变更。H asl hofer 等提出DSNot ify

[35]

,用来检测和修复LOD 数

据集之间的断链。PTS W (P i ng T he Se m ant i c W e b)

[36]

提供了针对RDF 数据的在线归档服务,为网络爬虫及其他的软件提供最近更新的RDF 数据。一旦某个数据源的RDF 数据发生更改,它就会通过P T S W 的服务接口来通知该内容的更改,从而保证归档RDF 数据的一致性。另外,WOD -L M P 协议(W e b O f D ata L ink M ai ntenance Protoco l)

[37]

针对数据网络中的链接同步

问题,定义了发送链接至目标、获取目标变化列表(Change L ist )、将变化发布给目标三种用例,并详细定义不同消息的具体格式。

在L i nked Data 互联与维护过程中,还有一些其他细节问题需要解决,如RDF 数据的溯源、基于第三方数据集(背景数据集)的互联、数据集关联度的计量、RDF L i nk 的断链检测问题等。

7 L inked Data 应用

与前面介绍的L i nked Data 通用技术相比,L i nked Data 应用专指在不同领域和场景中消费和操作L i nked Data 的应用。关于 L inked Data 应用 这一术语概念,DER I(D i g ital Enter prise R esearch I nstitute)L i nked Data 研究中心(L i nked Data R esearch Centre ,L i DRC )在 L inked D ata 应用-L i nked D ata 使用的起源与挑战 技术报告中给出了两种不同的解释:

(1)指L inked D ata 在不同领域(包括生物学、统计学、软件工程、多媒体等)中的应用。

(2)指基于L inked Data 之上构建W eb 应用,这类W e b 应用被称为 由L i nked D ata 驱动的W eb 应用(L inked D ata-driven W e b A ppli cat i ons) ,主要关注如何在W eb 上消费和操作L i nked D ata 。 本文将综合采用这两种含义。

L inked D ata 已经开始应用到数据融合、语义标注、集成式问答系统、事件管理等多个场合。DBpedia M o bile

[38]

是一款用在移动环境中的L i nked D ata 应用。

DBpedia 实现了W i k i pedia 的L i nked D ata 化,描述了其中218万多个实体,其中包含了近300000条的地理位置。DBpediaM obile 充分利用这些位置数据,通过GPS 信号,结合DBpedi a 与其他LOD 数据集(如:

Geo N a m es 、U S Census 、CI A F act book 与Eur oStat)的关联,自动发现当前位置附近的相关内容,并通过L i nke d Data 浏览器提供地图化的界面,如图7所示:

图7 DBpediaM obile 地图化界面

[38]

与此类似,D ata .gov 提供了一种基于L inked Data 的服务,实现针对英国领土内地理实体的导航和获取

[39]

。Zhao 等基于LOD 数据集R ichar d Cyganiak 设计

了专家发现系统(Expert Search and P rofiling Sys te m s)

[40]

,结果表明,较之传统的、封闭的、非结构化的

数据应用,基于LOD 的系统能够实现数据与假说之间的解耦,而不受平台的限制。Latif 等利用Journal of U n i versal Co mputer Science (J UCS)和DBpedi a ,实现从开放数字杂志中来发现和构建作者的简介信息

[41]

,并提

供了CAF-SI AL 用户界面程序。通过CAF -SI AL ,用户可以获取到某一作者的介绍、照片、个人信息、职业信息、学术信息、发表作品等综合性视图,如图8所示:

图8 在CAF -SI AL 中查看作者的简介信息

[41]

可以看出,随着L i nked D ata 理念的传播,L i nke d Data 已经深入到人们生活中的各个领域,不同来源的数据也因此面临着更广阔的应用场景。

8 结 语

L inked Data的提出,有效地解决了自主、异类、异构和分布的海量数据的知识发现问题。L i nke d D ata提供了一套低成本的标准化数据访问机制,因其非集中式的特点,采用L i nked D ata机制可以有效地规避一些复杂的数据权益纷争问题,有利于数据的健康发展和信息的繁荣。另一方面,各种完全自治的 数据孤岛 通过L i nked Data连接起来,形成一个更为全面的浩瀚的知识库,为更智能的知识发现的实现提供条件,同时为上层数据应用(如数据集成检索、数据融合)提供丰富的数据源。

作为一种折中的语义化知识组织与发现机制, L inked D ata主要还是侧重于为不同的知识服务系统之间的互操作定义一套统一的访问接口和RDF数据模型,对上层的概念模型以及知识的表达能力尚存不足(这些工作主要还是留给了内容提供商)。如果要完成对内容的检索和浏览,常常需要采取透明的方式,如提交一个SPARQL查询或者借助于语义搜索引擎R o bots.txt和Site m ap.x m l规范来完成。L inked Data在用户身份认证、数据访问控制方面没有做更多的标准化工作(目前还没有标准的方法可推荐使用),因此数据访问过程中的统一认证和权限控制还必须由应用服务器来实现,这也大大限制了不同系统之间的互操作性。由于L i nked Data是分布式的,多个站点之间往往需要一套良好、高效的数据同步机制。除此之外,目前还缺乏一个高效的基于L i nked D ata的分布式查询和按需M ashup平台,这方面仍需要继续投入。

L i nked D ata目前还是一套标准化的、实用可行的机制。以中国科学院为例,中国科学院积累了丰富的数字资源,包括文献、数据、教育、科普资料等,存在自主、异类、异构和分布的特征,因此基于L i nked D ata来实现内容关联的知识发现在理论上具有可行性。然而,由于机制和数据内容的问题,这样的操作仍存在着巨大的挑战。在现有资源的L i nked Data化(即L i nked Data的发布)过程中,需要充分考虑因不同的服务方式(如:文献资源通过文献检索系统,科学数据资源采用数据库管理系统)、不同的分类体系、不同的数据内容、以及不同领域中采用不同的本体及词表所带来的复杂性。在L i nked D ata数据互联的过程中,由于同名异义、异名同义、同体异构等情况,数据分面复杂、类型多样,再加上数据资源的大数据量,给实体识别与自动互联算法的准确性、高效性提出了较高的要求。除此之外,由于科研活动一直是一个动态的过程,知识在整个科研活动中按照生命周期循环流动,L inked Data内容的组织与表达需要充分考虑数据及其关联的实时性,解决数据的一致性问题。严谨的科研过程同样注重数据的历史溯源,L i nked D ata的内容表达要充分考虑到数据的溯源信息,允许用户通过这些信息发现到更有价值的内容。这些问题的解决,对数字科研环境下的基于L i nked D ata机制的知识发现具有更为实际的意义。

参考文献:

[1]王芳,张晓林.元搜索技术:原理与应用[J].现代图书情报

技术,1998(6):18-21.

[2]Seri als Sol u ti on Summ on W eb-Scal e-D i scovery[EB/OL].

[2010-07-06].h tt p://www.seri alss ol u ti ons.co m/s umm on. [3]E x L i b ri s P ri m o C entral[EB/OL].[2010-02-14].htt p://

www.exli b ri sgroup.co m/category/Pri m oC entra.l

[4]NL M Gat e w ay Service[EB/OL].[2010-07-06].http://gate

w ay.nl m.n i https://www.wendangku.net/doc/ad13962887.html,.

[5]W eb Services Arch it ecture[EB/OL].[2010-02-11].htt p://

https://www.wendangku.net/doc/ad13962887.html,/TR/w s-arch/.

[6]Se m an tic W eb[EB/OL].[2010-09-23].http://www.w3.

org/standards/se m anti c w eb/.

[7]M as hup(W eb A pp licati on H ybri d)[EB/OL].[2010-09-23].

h tt p://en.w i k iped i https://www.wendangku.net/doc/ad13962887.html,/w i k i/M as hup-(w eb-app licati on-hy

bri d).

[8]Berners-Lee T.L i nked Data-Design Iss ues[EB/OL].[2009

-02-18].htt p://https://www.wendangku.net/doc/ad13962887.html,/Desi gnIs sues/L i nkedData.h t m.l

[9]Sw eoI G/TaskForces/C o mm un it yPro j ects/L i nk i ngOpenData[EB/

OL].[2010-07-06].h ttp://es https://www.wendangku.net/doc/ad13962887.html,/t op i c/Sw eoI G/Tas k Forces/C o mmun it yProj ects/L i nk i ngOpenData.

[10]刘炜.关联数据:意义及其实现[EB/OL].[2010-09-16].

h tt p://www.kevenl w.na m e/arch i ves/1435.

[11]刘炜.数据的万维网(TheW eb ofD ata)[EB/OL].[2010-09

-16].h tt p://www.keven l w.na m e/arch ives/1185.

[12]黄永文.关联数据在图书馆中的应用研究综述[J].现代图书

情报技术,2010(5):1-7.

[13]黄永文.关联数据驱动的W eb应用研究[J].图书馆杂志,

2010(7):55-59.

8

现代图书情报技术

[14]白海燕.基于关联数据的书目组织深度序化初探[C].见:2010

图书馆前沿技术论坛,上海.2010.

[15]Open Sci en ce Data[EB/OL].[2010-11-01].h ttp://en.

w i k i ped https://www.wendangku.net/doc/ad13962887.html,/w i k i/Open-Data.

[16]Li nk i ng Enterprise Data(LED)[EB/OL].[2010-11-01].

h tt p://z eph ei https://www.wendangku.net/doc/ad13962887.html,/co mmun it y/LED/.

[17]B i zer C,Cygan i ak R,H eath T.H o w to Pub lis h L i nked Dat a on the

W eb[EB/OL].[2008-07-17].http://www4.w i w i ss.f u-

berli n.de/b i zer/pub/L i nkedData Tu t orial/.

[18]Pubby-A L i nked Data Fron tend for SPARQL Endpoints[EB/

OL].[2008-07-17].http://www4.w i w i ss.fu-berli n.de/ pubby/.

[19]Th e D2RQ P l atfor m v0.7-Treati ng Non-RDF Relati onalData

bas es as V i rtual RDF Graphs[EB/OL].[2010-11-01].h t t p://www4.w i w iss.f u-b erli n.de/b i zer/d2rq/s p ec/.

[20]OpenL i nk Soft w are[EB/OL].[2010-09-11].h ttp://virtuo

so.open li nks https://www.wendangku.net/doc/ad13962887.html,.

[21]T ri p lif https://www.wendangku.net/doc/ad13962887.html,:Overv i e w[EB/OL].[2010-09-12].h tt p://tri p

lif https://www.wendangku.net/doc/ad13962887.html,/.

[22]D2R Q映射语言的Sche m a定义[EB/OL].[2010-09-12].

h tt p://www4.w i w iss.f u-b erlin.de/b iz er/d2rq/0.1/.

[23]H asl hofer B,S c hand lB.The O A I2L OD Server:Expos i ng OAI-P MH

M et adat a as L i nked Data[C].In:P rocee d i ngs of Interna ti onal W ork sho p on L i nked Da t a on t he W e b(LDOW2008),Beiji ng,Ch i na.2008.

[24]JPEG RDF i zer-SI M I LE[EB/OL].[2010-09-12].htt p://

s i m il e.m https://www.wendangku.net/doc/ad13962887.html,/w i k i/J PEG-RDF i zer.

[25]M ARC/MODS RDF i zer-S I M I LE[EB/OL].[2010-09-12].

h tt p://si m il e.m https://www.wendangku.net/doc/ad13962887.html,/w i k i/M ARC/MODS RDF i zer.

[26]Em ailRDFizer-SI M I LE[EB/OL].[2010-09-12].htt p://

s i m il e.m https://www.wendangku.net/doc/ad13962887.html,/w i k i/Em a il RDFizer.

[27]RDF Book M ashup-Servi ng RDF D escripti ons of You r Books

[EB/OL].[2010-08-15].http://www4.w i w iss.f u-berli n.

de/b izer/b ookm ashup/i ndex.ht m.l

[28]Schandl B,Pop itsch N.L ifti ng File Syste m s i nto t h e Li nk ed Data

C l oud w ith T ri pFS[C].I n:P rocee d ing s of L inke d Da t a on the W eb

(LDO W2010),Ra l ei gh,N ort h Carolina,USA.2010.

[29]H ausenb l asM,T ron cy R.In terlink i ng M u lti m ed ia-H o w to Apply

Li nk ed Dat a Pri nci p les toM u lti m edia Frag m en t s[C].I n:P rocee d

i ng s of In t erna tional W orkshop on L i nke d Da t a on t he W eb

(LDOW2009),M ad ri d,S pai n.2009.

[30]Barb i eriD F,V alle E D.A Proposal for Pub lis h i ng Data S trea m s as

L i nked Data[C].In:P roce ed i ngs o f In ternati ona l W orkshop on L i nke d Da t a on t he W eb(LDOW2010),Ralei gh,North Carolina.

2010.

[31]Fres nel-D is p l ay Vocabu l ary f or RDF[EB/OL].[2010-09-

12].h ttp://https://www.wendangku.net/doc/ad13962887.html,/2005/04/fresnel-i n f o.

[32]H assanzadeh O,C onsens M.L i nked M ov i e Data B ase[C].In:

Procee d ing s of LDO W2009,M adri d,Spai n.2009.

[33]Ra i m ond Y,Sutt on C,Sand l erM.Auto m atic In terli nk i ng ofM u sic

Datasets on the Se m an tic W eb[C].I n:P rocee d i ng s of LDOW 2008,B eiji ng,Ch i na.2008.

[34]Vo l z J,B i zer C,Gaedk eM,et a.l S il k-A L i nk D i scovery Fra m e

w ork f or t h eW eb ofD ata[C].I n:P rocee d ing s of LDOW2009,M a dri d,Spai n.2009.

[35]H as l hofer B,Pop itsch N.DSNotify-Detecti ng and F i x i ng Broken

L i nk s i n L i nked Dat a Sets[C].In:P rocee d i ng s of t h e20t h In te rna tional W orks h o p on Da t abase.2009.

[36]W eb ofD ata L i nk M ai n t en ance Protocol-M a i ntai n i ng L i nks Be

t w een Chang i ng L i nked Dat a Sources[EB/OL].[2010-08-

15].h ttp://www4.w i w i ss.fu-berli n.de/b izer/silk/w od l m p/. [37]Pi ng t h e S e m anti c W eb.co m-Share You r RDF Data w i th the

W orl d![EB/OL].[2010-08-15].h ttp://pingthese m an ti c w eb.co m/.

[38]Bec k er C,B izer C.DBped i a M ob il e:A Location E nab l ed L i nked

Data Brow ser[C].In:Procee d ing s of LDO W2008,Beijing,Ch i na.2008.

[39]Sheri dan J,Tenn i son J.L i nk i ng UK Govern m en t Data[C].In:

Procee d ing s of LDO W2010,Ral eigh,North C aro li na.2010. [40]Zhao J,K l yne G,Shotton D.Provenan ce and L i nked Dat a i n B i o

l og i calDataW ebs[C].In:P rocee d i ng s of LDO W2008,Beijing,

C h i na.2010.

[41]LatifA,A fz alM T,H elicD,et a.l D iscovery and Con struction of

Au t hors Profil e fro m L i nked Data(A C ase Study f or Open D i gital Jou rnal)[C].In:Procee d ing s of LDOW2010,R al ei gh,USA.

2010.

(作者E-m ai:l s hen z h i hong@m ai.l https://www.wendangku.net/doc/ad13962887.html,)

X I ANDA I TUSHU Q I NGBAO JIS HU 9

数据融合

多传感器数据融合技术及其应用 多传感器数据融合概念 数据融合又称作信息融合或多传感器数据融合,对数据融合还很难给出一个统一、全面的定义。随着数据融合和计算机应用技术的发展,根据国外研究成果,多传感器数据融合比较确切的定义可概括为充分利用不同时间与空间的多传感器数据资源,采用计算机技术对按时间序列获得的多传感器观测数据,在一定准则下进行分析、综合、支配和使用,获得对被测对象的一致性解释与描述,进而实现相应的决策和估计,使系统获得比它的各组成部分更充分的信息。 多传感器数据融合原理 多传感器数据融合技术的基本原理就像人脑综合处理信息一样,充分利用多个传感器资源,通过对多传感器及其观测信息的合理支配和使用,把多传感器在空间或时间上冗余或互补信息依据某种准则来进行组合,以获得被测对象的一致性解释或描述。具体地说,多传感器数据融合原理如下: 1)N个不同类型的传感器(有源或无源的)收集观测目标的数据; (2)对传感器的输出数据(离散的或连续的时间函数数据、输出矢量、成像数据或一个直接的属性说明)进行特征提取的变换,提取代表观测数据的特征矢量Yi; (3)对特征矢量Yi进行模式识别处理(如,聚类算法、自适应神经网络或其他能将特征矢量Yi变换成目标属性判决的统计模式识别法等)完成各传感器关于目标的说明; 4)将各传感器关于目标的说明数据按同一目标进行分组,即关联; (5)利用融合算法将每一目标各传感器数据进行合成,得到该目标的一致性解释与描述。 多传感器数据融合方法

多传感器数据融合的常用方法基本上可概括为随机和人工智能两大类,随机类方法有加权平均法、卡尔曼滤波法、多贝叶斯估计法、Dempster-Shafer(D-S)证据推理、产生式规则等;而人工智能类则有模糊逻辑理论、神经网络、粗集理论、专家系统等。可以预见,神经网络和人工智能等新概念、新技术在多传感器数据融合中将起到越来越重要的作用。 卡尔曼滤波法 卡尔曼滤波主要用于融合低层次实时动态多传感器冗余数据。该方法用测量模型的统计特性递推,决定统计意义下的最优融合和数据估计。如果系统具有线性动力学模型,且系统与传感器的误差符合高斯白噪声模型,则卡尔曼滤波将为融合数据提供唯一统计意义下的最优估计。卡尔曼滤波的递推特性使系统处理不需要大量的数据存储和计算。但是,采用单一的卡尔曼滤波器对多传感器组合系统进行数据统计时,存在很多严重的问题,例如:(1)在组合信息大量冗余的情况下,计算量将以滤波器维数的三次方剧增,实时性不能满足;(2)传感器子系统的增加使故障随之增加,在某一系统出现故障而没有来得及被检测出时,故障会污染整个系统,使可靠性降低。 多贝叶斯估计法 贝叶斯估计为数据融合提供了一种手段,是融合静态环境中多传感器高层信息的常用方法。它使传感器信息依据概率原则进行组合,测量不确定性以条件概率表示,当传感器组的观测坐标一致时,可以直接对传感器的数据进行融合,但大多数情况下,传感器测量数据要以间接方式采用贝叶斯估计进行数据融合。多贝叶斯估计将每一个传感器作为一个贝叶斯估计,将各个单独物体的关联概率分布合成一个联合的后验的概率分布函数,通过使用联合分布函数的似然函数为最小,提

关于关联规则挖掘综述

关联规则挖掘综述 潮娇娇 摘要:关联规则挖掘是数据挖掘中的一个很重要的研究内容之一,近年来很多国内外研究人员对其进行了大量的研究。为了更进一步的了解关联规则挖掘技术,并掌握其发展方向和目前的研究现状。本文对关联规则挖掘技术进行了相关综述。首先介绍了关联规则的基本概念,其次分析了近年来一些经典关联规则算法的改进,并概述了相关算法在实际中的应用。最后对关联规则挖掘技术未来的发展趋势进行了讨论。 关键字:关联规则;算法;数据挖掘; Abstract: association rule mining is one of the important data mining research contents in this year, many domestic and foreign researchers have done a lot of research on it. In order to understand further the association rule mining technology, and grasp the development status and direction of research at present. This article of association rule mining technology related review. Firstly introduces the basic concepts of association rules, then analyzes the improvement of some classical algorithm of association rules in recent years, and summarizes the application of related algorithms in practice. At the end of the association rule mining technology development trend in the future are discussed. Key words: association rules; algorithms; data mining; 引言 随着计算机技术与数据库技术的飞速地发展,数据资源越来越多。但巨大的数据,依然没有解决我们的信息需求问题,针对这种情况,产生了数据库的数据挖掘。与传统技术相比,数据挖掘技术是一种新型的信息处理技术,能够自动和智能地把位置数据或者大量数据中潜在信息转换成人们需要的信息和知识的技术。它可以从数据库提取有用的知识、规律以及更高层次的信息,对这些进行分析,帮助人们更有效的利用海量数据中存在的价值。目前对数据挖掘的发展趋势及研究方向主要集中在数据挖掘的数据总结、分类、聚类、关联规则等方面。而关联规则挖掘作为数据挖掘的核心内容之一,进来得到了很快的发展。并已经成为当今数据挖掘的热点。为此,对关联挖掘技术的研究具有重要的意义。本文将重点介绍关联规则挖掘技术的相关研究。主要对近年来关联规则挖掘技术的算法改进进行综述以及未来的发展方向。 1、关联规则基本概念 1.1 相关介绍 关联规则作为数据挖掘的核心研究内容之一,它是大量数据中发现信息之间可能存在的某种关联或者相关联系。通过分析这些挖掘出的数据联系,可以在现实中帮助我们预测或决定某些事情将会发生。有效的提高了我们制定出准确的决策。目前,关联规则挖掘技术广泛应用于金融、互联网、医学等多个领域。最早的关联挖掘是未来发现交易数据库中不同商品之间的联系,通过分析这种联系获得有关购买者的一般的购买模式。从而有助于商家合理地安排进货、库存及货架设计,更好的制定发展计划和规避风险。

多信息融合技术概述

本次讲座主要讲了多源数据融合的定义、应用领域、所具有的优势、信息融合的级别、通用处理结构、主要技术方法、要解决的几个关键问题和未来的主要研究方向。下面就围绕这几个方面进行阐述。 多源信息融合是一种多层次,多方面的处理过程,包括对多源数据进行检测、相关、组合和估计,从而提高状态和身份估计的精度,以及对战场态势和威胁的重要程度进行实时完整的评估。简单说,多源信息融合就是对多源信息进行综合处理,从而得出更为准确、可靠的结论。例如我们感知天气,通过我们的体表感觉温度的高低,通过眼睛观察天气的晴朗或阴雨,通过耳朵听风的大小,然后将这些信息通过大脑的综合处理,对天气有一个总体的感知定位。 多源信息融合在各个领域都有着广泛的应用。如军事上进行战场监视、图像融合,包含医学图像融合等、工业智能机器人(对图像、声音、电磁等数据进行融合,以进行推理,从而完成任务)、空中交通管制(由导航设备、监事和控制设备、通信设备和人员四部分组成)、工业过程监控(过程诊断)、刑侦(将人的生物特征如指纹、虹膜、人脸、声音等信息进行融合,可提高对人身份识别的能力)、遥感等。 信息融合技术越来越受到人们的重视,这时因为它在信息处理方面具有一定的优势。增强系统的生存能力,也就是防破坏能力,改善系统的可靠性;可以在时间、空间上扩展覆盖范围;提高可信度,降低信息的模糊度,如可以使多传感器对同一目标或时间加以确定;提高空间分辨率,多传感器信息的合成可以获得比任一单传感器更高的分辨率;增加了测量空间的维数,从而使系统不易受到破坏。 信息融合的级别有多种分类方法,若按数据抽象的层次来分,可分为数据级融合、特征级融合和决策级融合。数据级融合是直接对传感器的观测数据进行融合处理,然后基于融合后的结果进行特征提取和判断决策。数据级融合的精度高,但由于数据量大,故处理的时间长,代价高,数据通信量大,抗干扰能力差,并且要求传感器是同类的。多应用在多源图像复合、同类雷达波形的直接合成等。特征级融合是先由每个传感器抽象出自己的特征向量(比如目标的边缘、方向、速度等信息),融合中心完成的是特征向量的融合处理。这种融合级别实现了可观的数据压缩,降低了通信带宽的要求,有利于实现实时处理,但却损失了一部分有用信息,使融合性能有所降低。决策级融合是先由每个传感器基于自己的数据作出决策,然后融合中心完成的使局部决策的融合处理。这种级别的融合数据损失量大,相对来讲精度低,但却抗干扰能力强,通信量小,对传感器依赖小,不要求同质传感器,融合中心处理代价低。 图1、集中式结构 多源数据融合的通用结构有集中式结构、分布式结构和混合式结构。集中式结构是所有传感器的数据直接送给融合中心进行处理,结构如图1所示。 分布式结构是融合中心收到的是经过局部处理的数据,结构如图2所示。混合式结构是

多传感器目标数据融合及关键技术_黄赫

控制与制导 本文2009-03-27收到,作者分别系空军工程大学导弹学院硕士、硕士、博士生导师 多传感器目标数据融合及关键技术 黄 赫 李宝泽 曹泽阳 摘 要 介绍了多传感器数据 融合的研究现状和发展趋势,并介绍了一些先进的目标信息数据关联和目标跟踪技术,在定位和跟踪巡航导弹方面具有一定的意义。最后针对存在的难点和问题,提出了分坐标目标信息处理的方法。 关键词 巡航导弹 数据融 合 分坐标 滤波 引 言 在未来军事作战准备中,巡航导弹与反巡航导弹之间的斗争必将更加激烈复杂,传感器易受各种干扰或者隐身目标的影响,三维测量传感器信息可能变成二维信息,二维测量传感器信息可能变成一维信息,一维测量传感器信息可能丧失,这些信息很难被充分利用去跟踪和定位巡航导弹。若采用先进的数据关联和跟踪技术,进行数据融合,充分利用多传感器的信息,将对巡航导弹目标进行精确定位和跟踪有很大的好处,对提高打赢能力具有重要的价值。 1 目标数据融合的研究现状及发展趋势 近20年来,随着科学技术 的发展,种类更多、性能更优的各类传感器不断产生,各种面向复杂应用背景的多传感器系统也大量涌现。 自20世纪70年代开始,多传感器数据融合(M u l t i -S e n s o r D a t a F u s i o n ,M S D F )技术逐渐受到各国尤其是各国军方的重视。以美国为代表,在军方、大公司和院校相继成立了专门的实验室,研究和测试数据融合理论和算法、数据融合系统建立及融合算法评估。1986年美国国防部成立数据融合工作组联合指导实验室(T h e J o i n t D i r e c t o r s o f L a b o r a -t o r i e s D a t a F u s i o n W o r k i n g G r o u p ),其最终研究成果为J D L 模型的建立,该模型得到了广泛的认同[1] 。1988年,美国国防部将数据融合列为20世纪90年代重点研发的20项关键技术之一。在海湾战争结束后,美国国防部从实际战争中体会到了数据融合 技术的巨大潜力,更加重视信息自动综合处理技术的研究,并将通信局改为信息局,在C 3 I 中增加计算机,建立以数据融合中心 为核心的C 4 I 系统。1995—1998财年美国国防部启动的46项先期概念技术演示验证项目之一(战场了解和数据分发系统,B A D D ),通过对来自一组类型各异的传感器数据的融合处理,旨在增强指挥官对战场态势感知的能力。此外,在1998年美国国防部公布的《2010年联合作战设想》中,对作战能力要素“有效使用兵力”和“任务规划”的阐述中,都明确要求:“借助一体化辅助决策提供实时融合的作战空间态势,为快速搜索和捕获目标、作战协同和目标选择、目标移交和交战的信息处理提供支持”、“协同态势评估”、“作战空间的统一理解和表达” [2] 。以美 国为代表的西方各国看到了数据融合技术在军事上的重要效用和非凡前景,投入巨资开展研究。资料显示,美国每年用于数据融 ·50·飞航导弹 2009年第10期 DOI :10.16338/j .issn .1009-1319.2009.10.015

数据融合技术

数据融合技术的研究方法及现状 学科专业:模式识别与智能系统 姓名:高鸽 学号:S2******* 日期:2012年4月

常用数据融合方法 多传感器数据融合涉及到多方面的理论和技术,如信号处理、估计理论、不确定性理论、最优化理论、模式识别、神经网络、人工智能、小波分析理论和支持向量机等。很多学者从不同角度出发提出了多种数据融合技术方案。表1对现有比较常用的数据融合方法进行了归纳,主要分为经典方法和现代方法两大类。 目前,人们已开始将多传感器信息融合应用于复杂工业过程控制系统,文献[25]提出的复杂工业过程综合集成智能控制系统便是其中的一种。 表1 常用的数据融合方法 1)加权平均法 加权平均法是最简单直观地实时处理信息的融合方法。基本过程如下: 设用n 个传感器对某个物理量进行测量, 第i 个传感器输出的数据为i X , 其中,i= 1,2,…,n, 对每个传感器的输出测量值进行加权平均, 加权系数为i w ,得到的加权平均融 合结果为:i 1 =n i i X w X =∑ 加权平均法将来自不同传感器的冗余信息进行加权平均, 结果作为融合值。应用该方法必须先对系统和传感器进行详细分析, 以获得正确的权值。

2)极大似然估计 极大似然估计是静态环境中的常用方法,能将信息融合取为使似然函数得到估计值。 3)Kalman 滤波 Kalman 滤波用于动态环境中冗余信息的实时融合。对线性模型系统, 且噪声是高斯分布的白噪声, 可获得最优融合信息统计。非线性模型, 可采用扩展Kalman 滤波。系统模型有变化或系统状态有渐/ 突变时, 可采用基于强跟踪的Kalman 滤波。 4)贝叶斯估计法 贝叶斯估计属静态环境信息融合方法,信息描述为概率分布,适用于具有加高斯噪声的不确定信息处理。 贝叶斯推理技术主要用来进行策略层融合,它是通过把先验信息和样本信息合成为后验分布,对检测目标作出推断。设来自第i 个传感器的信息为 i s ,i=1,2,…k ,则数据融合后 目标d 的后验概率是: 1 1 1 ()(|) |()(|)()(|) k i i k k i i i i i P d P d P P d P d P d P d s s s s ===+∏∏∏(d )= 缺点:对先验概率比较敏感,并且要找到一个合适的先验分布并不容易。 4)D-S 法 Dempster-Shafter (简称D-S 法)是目前数据融合技术中比较常用的一种方法。该方法通常用来表示对于检测目标的大小、位置及存在与否进行推断。它实际上是广义的贝叶斯方法。根据人的推理模式,采用了概率区间和不确定区间来决定多证据下假设的似然函数来进行推理。由各种传感器检测到的信息提取的特征参数构成了该理论中的证据,利用这些证据构造相应的基本概率分布函数,对于所有的命题赋予一个信任度。基本概率分布函数及其相应的分辨框合称为一个证据体。因此,每个传感器就相当于一个证据体。多个传感器数据融合,实际上就是在同归分辨框下,用Dempster 合并规则将各个证据体合并成一个新的证据体。产生新证据体的过程就是D-S 法数据融合。 5)聚类分析法 聚类分析定义相似性函数或关联度量以提供任何两个特征向量间“接近”程度或不相似程度的值, 依隶属度将样本归并到某类。可分成硬聚类和模糊聚类和可能性聚类等方法。 6)模糊逻辑法 针对数据融合中所检测的目标特征具有某种模糊性的现象,有人利用模糊逻辑方法对检测目标进行识别和分类。建立标准检测目标和待识别检测目标的模糊子集是此方法的研究基础。但模糊子集的建立需要有各种各样的标准检测目标,同时又必须建立合适的隶属函数。实际上,确定隶属函数比较麻烦,目前还没有规范的方法可遵循。又由于

目标跟踪相关研究综述

Artificial Intelligence and Robotics Research 人工智能与机器人研究, 2015, 4(3), 17-22 Published Online August 2015 in Hans. https://www.wendangku.net/doc/ad13962887.html,/journal/airr https://www.wendangku.net/doc/ad13962887.html,/10.12677/airr.2015.43003 A Survey on Object Tracking Jialong Xu Aviation Military Affairs Deputy Office of PLA Navy in Nanjing Zone, Nanjing Jiangsu Email: pugongying_0532@https://www.wendangku.net/doc/ad13962887.html, Received: Aug. 1st, 2015; accepted: Aug. 17th, 2015; published: Aug. 20th, 2015 Copyright ? 2015 by author and Hans Publishers Inc. This work is licensed under the Creative Commons Attribution International License (CC BY). https://www.wendangku.net/doc/ad13962887.html,/licenses/by/4.0/ Abstract Object tracking is a process to locate an interested object in a series of image, so as to reconstruct the moving object’s track. This paper presents a summary of related works and analyzes the cha-racteristics of the algorithm. At last, some future directions are suggested. Keywords Object Tracking, Track Alignment, Object Detection 目标跟踪相关研究综述 徐佳龙 海军驻南京地区航空军事代表室,江苏南京 Email: pugongying_0532@https://www.wendangku.net/doc/ad13962887.html, 收稿日期:2015年8月1日;录用日期:2015年8月17日;发布日期:2015年8月20日 摘要 目标跟踪就是在视频序列的每幅图像中找到所感兴趣的运动目标的位置,建立起运动目标在各幅图像中的联系。本文分类总结了目标跟踪的相关工作,并进行了分析和展望。

数据库技术发展概述

数据库技术发展概述 摘要:20世纪50年代,随着计算机技术的发展,其应用领域不再局限于科学计算,人们开始使用计算机来管理数据。由此,计算机技术新的研究分支——数据库技术应运而生。所谓数据库就是将许多具有相关性的数据以一定的组织方式存储在一起形成的数据集合。而数据库管理系统(Database Management System,简称为DBMs ) 是支持人们建立、使用、组织、存储、检索和维护数据库的软件系统。它包括数据库模型、数据模型、数据库与应用的接口语言等。经过多年的探索,目前,数据库技术已相当成熟,被广泛应用于各行各业中,成为现代信息技术的重要组成部分,是现代计算机信息系统和计算机应用系统的基础和核心。 关键字:数据库技术、管理系统、信息技术、基础和核心 1、数据库技术的发展历程 在数据库出现前,计算机用户是使用数据文件来存放数据的。常用的高级语言从早期的FORTRAN到今天的c语言,都支持使用数据文件。有一种常见的数据文件的格式是,一个文件包含若干个“记录”,一个记录又包含若干个“数据项”,用户通过对文件的访问实现对记录的存取。通常称支持这种数据管理方式的软件为“文件管理系统”。在这种管理方式下,这些数据与其他文件中数据有大量的重复,造成了资源与人力的浪费。随着计算机所处理的数据的日益增多,数据重复的问题越来越突出。于是人们就想到将数据集中存储、统一管理,这样就演变成数据库管理系统从而形成数据库技术。数据库的诞生以20世纪60年代IBM公司推出的数据库管理产品IMs ( Info咖ationMana髀ment System) 为标志。数据库的出现,实现了数据资源的整体和结构化管理,使数据具有了共享性和一定的独立性,并能够对冗余度进行控制。数据库管理系统的推出,使得数据库概念得到了普及,也使得人们认识到数据的价值和统一管理的必要。但是由于IMs是以层次模型来组织和管理数据的,对非层次数据使用虚拟记录,大量指针的使用降低了数据使用的效率,同时,数据库管理系统提供的数据模型机及数据库语言比较低级,数据的独立性也比较差,给使用带来了很大的局限性。为了克服这些缺点,美国数据库系统语言协会(CODASYL,即Conference On Data Svstem Language)下属的数据库任务组( DBTG,即Dat aBaseTask Group) 对数据库的方法和技术进行了系统研究,并提出了着名的DBTG报告。该报告确定并建立了数据库系统的许多基本概念、方法和技术,报告成为网状数据模型的典型技术代表,它奠定了数据库发展的基础,并影响着以后的研究。网状模型是基于图来组织数据的,对数据的访问和操纵需要遍历数据链来完成。因这种有效的实现方式对系统使用者提出了很高的要求,所以阻碍了系统的推广应用。1970年IBM公司的E.F.codd发表了着名的基于关系模型的数据库技术的论文《大型共享数据库数据的关系模型》,并获得198 1年ACM图灵奖,标志着关系模型数据库模型的诞生。

态势感知中的数据融合和决策方法综述x

态势感知中的数据融合和决策方法综述 作者简介:盖伟麟(1987-),男,硕士研究生,主研方向:网络与信息安全,态势感知;辛丹、王璐,硕士研究生;欣,讲 师、博士;胡建斌,副教授、博士。 收稿日期:2013-03-05 修回日期:2013-05-08 E-mail:gaiweilin54070225163. 态势感知中的数据融合和决策方法综述 盖伟麟a,辛丹a,王璐b,欣a,胡建斌b (大学a. 软件与微电子学院;b. 信息科学技术学院,100871) 摘要: 在赛博空间态势感知的相关研究中,处理不确定、不精确的多源异构信息是态势认识过程中需要解决的一个重要问题。为正确处理这些信息,提高对态势的认识,使得到的态势更具有正确性、时效性和全局性,研究数据融合方式和决策方式等现存的处理技术并进行综述。数据融合包含贝叶斯网络、D-S 证据理论、粗糙集理论、神经网络、隐马尔科夫模型及马尔科夫博弈论等方式,决策方式涵盖认知心理学、逻辑学、风险管理等。研究结果表明,目前的技术焦点呈现多样性,但在态势生成应用及验证方面仍有较大的改进空间。 关键词:赛博空间;态势感知;多源异构;数据融合;决策 Review of Date Fusion and Decision-making Methods in Situation Awareness GAI Wei-lina, XIN Dana, WANG Lub, LIU Xina, HU Jian-binb (a. School of Software and Microelectronics; b. School of Electronics Engineering and Computer Science, Peking University, Beijing 100871, China) 【Abstract】In the research of cyberspace situation awareness, how to deal with uncertain, inaccurate multi-source heterogeneous information is an important problem which needs to be solved in the process of situational understanding. In order to accurately handle with the information, improve the awareness of the situation, make the situation more accuracy, timeliness and overall, the paper reviews the existing technology focus, mainly including data fusion methods and decision-making methods. Data fusion methods mainly includes Bayesian network, D-S evidence theory, rough set theory, neural network, hidden Markov model and Markov game theory methods, and decision-making mainly includes cognitive psychology, logic and risk management methods. Research results show that current technology focuses present diversity, but still has great space for improvement in both the situation generation application and verification. 【Key words】cyberspace; situation awareness; multi-source heterogeneous; data fusion; decision-making DOI: 10.3969/j.issn.1000-3428.2014.05.005 计算机工程 Computer Engineering 第40 卷第5 期

数据挖掘中关联规则挖掘的应用研究

数据挖掘中关联规则挖掘的应用研究 吴海玲,王志坚,许峰 河海大学计算机及信息工程学院,江苏南京(210098) 摘 要:本文首先介绍关联规则的基本原理,并简单概括其挖掘任务,然后说明关联规则的经典挖掘算法Apriori 算法,通过一个实例分析进一步明确关联规则在CRM 中的应用,最后展望了关联规则挖掘的研究方向。 关键词:数据挖掘,关联规则,Apriori 算法,CRM 引言 关联规则是表示数据库中一组对象之间的某种关联关系的规则,关联规则挖掘的主要对象是交易(Transaction)数据库。这种数据库的一个主要应用是零售业,比如超级市场的销售管理。条形码技术的发展使得数据的收集变得更容易、更完整,从而可以存储大量的交易资料。关联规则就是辨别这些交易项目之间是否存在某种关系。例如:关联规则可以表示“购买了商品A 和B 的顾客中有80%的人又购买了商品C 和D”。这种关联规则提供的信息可以用作商品目录设计、商场货架的布置、生产安排、具有针对性的市场营销等。 [1] 1 关联规则的基本原理 设I={i 1,i 2,……,i m }是项的集合,设任务相关的数据D 是数据库事务的集合,其中每个事务T 是项的集合,使得T I 。每一个事务有一个标识符,称作T ID 。设X 是一个项集,事务T 包含X 当且仅当X T 。关联规则是形如X Y 的蕴涵式,其中X I ,Y ?I ,并且X ∩Y =?。规则X Y 在事务集D 中成立,具有支持度s ,其中s 是D 中事务包含X ∪Y (即X 和Y 二者)的百分比,它是概率P (X ∪Y )。规则X Y 在事务集中具有可信度c ,如果D 中包含X 的事务同时也包含Y 的百分比c 。这是条件概率P (X Y ∣)。即是 ??????support(X ?Y)= P (X Y ∪) confidence(X ?Y)= P (X Y ∣) 同时满足最小支持度(minsup)和最小可信度阈值(minconf )的规则称作强规则[1]。 项的集合称为项集(itemset )。包含k 个项的项集成为k -项集,例如集合{computer, software }是一个2—项集。项集的出现频率是包含项集的事务数,简称为项集的频率。项集满足最小支持度minsup ,如果项集的出现频率大于或者等于minsup 与D 中事务总数的乘积。如果项集满足最小支持度,则称它为频繁项集(frequent itemset) [2]。 2 关联规则的发现任务 关联规则挖掘的问题就是要找出这样的一些规则,它们的支持度或可信度分别大于指定的最小支持度minsup 和最小可信度minconf 。因此,该问题可以分解成如下两个子问题[3]: 1.产生所有支持度大于或等于指定最小支持度的项集,这些项目集称为频繁项目集(frequent itemsets ),而其他的项目集则成为非频繁项目集(non-frequent itemsets ) 2.由频繁项集产生强关联规则。根据定义,这些规则必须满足最小支持度和最小可信度。 关联规则挖掘的问题的主要特征是数据量巨大,因此算法的效率很关键。目前研究的重点在第一步,即发现频繁项目集,因此第二步相对来说是很容易的。

《数据库技术与应用》实验报告

《数据库技术与应用》上机实验报告 目录: 一、概述 二、主要上机实验内容 1.数据库的创建 2.表的创建 3.查询的创建 4.窗体的创建 5.报表的创建 6.宏的创建 三、总结 一、概述 (一)上机内容: 第七周:熟悉Access界面,数据库和表的创建,维护与操作 1. 熟悉Access的启动,推出,界面,菜单,工具栏等; 2. 练习使用向导创建数据库、创建空数据库; 3. 练习创建表结构的三种方法(向导、表设计器、数据表)、表中字段属性设置; 4. 练习向表中输入不同类型的数据; 5. 练习创建和编辑表之间的关系; 6. 练习表的维护(表结构、表内容、表外观) 7. 练习表的操作(查找、替换、排序、筛选等) 第八周:练习创建各种查询 1.选择查询(单表、多表、各种查询表达式) 2.参数查询 3.交叉表查询 4.操作查询(生成查询、删除查询、更新查询、追加查询) 第十周:练习创建各种类型的窗体 1.自动创建纵栏式窗体和表格式窗体; 2.向导创建主|子窗体

3.图表窗体的创建 4.练习通过设计器创建窗体 5.练习美化窗体 第十三周:练习创建各种类型的报表 1.自动创建纵栏式报表和表格式报表; 2.向导创建报表(多表报表、图表报表、标签报表) 3.练习通过设计视图创建报表(主|子报表、自定义报表) 4.练习在报表中添加计算字段和分组汇总数据 第十五周:综合应用 1.了解Access数据库系统开发的一般方法; 2.课程内容的综合练习; 3.编写上机实验报告、答疑 (二)上机完成情况 第七周:熟悉Access界面,数据库和表的创建,维护与操作 完成了创建表,向表中输入不同类型的数据,创建和编辑表之间的关系,进行了表的维护,修改了表的结构、内容、外观,最后进行了表的操作,查找、替换、排序、筛选等。 已完成 第八周:练习创建各种查询 练习选择查询、参数查询、交叉表查询,然后练习并操作查询,生成查询、删除查询、更新查询、追加查询等。 已完成 第十周:练习创建各种类型的窗体 自动创建纵栏式窗体和表格式窗体,向导创建主|子窗体和图表窗体,练习通过设计器创建窗体,美化窗体。 基本完成 第十三周:练习创建各种类型的报表 自动创建纵栏式报表和表格式报表,向导创建报表,练习通过设计视图创建报表,在报表中添加计算字段和分组汇总数据。 已完成 第十五周:综合应用

基于相关滤波器的目标跟踪方法综述

0引言 视觉跟踪是计算机视觉中引人瞩目且快速发展的领域,主要用于获取运动目标的位置、姿态、轨迹等基本运动信息,是理解服务对象或对目标实施控制的前提和基础。其涉及许多具有挑战性的研究热点并常和其他计算机视觉问题结合出现,如导航制导、事件检测、行为识 别、视频监控、自动驾驶、移动机器人等[1-4]。虽然跟踪方法取得了长足进展,但由于遮挡、目标的平面内/外旋 转、快速运动、模糊、光照及变形等因素的存在使其仍然是非常具有挑战性的工作。 近年来,基于相关滤波器CF(Correlation Filter)的跟踪 方法得到了极大关注[5-9]。CF 最大的优点是计算效率高,这归结于其假设训练数据的循环结构,因为目标和候选 区域能在频域进行表示并通过快速傅里叶变换(FFT)操作。Bolme [6]等首次将CF 应用于跟踪提出MOSSE 算法,其利用FFT 的快速性使跟踪速度达到了600-700fps 。瑞典林雪平大学的Martin Danelljan 在2016年ECCV 上提出的相关滤波器跟踪算法C -COT [7]取得了VOT2016竞赛冠军,2017年其提出的改进算法ECO [8]在取得非常好的精度和鲁棒性的同时,显著提高运算速度至C-COT 的6倍之多。 基于CF 的跟踪算法如此优秀,已然成为研究热点。近年和相关滤波有关的论文层出不穷,很有必要对这些论文及相关滤波的发展等进行一个归纳和总结,以推动该方向的发展。文献[9]虽已做过综述并取得了一定效果,但有两点不足:(1)过多介绍现有几种方法的具体细节,没有对更多文献进行对比分析;(2)缺乏对基于相关滤波器跟踪方法的分类对比分析。基于此,本文的不同 ?基金项目:陕西理工大学科研项目资助(SLGKY16-03) 基于相关滤波器的目标跟踪方法综述? 马晓虹1,尹向雷 2 (1.陕西理工大学电工电子实验中心,陕西汉中723000;2.陕西理工大学电气工程学院,陕西汉中723000) 摘要:目标跟踪是计算机视觉中的重要组成部分,广泛应用于军事、医学、安防、自动驾驶等领域。虽然取得了很大进展,但由于遮挡、快速运动、模糊、光照及变形等因素存在,其仍是具有挑战性的研究领域。近年来,属于判别式类型的相关滤波器跟踪方法由于具有非常高的处理速度备受关注。首先介绍了目标跟踪和相关滤波器的基本知识,之后对相关滤波器方法在朴素阶段、循环结构和核技巧、多特征通道、与深度特征的结合、尺度研究、边界效应以及其他信息的利用方面进行了详述,最后对基于相关滤波器方法的研究方向和发展趋势给出了几点看法。关键词:计算机视觉;目标跟踪;相关滤波器中图分类号:TP391 文献标识码:A DOI :10.16157/j.issn.0258-7998.174811 中文引用格式:马晓虹,尹向雷.基于相关滤波器的目标跟踪方法综述[J].电子技术应用,2018,44(6):3-7,14. 英文引用格式:Ma Xiaohong ,Yin Xianglei.Method of object tracking based on correlation filters :a survey[J].Application of Elec-tronic Technique ,2018,44(6):3-7,14. Method of object tracking based on correlation filters :a survey Ma Xiaohong 1,Yin Xianglei 2 (1.Electrical and Electronic Experiment Teaching Center ,Shannxi University of Technology ,Hanzhong 723000,China ; 2.School of Electrical Engineering ,Shannxi University of Technology ,Hanzhong 723000,China) Abstract :Object tracking is an important part in computer vision and is widely used in military,medical,security and autonomous driving.Although great progress has been made,it is still a challenging research field due to the factors such as occlusion,rapid speed,motion blur,illumination and deformation.In recent years,the correlation filter tracking method,one of discriminant type,has attracted much attention due to its higher processing speed.We first introduces the basic knowledge of the object tracking and the correlation filter tracking,and the correlation filter tracking methods in simple stage,we also discussed the circular structure and the kernel trick,the combination of multiple feature channels and deep feature,scale research,boundary effect and the use of other information.Finally,the research direction and development trend of the method based on the correlation filter is given.Key words :computer vision ;object tracking ;correlation filter

数据融合技术概述

数据融合是WSN中非常重要的一项技术,也是目前的一个研究热点,通过一定算法将采集到的数据进行各种网内处理,去除冗余信息,减少数据传输量,降低能耗,延长网络生命周期。本文以从降低传输数据量和能量方面对数据融合方法进行分类,介绍其研究现状。 1.与路由相结合的数据融合 将路由技术和数据融合结合起来,通过在数据转发过程中适当地进行数据融合,减轻网络拥塞,延长网络生存时间[1]。 1.1查询路由中的数据融合 定向扩散(directed diffusion)[2]作为查询路由的代表,数据融合主要是在其数据传播阶段进行,采用抑制副本的方法,对转发过的数据进行缓存,若发现重复数据将不予转发,该方法有很好的能源自适应性,但是他只能在他选择的随机路由上进行数据融合,并不是最优方案。 1.2分层路由中的数据融合 Wendi Rabiner Heinzelman 等提出了在无线传感器网络中使用分簇概念,其将网络分为不同层次的LEACH 算法[3] :通过某种方式周期性随机选举簇头,簇头在无线信道中广播信息,其余节点检测信号 并选择信号最强的簇头加入,从而形成不同的簇。每个簇头在收到本簇成员后进行数据融合处理,并将结果发送给汇集节点。LEACH算法仅强调数据融合的重要性,但未给出具体的融合方法。TEEN是LEACH 算法的改进[4],通过缓存机制抑制不需要转发的数据,进一步减少数据融合过程中的数据亮。

1.3链式路由中的数据融合 Lindsey S 等人在L EACH 的基础上,提出了PEGASIS 算法[5]每个节点通过贪婪算法找到与其最近的邻居并连接,从而整个网络形成一个链,同时设定一个距离Sink 最近的节点为链头节点,它与Sink进行一跳通信。数据总是在某个节点与其邻居之间传输,节点通过多跳方式轮流传输数据到Sink 处,位于链头节点和源节点之间的节点进行融合操作,最终链头节点将结果传送给汇聚节点。链式结构使每个节点发送数据距离几乎最短,比LEACH节能,但增大了数据传送的平均延时,和传输失败率。PEDAP (power efficient data gathering and aggregation protocol) [6]协议进一步发展了PEGASIS 协议,其核心思想是把WSN 的所有节点构造成一棵最小汇集树(minimum spanning tree) 。节点不管在每一轮内接收到多少个来自各子节点的数据包,都将压缩融合为单个数据包,再进行转发,以最小化每轮数据传输的 总能耗。然而,PEDAP 存在难以及时排除死亡节点(非能量耗尽) 的缺点。 2.基于树的数据融合 现有的算法有最短路径树(SPT)、贪婪增量树(GIT)、近源汇集树(CNS)和Steiner树以及他们的改进算法。Zhang [7]提出 DCTC(dynamic convey tree based collaboration) 算法。通过目标附近的节点协同构建动态生成树,协同组节点把测量数据沿确定的生成树向根节点传输,在传输过程中,汇聚节点对其子生成树节点的数 据进行数据融合。Luo [8-9]了MFST (minimum fusion steiner t ree)

关联规则挖掘综述

关联规则挖掘综述 摘要:近年来国内外学者对关联规则进行了大量的研究。为了更好地了解关联规则的挖掘技术,对研究现状有更深入的了解,首先本文对数据挖掘技术进行了介绍,接着介绍了关联数据挖掘的基本原理,最后对经典的挖掘算法进行分类介绍。 关键词:数据挖掘;关联规则;算法;综述 1.引言 数据挖掘是从海量的数据里寻找有价值的信息和数据。数据挖掘中常用的算法[1]有:关联规则分析法(解决事件之间的关联问题)、决策树分类法(对数据和信息进行归纳和分类)、遗传算法(基于生物进化论及分子遗传学理论提出的)、神经网络算法(模拟人的神经元功能)等。 数据挖掘最早使用的方法是关联分析,主要应用于零售业。其中最有名的是售货篮分析,帮助售货商制定销售策略。随着信息时代的到来,数据挖掘在金融[2]、医疗[3]、通信[4]等方面得到了广泛的应用。 2.关联规则基本原理 设项的集合I = { I1 ,I2 ,...,Im },数据库事务的集合为D,我们用|D|表示事务数据库所有事务的个数,其中用T

表示每个事务,使得T I。我们用TID作为每个事务的唯一标识符。用X表示一个项集,满足X T,那么交易T包含X。根据上述相关描述,给出关联规则的相关定义。 2.1项集支持度 用X表示数据库事务D中的项集,项集X的支持度表示项集X在D中事务数所占的比例,用概率P(X)表示,那么Support(X)=P(X)=COUNT(X)/|D| (1) 2.2关联规则置信度 X Y关联规则的置信度是数据库事务D中包含X Y的事务数与包含X的事务数之比,表示方法如下: confidence(X Y)= support(X Y)/support(X)= P(Y|X)(2) 3.关联规则算法 3.1经典的Apriori挖掘算法 大多数关联规则的算法是将关联规则挖掘任务分为两个子任务完成。一是频繁项集的产生,频繁项集的目的是找到大于等于给定的最小支持度阈值的所有项集,这些项集我们称之为频繁项集。二是规则的产生,即从频繁项集中找到置信度比较高的规则,我们称之为强规则。Apriori挖掘算法是众多挖掘关联规则中比较经典的算法,它采用布尔关联规则,是一种宽度优先算法。 3.2Apriori算法优化

相关文档