文档库 最新最全的文档下载
当前位置:文档库 › 元数据仓储建设元数据规范

元数据仓储建设元数据规范

元数据仓储建设元数据规范
元数据仓储建设元数据规范

元数据仓储建设元数据规范

1.资源对象

资源对象为分布在全国各公共图书馆已发布的自建数字资源,类型包括但不限于数据库、图书、期刊、论文、报纸、图像、音频、视频等。

2.建设粒度

资源建设粒度,是指数字资源的记录单元,一般以具有独立名称,并可独立使用的一个资源为建设单位,如一个数据库、一种图书、一本期刊、一幅图像等,以及数据库中的子库、会议论文集或期刊中的一篇论文、一张光盘中的一个曲目。

3.元素

3.1元素说明项

在本规范中,每个元素都从标签、定义、元素的著录内容、注释、元素修饰词、编码体系修饰词及其用法、规范文档、必备性、可重复性等几方面进行定义,详见表1“元素的说明项目”。

表1:元素的说明项目

3.2元素简表

本规范包含元数据仓储建设的16个元素:名称、责任者、主题、描述、出版者、日期、类型、原始标识符、语种、关联、访问方式、发布地址、适用对象、版本、标识符、其他字段,其中必备元素有七个:名称、主题、类型、语种、访问方式、发布地址、适用对象。

3.3规范细则

3.3.1名称

标签:名称

定义:著录资源的名称

元素的著录内容:可以概括著录资源内容的词、词组、符号等。

注释:(1)若资源本身没有名称则需要编目者补充上,并在描述项进行说明。

(2)名称要能反映资源的内容,不能用图1、讲座1等名称作为资源名称。

必备性:必备

可重复性:可重复

著录范例:

例:名称:玉虎坠

3.3.2责任者

标签:责任者

定义:创建资源内容的主要责任者或者对资源内容做出贡献的其他实体。

元素的著录内容:一般为个人、团体的名称,可以包括除责任方式以外的修饰成份,如责任者的生卒年、朝代、国别、外文原名等。

注释:由个人或团体的名称来表示。

元素修饰词:责任方式

必备性:有则必备

可重复性:可重复

著录范例:

例1:责任者:孙绍俊

例2:责任者:(清)曹雪芹

3.3.2.1责任方式

标签:责任方式

定义:责任者与著录资源之间的责任关系。

元素修饰词的著录内容:著录责任者创建资源内容或对该内容做出其他贡献的方式,如著、编著、主编、拍摄、录制、主唱、主讲、主演等。

注释:若多个责任者有相同的责任方式,则著录一种责任方式,若多个责任者有不同的责任方式,则责任者和责任方式对应著录。

必备性:有则必备

可重复性:可重复

著录范例:

例1:(责任者:孙绍俊)

责任方式:编导

例2:(责任者:唐耀文)

责任方式:解说

3.3.3主题

标签:主题

定义:描述资源主题内容的受控或非受控的词汇或类号。

元素的著录内容:著录描述资源主题内容的受控或非受控的词汇,包括主题词、关键词、分类号等。

元素修饰词:分类、主题词或关键词

编码体系修饰词及其用法:CLC、CCT

规范文档:CLC(中国图书馆分类法)、CCT(中国分类主题词表)

必备性:必备

可重复性:可重复

3.3.3.1分类

标签:分类

定义:描述资源主题内容的类号。

元素的著录内容:著录描述资源主题内容的分类号。

注释:(1)元素值需要取自编码体系修饰词中所列的分类体系。

(2)古籍建议使用专门的分类法:如四库分类法。

编码体系修饰词及其用法:CLC

规范文档:CLC(中国图书馆分类法)

必备性:必备

可重复性:可重复

著录范例:

例:分类:G250

3.3.3.2主题词或关键词

标签:主题词或关键词

定义:描述资源主题内容的受控或非受控的词汇。

元素的著录内容:著录描述资源主题内容的词汇,可以是受控的主题词,也可以是非受控的关键词。

注释:主题词值需要取自编码体系修饰词中所列的词表。多个词之间用半角的逗号分开。

编码体系修饰词及其用法:CCT

规范文档:CCT(中国分类主题词表)

必备性:必备

可重复性:可重复

著录范例:

例:主题词或关键词:历史发展、藏书

3.3.4描述

标签:描述

定义:对资源内容的说明描述。

元素的著录内容:著录用于说明资源内容的信息。凡不能反映于其他专门元素或元素修饰词项的有关资源内容的说明,著录于此,包括摘要、目录、附

注等。

注释:应前置规范导语,说明所描述的内容。

必备性:有则必备

可重复性:可重复

著录范例:

例:描述:摘要:山东省图书馆历史发展以及藏书介绍

3.3.5出版者

标签:出版者

定义:使资源可以获得和利用的责任实体。

元素的著录内容:著录资源的出版者或颁布者。

必备性:有则必备

可重复性:可重复

著录范例:

例:出版者:山东省图书馆

3.3.6 日期

标签:日期

定义:与资源生成期间某一个事件相关的日期。

元素的著录内容:主要著录与资源出版、创建、发布有关的日期。

注释:表示一段时间间隔时,用起讫日期表示,起始日期和结束日期之间用“/”分隔。

编码体系修饰词及其用法:W3CDTF、period、中国时代表;日期取值自编码体系修饰词,一般采用YYYY-MM-DD的表达方式。

规范文档:W3CDTF、DCMI period、中国时代表

必备性:有则必备

可重复性:可重复

3.3.6.1出版日期

标签:出版日期

定义:资源出版的日期。

元素的著录内容:用于注明资源出版的日期。在具体著录时,对派生数字资源著录印刷版原件的出版日期。

编码体系修饰词及其用法:W3CDTF、period、中国时代表;日期取值自编码体系修饰词,一般采用YYYY-MM-DD的表达方式。

规范文档:W3CDTF、DCMI period、中国时代表

必备性:有则必备

可重复性:可重复

著录范例:

例:出版日期:2007

3.3.6.2 发布日期

标签:发布日期

定义:资源发布的日期。

元素的著录内容:用于注明资源发布的日期。如数据库的发布日期。

编码体系修饰词及其用法:W3CDTF、period、中国时代表;日期取值自编码体系修饰词,一般采用YYYY-MM-DD的表达方式。

规范文档:W3CDTF、DCMI period、中国时代表

必备性:有则必备

可重复性:可重复

著录范例:

例:发布日期:2007-08-07

3.3.6.3 创建日期

标签:创建日期

定义:资源创建的日期。

元素的著录内容:用于注明资源创建的日期。如图像的拍摄、视频的摄制日期。

编码体系修饰词及其用法:W3CDTF、period、中国时代表;日期取值自编码体系修饰词,一般采用YYYY-MM-DD的表达方式。

规范文档:W3CDTF、DCMI period、中国时代表

必备性:有则必备

可重复性:可重复

著录范例:

例:创建日期:2007-08-22

3.3.7类型

标签:类型

定义:数字资源的类别。

元素的著录内容:著录资源内容的特征和类型。

注释:本规范中,类型从多个角度进行分类。

元素修饰词:资源类型、内容类型

必备性:必备

可重复性:可重复

著录范例:

例1:资源类型:电子图像

例2:内容类型:家谱

3.3.7.1资源类型

标签:资源类型

定义:数字资源的资源类别。

元素的著录内容:著录资源的资源类型。

注释:元素的取值包括但不限于数据库、电子图书、音视频、电子图像等。

必备性:必备

可重复性:可重复

著录范例:

例:资源类型:电子图像

3.3.7.2内容类型

标签:内容类型

定义:数字资源的内容类型。

元素的著录内容:著录资源内容的类型。

注释:元素的取值包括但不限于家谱、地方志、老照片、民国文献、非遗资源、少儿资源、少数民族资源、其他资源等。

必备性:必备

可重复性:可重复

著录范例:

例:内容类型:家谱

3.3.8原始标识符

标签:原始标识符

定义:资源在原始数据库中的唯一标识。

元素的著录内容:著录资源在原始数据库中的唯一标识符。

必备性:有则必备

可重复性:不可重复

著录范例:

例1:原始标识符:031071110010102

(例子来源:山东省图书馆的“齐鲁文脉百年珍藏”数据库,字段“资源代码”的值为031071110010102,著录在此处)

例2:原始标识符:011011104010001

(例子来源:安徽省图书馆的“《安徽馆藏文物》多媒体资源库”,字段“控制号”的值为011011104010001,著录在此处)

3.3.9语种

标签:语种

定义:资源的语种。

元素的著录内容:著录资源的语种,包括文字、声道等的语种。

编码体系修饰词及其用法:ISO639-2、RFC4646

规范文档:ISO639-2、RFC4646

必备性:有则必备

可重复性:可重复

著录范例:

例1:语种:中文

例2:语种:chi(编码体系=ISO639-2)

(例子来源:山东省图书馆的“齐鲁文脉百年珍藏”数据库)

3.3.10关联

标签:关联

定义:对相关资源的指引。

元素的著录内容:著录与所描述资源相关联的其他资源,可以著录关联资源的名称或标识,建议首选符合规范标识体系的字符串或数字标识所要指引的资源。

元素修饰词:包含于

必备性:有则必备

可重复性:可重复

3.3.10.1包含于

标签:包含于

定义:说明资源是另一种资源的物理或逻辑组成部分。

元素修饰词的著录内容:用以揭示资源所从属的资源;此资源可另行单独著录,元素值一般为数据库、丛书、期刊、论文集等的名称或标识符。

注释:只著录到该资源的上一级资源。

必备性:有则必备

可重复性:可重复

著录范例:

例:包含于:《少儿资源龙娃》视频库

(例子来源:黑龙江省图书馆的动画片《龙娃》资源库)

包含于:https://www.wendangku.net/doc/861087272.html,/home/index.trs?channelid=8

3.3.11访问方式

标签:访问方式

定义:资源可以提供服务的范围。

元素的著录内容:著录资源可以提供服务的范围。如:互联网访问、局域网访问。

必备性:必备

可重复性:不可重复

著录范例:

例:访问方式:互联网访问

3.3.12发布地址

标签:发布地址

定义:资源在因特网或局域网的发布地址。

元素的著录内容:一般著录资源的URL地址。

必备性:必备

可重复性:可重复

著录范例:

例:发布地址:https://www.wendangku.net/doc/861087272.html,/ah/ahzb/video/index.htm

3.3.13适用对象

标签:适用对象

定义:资源适宜使用的人群。

元素的著录内容:一般分为普通用户、少年儿童、残障人士,默认值为普通用户。

必备性:必备

可重复性:可重复

著录范例:

例:适用对象:少年儿童

3.3.14版本

标签:版本

定义:资源的版本。

元素的著录内容:著录资源的版本或版次信息以及其他附加说明。

必备性:有则必备

可重复性:可重复

著录范例:

例1:版本:第2版

例2:版本:修订版

3.3.15标识符

标签:标识符

定义:能够在特定环境中确认资源的唯一标识。

元素的著录内容:著录在特定的环境中确认资源的唯一标识,如ISBN、DOI。

编码体系修饰词及其用法:ISBN、DOI

规范文档:ISBN(国际标准书号)、DOI(数字对象标识)

必备性:有则必备

可重复性:可重复

著录范例:

例:标识符:10.1007/978-1-4020-6901-7(编码体系=DOI)

3.3.16其他字段

标签:其他字段

定义:各图书馆已建元数据中的其他字段。

元素的著录内容:未包含在以上15个元素中的字段内容均著录于此。

必备性:有则必备

可重复性:可重复

著录范例:

例:其他字段:分辨率:640 x 480,色彩:黑白

附:各种类型自建数字资源元数据简表

1.数据库

已发布的自建数据库,粒度为具有独立名称并可独立使用的数据库,以及数据库中的子库。自建数据库的元素有12个,包括:名称、责任者、主题、描述、出版者、日期、类型、语种、关联、访问方式、发布地址、适用对象,其中必备元素有9个:名称、责任者、主题、描述、类型、语种、访问方式、发布地址、

附表1:学科分类表

数据仓库与数据挖掘课后习题答案

数据仓库与数据挖掘 第一章课后习题 一:填空题 1)数据库中存储的都是数据,而数据仓库中的数据都是一些历史的、存档的、归纳的、计算的数据。 2)数据仓库中的数据分为四个级别:早起细节级、当前细节级、轻度综合级、高度综合级。3)数据源是数据仓库系统的基础,是整个系统的数据源泉,通常包括业务数据和历史数据。4)元数据是“关于数据的数据”。根据元数据用途的不同将数据仓库的元数据分为技术元数据和业务元数据两类。 5)数据处理通常分为两大类:联机事务处理和联机事务分析 6)Fayyad过程模型主要有数据准备,数据挖掘和结果分析三个主要部分组成。 7)如果从整体上看数据挖掘技术,可以将其分为统计分析类、知识发现类和其他类型的数据挖掘技术三大类。 8)那些与数据的一般行为或模型不一致的数据对象称做孤立点。 9)按照挖掘对象的不同,将Web数据挖掘分为三类:web内容挖掘、web结构挖掘和web 使用挖掘。 10)查询型工具、分析型工具盒挖掘型工具结合在一起构成了数据仓库系统的工具层,它们各自的侧重点不同,因此适用范围和针对的用户也不相同。 二:简答题 1)什么是数据仓库?数据仓库的特点主要有哪些? 数据仓库是一个面向主题的、集成的、相对稳定的、反映历史变化的数据集合,用于支

持管理决策。 主要特点:面向主题组织的、集成的、稳定的、随时间不断变化的、数据的集合性、支持决策作用 2)简述数据挖掘的技术定义。 从技术角度看,数据挖掘是从大量的、不完全的、有噪声的、模糊的、随机的实际数据中,提取隐含在其中的、人们不知道的、但又是潜在有用的信息和知识的过程。 3)什么是业务元数据? 业务元数据从业务角度描述了数据仓库中的数据,它提供了介于使用者和实际系统之间的语义层,使得不懂计算机技术的业务人员也能够读懂数据仓库中的数据 4)简述数据挖掘与传统分析方法的区别。 本质区别是:数据挖掘是在没有明确假设的前提下去挖掘信息、发现知识。数据挖掘所得到的信息应具有先前未知、有效和实用三个特征。 5)简述数据仓库4种体系结构的异同点及其适用性。 a.虚拟的数据仓库体系结构 b.单独的数据仓库体系结构 c.单独的数据集市体系结构 d.分布式数据仓库结构

CELTS-42基础教育教学资源元数据规范1

基础教育教学资源元数据应用规范 (CELTS-41) 教 育信息化技术标准 CELTS-42 基础教育教学资源元数据规范 CELTS-42 CD1.6 教育部教育信息化技术标准委员会 发布

目录 1 概述 (2) 1.1 目的 (2) 1.2 范围 (2) 2 规范性引用文件 (2) 3 术语定义与缩略语 (3) 3.1 本应用规范使用的基础术语 (3) 3.2 缩略语 (5) 4 元数据元素属性定义 (6) 4.1 元数据元素的属性描述 (6) 4.2 数据元素定义的规定 (7) 5 元数据结构 (7) 5.1 元数据的基本结构 (7) 5.2 元数据元素及定义 (7) 6 限定词汇与编目词汇表 (11) 6.1 限定词汇 (11) 6.2 本规范的限定词与编目方式定义 (14) 6.3 受控词汇和编目方案 (22) 6.4 一致性 (29) 7 参考文献 (31) 附录 A 供参考的部分教育学科课程分类第三级词汇表(课程内容) (33) A.1 语文课程内容分类 (33) A.2 数学课程内容分类 (34) A.3 英语课程内容分类 (37) A.4 地理课程内容分类 (38) A.5 历史课程内容分类 (39) A.6 化学课程内容分类 (40) A.7 物理课程内容分类 (43) A.8 生物课程内容分类 (48) A.9 信息技术课程内容分类 (49) A.10 音乐课程内容分类 (50) A.11 美术课程内容分类 (50)

CELTS-42基础教育教学资源元数据规范 1 概述 1.1 目的 本规范提供一个面向基础教育的教学资源数据模型。制定本规范旨在对希望在学校、企业、其他机构和个人的教学资源中使用元数据的用户提供一套资源编目准则,以使读者能快速、有效地在国家基础教育资源库及门户网站中检索到所需的教学资源,广泛地实现资源共享。 1.2 范围 本规范在《CELTS-3学习对象元数据:信息模型规范》(以下简称《学习对象元数据规范》)的基础上,结合我国基础教育的实际,定义了一组面向基础教育的教学资源元数据元素。 本规范依照教育部颁布的《义务教育课程设置实验方案》、《义务教育各学科课程标准(实验稿)》以及《学习对象元数据规范》,同时参考《都柏林核心集元数据(DCMES)》、《中国图书馆图书分类法》、美国GEM项目及澳大利亚EdNA项目的词汇分类方法,定义了一组用于元数据元素编目的受控词汇及相应的词汇表。 本规范通过与《学习对象元数据规范》的元素间映射来实现与CELTS的一致性。 本规范包括﹕ ?概述 ?规范性引用文件 ?术语定义与缩略语 ?元数据元素属性定义 ?元数据结构 ?限定词汇及编目词汇表 ?一致性 ?参考文献 2 规范性引用文件 下列文件中的条款通过本规范的引用而成为本应用规范的条款。凡是注日期的引用文件,其随后所有的修改单(不包括勘误的内容)或修订版均不适用于本应用规范。然而,鼓励根据本标准达成协议的各方研究是否可使用这些文件的最新版本。凡是不注日期的引用文件,其最新版本适用于本应用规范。 ?ISO 639:规定人类语言表示方法的国际标准。 ?ISO 646:规定ASCII字符集的国际标准。 ?ISO 8601:规定日期和时间表示方法的国际标准。 ?ISO 3166:规定国家名称表示方法的国际标准。

浅谈数据仓库中的元数据管理技术

浅谈数据仓库中的元数据管理技术 孙力君仇道霞方峻峰宋楠 山东省烟草公司信息中心 摘要:数据仓库是数据库的发展方向之一,对企业管理和决策支持起着重要的辅助作用。简要介绍了数据仓库和元数据的基本概念,重点阐述了元数据的概念、作用、CWM标准、来源,并就元数据具体应用进行了初步的研究和探讨。 关键词:数据仓库;元数据; 1. 引言 随着市场竞争的越来越激烈,烟草行业的信息化建设不断的深入发展,全行业形成了“以信息化带动烟草行业现代化建设”的基本共识,明确了“统一标准、统一平台、统一数据库、统一网络”,逐步实现系统集成、资源整合、信息共享的信息化建设总体要求,走过了“由基础性向应用性、由局部性向全局性、由分散性向集中性建设”的三个转变历程,初步形成了“数字烟草”的行业信息化建设格局,既对行业数据中心的建设提出了迫切的要求,也为行业数据中心建设奠定了坚实的基础。 随着数据库技术尤其是数据仓库技术的发展,人类能更容易获得自己需要的数据和信息,由于元数据是数据仓库中非常重要的组成部分,因此讨论和研究元数据在数据仓库中的作用和应用,具有非常重要的意义。 元数据管理是山东烟草数据中心建设的重要组成部分,元数据管理平台为用户提供高质量、准确、易于管理的数据,它贯穿数据中心构建、运行和维护的整

个生命周期。同时,在数据中心构建的整个过程中,数据源分析、ETL过程、数据库结构、数据模型、业务应用主题的组织和前端展示等环节,均需要通过相应的元数据的进行支撑。元数据管理的生命周期包括元数据获取和建立、元数据的存储、元数据浏览、元数据分析、元数据维护等部分。 通过元数据管理,形成整个系统信息数据资的准确视图,通过元数据的统一视图,缩短数据清理周期、提高数据质量以便能系统性地管理数据中心项目中来自各业务系统的海量数据,梳理业务元数据之间的关系,建立信息数据标准完善对这些数据的解释、定义,形成企业范围内一致、统一的数据定义,并可以对这些数据来源、运作情况、变迁等进行跟踪分析。完善数据中心的基础设施,通过精确把握经营数据来精确把握瞬息万变的市场竞争形式,使山东烟草在市场竞争中保持优势。 总的来说,元数据管理平台集成相关的元数据,形成企业的全局数据视图,提供企业级共享元数据的平台,是烟草业务系统的基础设施,对业务系统的发展、应用和数据质量的提升有着深远影响。 2.数据仓库概述 目前有关数据仓库的概念有多种,其中最经典的,引用最为广泛的定义是W.H.Inmon在《Building the Data Warehouse》一书中给出的,他指出:“数据仓库是面向主题的、集成的、随时间变化的、非易失的数据集合,用于支持管理层的决策过程”。[1] 之所以要引入数据仓库,是因为随着信息时代的到来,如何从大量已存在的数据中提取出自己所感兴趣的信息并进行分析和预测越来越成为企业管理者和决策者所关心的问题。为了更好的进行管理和决策,许多企业都选择了数据仓库,利用数据仓库可以对各种源数据进行抽取、清理、加工

元数据管理解决方案-2018.3.27

元数据解决方案 随着报价系统每年收集和使用的数据飞速增长,数据体量日趋增长,数据形态多样化且不统一,多种数据源之间的采集、传播和共享遇到困难。元数据管理作为大数据治理的核心,是有效管理这些数据的基础和前提,在信息化建设中发挥着重要的作用。如何理解、管理并发挥出元数据的价值,成为迫切的任务。 一、什么是元数据 元数据(Metadata)是关于数据的数据。元数据是描述数据仓库内数据的结构和建立方法的数据。可将其按用途的不同分为两类:技术元数据(Technical Metadata)和业务元数据(Business Metadata)。 1. 技术元数据 技术元数据是存储关于数据仓库系统技术细节的数据,是用于开发和管理数据仓库使用的数据,它主要包括以下信息: 1) 数据仓库结构的描述,包括仓库模式、视图、维、层次结构和导出数据 的定义,以及数据集市的位置和内容。 2) 业务系统、数据仓库和数据集市的体系结构和模式。 3) 汇总用的算法,包括度量和维定义算法,数据粒度、主题领域、聚集、 汇总、预定义的查询与报告。 4) 由操作环境到数据仓库环境的映射,包括源数据和它们的内容、数据分 割、数据提取、清理、转换规则和数据刷新规则、安全(用户授权和存 取控制)。 2. 业务元数据 业务元数据从业务角度描述了数据仓库中的数据,它提供了介于使用者和实际系统之间的语义层,使业务人员也能够“读懂”数据仓库中的数据。业务元数据主要包括以下信息:

1) 使用者的业务术语所表达的数据模型、对象名和属性名。 2) 访问数据的原则和数据的来源。 3) 系统所提供的分析方法以及公式和报表的信息。 4) 企业概念模型、多维数据模型,业务概念模型与物理数据的依赖, 二、元数据的作用 元数据可以实现业务模型与数据模型的映射,帮助用户理解数据仓库中的数据;元数据清晰的描述了数据的来龙去脉,描述了数据抽取转换规则,是保证数据质量的关键;元数据管理系统可以把整个业务的工作流、数据流和信息流有效的管理,可以支持需求变化,从而提高系统的可扩展性;打通数据孤岛,统一数据定义,形成企业级知识传承平台,元数据管理使得数据变的更有价值。三、元数据管理 在大数据时代的背景下,数据即资产,元数据实现了信息的描述和分类的格式化,从而为机器处理创造了可能,它能帮助企业更好地对数据资产进行管理,理清数据之间的关系。元数据管理是企业提升数据质量的基础,也是企业数据治理中的关键环节。元数据管理不当,信息很容易被丢失,进而不能对业务进行有效支撑,企业内部业务人员要识别相关信息就会变得十分困难,最终用户也将失去对数据的信任。 1. 元数据采集 技术元数据的采集,根据现有元数据设计出元模型,然后将数据仓库系统之中的元数据按元模型集中汇总并关联到一起,达到企业对数据统一管理与应用的目的,ETL等产生的元数据,对于元数据管理工具支持的格式可直接进行导入,对于一些自定义的规则,需要进行格式转换并导入。

元数据的标准

元数据的标准 1、数字图书馆资源组织框架 2. 元数据开发应用框架 元数据的基本意义Metadata(元数据)是“关于数据的数据”; 元数据为各种形态的数字化信息单元和资源集合提供规范、普遍的描述方法和检索工具;元数据为分布的、由多种数字化资源有机构成的信息体系(如数字图书馆)提供整合的工具与纽带。 离开元数据的数字图书馆将是一盘散沙,将无法提供有效的检索和处理。 3. 元数据应用环境 3.1 Metadata的应用目的 (1)确认和检索(Discovery andentification),主要致力于如何帮助人们检索和确认所需要的资源,数据元素往往限于作者、标题、主题、位置等简单信息,Dublin Core是其典型代表。(2)著录描述(Cataloging),用于对数据单元进行详细、全面的著录描述,数据元素囊括内容、载体、位置与获取方式、制作与利用方法、甚至相关数据单元方面等,数据元素数量往往较多,MARC、GILS和FGDC/CSDGM是这类Metadata的典型代表。 (3)资源管理(Resource Administration),支持资源的存储和使用管理,数据元素除比较全面的著录描述信息外,还往往包括权利管理(Rights/Privacy Management)、电子签名(Digital Signature)、资源评鉴(Seal of Approval/Rating)、使用管理(Access Management)、支付审计(Payment and Accounting)等方面的信息。 (4)资源保护与长期保存(Preservation and Archiving),支持对资源进行长期保存,数据元素除对资源进行描述和确认外,往往包括详细的格式信息、制作信息、保护条件、转换方式(Migration Methods)、保存责任等内容。 3.2 Metadata在不同领域的应用根据不同领域的数据特点和应用需要,90年代以来,许多Metadata格式在各个不同领域出现 例如: 网络资源:Dublin Core、IAFA Template、CDF、Web Collections 文献资料:MARC(with 856 Field),Dublic Core 人文科学:TEI Header 社会科学数据集:ICPSR SGML Codebook 博物馆与艺术作品:CIMI、CDWA、RLG REACH Element Set、VRA Core 政府信息:GILS 地理空间信息:FGDC/CSDGM 数字图像:MOA2 metadata、CDL metadata、Open Archives Format、VRA Core、NISO/CLIR/RLG Technical Metadata for Images 档案库与资源集合:EAD 技术报告:RFC 1807 连续图像:MPEG-7 3.3 Metadata格式的应用程度 不同领域的Metadata处于不同的标准化阶段: 在网络资源描述方面,Dublin Core经过多年国际性努力,已经成为一个广为接受和应用的事实标准;在政府信息方面,由于美国政府大力推动和有关法律、标准的实行,GILS已经

数据仓库中元数据的管理

数据仓库中元数据的管理M etadata M anagem en t i n a Data W arehouse 同济大学计算机科学与工程系(上海200092) 史金红 吴永明 【摘要】 介绍了数据仓库中四种基本类型的元数据,说明了不同类型元数据的收集和维护方法,并着重对分布式元数据的集成和管理进行了详细的阐述。 关键词:数据仓库,数据商场,决策支持,元数据 【Abstract】 T h is p ap er in troduces fou r typ es of m etadata and the m ethods of co llecting and m ain tain ing them.It focu ses on the m etadata m anagem en t and in tegrity. Key words: da ta warehouse,da ta mart, dec ision support,m etada ta 1 引言 随着社会的发展和计算机技术的进步,人们已不满足于用计算机只作简单的数据处理和事务处理。进一步用现有的数据进行分析和推理,从而为决策提供依据的需求导致了决策支持系统(D SS)的出现。90年代以来计算机技术、网络技术和数据库技术的迅速发展为D SS提供了必要的技术环境, OL T P和办公自动化普遍应用积累的大量数据为D SS提供了必要的数据基础,日趋激烈的市场竞争促进了各级管理和决策人员对D SS的实际需求,因此自从1991年W.H.Inm on提出数据仓库的概念和1993年E.F.Codd提出OLA P概念以来,已有许多商品化的数据仓库管理系统和联机分析处理工具软件面市。以上诸因素的共同作用促成许多公司、机构纷纷为提高自己的竞争能力建立数据仓库系统以进行决策支持。 元数据是成功的数据仓库的重要组成部分,它可以帮助数据仓库项目小组明确而全面地理解潜在数据源的物理布局以及所有数据元的业务定义,帮助数据仓库用户有效地使用仓库中的信息,帮助数据库管理员了解某些表的变化将对数据仓库产生怎样的影响以及不同商业过程对应的应用等等。项目小组在开发过程中应当识别元数据并将它收入到元数据商店中,实施适当的过程捕作企业数据结构和应用的变化,从而修改相应的元数据,并向用户提供适当的工具访问元数据。 2 元数据的基本类型 元数据按照其用户可以分为技术元数据和商业元数据。技术元数据提供给数据仓库的技术人员,数据仓库技术人员在仓库的开发和维护中使用这类元数据。商业元数据是商业用户在仓库中寻找他们所需商业信息的一个辅助。但是,技术人员可能也需要访问几种类型的商业元数据,如和商业用户讨论信息需求和建立企业的数据模型。同样,商业用户也需要尝试高水平的技术元数据。 元数据按其内容可以分为四个基本类型: 1)关于数据仓库潜在数据来源的信息,包括现有的业务系统、可得到的外部数据和目前手工维护的信息。例如,一个组织可以从中识别数据来源的潜在仓库数据源有:几个现有的应用程序,由财务部门保存的基于PC机的电子报表,从某一卖主处购买的销售数据,目前由顾客服务部门在纸上保存的顾客联系记录。 2)关于数据模型的信息,包括业务实体、关系、企业规则和企业数据模型。 3)关于业务数据与仓库数据结构间的映射信息。只要那些来源中的一个数据元与仓库建立了映射关系,就应该记录下这些数据元间的逻辑联系以及发生的任何变换或变动。 4)关于数据仓库中信息的使用情况。了解这类信息对更好地调整仓库性能、更多地利用现有查询以及理解仓库中的信息怎样用于解决企业问题是很重要的。 3 元数据的收集和维护 在适当的时间收集适当的元数据是成功实施元数据驱动的数据仓库的基础。为保证较高的准确

电子文件元数据规范

电子文件元数据规范 1 范围 本规范适用于九省区各级国家档案馆、各级党政机关、社会团体、企事业单位对电子文件进行以保证凭证性为目的的管理活动。其他社会组织可参照执行 在电子文件管理过程中使用元数据可实现以下目的: ——确保并证明归档电子文件的真实性、完整性与有效性,从而保证其凭证价值; ——有利于归档电子文件的保护,实现长期保存; ——在异构的信息系统中对归档电子文件进行规范、有效的管理,保证归档电子文件的可捕获、可收集、查长期利用; ——对归档电子文件及馆(室)藏档案数字化资源进行集成管理,实现有效、方便地查询、检索与利用。 2 规范性引用文件 下列文件中的条款通过本规范的引用而成为本规范的条款。凡是注明日期的引用文件,其随后所有的修改单(不包括勘误的内容)或修订版均不适用于本规范,然而,鼓励根据本规范达成协议的各方研究是否可使用这些文件的最新版本。 GB 2312-1980 信息交换用汉字编码字符集基本集 GB/T 3760-1995 文献叙词标引规则 GB/T 3792.1-1983 文献著录总则 GB/T 7156-2003 文献保密等级代码 GB/T 7408-2005 数据元和交换格式信息交换日期和时间表示法 GB/T 9704-1999 国家行政机关公文格式 GB/T 11714-1997 全国组织机构代码编制规则 GB/T 11821-2002 照片档案管理规范 GB/T 13959-1992 文件格式与代码编制方法 GB/T 13967-1992 全宗单 GB/T 15418-1994 档案分类标引规则 GB 18030-2000 信息技术信息交换用汉字编码字符集基本集的扩充 GB/T 18894-2002 电子文件归档与管理规范 DA/T 1-2000 档案工作基本术语 DA/T 12-1994 全宗卷规范 DA/T 13-1994 档号编制规则 DA/T 18-1999 档案著录规则 DA/T 19-1999 档案主题标引规则 DA/T 22-2000 归档文件整理规则 DA/T 31-2005 纸质档案数字化技术规范 《中华人民共和国电子签名法》 中办发[1996]14号中国共产党机关公文处理条例 国发﹝2000﹞23号关于发布《国家行政机关公文处理办法》的通知 国档发[1987]4号关于颁发《编制全国档案馆名称代码实施细则》的通知 国家档案局第6号令《电子公文归档管理暂行办法》,2003年7月28日 国家档案局第8号令《机关文件材料归档范围和文书档案保管期限规定》,2006年12月19日ISO 15489 Information and documentation—Records management ISO 23081-1 Information and documentation – Records Management Processes – Metadata for Records—Part 1: Principles

元数据管理方案

元数据管理方案

元数据管理方案 1.1元数据抽取 为了简化元数据生成工作,系统提供自动生成元数据的功能,即元数据抽取。经过元数据自动抽取,用户能够方便、快捷地获得大量的元数据信息。 1.1.1抽取的对象 元数据抽取主要针正确对象有以下几种: 已有目录:已建业务应用系统中现有的目录资源。 数据库:各种数据库资源,包括关系型数据库、XML数据库等。 格式化电子文件:电子文件,例如Word、PDF、XLS等文件。 1.1.2元数据抽取的流程 元数据抽取的流程有4个主要步骤,分别为: 数据源信息获取:解决要从哪个数据源获得元数据的问题。 内容/结构分析:解决要从数据源中获得哪些元数据的问题。 元数据提取:解决如何从数据源中获取元数据的问题。 存储入库:解决元数据存储的问题。

1.1.3电子文档的元数据抽取 对于电子文档,首先各部门的文档格式不尽相同,另外它们的安全级别也各不相同,同时由于信息化建设水平的不一致,有的部门文档分散在各处,有的部门文档是集中存放的,甚至已经建立了完善的电子系统进行管理。 针对以上状况,对于电子文档的元数据抽取需要进行以下的抽取流程: ●整理归档 对于分散在各处的电子文档(纸质文档需要先进行电子化处理),必须由专人进行统一整理,根据公开共享的前提进行集中,这种集中能够是物理上集中的,也能够是逻辑上集中的。但要满足以下原则,第一根据安全级别,便于外界访问;第二便于文档的增量发布;第三便于采集工具的自动化采集编目。各部门只有在文档完全整理归档的情况下,进行自动化采集才是切实可行的。在整理归档的时候,各部门根据各自情况进行归档,没有必要千篇一律,也没有必要制定繁琐和呆板的规则,只要能够满足以上的原则即可。 ●根据安全级别,建立相应的访问机制 由于受到安全级别的限制,因此对于需要共享的数据要进行安全方面的限制,限制的手段能够有:用户名/密码、数字证书、物理隔断等等,根据实际情况建立安全访问机制,做到重要信息不泄露,不丢失。 ●编目处理

数据仓库元数据管理

1.1.1 第一章元数据概论 企业的计算机系统每年会产生很多数据,很多企业面临着这样的困境,难以有效的管理大量的、繁杂的、不一致的数据,并方便地访问、利用这些数据进行辅助决策。 建立数据仓库提供一个方法,把数据转化为有用的、可信赖的信息,支持商业决策。建立数据仓库一个重要的工作是元数据管理。元数据(Metadata)就是数据的数据,用于建立、管理、维护和使用数据仓库。。元数据管理是企业级数据仓库中的关键组件,贯穿于建立数据仓库的整个过程。 元数据使得用户可以掌握数据的历史情况,如数据从哪里来?流通时间有多长?更新频率是多大?数据元素的含义是什么?对它已经进行了哪些计算、转换和筛选等等。在需求不确定情况下,在瞬间万变的商业环境下,元数据可以更好的支持需求的变化,降低项目风险。 通常把元数据分为技术元数据(Technical Metadata)和业务元数据(Business Metadata)。技术元数据是描述关于数据仓库技术细节的数据,这些元数据应用于开发、管理和维护数据仓库;业务元数据从商业和业务的角度描述数据仓库的数据,提供了良好的语义层定义,业务元数据使业务人员能够更好的理解数据仓库分析出来的数据。 元数据贯彻于建立数据仓库的整个过程,不只是ETL过程需要元数据的支持。 图1 元数据的应用 在使用元数据的同时,随着数据仓库市场的发展,业界出现许多数据仓库管理和分析的工具,各种工具使用不同的元数据标准来表示和处理,不同系统之间的迁移、数据交换变得困难。于是,我们希望用一种单一的元数据标准,使得各种组织的元数据具有单一的元模型(MetaModel),因此,需要建立一种标准使得不同的数据仓库和商业智能系统之间可以相互交换元数据。 1.1.2 第二章元数据标准 1.1. 2.1 一、元数据标准CWM OMG于2001年颁布元数据标准CWM 1.0(Common Warehouse Metamodel Version 1.0)。CWM定义一个描述数据源、数据目的、转换、分析的元数据框架,以及定义建立和管理数据仓库的过程和操作,提供使用信息的继承。 目前宣布支持CWM的厂商包括:IBM、Oracle、Hyperion、Dimension EDI、Genesis IONA、HP、NCR和Unisys等。 CWM基于3个工业标准: UML - Unified Modeling Language,OMG建模标准; MOF - Meta Object Facility,OMG建立元模型和模型库的标准,提供在异构环境下的数据交换的接口; XMI - XML Metadata Interchange,OMG元数据交换标准。 UML在CWM中得到充分的应用,担任3个不同的角色: 1),UML用来做为与MOF对应的meta-metamodel。UML相当于MOF Model,,UML Notation和OCL(Object Constraint Language),被用来做为建模语言、图形符号、约束语言,

2018年系统元数据管理系统分析

2018年系统元数据管理系统分析 1. 现状分析 随着经营分析系统规模不断扩大,系统所积累数据量也越来越大,收集到的海量数据背后隐藏着大量珍贵重要的信息,但也同时提高了系统的数据管理难度:一方面难以对这些数据进行有效解释,缺乏对业务流程执行的实时监控和管理;另一方面各部门数据与数据整合的难度也不断加大,影响到了经营分析系统中的数据质量。 如何对现有数据进行深层发掘,并揭示出埋藏在元数据中的趋势、因果关系、关联模式等核心信息?这是下一步深化经营分析系统应用的电信运营商需要解决的头等大事。构建BI,首先要保证的是数据质量。元数据管理解决的问题就是如何把业务系统中的数据分门别类地进行管理,并建立数据与数据之间的关系,为数据仓库的数据质量监控提供基础素材。 1.1 目前的困境 使用者(决策层、业务分析人员): 1) 经营分析系统中存在有很多报表,不同报表中存在一些相同的指标,这些指标往往不一致,给业务分析和决策工作造成很多困惑,必须花费很大的精力去检查核实。 2) 对于很多指标,不清楚其具体含义,不清楚其反映的问题,不清楚其具体算法和来龙去脉。

数据仓库项目开发维护者: 1) 不同报表中的同一指标不一致,必须花费很大的精力去检查,目前基本上是通过手工检查表和存储过程的方式,效率较低。 2) 没有完善的开发、维护规范。比如,新增一张分析报表,开发人员根据业务人员的需求制作完成之后,往往没有整理完善相应的数据指标解释和元数据管理,造成日后检查困难。 3) 开发、维护规范的执行力较低,没有行之有效的管控手段。不严格按照规范执行,随着项目的发展和时间的推移,导致数据仓库项目的健壮性和可维护性呈几何级数下降,给数据仓库的建设带来大量的重复工作。 1.2 什么是元数据管理 元数据最本质,最抽象的定义为:data about data (关于数据的数据)。而对于经营分析数据仓库而言,形象的定义为:元数据就是数据仓库的规范。这些规范包括对各种指标的定义、解释;包括对各表中数据的来龙去脉、数据的大小和格式的定义。 元数据管理,就是要建立一套行之有效的规范以及该规范的管控体系,实现从管理到查询到综合分析的全面管控,管理层次从接口到ETL处理、业务逻辑处理、结果展现处理和指标分析的方方面面,构成数据仓库应用系统的核心和基础。做到开发者能严格遵守规范,维护者和使用者有规范可查,有力的保障数据仓库项目的健壮性和可维护性。

元数据管理

1.前言 数据仓库中的数据是从许多业务处理系统中抽取、转换而来,对于这样一个复杂的企业数据环境,如何以安全、高效的方式来对它们进行管理和访问就变得尤为重要。解决这一问题的关键是对元数据进行科学有效的管理。元数据是关于数据、操纵数据的进程和应用程序的结构和意义的描述信息,其主要目标是提供数据资源的全面指南。元数据不仅定义了数据仓库中数据的模式、来源以及抽取和转换规则等,而且整个数据仓库系统的运行都是基于元数据的,是元数据把数据仓库系统中的各个松散的组件联系起来,组成了一个有机的整体。2.元数据 2.1 元数据的概念 按照传统的定义,元数据(Metadata)是关于数据的数据。在数据仓库系统中,元数据可以帮助数据仓库管理员和数据仓库的开发人员非常方便地找到他们所关心的数据;元数据是描述数据仓库内数据的结构和建立方法的数据,可将其按用途的不同分为两类:技术元数据(Technical Metadata)和业务元数据(Business Metadata)。 技术元数据是存储关于数据仓库系统技术细节的数据,是用于开发和管理数据仓库使用的数据。

业务元数据从业务角度描述了数据仓库中的数据,它提供了介于使用者和实际系统之间的语义层,使得不懂计算机技术的业务人员也能够“读懂”数据仓库中的数据。业务元数据主要包括以下信息:使用者的业务术语所表达的数据模型、对象名和属性名;访问数据的原则和数据的来源;系统所提供的分析方法以及公式和报表的信息。 2.2 元数据的作用 在数据仓库系统中,元数据机制主要支持以下五类系统管理功能:(1)描述哪些数据在数据仓库中;(2)定义要进入数据仓库中的数据和从数据仓库中产生的数据;(3)记录根据业务事件发生而随之进行的数据抽取工作时间安排;(4)记录并检测系统数据一致性的要求和执行情况;(5)衡量数据质量。 与其说数据仓库是软件开发项目,还不如说是系统集成项目[1],因为它的主要工作是把所需的数据仓库工具集成在一起,完成数据的抽取、转换和加载,OLAP分析和数据挖掘等。 3.数据仓库元数据管理现状 元数据管理的主要任务有两个方面:一是负责存储和维护元数据库中的元数据;二是负责数据仓库建模工具、数据获取工具、前端工具等之间的消息传递,协调各模

《元数据的作用 [元数据的构成方式]》

《元数据的作用[元数据的构成方式]》 (徐枫宦茂盛)通过元数据的描述,能够使信息资源的使用者了解数据的内容、特征、作用、获取方式等信息。元数据是关于数据的数据,在建立信息资源目录体系的过程中,元数据主要是对信息资源从外部特征进行而非从内部结构进行描述。通俗地讲,元数据就是信息资源的标签或卡片,通过元数据的描述,可以使信息资源的使用者能够了解数据的内容、特征、作用、获取方式等信息,能够对信息资源是否满足特定的应用需求做出适当的评价,并根据评价的结果决定是否采取进一步的措施来获取该信息资源。 元数据是信息资源目录体系建立的基础,构建一个信息资源目录体系首要和基础性的工作就是建立描述各个信息资源的元数据库,元数据库中存储的是描述各种来源、各种类型的信息资源的描述信息。无论用户以何种方式查询信息资源目录,包括以分类目录的形式进行查询、或者以多关键词的形式进行查询,其本质都是对后台元数据库的检索,只是从表现层提供了不同形式的人机查询接口。根据所描述的信息资源对象的不同,可以建立不同的元数据库,分别对各类信息资源进行描述。 元数据的组成 为能够对信息资源进行准确和高效的描述,元数据本身具有自身的逻辑结构。一般来说,元数据本身是层次化、树状结构的。处于树状结构最底端的叶子节点称之为元数据元素,包含了元数据元素的节点称之为元数据实体,当然元数据实体也可以只包含元数据实体。根

据实际需求,元数据实体或者元数据元素可以多次出现。例如,信息资源可以有不同的分类,可以按照信息资源的来源进行分类,也可以按照信息资源的不同应用主题进行分类,因此,“信息资源分类”元数据实体就可以出现多次。 元数据一般分三个方面对信息资源进行描述。 一是对信息资源基本内容的描述。包括信息资源的标题、摘要、关键词等基本信息。标题是信息资源的名称,通过标题使用者能够初步掌握信息资源的基本范围。其次,使用者可以通过摘要,了解信息资源的主要内容、用途等各种信息。一般情况下,用户主要通过摘要作为信息资源适用性评价的主要依据。所以,在信息资源元数据的著录过程中,摘要的填写一般都由专业人员完成,只有专业人员才能够对信息资源的内容有准确的把握和深入的理解,能够提供有关信息资源内容的更加权威的解释。根据信息资源对象的不同,描述信息资源基本内容的元数据实体和元数据元素还可以进行有选择的增加。例如,描述空间信息资源时,可以增加空间参照系、图示表达等元数据实体,描述科学数据资源时需要增加数据质量等元数据实体。 二是对信息资源的获取方式进行描述。包括信息资源的分发者信息、信息资源的在线获取地址信息等。通过提供分发者联系信息,使用者可以直接联系信息资源的分发部门,这对于不能直接在网络上进行数据交换的信息资源获取非常有效。其次,使用者还可以通过信息资源的在线地址来下载、查询、浏览信息资源。使用者甚至可以提供专门的电子订单处理系统,并将入口信息加入到元数据内容中,方便

元数据管理方案

元数据管理方案 1.1元数据抽取 为了简化元数据生成工作,系统提供自动生成元数据的功能,即元数据抽取。通过元数据自动抽取,用户可以方便、快捷地获得大量的元数据信息。 1.1.1抽取的对象 元数据抽取主要针对的对象有以下几种: 已有目录:已建业务应用系统中现有的目录资源。 数据库:各种数据库资源,包括关系型数据库、XML数据库等。 格式化电子文件:电子文件,例如Word、PDF、XLS等文件。 1.1.2元数据抽取的流程 元数据抽取的流程有4个主要步骤,分别为: 数据源信息获取:解决要从哪个数据源获得元数据的问题。 内容/结构分析:解决要从数据源中获得哪些元数据的问题。 元数据提取:解决如何从数据源中获取元数据的问题。 存储入库:解决元数据存储的问题。 1.1.3电子文档的元数据抽取 对于电子文档,首先各部门的文档格式不尽相同,另外它们的安全级别也各不相同,同时由于信息化建设水平的不一致,有的部门文档分散在各处,有的部门文档是集中存放的,甚至已经建立了完善的电子系统进行管理。 针对以上状况,对于电子文档的元数据抽取需要进行以下的抽取流程: 整理归档 对于分散在各处的电子文档(纸质文档需要先进行电子化处理),必须由专人进行统

一整理,根据公开共享的前提进行集中,这种集中可以是物理上集中的,也可以是逻辑上集中的。但要满足以下原则,第一根据安全级别,便于外界访问;第二便于文档的增量发布;第三便于采集工具的自动化采集编目。各部门只有在文档完全整理归档的情况下,进行自动化采集才是切实可行的。在整理归档的时候,各部门根据各自情况进行归档,没有必要千篇一律,也没有必要制定繁琐和呆板的规则,只要能够满足以上的原则即可。 ●根据安全级别,建立相应的访问机制 由于受到安全级别的限制,所以对于需要共享的数据要进行安全方面的限制,限制的手段可以有:用户名/密码、数字证书、物理隔断等等,根据实际情况建立安全访问机制,做到重要信息不泄露,不丢失。 ●编目处理 现阶段,主流格式的电子文档,主要包含:word、excel、ppt、pdf等。对主流格式的电子文档,要提供自动采集工具进行编目处理。采集的范围主要是文档的标题和内容,对于其它的元数据内容,要提供手工配置的方式进行辅助。另外,在工具的采集效率上,要提高增量文档发布后的采集效率。 对于格式特殊、内容有加密算法的文档,是很难通过抓取工具进行采集的,这些文档主要通过手工编目的方式来处理。 对于存在管理库的文档,就需要对数据库来进行编目采集,详见数据库元数据抽取部分。 ●保存元数据 采集后的数据要放到数据库或者保存到硬盘上,另外要根据目录体系标准,把数据分解为元数据,然后进行存储 1.1.4数据库元数据抽取 数据中心需要抽取的数据库类型主要为Sql server,首先利用ETL工具从源数据库中将所需数据抽取至中心数据库基础业务库中,在利用元数据著录工具对抽取出来的数据进行元数据著录。

数据仓库与数据挖掘考试试题

一、| 二、填空题(15分) 1.数据仓库的特点分别是面向主题、集成、相对稳定、反映历史变化。 2.元数据是描述数据仓库内数据的结构和建立方法的数据。根据元数据用途的不同可将元数据分为技术元数据和业务元数据两类。 技术多维分析过程中,多维分析操作包括切片、切块、钻取、旋转等。 4.基于依赖型数据集市和操作型数据存储的数据仓库体系结构常常被称为“中心和辐射”架构,其中企业级数据仓库是中心,源数据系统和数据集市在输入和输出范围的两端。 实际上是一个集成的、面向主题的、可更新的、当前值的、企业级的、详细的数据库,也叫运营数据存储。 三、多项选择题(10分) 6.在数据挖掘的分析方法中,直接数据挖掘包括(ACD) ) A 分类 B 关联 C 估值 D 预言 7.数据仓库的数据ETL过程中,ETL软件的主要功能包括(ABC) A 数据抽取 B 数据转换 C 数据加载 D 数据稽核 8.数据分类的评价准则包括(ABCD ) A 精确度 B 查全率和查准率 C F-Measure D 几何均值 9.层次聚类方法包括(BC ) A 划分聚类方法 B 凝聚型层次聚类方法 C 分解型层次聚类方法 D 基于密度聚类方法 10.贝叶斯网络由两部分组成,分别是( A D ) . A 网络结构 B 先验概率 C 后验概率 D 条件概率表 四、计算题(30分) 11.一个食品连锁店每周的事务记录如下表所示,其中每一条事务表示在一项收款机业务中卖出的项目,假定sup min=40%,conf min=40%,使用Apriori算法计算生成的关联规则,标明每趟数据库扫描时的候选集和大项目集。(15分)

元数据的概念

元数据的概念 元数据(Metadata),即关于数据的数据,是对数据和信息资源进行描述的信息。通常认为,元数据是为了更为有效地管理和使用数据而对它进行说明的信息。所以元数据与其描述的数据内容有着密切联系,不同领域的数据的元数据在内容 上差异很大。地理空间数据的元数据是地理空间的空间数据和属性数据以外的描述地理信息空间数据集的内容、质量、状态和其它特性的一类数据,它是实现地理空间信息共享的核心标准之一。其中,对空间数据某一特征的描述,称为一个空间元数据元素。空间元数据是一个由若干复杂或简单的元数据项组成的集合。它与非空间元数据的主要区别在于其内容中包含大量与空间位置有关的描述性信息。 研究元数据的作用和意义 元数据可用来帮助数据提供者和数据使用者解决数据转换、沟通和理解的问题。归纳起来,元数据主要有下列几个方面的作用: 1)、用来组织、管理和维护空间数据,建立数据文档,并保证即使其主要工作人员退休或调离时,也不会失去对数据情况的了解 2)、提供数据存储、数据分类、数据内容、数据质量及数据分发等方面的信息,帮助数据使用者查询检索所需地理空间数据 3)、用来建立空间信息的数据目录和数据交换中心,提供通过网络对数据进行查询检索的方法或途径,以及与数据交换和传输有关的辅助信息 4)、通过空间元数据,人们可以接受并理解空间信息,帮助数据使用者了解数据, 以便就数据是否能满足其需求作出正确的判断并与自己的空间信息集成在一起,进行不同方面的科学分析和决策。 元数据是使数据充分发挥作用的重要条件之一。它可以用于许多方面,包括数据文档建立、数据发布、数据浏览、数据转换等。元数据对于促进数据的管理、使用和共享均有重要的作用。元数据对于建立空间数据交换网络是十分重要的,往往网络中心通过设在中心的元数据库可以实时地连接各个分发数据的分节点元数据库,帮助潜在的用户找到其特定应用所需要的数据,实现数据共享。 一个完整的元数据系统通常包括三部分,即元数据标准、元数据管理工具和元数据库。不同的元数据库可能采用不同的管理工具,唯一能够在不同数据管理软件间交换元数据的途径是统一元数据标准,只有在统一的标准前提下,才能跨越操作系统平台和数据库软件平台进行数据的互操作,实现数据共享。 DIF 元数据标准

国家基础地理信息系统元数据标准(草案)

国家基础地理信息系统(NFGIS)元数据标准草案(初 稿) 1. 主题内容与适用范围 本标准提供国家基础地理信息系统(NFGIS)元数据的内容,包括NFGIS数据的标识、内容、质量、状况及其他有关特征。本标准可用于对NFGIS数据集的全面描述、数据集编目及信息交换网络服务。 2. 参考标准 ISO 15046-15地理信息--元数据(CD 2.0) FGDC 地理空间数据元数据内容标准(CSDGM)v.2.0 3. 术语 3.1 元数据 是关于数据的数据,即关于数据的内容、质量、状况和其他特性的信息。也可译为描述数据或诠释数据。 3.2 元数据元素(元数据Element)元数据最基本的信息单元。 3.3 元数据实体(元数据Entity)同类元数据元素的集合。 3.4 元数据子集(元数据Section)相互关联的元数据实体和元素的集合。 3.5 信息交换网络(Clearinghouse)数据生产者、管理者和用户之间的分布式、电子连接的网络。 3.6 数据志(Lineage)数据继承信息,包括获取或生产数据使用的原始资料说明、数据处理中的参数、步骤等情况及负责单位的有关信息等。 3.7 引用文献(Citation)数据集引用或参考使用的资料、数据集、模型、文献等。 4. NFGIS 元数据层次结构和性质 4.1 元数据层次结构 本标准规定NFGIS元数据分为三层:元数据子集、元数据实体和元数据元素。 元数据元素是元数据的最基本的信息单元,元数据实体是同类元数据元素的集合,元数据子集是相互关联的元数据实体和元素的集合。在同一个子集中,实体可以有两类即简单实体和复合实体,简单实体只包含元素,复合实体既包含简单实体又包含元素,同时复合实体与简单实体及构成这两种实体的元素之间具有继承关系。 4.2 元数据性质 本标准定义三种性质的元数据子集、实体和元素:

4电子文件通用元数据规范

电子文件元数据标准 (征求意见稿) 1.范围 本标准适用于各级机关、团体、企事业单位、社会组织。本标准规定了电子文件元数据的结构、定义、编码体系。 本标准描述的数字对象为通用的电子文件核心元数据,主要为原生电子文件与数字化文件(文本、图像)元数据。根据发展需要,扩展编制图形、影像、声音等文件类型的元数据标准。 2.编制目的 2.1 对文件及相关实体进行标准化描述; 2.2 实现不同机构、不同系统之间文件及信息的互操作; 2.3 为电子文件在不同时间、不同空间、不同应用软件中的再利用提供统一的元数据; 2.4 为电子政务、办公自动化、电子文件中心、文档管理、档案管理等系统提供成熟的电子文件全过程管理的设计模式。 3.规范性引用文件 下列文件中的条款,通过本标准的引用而成为本标准的条款。凡是注日期的引用文件,其随后所有的修改单(不包括勘误的内容)或修订版均不适用于本标准,然而,鼓励根据本标准达成协议的各方研究是否可使用这些文件的最新版本。凡是不注日期的引用文件,其最新版本适用于本标准。 GB/T 2659-2000 世界各国和地区名称代码 GB/T 2260-2002 中华人民共和国行政区划代码 GB/T 11714-1997 全国组织机构代码编制规则 GB/T 9704-1999 国家行政机关代码编制规则 GB 2312-1980 信息交换用汉字编码字符集基本集 GB/T 4880-1991 语种名称代码 GB/T 4880.2-2000 语种名称代码第2部分:3字母代码 GB/T 4881-1985 中国语种代码 GB/T 3792.1-1983 文献著录总则 GB/T 13959-1992 文件格式与代码编制方法 GB/T 15418-1994 档案分类标引规则 GB/T 3760-1995 文献叙词标引规则 GB/T 9704-1999 国家行政机关公文格式 GB 18030-2000 信息技术信息交换用汉字编码字符集基本集的扩充 GB/T 18894-2002 电子文件归档与管理规范 GB/T 7156-2003 文献保密等级代码 GB/T 19667 基于XML电子公文格式规范 DA/T12-1994 全宗卷规范 DA/T13-1994 档号编制规则 DA/T18-1999 档案著录规则 DA/T 19-1999 档案主题标引规则 DA/T 22-2000 归档文件整理规则 DA/T 1-2000 档案工作基本术语

相关文档