当前位置：文档库 › 华南理工大学本科毕业设计开题报告

华南理工大学本科毕业设计开题报告

一、选题的背景及意义近四十年来，传统的确定性数据( deterministic data)

管理技术得到了极大的发展，造就了一个数百亿的数据库产业。

数据库技术和系统已经成为信息化社会基础设施建设的重要支撑。

在传统数据库的应用中，数据的存在性和精确性均确定无疑。

近年来，随着技术的进步和人们对数据采集和处理技术理解的不断深入，不确定性数据( uncertain data)

得到了广泛的重视。

在许多现实的应用中，例如经济、军事、物流、金融、电信等领域，数据的不确定性普遍存在，不确定性数据扮演着关键角色。

传统的数据管理技术却无法有效管理不确定性数据，这就引发了学术界和工业界对研发新型的不确定性数据管理技术的兴趣。

由于不确定性数据的产生原因比较复杂（可能是原始数据本身不准确或是采用了粗粒度的数据集合，也可能是为了满足特殊应用目的或是在处理缺失值、数据集成过程中而产生的），因此，不确定性数据的种类较多，例如关系型数据、半结构化数据、流数据、移动对象数据等，相应地也出现了许多与数据类型紧密相关的数据模型。

定义与应用场景相匹配的数据模型是不确定性数据管理的首要任务. 在不确定性数据管理领域,最常用的模型是可能世界模型(possibleworld model) 。该模型从一个不确定性数据库演化出很多确定的数据库实例(称为可能世界实例)

,而且所有实例的概率之和为 1. 不确定性数据的种类较多,例如关系型数据、半结构化数据、流数据、移动对象数据等,尽管存在许多与数据类型紧密相关的数据模型, 但是这些模型最终都可以转化为可能世界模型. 其中，基于 xml 的不确定性数据建模的研究对象主要是半结构化数据模型。

半结构化数据模型( semistructured data model)

能有效描述缺乏严格模式结构的数据。

半结构化数据通常可以用文档树来描述。

Dekhtyar 等人提出了一种管理概率半结构化数据(probabilistic semistructured data)

的方法，该方法以关系数据库技术为基础，支持丰富的代数查询。

更多的工作则是直接以文档树形式描述不确定性半结构化数据，例如p2 文档模型( p2document model)

、概率树模型，以及 PXML 模型、Keulen 等人的概率树模型、PrXML 模型等。

二、工作任务分析我在小组中的研究部分是不确定性数据的模型。项目开启后，我的工作与任务可分解分以下几个部分 1、学习与整理前辈们在不确定性数据方面的研究成果。这项目工作任务主要分三个阶段进行。第一阶段是广泛地收集与了解不确定性数据的相关知识，了解不确定性数据的轮廓，知道相关的术语、概念，方便以后与别人作相关的交流。

第二阶段是有针对性学习与理整理现有的不确定性数据模型方面的理论知识。这一阶段，要知道各种模型的概念、所针对不同种类的数据、以及它们优势与不足之处。第三阶段是把精力放在不确定性数据研究的某种数据的模型上。

此阶段要做到对相关的模型在较深入的理解，不单要知道他们的定义、优劣、具体应用情况，还要理解它们在数学上表述、证明。

2、对现有的不确定性数据模型提出自己的见解。主要包括以下一系列的活动：

1）仔细研究现在模型的优点与不足之处；2）与其它组员（还有指导老师以及相关的研究人员）交流看法，尤其是向其它组员了解在不确定性数据的存储与查询方面算法知识，为优化工作提供依据与灵感。3）整理所收集到的不确定性数据模型的资料。

三、调研报告 1 不确定性数据与xml 的发展史实际上，针对不确定性数据的研究工作已经有几十年历史了。从二十世纪八十年代末开始，针对概率数据库（probabilistic database）的研究工作就从未间断，这类研究工作将不确定性引入到关系数据模型中去，取得较大研究进展。近年来，针对不确定性数据的研究工作则在更广的范围之内取得更大的进展，即：在更丰富的数据类型上处理更多种类的查询任务。不确定性数据管理技术的典型框架包含四大部分：模型定义、预处理与集成、存储与索引、查询分析处理。

可扩展标记语言XML（eXtensible Markup Language）〔1〕是一种简单灵活的文本格式的可扩展标记语言，起源于 SGML(Standard Generalized Markup Language)，是 SGML 的一个子集合，也就是 SGML 的一个简化版本，非常适合于在 Web 上或者其它多种数据源间进行数据的交换。随着 Web 上数据的增多，HTML 的缺点越来越突出。W3C 的成员认识到，必须有一种方法能够把数据本身和数据的显示分离开来，这样W3C 在1996 年提出了XML 的概念。XML 不仅保留了SGML 的很多优点，而且更加容易操作以及在World Wide Web 环境下实现。

1998 年，XML 成了W3C 的推荐标准。

2 不确定性数据的发展方向在传统数据库的应用中，数据的存在性和精确性均确凿无疑。近年来，随着技术的进步和人们对数据采集和处理技术理解的不断深入，不确定性数据（uncertain data）得到广泛的重视。在许多现实的应用中，例如：经济、军事、物流、金融、电信等领域，数据的不确定性普遍存在，不确定性数据扮演关键角色。传统的数据管理技术却无法有效管理不确定性数据，这就引发了学术界和工业界对研发新型的不确定性数据管理技术的兴趣。针对不确定性数据的研究工作则在更广的范围之内取得更大的进展，即：在更丰富的数据类型上处理更多种类的查询任务。

四、方案拟定与分析 1、采用由大到小，由浅入深的顺序进行研究。

不确定性数据对于我来说，是比较新的东西。要想快速把握一样新的东西，并不断深入，从整体上了解它的整个框架，是很重要的。这样可以防止在研究的过程中迷失方向，同时，从整体上把握了不确定性数据后，也可以更方便更有效率地与别人进行交流，更有效地从网络上检索到有用的信息。

万丈高楼平地起，把握不确定性数据的整体，就是为不确定性数据的模型研究打基础。基础扎实，深入研究阶段才能底气。

五、毕业论文撰写提纲摘要Abstract 第一章绪论 1.1 不确定性数据的背景 1.2 不确定性数据的管理框架 1.2.1 模型定义 1.2.2 预处理与集成1.2.3 存储与索引 1.2.4 查询分析处理 1.3 不确定性数据的模型 1.4 建模的要求与挑战 1.4.1 庞大的可能世界实例集合 1.4.2 新出现的维度———概率维 1.4.3 不确定性数据管理的理论问题第二章可能世界模型 2.1 可能世界模型的简介 2.2 可能世界模型的举例与说明第三章针对关系型数据的模型

3.1 Probabilistic ?-table 模型 3.2 Probabilistic or-set table 模型 3.3 Probabilistic or-set-?

Table 模型 3.4 Probabilistic c-table 模型 3.4.1 三个简单的表达系统3.4.2 Probabilistic c-table 第四章针对半结构化数据的模型 4.1 p-document 模型 4.1.1 模型简介 4.1.2 xml 4.1.3 模型定义的相关问题与解决方法 4.2 概率树模型模型（probabilistic tree model 4.2.1 模型快照4.2.2 模型的定义 4.2.3 模型的不足之处 4.3 PXDB 模型 4.3.1 PXDB 模型引入 4.3.2 模型定义 4.3.3 c-formulae 4.3.4 模型评价第五章其它模型 5.1 针对数据流的模型 5.1.1 针对数据流的模型 5.1.2 一个常用模型的定义5.1.3 相关窗口的分类 5.2 针对多维数据的模型 5.2.1 关于OLAP 5.2.2 针对多维数据的模型 5.2.3 相关模型第六章总结 6.1 内容总结 6.2 展望参考文献致谢六、实施计划设计总共用时3 个半月左右。

具体安排如下：

论文选题，收集资料，并完成开题报告初稿。

学习与整理不确定性数据的相关资料。

进入不确定性数据模型深入研究阶段，并完成论文初稿。

修改毕业论文整理好材料，装订好论文，进行答辩准备。

指导教师意见：

签名：

年月日备注：

1、要有10 篇以上相关文章的阅读量。

2、理、工科开题报告撰写不少于2500 字，人文社科开题报告不少于3500 字，包括论文选题的背景和意义、工作任务分析、调研报告、方案拟定与分析、毕业论文撰写提纲及实施计划、文献综述（理、工科可不提交文献综述）等。

3、电脑打印，用 A4 纸，页边距左边 3。2cm，右边 2。54cm，上下边距 2。54cm，在左边装订；内容为小四号宋体，行距为固定值20 磅。

4、文献综述（按文献综述格式打印）附在开题报告后面一起装订。