文档库 最新最全的文档下载
当前位置:文档库 › 基于hadoop平台的教育资源垂直搜索系统的设计与实现本科毕设论文

基于hadoop平台的教育资源垂直搜索系统的设计与实现本科毕设论文

基于hadoop平台的教育资源垂直搜索系统的设计与实现本科毕设论文
基于hadoop平台的教育资源垂直搜索系统的设计与实现本科毕设论文

分类号密级

UDC 编号

学位论文

基于Hadoop平台的教育资源垂直搜索系统的设计与实现

Implementation of Education Resource Vertical Searching

System Based on Hadoop

分类号:密级:

U D C :编号:

学位论文

基于Hadoop平台的教育资源垂直搜索系统的设计与实现

I mplementation of Education Resource Vertical Searching System

Based on Hadoop

学科专业:计算机应用技术

计算机科学与通信工程学院

2 0 11 年04 月

江苏大学工程硕士学位论文

学位论文版权使用授权书

本学位论文作者完全了解学校有关保留、使用学位论文的规定,同意学校保留并向国家有关部门或机构送交论文的复印件和电子版,允许论文被查阅和借阅。本人授权江苏大学可以将本学位论文的全部内容或部分内容编入有关数据库进行检索,可以采用影印、缩印或扫描等复制手段保存和汇编本学位论文。

保密,在年解密后适用本授权书。

本学位论文属于

不保密。

学位论文作者签名:指导教师签名:

年月日年月日

毕业设计(论文)原创性声明和使用授权说明

原创性声明

本人郑重承诺:所呈交的毕业设计(论文),是我个人在指导教师的指导下进行的研究工作及取得的成果。尽我所知,除文中特别加以标注和致谢的地方外,不包含其他人或组织已经发表或公布过的研究成果,也不包含我为获得及其它教育机构的学位或学历而使用过的材料。对本研究提供过帮助和做出过贡献的个人或集体,均已在文中作了明确的说明并表示了谢意。

作者签名:日期:

指导教师签名:日期:

使用授权说明

本人完全了解大学关于收集、保存、使用毕业设计(论文)的规定,即:按照学校要求提交毕业设计(论文)的印刷本和电子版本;学校有权保存毕业设计(论文)的印刷本和电子版,并提供目录检索与阅览服务;学校可以采用影印、缩印、数字化或其它复制手段保存论文;在不以赢利为目的前提下,学校可以公布论文的部分或全部内容。

作者签名:日期:

学位论文原创性声明

本人郑重声明:所呈交的论文是本人在导师的指导下独立进行研究所取得的研究成果。除了文中特别加以标注引用的内容外,本论文不包含任何其他个人或集体已经发表或撰写的成果作品。对本文的研究做出重要贡献的个人和集体,均已在文中以明确方式标明。本人完全意识到本声明的法律后果由本人承担。

作者签名:日期:年月日

学位论文版权使用授权书

本学位论文作者完全了解学校有关保留、使用学位论文的规定,同意学校保留并向国家有关部门或机构送交论文的复印件和电子版,允许论文被查阅和借阅。本人授权大学可以将本学位论文的全部或部分内容编入有关数据库进行检索,可以采用影印、缩印或扫描等复制手段保存和汇编本学位论文。

涉密论文按学校规定处理。

作者签名:日期:年月日

导师签名:日期:年月日

指导教师评阅书

评阅教师评阅书

教研室(或答辩小组)及教学系意见

摘要

互联网的出现改变了我们的生活、工作、学习乃至娱乐的方式。网上丰富的基础教育资源为广大基础教育工作者、学生以及学生家长提供了充足的参考资料和教育信息,然而由于缺乏行之有效的整合标准和手段,目前这些资源的分布呈现高度分散状态,内容庞杂无序,结构化程度低,用户往往难以快速准确地获取到自己需要的信息。所以我们必须研究和设计出针对教育资源搜索的网络平台,以提高用户获取教育资源信息的速度和准确度。

本文通过对现有的互联网搜索平台的分析,借鉴其他应用领域的垂直搜索平台所采用的架构和设计方法,通过使用Hadoop平台的分层分布的架构和聚焦蜘蛛的爬行技术,提出基于Hadoop平台的B/S多层分布式架构系统模型,给出提高搜索运行效率的若干关键技术,并基于该架构的设计实现了系统。本文的主要工作包括:

(1) 通过对Hadoop平台的基本原理和架构以及Hadoop平台的两个核心组件HDFS与Map/Reduce的分析,选择Hbase对系统的数据进行管理,并对可视化系统的Hbase数据模型的设计以及条件查询的改进进行阐述。

(2) 基于抽样调查和教育经验,进行MDVSP的软件需求分析,设计基于Hadoop平台的教育资源垂直搜索(MDVSP)架构模型。该架构模型把业务处理服务器与Web服务器分开,采用并行计算提高业务处理能力,使得基于该架构模型下的系统具有良好的可伸缩性、可扩展性、可维护性和更高的安全性。

(3) 研究基于Hadoop平台的教育资源搜索系统所采用的关键技术,包括聚焦蜘蛛的爬行技术、网页信息结构化提取技术、远程过程调用(RPC)技术、基于Hadoop的Map/Reduce技术和基于Hadoop的负载均衡技术。

(4) 以Hadoop为基础架构,采用Java开发语言,设计并实现Hadoop平台的教育资源搜索系统。经过详细的系统测试,系统在实现效率、搜索的准确率和

可扩展性等方面较有代表性的垂直搜索平台先进。

关键词:垂直搜索引擎;Hadoop;网页信息抽取;抽取规则;索引库

Abstract

The WWW has been a tremendous impact on the way of human beings lives, works, and studies, even entertainments. Especially in education realm, educators, students and their parents can get more and more references and education resources with the help of internet. However, there’s still an unresolved a problem, for lacking

of suitable standards and filtering methods, actually, it will spend more time to get the resource you really want .To solve this issue, we need to do some research and design a better platform to extract interesting information conveniently, accurately and efficiently.

On the basis of comparing the frameworks and designing methods adopted by current Searching Engines, and learning from other applications used in vertical searching platform architecture and design method, by means of the hierarchical structure and the focused-spider creeping technology, this dissertation presents a new model of Multi-tier Distributed Vertical Searching Platform(MDVSP) for Educational Realm based on Hadoop, which is a mixed B/S framework. The thesis also amply demonstrates the key techniques of improving the operating efficiency of the MDVSP. Moreover, based on the new mixed framework of MDVSP, the dissertation succeeds in designing the Prototype System of MDVSP. The dissertation mainly concerns the following four aspects:

1. This dissertation presents the basic principles and framework of the Hadoop platform, and introduces the two core components of Hadoop HDFS and Map/Reduce algorithm. To manage data on the Hadoop platform better, the MDVSP chooses Hbase as database storage, which is a major component of Hadoop. This thesis also uses several sections to describe the Hbase’s date structure model design and the query improvements.

2. MDVSP software requirement analysis is based on sampling survey results and education experiences. MDVSP is chosen based on the analysis result. The advantage of this model is to process the business and Web separately, and it can parallel compute Map/Reduce. Which provide MDVSP better condensability, expendability, maintainability and higher security.

3. The key technologies that MDVSP has been used includes focused-spider creeping technology, structured web information extraction technology, remote

procedure call(RPC) technology, Map/Reduce technology based on Hadoop and load balancing technology based on Hadoop.

4. With the key technologies researching, and detailed analyzing the requirement of the MDVSP, this dissertation accomplishes the design of the Prototype System of M-Disem, which uses Java programming language and structures on Hadoop platform. After a detailed system testing and compared with other Vertical Searching Systems, the MDVSP achieves high efficiency, accuracy searching and good scalability.

Keywords Vertical; Searching Engine; Hadoop; Web Information Extraction; Extraction rules; Index Database

目录

第一章绪论 (1)

1.1课题研究背景及意义 (1)

1.1.1背景及意义 (1)

1.1.2 目前现状 (1)

1.2教育资源搜索存在的问题 (2)

1.3本文主要工作 (3)

1.4本文的组织结构 (3)

第二章HADOOP平台架构 (5)

2.1Hadoop的产生 (5)

2.2基于Hadoop分布式架构的优势 (5)

2.3Hadoop组件 (6)

2.4本章小结 (6)

第三章MDVSP平台需求分析 (8)

3.1教育资源垂直搜索的用户群 (8)

3.2MDVSP搜索资源类型需求 (9)

3.3MDVSP搜索平台功能需求 (10)

3.4本章小结 (11)

第四章基于HADOOP平台的MDVSP模型 (12)

4.1分布式文件系统HDFS与Map/Reduce技术 (12)

4.1.1 分布式文件系统HDFS (13)

4.1.2 Map/Reduce技术 (16)

4.2基于Hadoop的MDVSP平台的多层分布式架构 (19)

4.2.1 系统体系结构 (19)

4.2.2 MDVSP平台数据处理模型整体框架 (20)

4.2.3 MDVSP平台数据在H DFS中存放结构 (21)

4.3MDVSP通信数据模型设计 (21)

4.3.1 数据模型分析 (21)

4.3.2 数据模型设计 (22)

4.3.3 主表设计 (23)

4.4本章小结 (25)

第五章HADOOP平台的MDVSP的关键技术 (27)

5.1MDVSP中聚焦蜘蛛 (27)

5.1.1 工作原理 (27)

5.1.2 关键技术 (28)

5.2Map/Reduce设计 (31)

5.2.1 Map/Reduce逻辑结构设计 (32)

5.2.2 Map/Reduce数据流设计 (33)

5.2.3 容错和可靠性设计 (33)

5.2.4 任务粒度和backup任务性能优化设计 (34)

5.3远程调用设计 (35)

5.3.1 MDVSP采用的RPC远程调用设计思想 (35)

5.3.2 MDVSP-RPC数据表示设计 (36)

5.3.3 MDVSP-RPC服务器端的实现 (38)

5.3.4 MDVSP-RPC客户端的实现 (38)

5.4Hadoop的HA设计 (39)

5.4.1 Health Check设计 (40)

5.4.2 Hadoop Failover流程设计 (41)

5.5本章小结 (42)

相关文档