文档库 最新最全的文档下载
当前位置:文档库 › 一种基于Hadoop平台的分布式数据检索系统

一种基于Hadoop平台的分布式数据检索系统

龙源期刊网 https://www.wendangku.net/doc/9a2997269.html,

一种基于Hadoop平台的分布式数据检索系统

作者:曹恒瑞曹展硕

来源:《软件导刊》2017年第04期

摘要:企业级检索不同于普通的数据检索和网站检索,它包括复杂结构的数据检索、安全检索、高可靠的查全和查准、智能化的数据检索服务和实时的数据更新服务等。虽然可以利用已有数据检索系统提供的站内数据检索功能来构建企业级数据检索系统,但这种站内检索功能难以满足绝大多数企业自身检索需求。随着大数据时代来临,为处理海量数据,建立大数据平台成为趋势,使用分布式文件存储系统,通过云计算技术来分析海量数据,开发企业级智能云检索系统是提高企业综合效益的关键。基于自然语言的智能云检索,研究开发了基于Hadoop 平台的分布式数据检索系统,实现了分布式文件系统和传统关系数据库协同运行的高效数据检索系统。

关键词:智能云检索;Hadoop平台;数据检索;企业级检索

中图分类号:TP319

文献标识码:A

文章编号:16727800(2017)004011803

0引言

现代信息技术迅猛发展,企业面对海量数据存储的压力越来越大,导致用户很难找到所需要的信息[12],已有的传统数据库管理系统无法满足企业检索需求。〖HJ*3/8〗Hadoop可建

立分布式集群,企业能够建立属于自己的大数据平台并通过大数据平台处理超大数据集及存储海量数据。为此,本文设计了基于Hadoop平台的分布式数据检索系统。系统包括4个模块[3]:语言处理模块、中间语言处理模块、生成查询SQL模块和权限控制模块。语言处理模块主要负责语言本身的处理,包括切词、词性识别、同义词识别等。此模块提供智慧化的接口,用户可使用自然语言查询需要的信息,通过分词、词性识别等操作,输出结果,〖HJ〗提供给中间语言处理模块处理。中间语言处理模块主要负责将接收到的信息组合成伪SQL,然后通过SQL模块,生成能被数据库执行的SQL语句,得到查询记录集,最后格式化记录集返回给前台查询页面,完成自然语言查询过程。

1系统关键技术

1.1Hadoop技术

相关文档