文档库 最新最全的文档下载
当前位置:文档库 › 大数据考试题资料

大数据考试题资料

大数据考试题资料
大数据考试题资料

注:考生属哪种类别请划“√”

(博士、在校硕士、工程硕士、师资硕士、同等学力、研究生班)

辽宁工程技术大学

研究生考试试卷

考试时间:2015 年7 月14 日

考试科目:

考生姓名:

评卷人:

考试分数:

注意事项

1、考前研究生将上述项目填写清楚

2、字迹要清楚,保持卷面清洁

3、试题、试卷一齐交监考老师

4、教师将试题、试卷、成绩单,一起送研究生学院;

专业课报所在院、系

大数据及存储技术课程考试题签

一、大数据的定义、特征及面临的主要问题。

答:最先经历信息爆炸的学科,如天文学和基金学,创造出了“大数据”这个概念。大数据并非一个确切的概念,尚未有一个确切、统一的定义。目前关于大数据的几个主流定义有:(1)研究机构Gartner的定义,大数据是指需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。(2)维基百科的定义,大数据是指利用常用软件工具来获取、管理和处理数据所耗时间超过可容忍时间的数据集。(3)麦肯锡的定义,大数据是指无法在一定时间内用传统数据库软件工具对其内容进行采集、存储、管理和分析的数据集合。(4)IDC的定义,大数据一般会涉及两种或两种以上的数据形式,它要收集超过100TB的数据,并且是高速、实时数据流;或者是从小数据开始,但数据每年会增长60%以上。(5)大数据科学家John Rauser提到了一个简单的定义,大数据就是超过了任何一个计算机处理能力的庞大数据量。大数据有四个基本特征:数据规模大(V olume),数据种类多(Variety),数据要求处理速度快(Velocity),数据价值密度低(Value),即所谓的四V特性。这些特性使得大数据区别于传统的数据概念。大数据的概念与“海量数据”不同,后者只强调数据的量,而大数据不仅用来描述大量的数据,还更进一步指出数据的复杂形式、数据的快速时间特性以及对数据的分析、处理等专业化处理,最终获得有价值信息的能力。大数据面临的问题:大数据已成为继物力和人力资源的另一重要资源,将在社会经济发展过程中发挥不可替代的作用;大数据及相关技术可转化为巨大的社会经济价值,被誉为“未来的新石油”。大数据在金融、零售、电影等念和行业取得的成功仅是其价值体现的冰山一角。然而,由于大数据的多源异构、复杂多样、变化快等特点,使得大数据时代的数据管理、数据分析以及信息安全面临着新的挑战。大数据时代下的数据管理机制不同于传统方式。大数据时代下,数据的增长速度远远超过存储空间的增长速度,现有的数据管理方法已不能适用于海量多源异构数据在多种存储设备之间频繁密集流动,不同的应用对于数据传输“时效性”和“完整性”的要求也不尽相同。因此需要研发新型存储技术、传输交换机理,以满足大数据时代对数据的海量存储以及数据跨层、跨域、实时和完整的传输需求。大数据的规模效应冲击着传统的数据分析方法。传统的数据

分析方法主要是针对规模较小的结构化数据,且已形成一套行之有效的分析体系。大数据的出现将变革传统的思维方式。大数据的精髓在于我们分析信息时的三个转变,这些转变将改变我们理解和组建社会的方法。第一个转变就是,在大数据时代,我们可以分析更多的数据,有时候甚至处理和某个特别现象相关的所有数据,而不再是依赖于随机采样。第二个转变就是,研究数据之多,以至于我们不再热衷于追求精确度。第三个转变因前两个转变而成,即我们不再热衷于寻找因果关系,而是寻找事物之间的相关关系。另外,由于大数据时代对数据分析实时性的要求,传统的数据分析方法不能直接移植于大数据时代,必须做相应的改变才能适用于大数据的分析与处理。此外,大数据时代信息安全问题逐渐成为各国研究的热点。大数据时代,数据的公开非常必要,政府可以用其分析和了解整个国民经济社会的运行情况,以便更好地指导社会的运行;企业可以分析和了解客户的行为特征,推出针对性的产品和服务,最大化其利益等。但是,数据的公开和隐私保护是相互冲突的两个方面。虽然大数据时代下隐私保护技术已取得重大成果,比如数据匿名方法和差分隐私保护技术等,但2013年十大信息泄密事件表明现在的隐私保护技术仍不能完全保证信息的安全。如何在保证信息安全的前提下进行最大化的数据价值挖掘还有很长一段路要走。另外,大数据时代下人才的缺失、大数据的可视化分析以及技术和商业模式的创新也都是我们面对和亟需解决的问题。

二、产生大数据主要有哪些行业或领域,指出一个行业或研究领域的应用情况或研究进展。

答:产生大数据主要涉及以下领域领域,包括商业智能软件、数据中心建设与维护、信息安全、IT咨询和方案实施、数据处理、分析环节以及综合处理、语音识别、视频识别等。

随着数据的进一步集中和数据量的增大,对海量数据进行安全防护变得更加困难,数据的分布式处理也加大了数据泄露的风险,信息安全正成为制约大数据技术发展的瓶颈。一是大数据成为网络攻击的显著目标。在网络空间,大数据是更容易被“发现”的大目标。一方面,大数据意味着海量的数据,也意味着更复杂、更敏感的数据,这些数据会吸引更多的潜在攻击者。另一方面,数据的大量汇集,使得黑客成功攻击一次就能获得更多数据,无形中降低了黑客的进攻成本,

增加了“收益率”。二是大数据加大隐私泄露风险。大量数据的汇集不可避免地加大了用户隐私泄露的风险。一方面,数据集中存储增加了泄露风险;而这些数据不被滥用,也成为人身安全的一部分;另一方面,一些敏感数据的所有权和使用权并没有明确界定,很多基于大数据的分析都未考虑到其中涉及的个体隐私问题。三是大数据威胁现有的存储和安防措施。大数据存储带来新的安全问题。数据大集中的后果是复杂多样的数据存储在一起,很可能会出现将某些生产数据放在经营数据存储位置的情况,致使企业安全管理不合规。大数据的大小也影响到安全控制措施能否正确运行。安全防护手段的更新升级速度无法跟上数据量非线性增长的步伐,就会暴露大数据安全防护的漏洞。四是大数据技术成为黑客的攻击手段。在企业用数据挖掘和数据分析等大数据技术获取商业价值的同时,黑客也在利用这些大数据技术向企业发起攻击。黑客会最大限度地收集更多有用信息,比如社交网络、邮件、微博、电子商务、电话和家庭住址等信息,大数据分析使黑客的攻击更加精准。此外,大数据也为黑客发起攻击提供了更多机会。黑客利用大数据发起僵尸网络攻击,可能会同时控制上百万台傀儡机并发起攻击。五是大数据成为高级可持续攻击的载体。传统的检测是基于单个时间点进行的基于威胁特征的实时匹配检测,而高级可持续攻击(APT)是一个实施过程,无法被实时检测。此外,大数据的价值低密度性,使得安全分析工具很难聚焦在价值点上,黑客可以将攻击隐藏在大数据中,给安全服务提供商的分析制造很大困难。黑客设置的任何一个会误导安全厂商目标信息提取和检索的攻击,都会导致安全监测偏离应有方向。六是大数据技术为信息安全提供新支撑。当然,大数据也为信息安全的发展提供了新机遇。大数据正在为安全分析提供新的可能性,对于海量数据的分析有助于信息安全服务提供商更好地刻画网络异常行为,从而找出数据中的风险点。对实时安全和商务数据结合在一起的数据进行预防性分析,可识别钓鱼攻击,防止诈骗和阻止黑客入侵。网络攻击行为总会留下蛛丝马迹,这些痕迹都以数据的形式隐藏在大数据中,利用大数据技术整合计算和处理资源有助于更有针对性地应对信息安全威胁,有助于找到攻击的源头。

三、何谓科学研究的四个范式?各自所处时代及研究方法。

答:科学研究的四个范式如下:

(1)几千年前的科学,以记录和描述自然现象为主,称为“实验科学”,即第一

范式,其典型案例如钻木取火;

(2)数百年前,科学家们开始利用模型归纳总结过去记录的现象,发展出“理论科学”,即第二范式,其典型案例如牛顿三定律、麦克斯韦方程组、相对论等;(3)过去数十年,科学计算机的出现,诞生了“计算科学”,对复杂现象进行模拟仿真,推演出越来越多复杂的现象,其典型案例如模拟核试验、天气预报等;(4)今天,以及未来科学的发展趋势是,随着数据量的高速增长,计算机将不仅仅能做模拟仿真,还能进行分析总结,得到理论。也就是说,过去由牛顿、爱因斯坦等科学家从事的工作,未来可以由计算机来做。Jim Gray将这种科学研究的方式,成为第四范式,即数据密集型科学。

四、图示大数据分析的基本流程,各步骤的主要工作。

答:

数据抽取与集成:从中提取出关系和实体,经过关联和聚合之后采用统一定义的结构来存储这些数据。在数据集成和提取是需要对数据进行清洗,保证数据质量。

数据分析:是整个大数据处理流程的核心。从异构数据源抽取和集成的数据

构成数据分析的原始数据,根据不同应用需求从这些数据中选择全部或部分进行分析。

数据解释:大数据处理的核心。进行可视化、数据出处以及人机交互。如果分析的结果正确但没有采用适当的解释方法,所得到的结果很可能让用户难以理解。

五、MapReduce模型的执行步骤,其核心思想及主要技术有哪些?答:MapReduce主要包括两个步骤:Map和Reduce。每一步都有key-value对作为输入和输出:Map阶段的key-value对的格式是由输入的格式所决定的,则每行作为一个记录进程处理,其中key为此行的开头相对于文件的起始位置,value 就是此行的字符文本Map阶段的输出的key-value对的格式必须同Reduce阶段的输入key-value对的格式相对应。每个阶段都将一系列key-value对作为输入和输出,其中的键和值的类型为MapReduce用户指定。用户同时指定两个函数:map函数和reduce函数。用户自定义的map函数,接受一个输入key-value对,然后产生一系列临时中间key-value对。我们把所有具有相同中间key的临时key-value对聚合在一起,然后把它们传递给reduce函数。用户自定义的reduce函数,接受一个中间key和相关的一个value集。它合并这些value,形成一个比较小的value集。通常,每次reduce调用只产生1个输出value。以这种函数式编写的程序能自动的在大规模的普通机器上并行的执行。

MapReduce核心思想是对大数据并行处理,分而治之。做一个计算,如果计算过程中如果数据传输消耗的资源大于计算消耗的资源,考虑在计算过程中,将算法(程序)移动到数据存放的服务器中,再进行计算。

其主要技术:(1)数据划分和计算任务调度。(2)数据/代码互定位。(3)系统优化。(4)出错检测和恢复。

六、试给出词频计算或密码统计的MapReduce计算过程及其实现函

数。

答:Map函数和Reduce函数是交给用户实现的,这两个函数定义了任务本身。Map函数:接受一个键值对(key-value pair),产生一组中间键值对。MapReduce 框架会将Map函数产生的中间键值对里键相同的值传递给一个Reduce函数。Reduce函数:接受一个键,以及相关的一组值,将这组值进行合并产生一组规

模更小的值(通常只有一个或零个值)。

统计词频的MapReduce函数的核心代码主要实现这两个函数。

map(String key, String value):

// key: document name

// value: document contents

for each word w in value:

EmitIntermediate(w, "1");

reduce(String key, Iterator values):

// key: a word

// values: a list of counts

int result = 0;

for each v in values:

result += ParseInt(v);

Emit(AsString(result));

在统计词频的例子里,map函数接受的键是文件名,值是文件的内容,map 逐个遍历单词,每遇到一个单词w,就产生一个中间键值对,这表示单词w咱又找到了一个;MapReduce将键相同(都是单词w)的键值对传给Reduce函数,这样Reduce函数接受的键就是单词w,值是一串"1"(最基本的实现是这样,但可以优化),个数等于键为w的键值对的个数,然后将这些"1"累加就得到单词w的出现次数。最后这些单词的出现次数会被写到用户定义的位置,存储在底层的分布式存储系统。

七、指出并行数据库与MapReduce各自的优缺点及生态。

答:(1)并行数据库是指那些在无共享的体系结构中进行数据操作的数据库系统。这些系统大部分采用了关系数据模型并且支持SQL语句查询,但为了能够并行执行SQL的查询操作,系统中采用了两个关键技术:关系表的水平划分和SQL查询的分区执行。

并行数据库系统的目标是高性能和高可用性,通过多个节点并行执行数据库任务,提高整个数据库系统的性能和可用性。最近一些年不断涌现一些提高系统性能的新技术,如索引、压缩、实体化视图、结果缓存、I/O共享等,这些技术都比较成熟且经得起时间的考验。与一些早期的系统如Teradata必须部署在专有

硬件上不同,最近开发的系统如Aster、Vertica等可以部署在普通的商业机器上,这些数据库系统可以称得上准云系统。

并行数据库系统的主要缺点就是没有较好的弹性,而这种特性对中小型企业和初创企业是有利的。人们在对并行数据库进行设计和优化的时候认为集群中节点的数量是固定的,若需要对集群进行扩展和收缩,则必须为数据转移过程制订周全的计划。这种数据转移的代价是昂贵的,并且会导致系统在某段时间内不可访问,而这种较差的灵活性直接影响到并行数据库的弹性以及现用现付商业模式的实用性。

并行数据库的另一个问题就是系统的容错性较差,过去人们认为节点故障是个特例,并不经常出现,因此系统只提供事务级别的容错功能,如果在查询过程中节点发生故障,那么整个查询都要从头开始重新执行。这种重启任务的策略使得并行数据库难以在拥有数以千个节点的集群上处理较长的查询,因为在这类集群中节点的故障经常发生。基于这种分析,并行数据库只适合于资源需求相对固定的应用程序。不管怎样,并行数据库的许多设计原则为其他海量数据系统的设计和优化提供了比较好的借鉴。

(2)MapReduce的优点,主要有两个方面:其一,通过MapReduce这个分布式处理框架,不仅能用于处理大规模数据,而且能将很多繁琐的细节隐藏起来,比如,自动并行化、负载均衡和灾备管理等,这样将极大地简化程序员的开发工作;其二,MapReduce的伸缩性非常好,也就是说,每增加一台服务器,其就能将差不多的计算能力接入到集群中,而过去的大多数分布式处理框架,在伸缩性方面都与MapReduce相差甚远。

MapReduce最大的不足则在于,其不适应实时应用的需求,所以在Google 最新的实时性很强的Caffeine搜索引擎中,MapReduce的主导地位已经被可用于实时处理Percolator系统所代替。

MapReduce最早应用于非结构化数据处理领域,如Google中创建倒排索引,计算page rank等操作,也被广泛应用于文档处理应用中。但近年来的发展趋势是逐渐由非结构化大数据处理转向类似结构化大数据仓库应用领域,如用户LOG日志分析处理等,以TPC-H负载为代表的表间连接操作优化技术也成为MapReduce重要的研究课题。当前的产业界正在尝试将数据库与MapReduce进行集成。Greenplum和AsterData采用的是在MPP并行数据库内置对MapReduce

的支持,实现数据库和MapReduce的双引擎融合,同时通过MapReduce扩展数据库对分析软件的支持。

八、何谓NoSQL?其三大理论基础是什么,各自简单说明。

答:随着web2.0的快速发展,非关系型、分布式数据存储得到了快速的发展,它们不保证关系数据的ACID特性。NoSQL概念在2009年被提了出来。NoSQL最常见的解释是“non-relational”,“Not Only SQL”即“不仅仅是SQL”也被很多人接受。

其三大理论为CAP理论、BASE思想和最终一致性。CAP理论:解释为一致性(consistency):一个数据系统如何处理读写操作的一致性问题。分布式系统对于一致性的要求为当更新写入操作完成时,其余读取操作需要及时看到数据的更新。当然有些系统对于一致性有更严格定义上的要求。性能(availability)一个系统能够持续不间断使用的问题。严格定义上的高性能可用性意味着一个系统从设计到实施都应该能够提供可持续的操作(如读写操作),无论是操作冲突,还是软硬件部分因为升级而导致失效。分区容忍性(partition tolerance)可以被理解为系统在提供持续性操作时分区处理的能力。一旦开始将数据和逻辑分布在不同的节点上,就有形成分区的风险。一些人认为分区容忍性也可以理解为一个系统灵活处理节点的增加和去除的能力。

BASE思想:BASE思想实际上是CAP理论中AP的扩展。它通过牺牲高一致性,保证高可用性和分区容忍性。它同时也是ACID,即原子性、一致性、隔离性和持久性的意思。BASE在英文中有基本的意思,也可以说实际上强调的就是能保证连续“基本”可用的一种模型。BASE 思想的组成有以下3个部分:基本可用、软状态、最终一致性。BASE模式指的是一个应用在任意时间首先应该能完成最基本化的工作,并不需要总是一致,但最终应该是一致的。ACID 和BASE应该被看作同一范畴内的互相补充品,而不是替代品。

最终一致性:有两种方式看待一致性。一种是从开发者/客户端的角度,如何观察数据更新;另一种是从服务器端,更新如何在系统中流动以及对于更新系统能提供什么样的保证。客户端观察到的一致性指的是何时以及如何能观察到对存储系统中的数据对象所做的更新。对于一致性的解释,根据强度的不同,分为强一致性和弱一致性两种。最终一致性属于弱一致性的一种,即存储系统保证如

果没有新的更新提交,最终所有的访问都将获得最后的更新。如果没有故障发生,不一致性取决于通信时延、系统负载以及复制策略中涉及的副本数。实现最终一致性最常见的系统是DNS。根据name更新传播、配置模式以及时间控制的缓存,最终所有节点都会看到更新。弱一致性的系统能够同时提供更多元化和针对性的操作方案。

九、保证分布式环境下NoSQL的扩展性、容错性和可靠性的技术有

哪些?

答:Cassandra故障恢复以及数据一致性、Cassandra的一致性哈希算法、HBase 的失败因子和恢复方法、HDFS、MongoDB中的复制和故障恢复。系统的可扩展性是推动NoSQL运动发展的的主要理由,包含了分布式系统协调,故障转移,资源管理和许多其他特性。这么讲使得NoSQL听起来像是一个大筐,什么都能塞进去。尽管NoSQL运动并没有给分布式数据处理带来根本性的技术变革,但是依然引发了铺天盖地的关于各种协议和算法的研究以及实践。正是通过这些尝试逐渐总结出了一些行之有效的数据库构建方法。在这篇文章里,我将针对NoSQL数据库的分布式特点进行一些系统化的描述。

接下来我们将研究一些分布式策略,比如故障检测中的复制,这些策略用黑体字标出,被分为三段:

(1)数据一致性。NoSQL需要在分布式系统的一致性,容错性和性能,低延迟及高可用之间做出权衡,一般来说,数据一致性是一个必选项,所以这一节主要是关于数据复制和数据恢复。

(2)数据放置。一个数据库产品应该能够应对不同的数据分布,集群拓扑和硬件配置。在这一节我们将讨论如何分布以及调整数据分布才能够及时解决故障,提供持久化保证,高效查询和保证集群中的资源(如内存和硬盘空间)得到均衡使用。

(3)对等系统。像leader election这样的技术已经被用于多个数据库产品以实现容错和数据强一致性。然而,即使是分散的数据库(无中心)也要跟踪它们的全局状态,检测故障和拓扑变化。这一节将介绍几种使系统保持一致状态的技术。数据一致性

众所周知,分布式系统经常会遇到网络隔离或是延迟的情况,在这种情况下隔离

的部分是不可用的,因此要保持高可用性而不牺牲一致性是不可能的。这一事实通常被称作“CAP理论”。然而,一致性在分布式系统中是一个非常昂贵的东西,所以经常需要在这上面做一些让步,不只是针对可用性,还有多种权衡。为了研究这些权衡,我们注意到分布式系统的一致性问题是由数据隔离和复制引起的,所以我们将从研究复制的特点开始:

(1)可用性。在网络隔离的情况下剩余部分仍然可以应对读写请求。

(2)读写延迟。读写请求能够在短时间内处理。

(3)读写延展性。读写的压力可由多个节点均衡分担。

(4)容错性。对于读写请求的处理不依赖于任何一个特定节点。

(5)数据持久性。特定条件下的节点故障不会造成数据丢失。

(6)一致性。一致性比前面几个特性都要复杂得多,我们需要详细讨论一下几种不同的观点。但是我们不会涉及过多的一致性理论和并发模型,因为这已经超出了本文的范畴,我只会使用一些简单特点构成的精简体系。读写一致性。从读写的观点来看,数据库的基本目标是使副本趋同的时间尽可能短(即更新传递到所有副本的时间),保证最终一致性。除了这个较弱的保证,还有一些更强的一致性特点:写后读一致性。在数据项X上写操作的效果总是能够被后续的X 上的读操作看见。读后读一致性。在一次对数据项X的读操作之后,后续对X 的读操作应该返回与第一次的返回值相同或是更加新的值。写一致性。分区的数据库经常会发生写冲突。数据库应当能处理这种冲突并保证多个写请求不会被不同的分区所处理。这方面数据库提供了几种不同的一致性模型:

(1)原子写。假如数据库提供了API,一次写操作只能是一个单独的原子性的赋值,避免写冲突的办法是找出每个数据的“最新版本”。这使得所有的节点都能够在更新结束时获得同一版本,而与更新的顺序无关,网络故障和延迟经常造成各节点更新顺序不一致。数据版本可以用时间戳或是用户指定的值来表示。Cassandra用的就是这种方法。

(2)原子化的读-改-写。应用有时候需要进行读—改—写序列操作而非单独的原子写操作。假如有两个客户端读取了同一版本的数据,修改并且把修改后的数据写回,按照原子写模型,时间上比较靠后的那一次更新将会覆盖前一次。这种行为在某些情况下是不正确的(例如,两个客户端往同一个列表值中添加新值)。

十、阅读三篇大数据研究热点或者新技术相关论文,介绍各论文的

主要内容(能结合自己的研究方向最好,不少于1000字)。1、架构大数据:挑战、现状与展望

主要对MapReduce进行介绍

MapReduce是2004年由Google提出的面向大数据集处理的编程模型,起初主要用作互联网数据的处理,例如文档抓取、倒排索引的建立等。但由于其简单而强大的数据处理接口和对大规模并行执行、容错及负载均衡等实现细节的隐藏,该技术一经推出便迅速在机器学习、数据挖掘、数据分析等领域得到广泛应用。

MapReduce将数据处理任务抽象为一系列的Map(映射)Reduce(化简)操作对。Map主要完成数据的过滤操作,Reduce主要完成数据的聚集操作。输入输出数据均以格式存储。用户在使用该编程模型时,只需按照自己熟悉的语言实现Map函数和Reduce函即可,MapReduce框架会自动对任务进行划分以做到并行执行。

下面将以基于MapReduce的开源实现Hadoop为主,对其主要特性进行介绍。

MapReduce是面向由数千台中低端计算机组成的大规模机群而设计的,其扩展能力得益于其shared-nothing结构、各个节点间的松藕合性和较强的软件级容错能力:节点可以被任意地从机群中移除,而几乎不影响现有任务的执行.该技术被称为RAIN(Redundant/Reliable Array of Independent(and Inexpensive) Nodes)。MapReduce卓越的扩展能力已在工业界(Google,Facebook,Baidu,Taobao等)得到了充分验证。MapReduce对硬件的要求较低,可以基于异构的廉价硬件来搭建机群,且免费开源,因此其构建成本低于并行数据库。但基于MapReduce的应用软件相对较少,许多数据分析功能需要用户自行开发,从而会导致使用成本的增加。

作为开源系统,MapReduce具有完全的开放性:其存储模型具有较强的表现力,可以存储任意格式的数据;Map和Reduce两个基本的函数接口也给用户提供了足够的发挥空间,可以实现各种复杂的数据处理功能.但这种开放性也带来一个问题,就是将本来应由数据库管理系统完成的工作,诸如文件存储格式的设计、模式信息的记录、数据处理算法的实现等,转移给了程序员,从

而导致程序员负担过重。程序员水平对系统处理性能起决定性作用。在某些情况下,写MapReduce程序的时间远大于写SQL语句的时间,部分复杂的BI报表分析,可能仅程序的编写和调试就要耗费几天的时间。

基于MapReduce平台的分析,无需复杂的数据预处理和写入数据库的过程,而是可以直接基于平面文件进行分析,并且其采用的计算模式是移动计算而非移动数据,因此可以将分析延迟最小化。

在同等硬件条件下,MapReduce性能远低于并行数据库,这是由其最初的设计定位决定的。MapReduce的设计初衷是面向非结构化数据的处理。这些数据具有数据量大,处理复杂等特点,而且往往是一次性处理.为了获得较好的扩展能力和容错能力,MapReduce采取了基于扫描的处理模式和对中间结果步步物化的执行策略,从而导致较高的I/0代价。为了减少数据预处理时间,MapReduce没有使用模式、索引、物化视图等技术手段。其数据预处理仅是一次数据加载操作,但由此导致了一个问题——较高的元组解析代价。在MapReduce环境下,每个查询都是直接从文件系统中读入原始数据文件,而非传统的从数据库中读入经处理过的文件,因此其元组解析代价远高于关系数据库。对数据分析领域来说,连接是关键操作(如传统的星型查询和雪花查询均是依赖于连接来处理查询),但MapReduce处理连接的性能尤其不尽如人意。原因在于MapReduce最初是针对单数据集设计的处理模型,而连接操作往往涉及多个数据集。在利用MapReduce 实现连接时,最直接的方式是每个任务执行一个属陛上的连接操作,然后将多个MapReduce任务通过物化的中间结果串接起来.这种实现方式往往涉及中间结果的读写,从而导致大量的I/0操作和网络传输。

MapReduce目前基本不兼容现有的BI工具。原因在于其初衷并不是要成为数据库系统,因此它并未提供SQL接口。但已有研究致力于SQL语句与MapReduce任务的转换工作(例如Hive),进而有可能实现MapReduce与现存BI 工具的兼容。

2、不确定性数据管理技术研究

近四十年来,传统的确定性数据(deterministic data)管理技术得到了极大的发展,造就了一个数百亿的数据库产业.数据库技术和系统已经成为信息化社会基础设施建设的重要支撑。在传统数据库的应用中,数据的存在性和精确性均确定

无疑。近年来,随着技术的进步和人们对数据采集和处理技术理解的不断深入,不确定性数据(uncertain data)得到了广泛的重视.在许多现实的应用中,例如经济、军事、物流、金融、电信等领域,数据的不确定性普遍存在,不确定性数据扮演着关键角色。传统的数据管理技术却无法有效管理不确定性数据,这就引发了学术界和工业界对研发新型的不确定性数据管理技术的兴趣。

不确定性数据的产生原因比较复杂。可能是原始数据本身不准确或是采用了粗粒度的数据集合,也可能是为了满足特殊应用目的或是在处理缺失值、数据集成过程中而产生的。

(1)原始数据不准确。这是产生不确定性数据最直接的因素。首先,物理仪器所采集的数据的准确度受仪器的精度制约。其次,在网络传输(特别是无线网络传输)过程中,数据的准确性受到带宽、传输延时、能量等因素影响。还有,在传感器网络应用与RFID应用等场合,周围环境也会影响原始数据的准确度。

(2)使用粗粒度数据集合。很明显,从粗粒度数据集合转换到细粒度数据集合的过程会引入不确定性。例如,假设某人口分布数据库以乡为基础单位记录全国的人口数量,而某应用却要求查询以村为基础单位的人口数量,查询结果就存在不确定性。

(3)满足特殊应用目的。出于隐私保护等特殊目的,某些应用无法获取原始的精确数据,而仅能够得到变换之后的不精确数据。

(4)处理缺失值.缺失值产生的原因很多,装备故障、无法获取信息、与其他字段不一致、历史原因等都可能产生缺失值一种典型的处理方法是插值,插值之后的数据可看作服从特定概率分布。另外,也可以删除所有含缺失值的记录,但这个操作也在一定程度上变动了原始数据的分布特征。

随着数据采集和处理技术的进步,人们对数据的不确定性的认识也逐步深入。在诸如经济、军事、物流、金融、电信等领域的具体应用中,数据的不确定性普遍存在。不确定性数据的表现形式多种多样,它们可以以关系型数据、半结构化数据、流数据或移动对象数据等形式出现。目前,根据应用特点与数据形式差异,研究者已经提出了多种针对不确定数据的数据模型。这些不确定性数据模型的核心思想都源自于可能世界模型。可能世界模型从一个或多个不确定的数据源演化出诸多确定的数据库实例,称为可能世界实例,而且所有实例的概率之和

等于1。尽管可以首先分别为各个实例训算查询结果,然后合并中间结果以生成最终查询结果,但由于可能世界实例的数量远大于不确定性数据库的规模,这种方法并不可行。因此,必须运用排序、剪枝等启发式技术设训新型算法,以提高效率。

3、海量目标测量数据下的目标跟踪

随着网络中心战的逐步实现,各种各样的传感器已经遍布陆、海、空、天等物理空间,以及电、磁等虚拟空间。例如,天基传感器依靠成像侦察卫星、电子侦察卫星、导弹预警侦察卫星、海洋侦察卫星等侦察卫星从太空轨道上对空中目标实施侦察、监视和跟踪;空基传感器系统依靠装载在轻型固定翼飞机、直升机、无人机以及高空系留气球上的雷达、光电设备、照相设备等对目标进行跟踪;陆基传感器系统包括分布在陆地上的各种侦察设备,如雷达设备、电子侦听设备、激光、红外探测设备等;海基传感器系统主要有水面舰艇和潜艇等平台携带的雷达、声纳、电子支援设备和光电设备等。由于现代战场中,各种各样的传感器广泛分布,对同一目标进行跟踪的传感器很多,会产生大量关于目标运动的数据。目前的跟踪算法对于这种大数据量的处理主要存在以下问题:1)当需要融合的数据量比较大时,各种滤波融合算法计算量较大,计算的实时性较差。2)多传感器所获取的大量数据的管理比较复杂。3)对于一般融合跟踪算法,都需要确切知道系统模型和量测模型。4)在完成整个目标跟踪的任务中,可能会有部分传感器退出跟踪任务,而另一部分传感器加入跟踪任务。传感器的退出、加入更是增加了一般多传感器融合跟踪算法的实现难度。如何从大量传感器对同一个目标进行跟踪时产生的海量目标量测数据中提取可用信息,同时避免不必要或者不可靠信息,最终估计出目标的运动状态,对于网络中心实现目标的跟踪来说是迫切需要解决的问题。针对上述提出问题,最新一种通过数学统计原理提取跟踪状态信息并应用交互式多模型统计滤波算法进行解决的方法。该方法首先利用数学统计原理从海量目标量测数据中统计出目标跟踪滤波过程中所需要信息,并利用改进的交互式当前统计模型算法对所提取信息进行滤波,在不影响跟踪精度的情况下很好地解决了的海量目标量测信息的融合跟踪问题。理论分析和仿真结果证明了该方法的有效性。

中南大学数据库考试题库

1?在数据库设计中,用E-R图来描述信息结构但不涉及信息在计算机中的表示,它属于数据库设计的()阶段。 A需求分析 B概念设计 C逻辑设计 D物理设计 参考答案 B 数据库设计步骤: (1)规划(必要性、可行性,总目标) (2)需求分析(分析用户活动,产生业务流程图;确定系统范围,产生系统范围图;分析用户活动涉及的数据,产生数据流程图;分析系统数据,产生数据字典。)(3)概念设计(设计出独立于计算机硬件和DBMS的概念模式。E-R模型是主要设计工具) (4)逻辑结构设计(把概念设计阶段设计好的全局E-R模式转换成与选用的具体机器上的DBMS所支持的数据模型相符合的逻辑结构,包括数据库模式和外模式)(5)数据库的物理设计(对于给定的数据模型选取一个垠适合应用环境的物理结构的过程。数据库的物理结构主要指数据库的存储记录格式、存储记录安排和存取方法)(6)数据库的实现(建立实际数据库结构;装入试验数据对应用程序进行调试;装入实际数据,进入试运行状态) (7)数据库的运行与维护(维护数据库的安全性与完整性;监测并改善数据库运行性能; 根据用户要求对数据库现有功能进行扩充;及时改正运行中发现的系统错误) 2.关于数据库概念设计阶段的工作目标,下列说法错谋的是 A定义和描述应用系统涉及的信息结构和范围 B定义和描述应用系统中数据的属性特征和数据之间的联系 C描述应用系统的数据需求 D描述需要存储的记录及其数量 参考答案 3. SQL Server 2000的字符型系统数据类型主要包括()。 A int、money、char B char> varchar、text

C datetime、binary> int D char、varchar> int 参考答案 B 4. 具有联系的相关数据按一定的方式组织排列,并构成一定的结构,这种结构即()。 A数据模型 B数据库 C关系模型 D数据库管理系统 参考答案 A 5. 在数据库系统中,下列哪个映像关系用于提供数据与应用程序间的逻辑独立性? A外模式/模式 B模式/内模式 C外模式/内模式 D逻辑模式/内模式 参考答案 B 6. 关系模型的数据结构是 A树 B图 C表 D二维表 参考答案 D 7. 数据字典是数据库管理系统的重要组成部分,其中存储的各类信息通常由 A数据库管理员维护 B程序员维护 C数据库管理系统维护 D—般用户维护 参考答案 A 8. E-R图用于描述数据库的

数据分析期末试题及答案

数据分析期末试题及答案 一、人口现状.sav数据中是1992年亚洲各国家和地区平均寿命(y)、按购买力计算的人均GDP(x1)、成人识字率(x2),一岁儿童疫苗接种率(x3)的数据,试用多元回归分析的方法分析各国家和地区平均寿命与人均GDP、成人识字率、一岁儿童疫苗接种率的关系。(25分) 解: 1.通过分别绘制地区平均寿命(y)、按购买力计算的人均GDP(x1)、成人识字率(x2),一岁儿童疫苗接种率(x3)之间散点图初步分析他们之间的关系 上图是以人均GDP(x1)为横轴,地区平均寿命(y)为纵轴的散点图,由图可知,他们之间没有呈线性关系。尝试多种模型后采用曲线估计,得出 表示地区平均寿命(y)与人均GDP(x1)的对数有线性关系

上图是以成人识字率(x2)为横轴,地区平均寿命(y)为纵轴的散点图,由图可知,他们之间基本呈正线性关系。 上图是以疫苗接种率(x3)为横轴,地区平均寿命(y)为纵轴的散点图,由图可知,他们之间没有呈线性关系 。 x)为横轴,地区平均寿命(y)为纵轴的散点图,上图是以疫苗接种率(x3)的三次方(3 3 由图可知,他们之间呈正线性关系 所以可以采用如下的线性回归方法分析。

2.线性回归 先用强行进入的方式建立如下线性方程 设Y=β0+β1*(Xi1)+β2*Xi2+β3* X+εi i=1.2 (24) 3i 其中εi(i=1.2……22)相互独立,都服从正态分布N(0,σ^2)且假设其等于方差 R值为0.952,大于0.8,表示两变量间有较强的线性关系。且表示平均寿命(y)的95.2%的信息能由人均GDP(x1)、成人识字率(x2),一岁儿童疫苗接种率(x3)一起表示出来。 建立总体性的假设检验 提出假设检验H0:β1=β2=β3=0,H1,:其中至少有一个非零 得如下方差分析表 上表是方差分析SAS输出结果。由表知,采用的是F分布,F=58.190,对应的检验概率P值是0.000.,小于显著性水平0.05,拒绝原假设,表示总体性假设检验通过了,平均寿命(y)与人均GDP(x1)、成人识字率(x2),一岁儿童疫苗接种率(x3)之间有高度显著的的线性回归关系。

(完整版)大学数据库考试复习试题带答案

2019数据库期末复习内容 1.选择题 (1)(数据库)是存储在计算机内结构化的数据的集合 (2)下述关于数据系统正确的描述是(数据库系统减少了数据冗余)。 (3)数据库(DB)、与数据库系统(DBS)和数据库管理系统(DBMS)之间的关系是(DBS 包含DB 和DBMS )。(4)数据库管理系统的工作不包括(为定义的确据库提供操作系统)。 (5)用于对现实世界进行描述的工具是(数据模型)。 (6)在数据库的三级模式结构中,描述数据库中全局逻辑结构和特征的是(模式)。 (7)E-R图用来建立数据库的(概念模型)。 (8)下列模型中不能直接描述实体间多对多的联系的是(关系模型)。 (9)数据模型的三个要素是(数据结构、数据操作、完整性约束) (10)数据库的设计人员和用户之间沟通信息的桥梁是(实体联系图)。 (11)数据的独立性分为(逻辑独立性和物理独立性)。 (12)数据库通常是根据(数据模型)来分类的。 (13)关系数据库系统能实现专门的关系运算,包括(选择、投影、连接、除)。 (14)在关系模型中,下述关于关键字的说法正确的是(可以由一个或多个其值能唯一标识该关系模式中任何元组的属性组成)。 (15)被称为关系的两个不变性,由关系数据库系统自动支持的是(实体完整性和参照完整性)。 (16)在关系中不能出现相同元组的约束是通过(主码)来实现。 (17)下列数据模型中,数据独立性最高的是(关系模型). (18)规范化理论是关系数据库进行逻辑设计的理论依据。根据这个理论,关系数据库中的关系必须满足:每一属性都是(不可分解的)。 (19)关系数据库规范化是为解决关系数据库中(插入异常、删除异常和数据冗余)问题而引入的。 (20)在关系数据库中,任何二元关系模式的最高范式必定是(BCNF ) (21)若属性X函数依赖于属性Y时,则属性X与属性Y之间的关系是(多对一)。 (22)设有关系模式:部门(部门代码,部门名称,部门成员,部门经理)由于其中(部门成员)属性存在,使该关系不属于第一范式。 (23)若关系模式R中的属性都是主属性,则R最高属于(3NF )。 (24)若要彻底消除插入异常和删除异常,关系模式最低要属于(BCNF)。 (25)关系模式分解的无损连接和保持函数依赖两个特性之间的联系是(没有必然联系)。 (26)关系模式中数据依赖的存在,可能会导致成立蕴涵后者数据插入异常,这是指(该插入的数据未被插入)。(27)设要对关系模式R(学号,姓名,课程代码,课程名,课程成绩)进行分解,将其规范化到3NF,下列(B)是正确的规范化结果。B.R1(学号,姓名)R2(课程代码,课程名)R3 (学号,课程代码,课程成绩) (28)有如下关系R(是BCNF)。 (29)对用户访问数据库的权限加以限定是为了保护数据库的(安全性)。 (30)下面(可移植性)不是数据库系统必须提供的数据控制功能。 (31)数据库系统中,对存取权限定义为(授权)。 (32)在数据库的安全性控制中,为了保证用户只能存取他有权存取的数据,在授权的定义中,数据对象的(范围越小),授权子系统就越灵活。 (33)数据库安全性遭到破坏的情况属于(非法用户读取数据库中的数据)。 (34)数据库的(完整性)是指数据的正确性和相容性。 (35)数据完整性保护中的约束条件是指(值的约束和结构的约束)。 (36)实体完整性和参照完整性属于(静态关系约束)。 (37)数据类型、取值范围、空值约束属于(静态列级约束)。

数据分析练习题

数据分析练习题 第 小组 姓名: 练习一: 1、老师在计算学期总平均分的时候按如下标准:作业占100%、测验占30%、期中占35%、期末考试占35% x 小关 = . x 小兵 = . 2、结果如下表:(单位:小时) 求这些灯泡的平均使用寿命? . x = .小时 3、在一个样本中,2出现了x 1次,3出现了x 2次,4出现了x 3次,5出现了x 4次,则这个样本的平均数为 . 4、某人打靶,有a 次打中x 环,b 次打中y 环,则这个人平均每次中靶 环。 5、某校为了了解学生作课外作业所用时间的情况,对学生作课外作业所用时间进行调查,下表是该校初二某班50名学生某一天做数学课外作业所用时间的情况统计表 (1)、第二组数据的组中值是多少? (2)、求该班学生平均每天做数学作业所用时间 答:(1)组中值为: . (2)解: 6、某公司有15名员工,他们所在的部门及相应每人所创的年利润如下表该公司每人所创年利润的平均数是多少万元?

7、为调查居民生活环境质量,环保局对所辖的50个居民区进行了噪音(单位:分贝)水平的调查,结果如下图,求每个小区噪音的平均分贝数。 8、某公司销售部有营销人员15人,销售部为了制定某种商品的销售金额,统计了这15个人的销售量如下(单位:件) 1800、510、250、250、210、250、210、210、150、210、150、120、120、210、150 求这15个销售员该月销量的中位数和众数。 假设销售部负责人把每位营销员的月销售定额定为320件,你认为合理吗?如果不合理,请你制定一个合理的销售定额并说明理由。 练习二: 1. 数据8、9、9、8、10、8、99、8、10、7、9、9、8的中位数是 ,众数是 2. 一组数据23、27、20、18、X 、12,它的中位数是21,则X 的值是 . 3. 数据92、96、98、100、X 的众数是96,则其中位数和平均数分别是( ) A.97、96 B.96、96.4 C.96、97 D.98、97 4. 如果在一组数据中,23、25、28、22出现的次数依次为2、5、3、4次,并且没有其他的数据, 则这组数据的众数和中位数分别是( ) A.24、25 B.23、24 C.25、25 D.23、25 请你根据上述数据回答问题: (1).该组数据的中位数是什么? (2).若当气温在18℃~25℃为市民“满意温度”,则我市一年中达到市民“满意温度”的大约有多少天? 60 噪音/分贝 80 70 50 40 90

2017年公需科目大数据考试 所有测试题答案

2017年公需科目大数据考试所有测试题答案 (网上收集,经用过还可以,信不过可以不用) 网络时代的国家治理 1. 林雅华博士认为,“治理”是一个全新的政治概念,它既不同于“统治”,也不同 于“管理”。(正确) 2. 互联网时代最为典型的特征是扁平化、单一向度。(错误) 3. 林雅华博士认为,《舌尖上的中国》系列节目之所以获得成功,是网络时代的国家 治理让民众参与进来的有效体现。(正确) 4. 网络时代的国家治理应以文化人、以德化人、以礼化人。(正确) 5. 林雅华博士认为,在越来越复杂化的现代社会中,我们庞大的国家机器也许无法面 面俱到,如果能够广泛地征集群众的智慧,对国家治理而言不失为有效之道。(正确) 6. 我国下列哪些城市曾因PX项目问题发生过群体性事件?(多选题)(ABCD) A.大连 B.镇海 C.昆明 D.厦门 7. 茂名PX事件发生后,下列哪个学校的化工系学生在网上进行了一场“PX词条保卫战”?(单选题)(清华) 8. 林雅华博士指出,在网络时代,电子政务的发展刻不容缓。(正确) 9. 美国首个联邦首席信息官是下列哪位总统任命的?(单选题)(奥巴马) 10. 林雅华博士指出,Windows XP“停服”事件是一个事关我国信息安全的重大事件。(正确) 11. 林雅华博士指出,目前中国的是一个复杂社会,是一个转型社会。(正确) 大数据改变未来(学习笔记) 1. ENIAC诞生于哪一年?(1946年) 2. 大数据仅仅是指数据的体量大。(错误) 3. 吴军博士认为,所有未来的公司,某种程度上都是大数据公司。(正确) 4. 计算机是根据逻辑推理来回答天为什么是蓝色的。(错误) 5. 吴军博士认为机器无法取代人类成为放射科医生。(错误) 6. 大数据的思维会把原来销售的概念变成服务的概念。(正确) 7. 吴军博士认为,彻底解决保护个人隐私的问题,需要一些新的方法,比如双向监督的方法。(正确) 大数据在交通方面的应用(学习笔记) 1. 根据周琦老师所讲,高德交通信息服务覆盖(110)多个城市以及全国高速路网。 2. 根据周琦老师所讲,将大数据智能化融入高德地图,能够提供更精准的到达时间预 测和实时躲避拥堵功能。(正确) 3. 根据周琦老师所讲,通过索引技术,在分析具体问题时,可以回调出每条道路对应

spss期末大数据分析报告

SPSS在教育研究中的应用某大学学生对本校的满意度调查 学院:教育学院 专业:课程与教学论 学号:201411000156 姓名:李平 2014年12月13日

目录 一、研究问题的提出 (3) 二、研究内容与方法 (3) (一) 研究内容 (3) (二) 研究方法 (3) 三、调查对象及人数 (4) 四、问卷分析 (5) (一)回收情况 (5) (二)信度分析 (5) 五、数据统计与分析 (6) (一)数据输入 (6) (二)数据分析 (7) 1.描述统计 (7) (1)多选题描述统计 (7) (2)单选题描述统计 (9) 2.推断统计 (12) (1)独立样本T检验 (12) (2)单一样本T检验 (15) (3)单因素方差分析 (17) (4) X2检验 (21) 3.相关分析 (22) (1)变量间相关分析 (22) (2)维度间相关分析 (23) 六、结论 (27) 七、附录 (28)

一、研究问题的提出 学生的学校生活和成长密切相关。我们通过对他们的大学生活满意度的调查结果向有关部门提出建议,并希望能引起学校对这一系列问题的关注,最终希望大学生对其大学的满意度有所提升,大学生是一个庞大的群体,特别是近几年,随着高校的扩招,我国越来越多人能够上大学。上大学是很多人的梦想,他们都憧憬着大学校园的生活,然而当他们进了大学后才发现大学生活并非所想的美好,取而代之的却是对校园生活的不满,大学生是十分宝贵的人才资源,他们对校园生活的体验和感受,与他们的更好的学习。 二、研究内容与方法 (一)研究内容 了解学生对于学校的师资水平、环境、日常管理等各方面的满意度。 (二)研究方法 1.问卷编制 本研究采用自编问卷,问卷共由两部分组成:基本情况部分包括被调查者的性别、年级等,问卷主体部分包括师资水平、学校环境、日常管理三大维度,细分为12个三级指标(见表2-1),问卷采用五点制计分法,即“非常满意”、“满意”、“一般”、“不满意”、“非常不满意”,分别赋值5分、4分、3分、2分、1分。 表2-1 某大学学生对本校的满意度测评指标体系 一 级指标 二级指标(潜在变量)三级指标(观测变量) 对自己师资水平对教师教学方法、对教师工作态 度、对教师人品修养、对师资配备 学校的意学校环境对学习环境、对就餐环境、对居住 环境、对校园绿化环境 满度指数日常管理对专业课时安排、对收费标准、对 奖、助学金制度、对学校治安

大数据试题库

大数据试题库 选择题 1.下列哪一项不是大数据提供的用户交互方式:(C) A.统计分析和数据挖掘 B.任意查询和分析 C.图形化展示 D.企业报表 2.与大数据密切相关的技术是(B) A蓝牙 B,云计算 C,博弈论 D,wifi 3.大数据应用需依托的新技术有( D) A.大规模存储与计算 B.数据分析处理 C.智能化 D.三个选项都是 4.与大数据密切相关的技术是(B) A蓝牙 B 云计算 C 博弈论 D wifi 填空题 1.大数据最具潜能的三大应用领域分别为商业智能,公共服务和市场营销. 2.1pb=(1024)tb=(2e20)gb=(2e30)mb=(2e40)kb 3.大数据的特征是___、___、___、___。 答案:大量化、多样化、快速化、价值密度低。 4.大数据的4v特征分别是大量化多样化快速化价值密度低

判断题 1.大数据的存储方案通常对一份数据在不同节点上存储三份副本,以提高系统容错性。 (√) 2.大数据思维,是指一种意识,认为公开的数据一旦处理得当就能为千百万人急需解 决的问题提供答案。(√) 3.数据可视化可以便于人们对数据的理解(√) 4.大数据技术和云计算技术是两门完全不相关的技术(X) 简答题 1.请简述大数据的结果展现方式。 答: 1)报表形式 基于数据挖掘得出的数据报表,包括数据表格、矩阵、图形和自定义格式的报表等,使用方便、设计灵活。 2.图形化展现 提供曲线、饼图、堆积图、仪表盘、鱼骨分析图等图形形式宏观展现模型数据的分布情况,从而便于进行决策。 2)KPI展现 提供表格式绩效一览表并可自定义绩效查看方式,如数据表格或走势图,企业管理者可根据可度量的目标快速评估进度。 4.查询展现 按数据查询条件和查询内容,以数据表格来汇总查询结果,提供明细查询功能,并可在查询的数据表格基础上进行上钻、下钻、旋转等操作。 2.例举身边的大数据。 答: i.QQ,微博等社交软件产生的数据 ii.天猫,京东等电子商务产生的数据

大数据考试题含答案精编WORD版

大数据考试题含答案精 编W O R D版 IBM system office room 【A0816H-A0912AAAHH-GX8Q8-GNTHHJ8】

1 多选传统大数据质量清洗的特点有: A. 确定性 B. 强类型性 C. 协调式的 D. 非确定性 2 多选以下选项中属于数据的作用的是()。 A. 沟通 B. 验证假设 C. 建立信心 D. 欣赏 3 多选数据建立信心的作用需具备的条件包括()。 A. 可靠数据源 B. 多方的数据源 C. 合适的数据分析 D. 信得过的第三方单位 4 多选数据只有在与()的交互中才能发挥作用。

A. 人 B. 物 C. 消费者 D. 企业 5 单选大数据可能带来(),但未必能够带来()。 A. 精确度;准确度 B. 准确度;精确度 C. 精确度;多样性 D. 多样性;准确度 6 多选大数据的定义是: A. 指无法在可承受的时间范围内用常规软件工具进行捕捉、管理和处理的数据集合 B. 任何超过了一台计算机处理能力的数据量 C. 技术 D. 商业 7 多选大数据五大类应用方向是: A. 查询

B. 触达 C. 统计 D. 预警 E. 预测 8 多选以下哪些指标是衡量大数据应用成功的标准? A. 成本更低 B. 质量更高 C. 速度更快 D. 风险更低 9 多选大数据有哪些价值? A. 用户身份识别 B. 描述价值 C. 实时价值 D. 预测价值 E. 生产数据的价值 10 多选大数据的预测价值体现在:

A. 预测用户的偏好、流失 B. 预测热卖品及交易额 C. 预测经营趋势 D. 评价 11 单选什么是大数据使用的最可靠方法? A. 大数据源 B. 样本数据源 C. 规模大 D. 大数据与样本数据结合 12 多选大数据是描述()所发生的行为。 A. 未来 B. 现在 C. 过去 D. 实时 13 多选传统研究中数据采集的方法包括: A. 网络监测

北京科技大学数据库考试题库

机考201601 数据库应用1. 项目文件的扩展名是() A..PJX 2. 在命令窗口中键入下面哪个命令并按回车,可以退出Visual FoxPro ()C.QUIT 3. 选择哪个菜单下的“工具栏”,可以打开工具栏对话框() B. “显示” 4. 命令窗口被关闭后,将其重新打开的快捷键是() D.〈Ctrl 〉+〈F2〉 5. 如果一个学生可以选修多门课程,而每门课程又可以被多个学生选修,则学生和课程之间联系属于() C. 多对多联系 6. 要想将日期中的年份用4 位数字显示,应当使用的设置命令是() A. SET CENTURY ON 7. 将“学生”表中所有学生的“入学成绩”加10 分,正确的命令是() B. REPLACE ALL A学成绩WITH入学成绩+10 8. 设当前记录是第5 条,若要将记录指针指向第8 条记录,不能使用的命令是() D. SKIP 8 9. 将“学生”表中1990 年出生的学生记录显示出来(“出生日期”字段为日期型),正确的命令是() C. LIST FOR YEAR(出生日期)=1990

) OPEN 10. Visual FoxPro 不支持SQL 的哪项功能() D. 数据控制 11. 在命令窗口中输入并执行如下命令: X=275 Y= Z 二{^2010/05/28} M=.T. 内存变量X 、Y 、Z M 的数据类型分别是() D . N 、 C 、 D 、 L 12. 顺序执行下列命令之后,“学生成绩”表在几号工作区( DATABASES 学管理 USE 学生 SELECT 2 USE 课程 SELECT 0 USE 学生成绩 D . 3 13. 向数据库中添加自由表的命令是( ) A. ADD TABLE 表名 14. 打开“教学管理”数据库的正确命令是( ) D. OPEN DATABAS 教学管理 15. 在“数据工作期”窗口中可以( )

数据分析期末题

数据分析方法课程设计

题目概述: 3、调查美国50个州7种犯罪率,得结果列于表1,其中给出的是美国50个州每100 000 个人中七种犯罪的比率数据。这七种犯罪是:murder(杀人罪),rape(强奸罪),robbery(抢劫罪),assault(斗殴罪),burglary(夜盗罪),larceny(偷盗罪),auto(汽车犯罪)。

1)基于变量()的观测值,求样本协 方差矩阵S和样本相关系数矩阵R; 2)分别从S和R。出发做主成分分析: (1)求样本主成分的贡献率、累计贡献率和各个样本主成分; (2)在两种情况下,你认为应该保留几个主成分,其意义如何解释?(提示:要求累计贡献率达到80%以上)就此题而言,你认为基于S和R的分析结果哪个更 合理? (3)按第一主成分得分将美国50个州排序,结果如何? (4)作以第一主成分得分为横坐标,第二主成分得分为纵坐标的散点图。 L快速聚类和类平均距离谱系聚3)对表1的美国50个州七种犯罪的比率数据,分别试用 2.5 类法将美国50个州分4类,并对聚类结果进行分析和比较。从聚类结果看,你认为哪种分类方法好? 问题一 采用sas得到样本协方差矩阵S:

样本相关系数矩阵R: 问题二 1、从R进行主成分分析: (1)、求样本主成分的贡献率、累计贡献率和各个样本主成分。 贡献率: (2)累计贡献率到达80%以上,需保留三个主成分,前三个成分的累计贡献率已达到86.9%。

由此三个主成分: PRIN1=0.300279murder+ 0.431759 rape+0.396875 robbery+0.396652assault+ 0.440157 burglary +0.357360arceny +0.295177auto PRIN2=-0.629174muder-0.169435rape+0.042247robbery-0.343528asault+0.203341bur glary+ 0.402319larceny+0.502421auto PRIN3=0.178245muder-0.2442rape+0.495861robbery-0.06951asault- 0.2099burglary- 0.5392larceny+0.568auto 从S进行主成分分析: 贡献率: 特征向量: 累计贡献率:第一个成分贡献率已达到87.36%。主成分表达式: PRIN1=0.000864muder+0.008773rape+0.056993robbery+0.059196asault+ 0.465346burglary+0.872863larceny+0.121384auto 分析: 由于第一主成分对所有变量都有近似相等的载荷,因此可认为第一主成分是对所有犯罪率的总度量。第二主成分在变量auto和larceny上有高的正载荷,而在变量murder和assault上有高的负载荷;在burglary上存在小的正载荷,而在rape上存在小的负载荷。可以认为,这个主成分是用于度量暴力犯罪在犯罪性质上占的比重。第三主成分很难给出明显的解释。在依PRIN1排序的结果表中,排在前面的PRIN1值较小的州犯罪率较低,即北达科他NORTH DAKOTA(PRIN1= -3.96408)州犯罪率最低,PRIN1值较大的州,犯罪率较高,即内华达NEV ADA(PRIN1= 5.26699)州犯罪率最高。在依PRIN2排序的结果表35.4中,排在前面的PRIN2值较小州的暴力犯罪性质比重较大。

大数据考试题含答案

1 多选传统大数据质量清洗的特点有: A. 确定性 B. 强类型性 C. 协调式的 D. 非确定性 2 多选以下选项中属于数据的作用的是()。 A. 沟通 B. 验证假设 C. 建立信心 D. 欣赏 3 多选数据建立信心的作用需具备的条件包括()。 A. 可靠数据源 B. 多方的数据源 C. 合适的数据分析 D. 信得过的第三方单位 4 多选数据只有在与()的交互中才能发挥作用。 A. 人 B. 物 C. 消费者 D. 企业 5 单选大数据可能带来(),但未必能够带来()。 A. 精确度;准确度 B. 准确度;精确度 C. 精确度;多样性 D. 多样性;准确度

6 多选大数据的定义是: A. 指无法在可承受的时间范围内用常规软件工具进行捕捉、管理和处理的数据集合 B. 任何超过了一台计算机处理能力的数据量 C. 技术 D. 商业 7 多选大数据五大类应用方向是: A. 查询 B. 触达 C. 统计 D. 预警 E. 预测 8 多选以下哪些指标是衡量大数据应用成功的标准? A. 成本更低 B. 质量更高 C. 速度更快 D. 风险更低 9 多选大数据有哪些价值? A. 用户身份识别 B. 描述价值 C. 实时价值 D. 预测价值 E. 生产数据的价值 10 多选大数据的预测价值体现在: A. 预测用户的偏好、流失

B. 预测热卖品及交易额 C. 预测经营趋势 D. 评价 11 单选什么是大数据使用的最可靠方法? A. 大数据源 B. 样本数据源 C. 规模大 D. 大数据与样本数据结合 12 多选大数据是描述()所发生的行为。 A. 未来 B. 现在 C. 过去 D. 实时 13 多选传统研究中数据采集的方法包括: A. 网络监测 B. 电话访谈 C. 对面访谈 D. 线上互动 14 单选大数据整合要保证各个数据源之间的()。 A. 一致性、协调性 B. 差异性、协调性 C. 一致性、差异性 D. 一致性、相容性 15 单选分类变量使用()建立预测模型。 A. 决策树

《 数据分析 》课程期末考试试题A卷

命题方式:单独命题 佛山科学技术学院2008—2009学年第一学期 《数据分析》课程期末考试试题A卷专业、班级:姓名:学号:

共 3 页第 2 页

共 3 页第3 页

一(1)SAS界面包括 输出框,日志框,编辑器 (2)在非数值变量后面家上”$”符号. (3) 自由格式输入数据应加上”@@”标记. (4) 三均值的计算公式 ^ M=1/4Q1+1/2M+1/4Q3 二 程序: data t1; input x@@; cards; 100.00 107.57 112.42 96.21 121.58 107.21 117.16 116.19 101.37 109.78 112.83 104.37 105.40 109.50 111.60 112.10 113.50 112.40 proc univariate plot normal; run; proc capability graphics normal; histogram x/normal; qqplot x/normal(….); run; (1)由上图可知道 均值:109.510556 方差:40.5703938 变异系数:5.81632451 峰度:0.05978054 偏度:-0.3324812 (2) 中位数: 上四分位数: 下四分位数: 四分位极差: (3)做出直方图、QQ图、茎叶图、箱线图 直方图:

QQ图 茎叶图:

箱线图: (4)进行正态性W 检验(取05.0=α). 由上图可以知道Wo=0.978265,P=0.9304>05.0=α; 故不能拒绝原假设Ho,所以是高度显著的。 三 data t2; input x1-x4; cards ; 16.7 26.7 6.4 35.0 18.2 28.0 3.2 29.7 16.7 26.7 2.1 34.9 18.1 26.7 4.3 31.5 16.7 26.0 3.0 32.7 18.1 30.2 7.0 34.9 20.2 30.5 4.8 34.4 20.2 29.5 5.5 36.2 21.5 31.5 5.8 36.5 18.8 30.6 5.4 35.4 21.6 27.8 5.4 34.1 21.3 29.5 5.8 35.8 proc corr cov pearson ; run ; (1)计算协方差矩阵,Pearson 相关矩阵; 协方差矩阵:

大数据考试题

《大数据》试题 单选题 1、大数据的核心就是(B) A、告知与许可 B、预测 C、匿名化 D、规模化 2、大数据不是要教机器像人一样思考。相反,它是(A) A、把数学算法运用到海量的数据上来预测事情发生的可能性。 B、被视为人工智能的一部分。 C、被视为一种机器学习。 D、预测与惩罚。 3、采样分析的精确性随着采样随机性的增加而(C),但与样本数量的增加关系不大。 A、降低 B、不变 C、提高 D、无关 4、大数据是指不用随机分析法这样的捷径,而采用(A)的方法 A、所有数据 B、绝大部分数据 C、适量数据 D、少量数据 5、大数据的简单算法与小数据的复杂算法相比(A) A、更有效 B、相当 C、不具备可比性 D、无效 6、相比依赖于小数据和精确性的时代,大数据因为更强调数据的(D),帮助我们进一步接近事实的真相。 A、安全性 B、完整性 C、混杂性 D、完整性和混杂性 7、大数据的发展,使信息技术变革的重点从关注技术转向关注(A) A、信息 B、数字 C、文字 D、方位 8、大数据时代,我们是要让数据自己“发声”,没必要知道为什么,只需要知道(B) A、原因 B、是什么 C、关联物 D、预测的关键 9、建立在相关关系分析法基础上的预测是大数据的(C) A、基础 B、前提 C、核心 D、条件 10、(C)下列说法正确的是 A、有价值的数据是附属于企业经营核心业务的一部分数据; B、数据挖掘它的主要价值后就没有必要再进行分析了; C、所有数据都是有价值的; D、在大数据时代,收集、存储和分析数据非常简单; 11、关于数据创新,下列说法正确的是(D) A、多个数据集的总和价值等于单个数据集价值相加; B、由于数据的再利用,数据应该永久保存下去; C、相同数据多次用于相同或类似用途,其有效性会降低; D、数据只有开放价值才能得到真正释放。 12、关于数据估值,下列说法错误的是(B) A、随着数据价值被重视,公司所持有和使用的数据也渐渐纳入了无形资产的范畴; B、无论是向公众开放还是将其锁在公司的保险库中,数据都是有价值的; C、数据的价值可以通过授权的第三方使用来实现 D、目前可以通过数据估值模型来准确的评估数据的价值评估 13、在大数据时代,下列说法正确的是(B)。 A、收集数据很简单 B、数据是最核心的部分 C、对数据的分析技术和技能是最重要的 D、数据非常重要,一定要很好的保护起来,防止泄露 14、随着数据科学家的崛起,(C)的地位将发生动摇。 A、国家领导人 B、大型企业 C、行业专家和技术专家 D、职业经理人 15、大数据公司的多样性表明了(B) A、数据作用的体现 B、数据价值的转移 C、数据技术的发展 D、数据思维的创新 16、以下哪种说法是错误的(B) A、将罪犯的定罪权放在数据手中,借以表达对数据和分析结果的崇尚,这实际上是一种滥用。 B、随着数据量和种类的增多,大数据促进了数据内容的交叉检验,匿名化的数据不会威胁到任何人的隐私。 C、采集个人数据的工具就隐藏在我们日常生活所必备的工具当中,比如网页和智能手机应用程序。 D、预测与惩罚,不是因为所做,而是因为将做。 17、只要得到了合理的利用,而不单纯只是为了“数据”而“数据”,大数据就会变成(B) A、强大的威胁 B、强大的武器 C、预测工具 D、分析工具 18、在大数据时代,我们需要设立一个不一样的隐私保护模式,这个模式应该更着重于(A)为其行为承担责任。 A、数据使用者 B、数据提供者 C、个人许可 D、数据分析者

大数据试题及答案

第一组试题 一、选择题 1、以下哪个不是大数据的特征(C ) A. 价值密度低 B. 数据类型繁多 C.访问时间短 D. 处理速度快 2、当前大数据技术的基础是由( C )首先提出的。(单选题,本题2 分)A:微软 B:百度 C:谷歌 D:阿里巴巴 3、大数据的起源是(C )。(单选题,本题2 分) A:金融 B:电信 C:互联网 D:公共管理 4、根据不同的业务需求来建立数据模型,抽取最有意义的向量,决定选取哪种方法的数据分析角色人员是( C )。(单选题,本题 2 分) A:数据管理人员 B:数据分析员 C:研究科学家 D:软件开发工程师 5、(C )反映数据的精细化程度,越细化的数据,价值越高。(单选题,本题 2 分) A:规模 B:活性 C:颗粒度 D:关联度 6、智能健康手环的应用开发,体现了( C )的数据采集技术的应用。(单选 题,本题 2 分) A:统计报表 B:网络爬虫 C:传感器 D:API 接口 7、下列关于数据重组的说法中,错误的是(C )。(单选题,本题2 分)A:数据重组实现的关键在于多源数据融合和数据集成 B:数据重组能够使数据焕发新的光芒 C:数据重组是数据的重新生产和重新采集 D:数据重组有利于实现新颖的数据模式创新

8、智慧城市的构建,不包含(C )。(单选题,本题2 分) A:数字城市 B:物联网 C:联网监控 D:云计算 9、当前社会中,最为突出的大数据环境是(C )。(单选题,本题2 分)A:综合国力 B:物联网 C:互联网 D:自然资源 二、判断题 1.对于大数据而言,最基本。最重要的是要求就是减少错误、保证质量。因此,大数据收集的信息要尽量精确。() 2. 对于大数据而言,在数据规模上强调相对数据而不是绝对数据。() 3.基于大数据的营销模式和传统营销模式,传统营销模式比大数据营销模式投入更小。() 4.大数据具有体量大、结构单一、时效性强的特征。() 三、简答题 1.大数据发展过程中遇到的问题有哪些? 解析: (1)大数据是全数据,忽视甚至蔑视抽样; (2)连续数据就是大数据; (3)数据量级大是大数据; (4)数据量大好于量小。 2.咸鱼APP在投入使用发展过程中有哪些不足之处? 解析: (1)交易信任危机 (2)物流问题 (3)商品的售后及维修问题

(完整版)郑州大学数据库原理_期末考试试题

第一章 一、单项选择题 1、文件系统与数据库系统相比较,其缺陷主要表现在数据联系弱、数据冗余和(C ) A、数据存储量低 B、处理速度慢 C、数据不一致 D、操作繁琐 2、数据的存储结构与数据逻辑结构之间的独立性成为数据的(B) A、结构独立性 B、物理独立性 C、逻辑独立性 D、分布独立性 3、在数据库系统中,对数据操作的最小单位是(B ) A、字节 B、数据项 C、记录 D、字符 4、数据的逻辑结构与用户视图之间的独立性称为数据的(C) A、结构独立性 B、物理独立性 C、逻辑独立性 D、分布独立性 5、下述各项中,属于数据库系统的特点的是(C) A、存储量大 B、存取速度快 C、数据共享 D、操作方便 6、在数据库系统中,模式/内模式映像用于解决数据的(B) A、结构独立性 B、物理独立性 C、逻辑独立性 D、分布独立性 7、在数据库系统中,模式/外模式映像用于解决数据的(C) A、结构独立性 B、物理独立性 C、逻辑独立性 D、分布独立性 8、数据库结构的描述,称为(D ) A、数据库模式 B、数据库 C、数据库管理系统 D、数据字典 9、数据库中全体数据的整体逻辑结构描述成为(D ) A、存储模式 B、内模式 C、外模式 D、概念模式 10、保证数据库中数据及语义的正确性和有效性,是数据库的(C) A、安全性 B、准确性 C、完整性 D、共享性 11、在数据库系统中,数据独立性是指(C) A、用户与计算机系统的独立性 B、数据库与计算机的独立性 C、数据与应用程序的独立性 D、用户与数据库的独立性 12、结构数据模型的三个组成部分是数据结构、数据操作和(C) A、数据安全型控制 B、数据一致性规则 C、数据完整性约束 D、数据处理逻辑 13、数据操纵语言(DML)的基本功能中,不包括的是( B ) A、插入新数据B描述数据库结构 C、数据库中数据排序 D、删除数据库中数据 14、控制数据库整体结构、负责数据库物理结构和逻辑结构的定义与修改人员是( D )

上海海事大学数据库试题

上海海事大学试卷 2013—2014学年第一学期期末考试 《数据库原理及应用》(A卷) 班级:学号:姓名:总分 (请将答案写在答题纸上,否则无效;试卷不许带出考场,试卷上写明班级、学号、姓名) 一、选择题,每道题只有一个正确答案(1.5分/题,共36分) 1.数据库的()是为了防止数据库中存在不符合语义的数据。 A.完整性 B.安全性 C.并发控制 D.恢复技术 答案:A 2.()规定在对任何数据进行读、写操作之前,事务首先要获得对该数据的封锁;在释放一个封锁之后,事务不再申请和获得任何其他封锁。 A.一次封锁法 B.顺序封锁法 C.两段锁协议 D.多粒度封锁法 答案:C 3.在视图上不能完成的操作是() A.更新视图 B.查询 C.在视图上定义新的表 D.在视图上定义新的视图 答案:C 4.在对用户进行权限授予时,()短语表示获得某种权限的用户可以传播该权限。 A.with check option B.with view option C.with grant option D.with function option c 5.数据的逻辑独立性是指() A.存储结构与物理结构的逻辑独立性 B.数据与存储结构的逻辑独立性 C.数据与程序的逻辑独立性 D.数据元素之间的逻辑独立性 C 6.三级模式间存在两种映像,他们是() A.模式与子模式间,模式与内模式间 B.子模式与内模式间,外模式与内模式 C.子模式与外模式间,模式与内模式间 D.模式与内模式间,模式与模式间 A 7.事务的一致性是指(d ) A.事务中包括的所有操作要么不做,要么都做(原子性) B.事务一旦提交,对数据库的改变是永久的持续性 C.一个事物内部的操作及使用的数据对并发的其他事务是隔离的隔离性 D.事务必须使得数据库从一个一致性状态变到另一个一致性状态

生意参谋数据分析师考试题复习(三)

《生意参谋数据分析师》考试 1、 单选题 分值: 1 王家杂货铺的掌柜在复盘上月数据时发现客服小甲有12个咨询是没回复;如果小甲上个月总共有100个咨询量,那么他当时的回复率是多少? A: 0.12 B: 0.58 C: 0.82 D: 0.88 答案解析:"参考章节:店铺客服转化率诊断本题考点:客服回复率答案解析:客服回复率是指客服对于咨询他的客户进行回复的百分占比,如果有100个咨询量,其中12个没有回复,那么回复率就是(10 0-12)/100=88%" 2、 单选题 分值: 1 小芳根据数据分析发现主推宝贝标题里很多关键词没有带来访客数和转化率,于是想要替换这些关键词,她应该替换什么关键词进去? A: 从生意参谋的搜索词里面找到自己叶子类目的相关性强转化率高流量大的核心关键词,如果标题里没有的,就可以找出来替换进去。 B: 看看别人标题都用什么词,自己没有的,加进来 C: 加类目大词进来引流量 D: 选一些长尾词转化率高

答案解析:参考章节:快速优化标题提升手淘搜索流量本题考点:优质关键词寻找和标题优化答案解析:生意参谋—市场—搜索排行—搜索词里面找到自己叶子类目的相关性强转化率高流量大的核心关键词。 3、 单选题 分值: 1 小明是吹风机类目的商家,他想做类目趋势对比表,为此他需要收集近几年的相关数据作为参考? A: 近5年 B: 近4年 C: 近3年 D: 近2年 答案解析:参考章节:品类罗盘—商品年度规划(一)本题考点:市场趋势表格制作试题解析:在大数据的背景下,我们做类目数据对比时,会去抓取近3年子类目数据为参考维度。 4、 单选题 分值: 1 小明店铺的无线首页,模块1跳转店内爆款,每天点击量200,模块2跳转店内新品,每天点击量80;因为新品数据良好,有次爆款潜力,小明决定交换模块1和模块2跳转商品! A: 正确 B: 错误 答案解析:参考章节:页面效果如何提升?本题考点:页面数据分析答案解析:根据页面板块的点击数、点击率、转化率等数据来确定优化方向 5、 单选题 分值: 1 为了尽量减少花费,小李想选择免费方法实现新品破0 ;以下那种破0 方法不是免费的?

中南大学数据库考试题库

基础知识(单选) 1.在数据库设计中,用E-R图来描述信息结构但不涉及信息在计算机中的表示,它属于数据库设计的( )阶段。 A 需求分析 B 概念设计 C 逻辑设计 D 物理设计 参考答案 B 数据库设计步骤: (1)规划(必要性、可行性,总目标) (2)需求分析(分析用户活动,产生业务流程图;确定系统范围,产生系统范围图;分析用户活动涉及的数据,产生数据流程图;分析系统数据,产生数据字典。) (3)概念设计(设计出独立于计算机硬件和DBMS的概念模式。E-R模型是主要设计工具) (4)逻辑结构设计(把概念设计阶段设计好的全局E-R模式转换成与选用的具体机器上的DBMS所支持的数据模型相符合的逻辑结构,包括数据库模式和外模式) (5)数据库的物理设计(对于给定的数据模型选取一个最适合应用环境的物理结构的过程。数据库的物理结构主要指数据库的存储记录格式、存储记录安排和存取方法) (6)数据库的实现(建立实际数据库结构;装入试验数据对应用程序进行调试;装入实际数据,进入试运行状态) (7)数据库的运行与维护(维护数据库的安全性与完整性;监测并改善数据库运行性能;根据用户要求对数据库现有功能进行扩充;及时改正运行中发现的系统错误) 2. 关于数据库概念设计阶段的工作目标,下列说法错误的是 A 定义和描述应用系统涉及的信息结构和范围 B 定义和描述应用系统中数据的属性特征和数据之间的联系 C 描述应用系统的数据需求 D 描述需要存储的记录及其数量 参考答案 D 3. SQL Server 2000的字符型系统数据类型主要包括( )。 A int、money、char B char、varchar、text C datetime、binary、int D char、varchar、int

相关文档
相关文档 最新文档