当前位置：文档库 › 数据分析师笔试题

数据分析师笔试题

数据分析师面试题

1，数据区域如下图所示，请根据得分等级参照表，写出B2单元格公式，确保公式适用于下拖：

公式：

2，数据区域如下图所示，请写出B2单元格公式，确保公式适用于下拖：

公式：

3，请简要说明SQL中内连接，左连接，右连接，外连接的区别？

4，请简要描述SQL的执行顺序？

5，假设12个销售价格记录组已经排序如下：5, 10, 11, 13, 15, 35, 50, 55, 72, 92, 204, 215使用如下每种方法将它们划分成四个箱。等频（等深）划分时，15在第几个箱子内？（）

A 第一个

B 第二个

C 第三个

D 第四个

数据分析师常见的7道笔试题目及答案

数据分析师常见的7道笔试题目及答案导读：探索性数据分析侧重于在数据之中发现新的特征，而验证性数据分析则侧重于已有假设的证实或证伪。以下是由小编J.L为您整理推荐的实用的应聘笔试题目和经验，欢迎参考阅读。 1、海量日志数据，提取出某日访问百度次数最多的那个IP。首先是这一天，并且是访问百度的日志中的IP取出来，逐个写入到一个大文件中。注意到IP是32位的，最多有个2^32个IP。同样可以采用映射的方法，比如模1000，把整个大文件映射为1000个小文件，再找出每个小文中出现频率最大的IP(可以采用 hash_map进行频率统计，然后再找出频率最大的几个)及相应的频率。然后再在这1000 个最大的IP中，找出那个频率最大的IP，即为所求。或者如下阐述：算法思想：分而治之+Hash 1.IP地址最多有2^32=4G种取值情况，所以不能完全加载到内存中处理; 2.可以考虑采用“分而治之”的思想，按照IP地址的Hash(IP)24值，把海量IP日志分别存储到1024个小文件中。这样，每个小文件最多包含4MB个IP地址; 3.对于每一个小文件，可以构建一个IP为key，出现次数为value的Hash map，同时记录当前出现次数最多的那个IP地址; 4.可以得到1024个小文件中的出现次数最多的IP，再依据常规的排序算法得到总体上出现次数最多的IP; 2、搜索引擎会通过日志文件把用户每次检索使用的所有检索串都记录下来，每个查询串的长度为1-255字节。假设目前有一千万个记录(这些查询串的重复度比较高，虽然总数是1千万，但如果除去重复后，不超过3百万个。一个查询串的重复度越高，说明查询它的用户越多，也就是越热门。)，请你统计最热门的10个查询串，要求使用的内存不能超过1G。典型的Top K算法，还是在这篇文章里头有所阐述，文中，给出的最终算法是：第一步、先对这批海量数据预处理，在O(N)的时间内用Hash表完成统计(之前写成了排序，特此订正。July、2011.04.27); 第二步、借助堆这个数据结构，找出Top K，时间复杂度为N‘logK。即，借助堆结构，我们可以在log量级的时间内查找和调整/移动。因此，维护一个K(该题目中是10)大小的小根堆，然后遍历300万的Query，分别和根元素进行对比所以，我们最终的时间复杂度是：O(N) + N’*O(logK)，(N为1000万，N’为300万)。ok，更多，详情，请参考原文。或者：采用trie树，关键字域存该查询串出现的次数，没有出现为0。最后用10 个元素的最小推来对出现频率进行排序。 3、有一个1G大小的一个文件，里面每一行是一个词，词的大小不超过16字节，内存限制大小是1M。返回频数最高的100个词。方案：顺序读文件中，对于每个词x，取hash(x)P00，然后按照该值存到5000 个小文件(记为x0，x1，…x4999)中。这样每个文件大概是200k左右。如果其中的有的文件超过了1M大小，还可以按照类似的方法继续往下分，直到分解得到的小文件的大小都不超过1M。对每个小文件，统计每个文件中出现的词以及相应的频率(可以采用trie树 /hash_map等)，并取出出现频率最大的100个词(可以用含100 个结点的最小堆)，并把

大数据试题答案与解析_最全

1、当前大数据技术的基础是由（ C）首先提出的。（单选题，本题2分） A：微软 B：百度 C：谷歌 D：阿里巴巴 2、大数据的起源是（C ）。（单选题，本题2分） A：金融 B：电信 C：互联网 D：公共管理 3、根据不同的业务需求来建立数据模型，抽取最有意义的向量，决定选取哪种方法的数据分析角色人员是（ C）。（单选题，本题2分） A：数据管理人员 B：数据分析员 C：研究科学家 D：软件开发工程师 4、（D ）反映数据的精细化程度，越细化的数据，价值越高。（单选题，本题2分） A：规模 B：活性 C：关联度 D：颗粒度 5、数据清洗的方法不包括（ D）。（单，本题2分）

A：缺失值处理 B：噪声数据清除 C：一致性检查 D：重复数据记录处理 6、智能健康手环的应用开发，体现了（ D）的数据采集技术的应用。（单选题，本题2分） A：统计报表 B：网络爬虫 C：API接口 D：传感器 7、下列关于数据重组的说法中，错误的是（ A）。（单选题，本题2分） A：数据重组是数据的重新生产和重新采集 B：数据重组能够使数据焕发新的光芒 C：数据重组实现的关键在于多源数据融合和数据集成 D：数据重组有利于实现新颖的数据模式创新 8、智慧城市的构建，不包含（ C）。（单选题，本题2分） A：数字城市 B：物联网 C：联网监控 D：云计算大数据的最显著特征是（ A）。（单选题，本题2分） A：数据规模大 B：数据类型多样

C：数据处理速度快 D：数据价值密度高 10、美国海军军官莫里通过对前人航海日志的分析，绘制了新的航海路线图，标明了大风与洋流可能发生的地点。这体现了大数据分析理念中的（B ）。（单选题，本题2分） A：在数据基础上倾向于全体数据而不是抽样数据 B：在分析方法上更注重相关分析而不是因果分析 C：在分析效果上更追究效率而不是绝对精确 D：在数据规模上强调相对数据而不是绝对数据 11、下列关于舍恩伯格对大数据特点的说法中，错误的是（D ）。（单选题，本题2分） A：数据规模大 B：数据类型多样 C：数据处理速度快 D：数据价值密度高 12、当前社会中，最为突出的大数据环境是（A ）。（单选题，本题2分） A：互联网 B：物联网 C：综合国力 D：自然资源 13、在数据生命周期管理实践中，（ B）是（单选题，本题2分） A：数据存储和备份规 B：数据管理和维护 C：数据价值发觉和利用

数据分析笔试题

从互联网巨头数据挖掘类招聘笔试题目看我们还差多少知识 1 从阿里数据分析师笔试看职业要求以下试题是来自阿里巴巴招募实习生的一次笔试题，从笔试题的几个要求我们一起来看看数据分析的职业要求。一、异常值是指什么？请列举1种识别连续型变量异常值的方法？异常值（Outlier）是指样本中的个别值，其数值明显偏离所属样本的其余观测值。在数理统计里一般是指一组观测值中与平均值的偏差超过两倍标准差的测定值。 Grubbs’test（是以Frank E. Grubbs命名的），又叫maximum normed residual test，是一种用于单变量数据集异常值识别的统计检测，它假定数据集来自正态分布的总体。未知总体标准差σ，在五种检验法中，优劣次序为：t检验法、格拉布斯检验法、峰度检验法、狄克逊检验法、偏度检验法。点评：考察的内容是统计学基础功底。二、什么是聚类分析？聚类算法有哪几种？请选择一种详细描述其计算原理和步骤。聚类分析(cluster analysis)是一组将研究对象分为相对同质的群组(clusters)的统计分析技术。聚类分析也叫分类分析(classification analysis)或数值分类(numerical taxonomy)。聚类与分类的不同在于，聚类所要求划分的类是未知的。聚类分析计算方法主要有：层次的方法（hierarchical method）、划分方法（partitioning method）、基于密度的方法（density-based method）、基于网格的方法（grid-based method）、基于模型的方法（model-based method）等。其中，前两种算法是利用统计学定义的距离进行度量。k-means 算法的工作过程说明如下：首先从n个数据对象任意选择k 个对象作为初始聚类中心；而对于所剩下其它对象，则根据它们与这些聚类中心的相似度（距离），分别将它们分配给与其最相似的（聚类中心所代表的）聚类；然后再计算每个所获新聚类的聚类中心（该聚类中所有对象的均值）；不断重复这一过程直到标准测度函数开始收敛为止。一般都采用均方差(标准差)作为标准测度函数. k个聚类具有以下特点：各聚类本身尽可能的紧凑，而各聚类之间尽可能的分开。其流程如下：（1）从n个数据对象任意选择k 个对象作为初始聚类中心；（2）根据每个聚类对象的均值（中心对象），计算每个对象与这些中心对象的距离；并根据最小距离重新对相应对象进行划分；（3）重新计算每个（有变化）聚类的均值（中心对象）；（4）循环（2）、（3）直到每个聚类不再发生变化为止（标准测量函数收敛）。优点：本算法确定的K 个划分到达平方误差最小。当聚类是密集的，且类与类之间区别明显时，效果较好。对于处理大数据集，这个算法是相对可伸缩和高效的，计算的复杂度为O(NKt)，其中N是数据对象的数目，t是迭代的次数。一般来说，K<

数据分析期末试题及答案

数据分析期末试题及答案一、人口现状.sav数据中是1992年亚洲各国家和地区平均寿命(y)、按购买力计算的人均GDP(x1)、成人识字率(x2)，一岁儿童疫苗接种率(x3)的数据，试用多元回归分析的方法分析各国家和地区平均寿命与人均GDP、成人识字率、一岁儿童疫苗接种率的关系。(25分) 解： 1.通过分别绘制地区平均寿命(y)、按购买力计算的人均GDP(x1)、成人识字率(x2)，一岁儿童疫苗接种率(x3)之间散点图初步分析他们之间的关系上图是以人均GDP(x1)为横轴，地区平均寿命(y)为纵轴的散点图，由图可知，他们之间没有呈线性关系。尝试多种模型后采用曲线估计，得出表示地区平均寿命(y)与人均GDP(x1)的对数有线性关系

上图是以成人识字率(x2)为横轴，地区平均寿命(y)为纵轴的散点图，由图可知，他们之间基本呈正线性关系。上图是以疫苗接种率(x3)为横轴，地区平均寿命(y)为纵轴的散点图，由图可知，他们之间没有呈线性关系。 x）为横轴，地区平均寿命(y)为纵轴的散点图，上图是以疫苗接种率(x3)的三次方（3 3 由图可知，他们之间呈正线性关系所以可以采用如下的线性回归方法分析。

2.线性回归先用强行进入的方式建立如下线性方程设Y=β0+β1*（Xi1）+β2*Xi2+β3* X+εi i=1.2 (24) 3i 其中εi（i=1.2……22）相互独立，都服从正态分布N（0，σ^2）且假设其等于方差 R值为0.952，大于0.8，表示两变量间有较强的线性关系。且表示平均寿命(y)的95.2%的信息能由人均GDP(x1)、成人识字率(x2)，一岁儿童疫苗接种率(x3)一起表示出来。建立总体性的假设检验提出假设检验H0：β1=β2=β3=0，H1,：其中至少有一个非零得如下方差分析表上表是方差分析SAS输出结果。由表知，采用的是F分布，F=58.190，对应的检验概率P值是0.000.，小于显著性水平0.05，拒绝原假设，表示总体性假设检验通过了，平均寿命(y)与人均GDP(x1)、成人识字率(x2)，一岁儿童疫苗接种率(x3)之间有高度显著的的线性回归关系。

数据分析师面试常见的77个问题

数据分析师面试常见的77个问题 2013-09-28数据挖掘与数据分析随着大数据概念的火热，数据科学家这一职位应时而出，那么成为数据科学家要满足什么条件？或许我们可以从国外的数据科学家面试问题中得到一些参考，下面是77个关于数据分析或者数据科学家招聘的时候会常会的几个问题，供各位同行参考。 1、你处理过的最大的数据量？你是如何处理他们的？处理的结果。 2、告诉我二个分析或者计算机科学相关项目？你是如何对其结果进行衡量的？ 3、什么是：提升值、关键绩效指标、强壮性、模型按合度、实验设计、2/8原则？ 4、什么是：协同过滤、n-grams, map reduce、余弦距离？ 5、如何让一个网络爬虫速度更快、抽取更好的信息以及更好总结数据从而得到一干净的数据库？ 6、如何设计一个解决抄袭的方案？ 7、如何检验一个个人支付账户都多个人使用？ 8、点击流数据应该是实时处理？为什么？哪部分应该实时处理？ 9、你认为哪个更好：是好的数据还是好模型？同时你是如何定义“好”？存在

所有情况下通用的模型吗？有你没有知道一些模型的定义并不是那么好？ 10、什么是概率合并（AKA模糊融合）？使用SQL处理还是其它语言方便？对于处理半结构化的数据你会选择使用哪种语言？ 11、你是如何处理缺少数据的？你推荐使用什么样的处理技术？ 12、你最喜欢的编程语言是什么？为什么？ 13、对于你喜欢的统计软件告诉你喜欢的与不喜欢的3个理由。 14、SAS, R, Python, Perl语言的区别是？ 15、什么是大数据的诅咒？ 16、你参与过数据库与数据模型的设计吗？ 17、你是否参与过仪表盘的设计及指标选择？你对于商业智能和报表工具有什么想法？ 18、你喜欢TD数据库的什么特征？ 19、如何你打算发100万的营销活动邮件。你怎么去优化发送？你怎么优化反应率？能把这二个优化份开吗？ 20、如果有几个客户查询ORACLE数据库的效率很低。为什么？你做什么可以提高速度10倍以上，同时可以更好处理大数量输出？ 21、如何把非结构化的数据转换成结构化的数据？这是否真的有必要做这样的转换？把数据存成平面文本文件是否比存成关系数据库更好？ 22、什么是哈希表碰撞攻击？怎么避免？发生的频率是多少？ 23、如何判别mapreduce过程有好的负载均衡？什么是负载均衡？ 24、请举例说明mapreduce是如何工作的？在什么应用场景下工作的很好？云的安全问题有哪些？ 25、（在内存满足的情况下）你认为是100个小的哈希表好还是一个大的哈希表，对于内在或者运行速度来说？对于数据库分析的评价？ 26、为什么朴素贝叶斯差？你如何使用朴素贝叶斯来改进爬虫检验算法？ 27、你处理过白名单吗？主要的规则？（在欺诈或者爬行检验的情况下） 28、什么是星型模型？什么是查询表？

数据分析笔试题

数据分析笔试题一、编程题（每小题20分）（四道题任意选择其中三道）有一个计费表表名jifei 字段如下：phone(8位的电话号码)，month（月份），expenses （月消费，费用为0表明该月没有产生费用）下面是该表的一条记录：64262631,201011,30.6 这条记录的含义就是64262631的号码在2010年11月份产生了30.6元的话费。按照要求写出满足下列条件的sql语句： 1、查找2010年6、7、8月有话费产生但9、10月没有使用并（6、7、8月话费均在51-100 元之间的用户。 2、查找2010年以来（截止到10月31日）所有后四位尾数符合AABB或者ABAB或者AAAA 的电话号码。（A、B 分别代表1—9中任意的一个数字） 3、删除jifei表中所有10月份出现的两条相同记录中的其中一条记录。

4、查询所有9月份、10月份月均使用金额在30元以上的用户号码（结果不能出现重复）二、逻辑思维题（每小题10分）须写出简要计算过程和结果。 1、某人卖掉了两张面值为60元的电话卡，均是60元的价格成交的。其中一张赚了20%，另一张赔了20%，问他总体是盈利还是亏损，盈/亏多少？ 2、有个农场主雇了两个小工为他种小麦，其中A是一个耕地能手，但不擅长播种；而B 耕地很不熟练，但却是播种的能手。农场主决定种10亩地的小麦，让他俩各包一半，于是A从东头开始耕地，B从西头开始耕。A耕地一亩用20分钟，B却用40分钟，可是B播种的速度却比A快3倍。耕播结束后，庄园主根据他们的工作量给了他俩600元工钱。他俩怎样分才合理呢? 3、1 11 21 1211 111221 下一行是什么？ 4、烧一根不均匀的绳，从头烧到尾总共需要1个小时。现在有若干条材质相同的绳子，问如何用烧绳的方法来计时一个小时十五分钟呢？（绳子分别为A 、B、C、D、E、F 。。。。。来代替）

生意参谋数据分析师考试题复习(三)

《生意参谋数据分析师》考试 1、单选题分值: 1 王家杂货铺的掌柜在复盘上月数据时发现客服小甲有12个咨询是没回复；如果小甲上个月总共有100个咨询量，那么他当时的回复率是多少？ A: 0.12 B: 0.58 C: 0.82 D: 0.88 答案解析："参考章节：店铺客服转化率诊断本题考点：客服回复率答案解析：客服回复率是指客服对于咨询他的客户进行回复的百分占比，如果有100个咨询量，其中12个没有回复，那么回复率就是（10 0-12）/100=88%" 2、单选题分值: 1 小芳根据数据分析发现主推宝贝标题里很多关键词没有带来访客数和转化率，于是想要替换这些关键词，她应该替换什么关键词进去？ A: 从生意参谋的搜索词里面找到自己叶子类目的相关性强转化率高流量大的核心关键词，如果标题里没有的，就可以找出来替换进去。 B: 看看别人标题都用什么词，自己没有的，加进来 C: 加类目大词进来引流量 D: 选一些长尾词转化率高

答案解析：参考章节：快速优化标题提升手淘搜索流量本题考点：优质关键词寻找和标题优化答案解析：生意参谋—市场—搜索排行—搜索词里面找到自己叶子类目的相关性强转化率高流量大的核心关键词。 3、单选题分值: 1 小明是吹风机类目的商家，他想做类目趋势对比表，为此他需要收集近几年的相关数据作为参考？ A: 近5年 B: 近4年 C: 近3年 D: 近2年答案解析：参考章节：品类罗盘—商品年度规划（一）本题考点：市场趋势表格制作试题解析：在大数据的背景下，我们做类目数据对比时，会去抓取近3年子类目数据为参考维度。 4、单选题分值: 1 小明店铺的无线首页，模块1跳转店内爆款，每天点击量200，模块2跳转店内新品，每天点击量80；因为新品数据良好，有次爆款潜力，小明决定交换模块1和模块2跳转商品！ A: 正确 B: 错误答案解析：参考章节：页面效果如何提升？本题考点：页面数据分析答案解析：根据页面板块的点击数、点击率、转化率等数据来确定优化方向 5、单选题分值: 1 为了尽量减少花费，小李想选择免费方法实现新品破0 ；以下那种破0 方法不是免费的？

数据分析专员笔试题

XXX公司数据分析专员笔试试题姓名：日期：一、异常值是指什么？请列举1种识别连续型变量异常值的方法？异常值（Outlier）是指样本中的个别值，其数值明显偏离所属样本的其余观测值。在数理统计里一般是指一组观测值中与平均值的偏差超过两倍标准差的测定值。 Grubbs’ test（是以Frank E. Grubbs命名的），又叫maximum normed residual test，是一种用于单变量数据集异常值识别的统计检测，它假定数据集来自正态分布的总体。未知总体标准差σ，在五种检验法中，优劣次序为：t检验法、格拉布斯检验法、峰度检验法、狄克逊检验法、偏度检验法。点评：考察的内容是统计学基础功底。二、什么是聚类分析？聚类算法有哪几种？请选择一种详细描述其计算原理和步骤。聚类分析(cluster analysis)是一组将研究对象分为相对同质的群组(clusters)的统计分析技术。聚类分析也叫分类分析(classification analysis)或数值分类(numerical taxonomy)。聚类与分类的不同在于，聚类所要求划分的类是未知的。聚类分析计算方法主要有：层次的方法（hierarchical method）、划分方法（partitioning method）、基于密度的方法（density-based method）、基于网格的方法（grid-based method）、基于模型的方法（model-based method）等。其中，前两种算法是利用统计学定义的距离进行度量。 k-means 算法的工作过程说明如下：首先从n个数据对象任意选择 k 个对象作为初始聚类中心；而对于所剩下其它对象，则根据它们与这些聚类中心的相似度（距离），分别将它们分配给与其最相似的（聚类中心所代表的）聚类；然后再计算每个所获新聚类的聚类中心（该聚类中所有对象的均值）；不断重复这一过程直到标准测度函数开始收敛为止。一般都采用均方差作为标准测度函数. k个聚类具有以下特点：各聚类本身尽可能的紧凑，而各聚类之间尽可能的分开。其流程如下：（1）从 n个数据对象任意选择 k 个对象作为初始聚类中心；（2）根据每个聚类对象的均值（中心对象），计算每个对象与这些中心对象的距离；并根据最小距离重新对相应对象进行划分；（3）重新计算每个（有变化）聚类的均值（中心对象）；（4）循环（2）、（3）直到每个聚类不再发生变化为止（标准测量函数收敛）。优点：本算法确定的K 个划分到达平方误差最小。当聚类是密集的，且类与类之间区别明显时，效果较好。对于处理大数据集，这个算法是相对可伸缩和高效的，计算的复杂度为 O(NKt)，其中N是数据对象的数目，t是迭代的次数。一般来说，K<

2016年数据分析面试常见问题

1、海量日志数据，提取出某日访问百度次数最多的那个IP。首先是这一天，并且是访问百度的日志中的IP取出来，逐个写入到一个大文件中。注意到IP是32位的，最多有个2^32个IP。同样可以采用映射的方法，比如模1000，把整个大文件映射为1000个小文件，再找出每个小文中出现频率最大的IP（可以采用hash_map进行频率统计，然后再找出频率最大的几个）及相应的频率。然后再在这1000个最大的IP中，找出那个频率最大的IP，即为所求。或者如下阐述：算法思想：分而治之+Hash 1.IP地址最多有2^32=4G种取值情况，所以不能完全加载到内存中处理； 2.可以考虑采用“分而治之”的思想，按照IP地址的Hash(IP)24值，把海量IP日志分别存储到1024个小文件中。这样，每个小文件最多包含4MB个IP地址； 3.对于每一个小文件，可以构建一个IP为key，出现次数为value的Hash map，同时记录当前出现次数最多的那个IP地址； 4.可以得到1024个小文件中的出现次数最多的IP，再依据常规的排序算法得到总体上出现次数最多的IP； 2、搜索引擎会通过日志文件把用户每次检索使用的所有检索串都记录下来，每个查询串的长度为1-255字节。假设目前有一千万个记录（这些查询串的重复度比较高，虽然总数是1千万，但如果除去重复后，不超过3百万个。一个查询串的重复度越高，说明查询它的用户越多，也就是越热门。），请你统计最热门的10个查询串，要求使用的内存不能超过1G。典型的Top K算法，还是在这篇文章里头有所阐述，文中，给出的最终算法是：

第一步、先对这批海量数据预处理，在O（N）的时间内用Hash表完成统计（之前写成了排序，特此订正。July、2011.04.27）；第二步、借助堆这个数据结构，找出Top K，时间复杂度为N‘logK。即，借助堆结构，我们可以在log量级的时间内查找和调整/移动。因此，维护一个K(该题目中是10)大小的小根堆，然后遍历300万的Query，分别和根元素进行对比所以，我们最终的时间复杂度是：O（N）+ N’*O（logK），（N为1000万，N’为300万）。ok，更多，详情，请参考原文。或者：采用trie树，关键字域存该查询串出现的次数，没有出现为0。最后用10个元素的最小推来对出现频率进行排序。 3、有一个1G大小的一个文件，里面每一行是一个词，词的大小不超过16字节，内存限制大小是1M。返回频数最高的100个词。方案：顺序读文件中，对于每个词x，取hash(x)P00，然后按照该值存到5000个小文件（记为x0,x1,…x4999）中。这样每个文件大概是200k左右。如果其中的有的文件超过了1M大小，还可以按照类似的方法继续往下分，直到分解得到的小文件的大小都不超过1M。对每个小文件，统计每个文件中出现的词以及相应的频率（可以采用trie树/hash_map 等），并取出出现频率最大的100个词（可以用含100个结点的最小堆），并把100个词及相应的频率存入文件，这样又得到了5000个文件。下一步就是把这5000个文件进行归并（类似与归并排序）的过程了。 4、有10个文件，每个文件1G，每个文件的每一行存放的都是用户的query，每个

2018数据分析师考试大纲

2018CPDA 数据分析师考试大纲第一部分考试介绍一、考试目标数据分析师专业技术考试主要测试考生是否具备数据分析基础知识，是否了解数据分析工作流程及数据分析技术，是否具备利用数据分析知识解决实际业务问题的能力。侧重考查考生对数据分析知识的掌握和应用，借助数据分析知识解决实际数据分析工作和企业决策工作的能力，根据企业决策的需要，对各种相关数据进行分析和评估能力。考点涉及数据分析统计基础、数据获取、数据预处理、数据可视化、数据算法模型及客户数据分析、产品数据分析、营销数据分析、采购数据分析、物流数据分析、生产制造数据分析、智能供应链及投资收益风险分析等。二、考试科目及考试形式考试分为理论机考和实操笔试，考试时限分别为90 分钟和120 分钟，满分都为100分。 CPDA 数据分析师的认证考核采取全国统一时间，每年四次。三、教材与资料《数据分析基础》《营销数据分析》《供应链优化与投资分析》《战略管理》《面授讲义》是数据分析师考生必修必考教材与资料。四、知识点要求注释识记：要求掌握概念、熟悉理论、重点考试要求范围；理解：要求应知应会，非重点考试要求范围；应用：掌握实际使用方法，运用计算工具或分析软件进行实和分析，考试要求范围；了解：拓展性知识，非考试要求范围。第二部分考试内容根据数据分析师专业技术考试的考试目标、科目和考试形式等要求，数据分析师专业技术考试科目要点包括但不限于以下内容：一、数据分析理论知识数据分析理论知识是对考生数据分析基础知识的掌握程度的测试。数据分析基础主要从数据分析的整个流程去考查学生知识，其中涵盖了数据获取、数据预处理、数据可视化、数据分析算

生意参谋数据分析师考试题库(二)

《生意参谋数据分析师》考试 49、单选题分值: 1 小芳根据数据分析发现主推宝贝标题里很多关键词没有带来访客数和转化率，于是想要替换这些关键词，她应该替换什么关键词进去？A A: 从生意参谋的搜索词里面找到自己叶子类目的相关性强转化率高流量大的核心关键词，如果标题里没有的，就可以找出来替换进去。 B: 看看别人标题都用什么词，自己没有的，加进来 C: 加类目大词进来引流量 D: 选一些长尾词转化率高答案解析：参考章节：快速优化标题提升手淘搜索流量本题考点：优质关键词寻找和标题优化答案解析：生意参谋—市场—搜索排行—搜索词里面找到自己叶子类目的相关性强转化率高流量大的核心关键词。 50、多选题分值: 3 生意参谋中显示的哪些渠道流量需要商家付费获取？ABC A: 直通车 B: 淘宝客 C: 聚划算 D: 淘内免费其他答案解析：参考章节：单品流量来源分析本题考点：店铺来源—构成—商品效果答案解析：需要花钱的流量叫付费流量 51、

判断题分值: 5 内容的整体分析无益于店铺内容情况的复盘？错误正确错误答案解析：参考章节：店铺的整体内容投放分析本题考点：生意参谋的应用答案解析：内容的整体分析有助于我们复盘店铺的内容情况 52、单选题分值: 1 客服文文在上周接到了100个客户的咨询，有60个客户下单，最终有50个客户支付成功；由此可知上周客服文文的询单-支付转化率是多少？C A: 0.3 B: 0.4 C: 0.5 D: 0.6 答案解析：参考章节：从询单转化率提升客服效能本题考点：询单转化率答案解析：询单支付转化率=询单付款人数/询单人数；询单下单转化率=询单下单人数/询单人数。本题询单人数为300，询单付款人数为50，那么询单支付转化率是：50/100=50% 53、多选题分值: 3 服装类的短视频脚本策划包括以下哪几个重点维度？ABC A: 上身效果 B: 搭配

阿里数据分析笔试题

2016阿里巴巴数据分析师职位笔试题目阿里巴巴作为全球领先的小企业电子商务公司,招聘阿里巴巴数据分析师职位都会出些什么笔试题目呢?咱们一起看看。一、异常值是指什么?请列举1种识别连续型变量异常值的方法? 异常值(Outlier) 是指样本中的个别值,其数值明显偏离所属样本的其余观测值。在数理统计里一般是指一组观测值中与平均值的偏差超过两倍标准差的测定值。 Grubbs’test(是以Frank E. Grubbs命名的),又叫maximum normed residual test,是一种用于单变量数据集异常值识别的统计检测,它假定数据集来自正态分布的总体。未知总体标准差σ,在五种检验法中,优劣次序为:t检验法、格拉布斯检验法、峰度检验法、狄克逊检验法、偏度检验法。点评:考察的内容是统计学基础功底。二、什么是聚类分析?聚类算法有哪几种?请选择一种详细描述其计算原理和步骤。聚类分析(cluster analysis)是一组将研究对象分为相对同质的群组(clusters)的统计分析技术。聚类分析也叫分类分析(classification analysis)或数值分类(numerical taxonomy)。聚类与分类的不同在于,聚类所要求划分的类是未知的。聚类分析计算方法主要有:层次的方法(hierarchical method)、划分方法(partitioning method)、基于密度的方法(density-based method)、基于网格的

方法(grid-based method)、基于模型的方法(model-based method)等。其中,前两种算法是利用统计学定义的距离进行度量。 k-means 算法的工作过程说明如下:首先从n个数据对象任意选择k 个对象作为初始聚类中心;而对于所剩下其它对象,则根据它们与这些聚类中心的相似度(距离),分别将它们分配给与其最相似的(聚类中心所代表的)聚类;然后再计算每个所获新聚类的聚类中心(该聚类中所有对象的均值);不断重复这一过程直到标准测度函数开始收敛为止。一般都采用均方差作为标准测度函数. k个聚类具有以下特点:各聚类本身尽可能的紧凑,而各聚类之间尽可能的分开。其流程如下: (1)从n个数据对象任意选择k 个对象作为初始聚类中心; (2)根据每个聚类对象的均值(中心对象),计算每个对象与这些中心对象的距离;并根据最小距离重新对相应对象进行划分; (3)重新计算每个(有变化)聚类的均值(中心对象); (4)循环(2)、(3)直到每个聚类不再发生变化为止(标准测量函数收敛)。优点:本算法确定的K 个划分到达平方误差最小。当聚类是密集的,且类与类之间区别明显时,效果较好。对于处理大数据集,这个算法是相对可伸缩和高效的,计算的复杂度为O(NKt),其中N是数据对象的数目,t是迭代的次数。一般来说,K< 缺点:1. K 是事先给定的,但非常难以选定;2. 初始聚类中心的选择对聚类结果有较大的影响。点评:考察的内容是常用数据分析方法,做数据分析一定要理解数据分析算法、应用场景、使用过程、以及优缺点。

数据分析岗位笔试题目总结

阿里巴巴 1、异常值是指什么?请列举1种识别连续型变量异常值的方法? 异常值(Outlier) 是指样本中的个别值，其数值明显偏离所属样本的其余观测值。在数理统计里一般是指一组观测值中与平均值的偏差超过两倍标准差的测定值. 常见的异常值检验方法如下： ●基于统计的方法 ●基于距离的方法 ●基于密度的方法 ●基于聚类的方法 ●基于偏差的方法 ●基于深度的方法 t检验：按照t分布的实际误差分布范围来判别异常值，首先剔除一个可疑值，然后按t分布来检验剔除的值是否为异常值。狄克逊检验法：假设一组数据有序x1

指数分布检验： SPSS和R语言中通过绘制箱图可以找到异常值，分布在箱边框外部； 2、什么是聚类分析?聚类算法有哪几种?请选择一种详细描述其计算原理和步骤。聚类分析(cluster analysis)是一组将研究对象分为相对同质的群组(clusters)的统计分析技术。聚类分析也叫分类分析(classification analysis)或数值分类(numerical taxonomy)。聚类与分类的不同在于，聚类所要求划分的类是未知的。聚类分析计算方法主要有：层次的方法(hierarchical method)、划分方法(partitioning method)、基于密度的方法(density-based method)、基于网格的方法(grid-based method)、基于模型的方法(model-based method)等。其中，前两种算法是利用统计学定义的距离进行度量。常见的聚类方法有：K-pototypes算法，K-Means算法，CLARANS算法（划分方法），BIRCH算法（层次方法），CURE算法（层次方法），DBSCAN算法（基于密度的方法），CLIQUE算法（综合了基于密度和基于网格的算法）； k-means 算法的工作过程说明如下：首先从n个数据对象任意选择 k 个对象作为初始聚类中心;而对于所剩下其它对象，则根据它们与这些聚类中心的相似度(距离)，分别将它们分配给与其最相似的(聚类中心所代表的)聚类;然后再计算每个所获新聚类的聚类中心(该聚类中所有对象的均值);不断重复这一过程直到标准测度函数开始收敛为止。一般都采用均方差作为标准测度函数. k个聚类具有以下特点：各聚类本身尽可能的紧凑，而各聚类之间尽可能的分开。其流程如下： (1)从 n个数据对象任意选择 k 个对象作为初始聚类中心; (2)根据每个聚类对象的均值(中心对象)，计算每个对象与这些中心对象的距离;并根据最小距离重新对相应对象进行划分;

数据分析师笔试题目

网易数据分析专员笔试题目一、基础题 1、中国现在有多少亿网民？ 2、百度花多少亿美元收购了91无线？ 3、app store排名的规则和影响因素 4、豆瓣fm推荐算法 5、列举5个数据分析的博客或网站二、计算题 1、关于简单移动平均和加权移动平均计算 2、两行数计算相关系数。（2位小数，还不让用计算器，反正我没算） 3、计算三个距离，欧几里德，曼哈顿，闵可夫斯基距离三、简答题 1、离散的指标，优缺点 2、插补缺失值方法，优缺点及适用环境 3、数据仓库解决方案，优缺点 4、分类算法，优缺点 5、协同推荐系统和基于聚类系统的区别四、分析题关于网易邮箱用户流失的定义，挑选指标。然后要构建一个预警模型。

五、算法题记不得了，没做。。。反正是决策树和神经网络相关。 1、你处理过的最大的数据量？你是如何处理他们的？处理的结果。 2、告诉我二个分析或者计算机科学相关项目？你是如何对其结果进行衡量的？ 3、什么是：提升值、关键绩效指标、强壮性、模型按合度、实验设计、2/8原则？ 4、什么是：协同过滤、n-grams, map reduce、余弦距离？ 5、如何让一个网络爬虫速度更快、抽取更好的信息以及更好总结数据从而得到一干净的数据库？ 6、如何设计一个解决抄袭的方案？ 7、如何检验一个个人支付账户都多个人使用？ 8、点击流数据应该是实时处理？为什么？哪部分应该实时处理？

9、你认为哪个更好：是好的数据还是好模型？同时你是如何定义“好”？存在所有情况下通用的模型吗？有你没有知道一些模型的定义并不是那么好？ 10、什么是概率合并（AKA模糊融合）？使用SQL处理还是其它语言方便？对于处理半结构化的数据你会选择使用哪种语言？ 11、你是如何处理缺少数据的？你推荐使用什么样的处理技术？ 12、你最喜欢的编程语言是什么？为什么？ 13、对于你喜欢的统计软件告诉你喜欢的与不喜欢的3个理由。 14、SAS, R, Python, Perl语言的区别是？ 15、什么是大数据的诅咒？ 16、你参与过数据库与数据模型的设计吗？ 17、你是否参与过仪表盘的设计及指标选择？你对于商业智能和报表工具有什么想法？ 18、你喜欢TD数据库的什么特征？

数据分析师面试题目

数据分析师面试题目 2011-03-13 12:30 363人阅读评论(0) 收藏举报计算平均有哪些指标，各有哪些优缺点数值平均数有算术平均数、调和平均数、几何平均数等形式位置平均数有众数、中位数、四分位数等形式前三种是根据各单位标志值计算的，故称为数值平均值，后三种是根据标志值所处的位置. 相关分析和回归分析有什么关系回归分析与相关分析的联系：研究在专业上有一定联系的两个变量之间是否存在直线关系以及如何求得直线回归方程等问题，需进行直线相关和回归分析。从研究的目的来说，若仅仅为了了解两变量之间呈直线关系的密切程度和方向，宜选用线性相关分析；若仅仅为了建立由自变量推算因变量的直线回归方程，宜选用直线回归分析。回归分析和相关分析都是研究变量间关系的统计学课题，它们的差别主要是： 1、在回归分析中，y被称为因变量，处在被解释的特殊地位，而在相关分析中，x与y 处于平等的地位，即研究x与y的密切程度和研究y与x的密切程度是一致的； 2、相关分析中，x与y都是随机变量，而在回归分析中，y是随机变量，x可以是随机变量，也可以是非随机的，通常在回归模型中，总是假定x是非随机的； 3、相关分析的研究主要是两个变量之间的密切程度，而回归分析不仅可以揭示x对y的影响大小，还可以由回归方程进行数量上的预测和控制。 3.给出一组数据说是服从正态分布，求方差和均值 4.给出一个概率分布函数，求极大似然估计求极大似然函数估计值的一般步骤：（1）写出似然函数；（2）对似然函数取对数，并整理；（3）求导数；（4）解似然方程极大似然估计，只是一种概率论在统计学的应用，它是参数估计的方法之一。说的是已知某个随机样本满足某种概率分布，但是其中具体的参数不清楚，参数估计就是通过若

大数据分析师(ACP)认证考试大纲

阿里云行业认证：大数据分析师专业认证考试（ACP级）大纲阿里云大数据行业认证-大数据分析师专业认证介绍：阿里云大数据行业认证-大数据分析师专业认证（ACP－AlibabaCloud Certified Professional）是大数据行业认证体系中的技能认证，同时也是一个跨平台、通用型专业技术认证。主要包括数据分析相关的知识体系，如数据库知识、数据质量控制、数据编程、机器学习、数据分析工具、机器学习、数据可视化，主流大数据技术等；介绍了数据分析在行业中的实际应用与项目管理方法，及相关的数据技术和技能，包括8个知识与技能模块：大数据基础知识、大数据存储技术、数据分析工具、数据可视化、数据编程、数据项目质量控制、数据项目设计与执行、机器学习。通过该行业技术认证可以有效证明持证者具备以下能力： ●具备大数据相关的基础知识 ●了解大数据分析职业的特点及行业对大数据分析人员的职业要求 ●了解大数据存储技术的特点，能够熟练使用传统关系型数据库，了解数据仓库的基本知识，能够使用开源大数据技术、阿里云数加等管理和使用数据 ●掌握SQL语言编程技能，能够根据项目需要进行数据库管理和数据编程 ●熟练掌握数据可视化相关工具，如Tableau、Quick BI、DataV，并且能设计与开发可视化大屏和商业报表 ●掌握数据质量管理的特点和要求，能够在数据分析中判断数据质量对项目的影响并提供相应解决方案

●掌握数据分析的质量控制流程，利用数据预处理技术合理处理脏数据 ●基于对数据分析项目的编程方法，保证程序的运行效率和数据分析结果的质量 ●能够运用七何分析法针梳理数据项目的目标、范围，根据对业务要求的理解设计合理的数据分析方案 ●掌握机器学习技术的使用和应用场景，如聚类分析、决策树、关联分析等 ●能够独立撰写数据分析项目报告阿里云认证的报名方式：报名入口为3.PNyzrX 阿里云大数据行业认证大数据分析师专业认证所需具备的前置知识：通用IT的知识： ●具备基础的IT知识，熟练使用Windows、MAC、Linux等操作系统中的至少一种 ●了解大数据相关的基础知识，如定义、特征、实际应用案例等 ●了解关系型数据库的基本概念：数据库，表，索引，视图，存储过程，函数等 ●了解云计算、开源大数据Hadoop生态圈中的主要产品、阿里云数加主要产品和服务 ●了解软件工程的基本流程阿里云大数据行业认证大数据分析师专业认证相关的学习方法、学习资料及培训课程：

数据分析师常见的面试问题集锦

数据分析师常见的面试问题集锦随着大数据概念的火热，数据科学家这一职位应时而出，那么成为数据科学家要满足什么条件？或许我们可以从国外的数据科学家面试问题中得到一些参考，下面是77个关于数据分析或者数据科学家招聘的时候会常会的几个问题，供各位同行参考。 1、你处理过的最大的数据量？你是如何处理他们的？处理的结果。 2、告诉我二个分析或者计算机科学相关项目？你是如何对其结果进行衡量的？ 3、什么是：提升值、关键绩效指标、强壮性、模型按合度、实验设计、2/8原则？ 4、什么是：协同过滤、n-grams, map reduce、余弦距离？ 5、如何让一个网络爬虫速度更快、抽取更好的信息以及更好总结数据从而得到一干净的数据库？ 6、如何设计一个解决抄袭的方案？ 7、如何检验一个个人支付账户都多个人使用？ 8、点击流数据应该是实时处理？为什么？哪部分应该实时处理？ 9、你认为哪个更好：是好的数据还是好模型？同时你是如何定义好？存在所有情况下通用的模型吗？有你没有知道一些模型的定义并不是那么好？ 10、什么是概率合并(AKA模糊融合)？使用SQL处理还是其它语言方便？对于处理半结构化的数据你会选择使用哪种语言？ 11、你是如何处理缺少数据的？你推荐使用什么样的处理技术？ 12、你最喜欢的编程语言是什么？为什么？ 13、对于你喜欢的统计软件告诉你喜欢的与不喜欢的3个理由。 14、SAS, R, Python, Perl语言的区别是？ 15、什么是大数据的诅咒？ 16、你参与过数据库与数据模型的设计吗？ 17、你是否参与过仪表盘的设计及指标选择？你对于商业智能和报表工具有什么想法？ 18、你喜欢TD数据库的什么特征？

(完整版)初二数学数据分析练习试题(含答案)

初二数据分析测试题一、相信你的选择 1、若数据8,4,,2x 的平均数是4，则这组数据的中位数和众数是（） A 、3和2 B 、2和3 C 、2和2 D 、2和4 2、数学老师对小明在参加高考前5次数学模拟考试的成绩进行统计分析，判断小明的数学成绩是否稳定，于是老师需要知道小明这5次数学成绩的（） A 、平均数或中位数 B 、方差或频率 C 、频数或众数 D 、方差或极差 3、已知一组数据5，15，75，45，25，75，45，35，45，35，那么40是这组数据的（） A 、平均数但不是中位数 B 、平均数也是中位数 C 、众数 D 、中位数但不是平均数 4、小亮所在学习小组的同学们响应“为国争光，为奥运添彩”的号召，主动到附近的7个社区帮助爷爷奶奶们学习英语日常用语，他们记录的各社区参加其中一次活动的人数如下：32,26,28,31,32,32,33，那么这组数据的众数和中位数分别是（） A 、31,32 B 、32,32 C 、31,3 D 、32,3 5、若54321,,,,x x x x x 的平均数为- x ，方差为2s ，则3,3,3,3,354321+++++x x x x x 的平均数和方差分别是（） A 、2+-x ，32 +s B 、3+- x ，2s C 、-x ，32 +s D 、- x ，2s 6、已知一组数据1,2,,0,1--x 的平均数是0，那么这组数据的标准差（） A 、2 B 、2 C 、4 D 、2-

7、一组数据n x x x x ,,,,321Λ的极差是 8，另一组数据 12,,12,12,12321++++n x x x x Λ的极差是（） A 、8 B 、9 C 、16 D 、17 8、某中学人数相等的甲、乙两班学生参加同一次数学测验，两班成绩的方差分别是2452=甲s ，1902=乙s ，那么成绩比较整齐的是（） A 、甲班 B 、乙班 C 、两班一样整齐 D 、无法确定二、试试你的身手 1、根据天气预报可知，我国某城市一年中的最高气温为C ?37，最低气温是C ?-8，那么这个城市一年中温度的极差为 2、航天知识竞赛中，包括甲同学在内的6名同学的平均分为74分，其中甲同学考了89分，则除了甲以外的5名同学的平均分是分. 3、数据9，10，8，10，9，10，7，9的方差是________，标准差是_____. 4、甲、乙两种产品进行对比试验，得知乙产品比甲产品的性能更稳定，如果甲、乙两种产品的方差分别是甲2s ，乙2s ，则它们的大小关系是 5、下面是五届奥运会中国获得金牌的一览表：在15，5，16，16，28这组数据中，众数、中位数分别是 6、甲、乙两人比赛飞镖，两人所得环数甲的方差是15，乙所得环数如下：0，1，5，9，10，那么，成绩比较稳定的是 7、八年级上学期期中质量检测之后，甲、乙两班的数学成绩的统计情况如下表