当前位置：文档库 › Spark企业级大数据项目实战01

Spark企业级大数据项目实战01

Spark企业级大数据项目实战第1课

法律声明

【声明】本视频和幻灯片为炼数成金网络课程的教学资料，所有资料只能在课程内使用，不得在课程以外范围散播，违者将可能被追究法律和经济责任。

课程详情访问炼数成金培训网站

https://www.wendangku.net/doc/f3632435.html,

炼数成金逆向收费式网络课程

n Dataguru（炼数成金）是专业数据分析网站，提供教育，媒体，内容，社区，出版，数据分析业务等服务。我们的课程采用新兴的互联网教育形式，独创地发展了逆向收费式网络培训课程模式。既继承传统教育重学习氛围，重竞争压力的特点，同时又发挥互联网的威力打破时空限制，把天南地北志同道合的朋友组织在一起交流学习，使到原先孤立的学习个体组合成有组织的探索力量。并且把原先动辄成千上万的学习成本，直线下降至百元范围，造福大众。我们的目标是：低成本传播高价值知识，构架中国第一的网上知识流转阵地。

n关于逆向收费式网络的详情，请看我们的培训网站 https://www.wendangku.net/doc/f3632435.html,

课程介绍

课程大纲： https://www.wendangku.net/doc/f3632435.html,/article-12660-1.html

课程特色：基于Spark的一线生产项目

前置基础：有一点Hadoop、Spark的基础

课程相关生态栈： Hadoop、Hbase、Kafka、ElasticSearch、Flume、Azkaban等收获预期：生产项目架构

Spark生产项目开发、优化、流程调度

大数据处理流程各环节（采集、清洗、分析调度等）的高可用

大数据周边生态圈（phoenix、Presto等）

原数据处理流程

性能瓶颈： Socket 流解析 Oracle 入库数据清洗

XML 文件上报

要求：数据准确率99.6% 全流程10分钟

数据不达标后果很严重！！

大数据处理流程Flume如何保证高可用？

Kafka集群挂了？

Kafka的如何保证数据不丢失？

Spark Streaming程序挂了？

Spark Streming挂了很久，kafka积压大量数据，性能？升级？

存储如何选择？

1. Spark Streaming 整合Kafka的几种方式对比

2. Kafka的offset管理（Checkpoints、Hbase、Zookeeper等）

3. 三种计算语义（at most once、at least once、exactly once）

4. Spark Streaming + kafka整合Hbase、ElasticSearch、Oracle、Kafka（生产）等

5. 如何实现exactly once语义

6. 四种大数据方案对比

7. 其他：优化、坑等

数据总体处理流程

准实时流程

问题分析：

1. 数据量非常大

2. 数据准确性

3. NameNode 负载

4. 小文件过多

5. 文件存储格式

6. 数据处理效率

每5

分钟的数据量

1. ETL流程分析

2. 文件存储格式对比、选择

3. Flume高可用（HDFS维护升级等如何保证数据不丢失）

4. 解决小文件的几种方案

5. 解决数据准确性问题

6. Spark + Hive整合，实现ETL流程调度

7. Tune Spark Jobs

改造前：

1. 数据采集：原始数据入HDFS目录

2. 数据清洗： Spark Streaming

3. 数据存储： Hive

4. 实时分析：每5分钟启动离线分析任务

1. Spark Streaming监控文件目录开发、问题分析

2. 基于离线ETL取代Spark Streaming

3. Spark jobserver、Livy、Spark Thrift Server

4. 乱码处理

5. SQL on Hbase的几种方式

专题：调度系统

Azkaban：

Server

Executor

MySQL

三个组件如何做HA ？

其他

1. Presto

2. phoenix

3. Hbase二级索引

4. ElasticSearch + Hbase整合

5. Spark的Driver内存调优

6. 等等...

FAQ时间