课程

课程介绍

现今是大数据时代,为构建大数据平台,技术人员需要对分布式计算平台有一定深入的理解和应用。本课程将为大家全面而又深入的介绍Spark、Hadoop平台的构建流程,涉及Spark Hadoo系统基础知识,概念及架构,Spark Hadoo实战技巧,Spark、Hadoo经典案例等。

培训对象

学员须具备:了解Linux系统及相关语言环境;
各类 IT/软件企业和研发机构的软件架构师、软件设计师、程序员。

课程收益

帮助学员对Spark、Hadoo生态系统有一个清晰明了的认识;
理解Spark、Hadoo系统适用的场景;
掌握Spark、Hadoo等初中级应用开发技能;搭建稳定可靠的Spar、Hadook集群,满足生产环境的标准。

知识概要

-- 大数据整体体解决方案架构介绍;  
-- Cloudera CDH安装及集群介绍;  
-- Kafka的使用场景;  
-- HDFS HIVE IMPALA组件;  
-- HIVE、IMPALA区别:特性不同点,架构不同特点;  
-- Zookeeper组件;  
-- Azkaban、Yarn 调度资源协调;  
-- yarn架构组件(Resourcemanager、NodeManager、ApplicationMaster);  
-- yarn作业调度流程;  
-- 大数据安全管理;  
-- Hadoop安全机制Kerberos。

课程大纲

模块

学习内容

第一天AM

大数据整体体解决方案、架构介绍、流处理、批处理

硬件选型,操作系统选型

开源软件,Hadoop生态软件

大数据组件(开发语言介绍)

Cloudera CDH安装及集群介绍

Cloudera CDH 安装

Hadoop集群介绍,Hadoop集群使用

HDFS分布式文件系统介绍

Kafka的使用场景

Kakfa的设计思想,Kafka文件存储机制

持久化\负载均衡\Topic模型

消息传输一致性\分布式

Leader的选择\集群分区

生产者消费者配置

案例:Kafka从flume获取消息,实现传输

flume+sqoop介绍及开发实例

flume实现数据采集流程

flume agent配置,flume sink配置,flume 数据过滤

案例(1): 使用flume动态采集日志

Sqoop功能及软件结构

从关系型数据库导入数据到HDFS,从HDFS导入数据到关系型数据库

第一天PM

案例: 从HDFS导入数据到MySQL数据库

案例: 从MySQL数据库导入数据到HDFS

Hadoop集群搭建、Spark集群部署及测试

Spark交互式命令行

如何使用Spark交互式命令行、理解Spark任务提交流程、执行流程

如何通过WebUI查看任何执行状态

spark streaming运行原理spark 生态及运行原理

集群模式

Spark工作机制

RDD弹性分布式数据集,介绍RDD实现原理

理解什么是Action和Transformation,理解窄依赖与宽依赖

Spark核心概念之RDD

RDD函数

Spark核心概念之Shuffle

Spark Job执行原理分析、shuffle操作解析

Spark核心概念之Cache

Spark广播变量与累加器、Cache与checkpoint问题

Spark多语言编程

第二天AM

Spark SQL组件、架构

DataFrame、SparkSQL运行原理

Spark SQL基础应用

Spark Streaming运行原理、DStream

DStream 常用函数

Machine Learning On Spark简介、常用数据结构

Spark 资源调优

案例:spark streaming数据处理

HDFS HIVE IMPALA组件

DHFS分布式存储特性

DHFS访问方式

HDFS优化方案

HIVE IMPALA查询

共同点:如数据表元数据、ODBC/JDBC驱动、SQL语法、灵活的文件格式、存储资源池等

HIVE、IMPALA区别:特性不同点,架构不同特点

第二天PM

Zookeeper组件

Zookeeper应用

Zookeeper注册中心管理

Zookeeper配置与协调

实验:HDFS存取数据、HIVE、IMPALA实现数据分析和报表

Azkaban、Yarn 调度资源协调

Azkaban的适用场景

Azkaban特点

Azkaban的架构

配置文件

启动executor服务器

启动web服务器

案例:多job工作流案例

yarn架构组件(Resourcemanager\NodeManager\ApplicationMaster)

yarn作业调度流程

综合案例

Flume实现日志采集+kafka(消息队列、缓存)+spark streaming(数据处理)+数据库/DHFS

sqoop 导入关系型数据库,实现hive impala查询

大数据安全管理

Apache Sentry

Hadoop安全机制Kerberos

认证过程

无认证考试

开班信息

暂无开班信息