【课程特色】
1. 课上采用案例式教学,通俗易懂,课下一对一辅导强化训练,学与练交叉进行强化记忆,你所要做的就是认真听,勤于问,乐于练。
2. 清晰的知识结构,根据应用经验采用最优化授课模式。
3. 内容充沛、详略得当,前后呼应。
4. 讲师资历丰富,具有丰富的实践经验。
5. 知识讲授+贴身案例+场景故事+互动讨论+现场演练+落地跟踪
【课程时间】3天
【课程大纲】
第一部分:数据处理架构介绍
1大数据的初步认知
1.1何谓大数据
1.2大数据的发展现状
1.3大数据的发展趋势
2大数据的架构分析
2.1大数据架构概述
2.2大数据架构设计
2.3大数据架构的参考模型
3大数据的数据获取
3.1数据分类与数据获取组件
3.2探针在数据获取中的原理作用
3.3 网页采集与日志收集
3.4 数据分发中间件的作用分析
4机器学习和数据挖掘技术
4.1 机器学习与数据挖掘的关系
4.2机器学习的方式与类型
4.3机器学习与数据挖掘的应用
4.4深度学习的实践与发展
5大数据的安全与隐私
5.1大数据时代面临的安全挑战
5.2安全问题解决的框架、技术与体系
5.3大数据隐私保护的政策法规与技术介绍
6大数据架构的实现与应用实例
6.1大数据架构的实现途径
6.2 大数据在电网中的应用案例解析
第二部分:HDFS原理及应用
1分布式文件系统HDFS
1.1 计算机集群结构
1.2 分布式文件系统的结构
1.3 分布式文件系统的设计需求
2 HDFS简介
3 HDFS的相关概念
3.1 块
3.2 名称节点和数据节点
3.3 第二名称节点
4 HDFS体系结构
4.1 概述
4.2 HDFS命名空间管理
4.3 通信协议
4.4 客户端
4.5 HDFS体系结构的局限性
5 HDFS的存储原理
5.1 数据的冗余存储
5.2 数据存取策略
5.3 数据错误与恢复
6 HDFS的数据读写过程
6.1 读数据的过程
6.2 写数据的过程
7 HDFS编程实践
7.1 HDFS常用命令
7.2 HDFS的Web页面
7.3 HDFS常用Java API及应用实例
实验:熟悉常用的HDFS操作
第三部分:HBase原理及应用
1 概述
1.1 从BigTable说起
1.2 HBase简介
1.3 HBase与传统关系数据库的对比分析
2 HBase访问接口
3 HBase数据模型
3.1 数据模型概述
3.2 数据模型的相关概念
3.3 数据坐标
3.4 概念视图
3.5 物理视图
3.6 面向列的存储
4 HBase的实现原理
4.1 HBase的功能组件
4.2 表和Region
4.3 Region的定位
5 HBase运行机制
5.1 HBase系统架构
5.2 Region服务器的工作原理
5.3 Store的工作原理
5.4 HLog的工作原理
6 HBase编程实践
6.1 HBase常用的Shell命令
6.2 HBase常用的Java API及应用实例
实验:熟悉常用的HBase操作
第四部分:ETL工具介绍
1开启ETL之旅
1.1了解ETL
1.2选择ETL工具
2配置Kettle运行环境
2.1安装JDK
2.2安装MySQL数据库
2.3配置Kettle
3熟悉Kettle基本操作
3.1认识Kettle界面
3.2新建转换与任务
3.3运行与查看结果面板
4数据获取
4.1创建数据库连接
4.2表输入
4.3 CSV文件输入
4.4 Excel输入
4.5生成记录
5记录处理
5.1 排序记录
5.2 去除重复记录
5.3 过滤记录
5.4值映射
5.5字符串替换
5.6字符串操作
5.7分组
6字段处理
6.1字段选择
6.2增加常量
6.3将字段值设置为常量
6.4剪切字符串
6.5拆分字段
7高级转换
7.1记录集连接
7.2多路数据合并连接
7.3公式
8迁移和装载
8.1表输出
8.2插入/更新
8.3 Excel输出
8.4文本文件输出
8.5 SQL文件输出
9项目实战
9.1分析任务数据需求
9.2熟悉任务流程
9.3实现项目
第五部分:MapReduce原理应用开发
1概述
1.1 分布式并行编程
1.2 MapReduce模型简介
1.3 Map和Reduce函数
2 MapReduce的工作流程
2.1 工作流程概述
2.2 MapReduce的各个执行阶段
2.3 Shuffle过程详解
3 实例分析:WordCount
3.1 WordCount的程序任务
3.2 WordCount的设计思路
3.3 WordCount的具体执行过程
3.4 一个WordCount执行过程的实例
4 MapReduce的具体应用
4.1 MapReduce在关系代数运算中的应用
4.2 分组与聚合运算
4.3 矩阵-向量乘法
4.4 矩阵乘法
5 MapReduce编程实践
5.1 任务要求
5.2 编写Map处理逻辑
5.3 编写Reduce处理逻辑
5.4 编写main方法
5.5 编译打包代码以及运行程序
实验MapReduce初级编程实践
实操内容:
1 在Windows中使用VirtualBox安装Ubuntu虚拟机
2 Hadoop3.1.3安装教程 单机版
2.1 Hadoop简介
2.2 安装Hadoop前的准备工作
2.2.1 创建hadoop用户
2.2.2 更新APT
2.2.3 安装SSH
2.2.4 安装Java环境
2.3 安装Hadoop
2.3.1 下载安装文件
2.3.2 单机模式配置
3 HDFS编程实践(Hadoop3.1.3)
3.1 HDFS操作常用的Shell命令
3.1.1 查看命令的用法
3.1.2 HDFS操作
3.2 利用HDFS的Web管理界面
3.3 HDFS编程实践
3.3.1 在Eclipse中创建项目
3.3.2 为项目添加需要用到的JAR包
3.3.3 编写Java应用程序
3.3.4 编译运行程序
3.3.5 应用程序的部署
4 MapReduce编程实践(Hadoop3.1.3)
4.1词频统计任务要求
4.2 MapReduce程序编写方法
4.2.1 编写Map处理逻辑
4.2.2 编写Reduce处理逻辑
4.2.3 编写main方法
4.2.4 完整的词频统计程序
4.3 编译打包程序
4.3.1 使用命令行编译打包词频统计程序
4.3.2 使用Eclipse编译打包词频统计程序
4.4 运行程序