【课程目标】
Hadoop作为开源的云计算平台,为大数据处理提供了一整套解决方案,应用非常广泛。Hadoop作为一个平台框架,包括了如何存储海量数据,如何处理海量数据,以及相应的数据库、数据仓库、数据流处理、数据分析和挖掘算法库,等等。本课程主要介绍Hadoop的思想、原理,以及重要技术等相关知识。
通过本课程的学习,达到如下目的:
【授课时间】
2天时间
【授课对象】
网络部、大数据系统开发部、大数据中心、网络运维部等相关技术人员。
【授课方式】
原理精讲+案例演练+开发实践+系统优化
【课程大纲】
演练:HDFS文件操作命令
演练:HDFS编程示例
案例演练:MapReduce编程示例
案例演练:HBase命令操作实例
案例演练:Hive命令操作实例
案例演练:Sqoop数据导入/导出实际操作
案例演练:Pig Latin脚本编写、测试与运行操作
第八部分:Spark技术原理及应用
1、Spark基础知识
2、Spark生态系统
3、Spark运行架构
4、Spark的部署和应用方式
5、Spark编程实践
第九部分:hadoop各个组件之间的通信机制与关系
1、hadoop生态圈到底有多少组件?
2、hadoop各个组件之间的通信机制介绍
3、hadoop各个组件之间的相互关系
4、hadoop架构的应用案例解析
结束:课程总结与问题答疑。