刘晖：大数据课程-太原

刘晖专家讲师 415查看

课程概要

培训时长 : 3天

课程价格 : 扫码添加微信咨询

课程分类 : 数据分析

课程编号 : 17760

联系老师

适用对象

课程介绍

【课程特色】

1. 课上采用案例式教学，通俗易懂，课下一对一辅导强化训练，学与练交叉进行强化记忆，你所要做的就是认真听，勤于问，乐于练。

2. 清晰的知识结构，根据应用经验采用最优化授课模式。

3. 内容充沛、详略得当，前后呼应。

4. 讲师资历丰富，具有丰富的实践经验。

5. 知识讲授+贴身案例+场景故事+互动讨论+现场演练+落地跟踪

【课程时间】3天

【课程大纲】

第一部分：数据处理架构介绍

1大数据的初步认知

1.1何谓大数据

1.2大数据的发展现状

1.3大数据的发展趋势

2大数据的架构分析

2.1大数据架构概述

2.2大数据架构设计

2.3大数据架构的参考模型

3大数据的数据获取

3.1数据分类与数据获取组件

3.2探针在数据获取中的原理作用

3.3 网页采集与日志收集

3.4 数据分发中间件的作用分析

4机器学习和数据挖掘技术

4.1 机器学习与数据挖掘的关系

4.2机器学习的方式与类型

4.3机器学习与数据挖掘的应用

4.4深度学习的实践与发展

5大数据的安全与隐私

5.1大数据时代面临的安全挑战

5.2安全问题解决的框架、技术与体系

5.3大数据隐私保护的政策法规与技术介绍

6大数据架构的实现与应用实例

6.1大数据架构的实现途径

6.2 大数据在电网中的应用案例解析

第二部分：HDFS原理及应用

1分布式文件系统HDFS

1.1 计算机集群结构

1.2 分布式文件系统的结构

1.3 分布式文件系统的设计需求

2 HDFS简介

3 HDFS的相关概念

3.1 块

3.2 名称节点和数据节点

3.3 第二名称节点

4 HDFS体系结构

4.1 概述

4.2 HDFS命名空间管理

4.3 通信协议

4.4 客户端

4.5 HDFS体系结构的局限性

5 HDFS的存储原理

5.1 数据的冗余存储

5.2 数据存取策略

5.3 数据错误与恢复

6 HDFS的数据读写过程

6.1 读数据的过程

6.2 写数据的过程

7 HDFS编程实践

7.1 HDFS常用命令

7.2 HDFS的Web页面

7.3 HDFS常用Java API及应用实例

实验：熟悉常用的HDFS操作

第三部分：HBase原理及应用

1 概述

1.1 从BigTable说起

1.2 HBase简介

1.3 HBase与传统关系数据库的对比分析

2 HBase访问接口

3 HBase数据模型

3.1 数据模型概述

3.2 数据模型的相关概念

3.3 数据坐标

3.4 概念视图

3.5 物理视图

3.6 面向列的存储

4 HBase的实现原理

4.1 HBase的功能组件

4.2 表和Region

4.3 Region的定位

5 HBase运行机制

5.1 HBase系统架构

5.2 Region服务器的工作原理

5.3 Store的工作原理

5.4 HLog的工作原理

6 HBase编程实践

6.1 HBase常用的Shell命令

6.2 HBase常用的Java API及应用实例

实验：熟悉常用的HBase操作

第四部分：ETL工具介绍

1开启ETL之旅

1.1了解ETL

1.2选择ETL工具

2配置Kettle运行环境

2.1安装JDK

2.2安装MySQL数据库

2.3配置Kettle

3熟悉Kettle基本操作

3.1认识Kettle界面

3.2新建转换与任务

3.3运行与查看结果面板

4数据获取

4.1创建数据库连接

4.2表输入

4.3 CSV文件输入

4.4 Excel输入

4.5生成记录

5记录处理

5.1 排序记录

5.2 去除重复记录

5.3 过滤记录　

5.4值映射

5.5字符串替换

5.6字符串操作

5.7分组

6字段处理

6.1字段选择

6.2增加常量

6.3将字段值设置为常量

6.4剪切字符串

6.5拆分字段

7高级转换

7.1记录集连接

7.2多路数据合并连接

7.3公式

8迁移和装载

8.1表输出

8.2插入/更新

8.3 Excel输出

8.4文本文件输出

8.5 SQL文件输出

9项目实战

9.1分析任务数据需求

9.2熟悉任务流程

9.3实现项目

第五部分：MapReduce原理应用开发

1概述

1.1 分布式并行编程

1.2 MapReduce模型简介

1.3 Map和Reduce函数

2 MapReduce的工作流程

2.1 工作流程概述

2.2 MapReduce的各个执行阶段

2.3 Shuffle过程详解

3 实例分析：WordCount

3.1 WordCount的程序任务

3.2 WordCount的设计思路

3.3 WordCount的具体执行过程

3.4 一个WordCount执行过程的实例

4 MapReduce的具体应用

4.1 MapReduce在关系代数运算中的应用

4.2 分组与聚合运算

4.3 矩阵-向量乘法

4.4 矩阵乘法

5 MapReduce编程实践

5.1 任务要求

5.2 编写Map处理逻辑

5.3 编写Reduce处理逻辑

5.4 编写main方法

5.5 编译打包代码以及运行程序

实验MapReduce初级编程实践

实操内容：

1 在Windows中使用VirtualBox安装Ubuntu虚拟机

2 Hadoop3.1.3安装教程单机版

2.1 Hadoop简介

2.2 安装Hadoop前的准备工作

2.2.1 创建hadoop用户

2.2.2 更新APT

2.2.3 安装SSH

2.2.4 安装Java环境

2.3 安装Hadoop

2.3.1 下载安装文件

2.3.2 单机模式配置

3 HDFS编程实践（Hadoop3.1.3）

3.1 HDFS操作常用的Shell命令

3.1.1 查看命令的用法

3.1.2 HDFS操作

3.2 利用HDFS的Web管理界面

3.3 HDFS编程实践

3.3.1 在Eclipse中创建项目

3.3.2 为项目添加需要用到的JAR包

3.3.3 编写Java应用程序

3.3.4 编译运行程序

3.3.5 应用程序的部署

4 MapReduce编程实践(Hadoop3.1.3)

4.1词频统计任务要求

4.2 MapReduce程序编写方法

4.2.1 编写Map处理逻辑

4.2.2 编写Reduce处理逻辑

4.2.3 编写main方法

4.2.4 完整的词频统计程序

4.3 编译打包程序

4.3.1 使用命令行编译打包词频统计程序

4.3.2 使用Eclipse编译打包词频统计程序

4.4 运行程序

刘晖老师的其他课程

• 刘晖：大数据解决方案在保险行业的应用实践: 【课程特色】1. 课上采用案例式教学，通俗易懂，课下一对一辅导强化训练，学与练交叉进行强化记忆，你所要做的就是认真听，勤于问，乐于练。2. 清晰的知识结构，根据应用经验采用最优化授课模式。3. 内容充沛、详略得当，前后呼应。4. 讲师资历丰富，具有丰富的实践经验。5. 知识讲授+贴身案例+场景故事+互动讨论+现场演练+落地跟踪【课程时长】 1天（6小时/天）【课程大纲】大数据在保险行业的机遇与挑战以用户为中心建设互联网＋保险。保险行业发展大数据的难点分析。大数据管理平台的建设。针对保险行业的大数据解决方案海量多源异构数据的整合跨渠道用户ID归一用户画像基于企业业务需求、场景构建标签，划分主题、颗粒度等商业建模模型一：客户细分模型模型二：客户的价值模型模型三：客户的忠诚度模型模型四：受众群体的扩散模型模型五：社会网络模型洞察用户特征，精准触达高净值用户反复迭代、持续性的优化保险行业大数据应用分析客户细分和精细化营销客户细分和差异化服务潜在客户挖掘及流失用户预测客户关联销售客户精准营销欺诈行为分析医疗保险欺诈与滥用分析车险欺诈分析精细化运营产品优化，保单个性化运营分析代理人（保险销售人员）甄选保险及金融行业的成功案例介绍案例1：互联网用户行为采集和网站数据统计分析项目用户行为数据采集用户数据拉通模块用户行为分析模块网站数据统计分析案例2：高价值潜在客户挖掘保险行业实施大数据的建议路径及案例解析

• 刘晖：大数据技术应用: 课程1：大数据技术基础与应用-1天【匹配关键知识点】大数据概述，大数据行业应用解析（PI）等内容。【课程时间】1天（8小时/天）【课程简介】本课程通过对大数据技术的时代背景和业务应用场景实践案例介绍大数据技术涉及的基础技术和典型应用场景，为学员学习大数据技术明确学习方向和目标。【课程收益】1、了解大数据技术的时代背景2、了解大数据技术的商业价值3、掌握大数据涉及的基本技术及应用【课程特点】深入浅出介绍大数据分析及应用的系统知识；紧紧抓住大数据技术的发展动态及行业发展趋势，行业联系紧密；充分利用已有的研究成果，技术前瞻性较高；课程资料丰富，学习者可以重现课程环境案例充实，充分了解应用前景；清晰的知识结构，根据应用经验采用最优化授课模式课上采用案例式教学，通俗易懂，课下一对一辅导强化训练，学与练交叉进行强化记忆，你所要做的就是认真听，勤于问，乐于练。清晰的知识结构，根据应用经验采用最优化授课模式。内容充沛、详略得当，前后呼应。讲师资历丰富，具有丰富的实践经验。知识讲授+贴身案例+场景故事+互动讨论+现场演练+落地跟踪【课程大纲】（1天*8小时）时间内容案例实践与练习Day1上午第一篇大数据概述一、大数据时代背景二、大数据业务应用场景三、大数据在各行业最佳实践案例案例讨论：大数据行业应用价值Day1下午第二篇大数据行业应用解析一、大数据处理技术发展趋势二、大数据主要存储技术介绍三、大数据主要计算技术介绍案例分析：大数据与传统存储计算技术的关系

• 刘晖：大数据技术基础与建筑行业应用场景解析: 【课程背景】在信息技术高速发展的今天，一个开放、全球化的网络，将人、数据和机器连接起来，成为一个庞大的物理世界，这些由机器、设备、集群和网络组成的环境，能够在更深的层面和连接能力，产生海量大数据，对于建筑行业，大数据与创新应用的企业来说，如何利用这些大规模数据是提升经营效率与赢得竞争的关键，企业面对这些痛点则是“有数据用不好，无法产生实际应用价值”，大数据的到来，有效的推动了建筑数据管理与应用创新，充分利用大数据技术的构建来推动建筑发展，具有非常重要的实际意义与作用。课程将以大数据技术基础为切入点，还原建筑环境中的实际案例，帮助学员认知大数据是什么？大数据的应用场景是什么？建筑应用场景与大数据平台如何构建？如何驱动企业智能决策？学员如何根据所学来用大数据，释放数据价值能效？使学员学之解惑，学之能用，帮助企业实现数据价值突破能力。【课程收益】互联网、产业互联网发展趋势、大数据、建筑大数据的特性建筑大数据面临的挑战，5G对建筑应用的影响与变革大数据的技术图谱、数据处理、分析、建模、标签化应用大数据平台技术、数据中台、建筑大数据的关键技术大数据的安全管理、数据决策体系大数据的应用场景、场景逻辑，建筑应用场景解析如何让数据驱动经营分析及智能决策基于大数据的智能创新、智能商业【课程特色】干货，没有废话；科学，逻辑清晰；实战，学之能用；投入，案例精彩【课程对象】董事长、总裁、总经理、常务副总经理、总裁助理、人力副总等高管人员【课程时间】6小时【课程大纲】一、信息革命、大数据与物联网1、思维创新技术路径2、互联网与产业互联网发展态势3、大数据应用困扰、现状与问题 大数据应用误区大数据应用困扰4、识别大数据什么是大数据大数据特点与特征大数据能做什么？建筑大数据特性5、建筑大数据面临的挑战建筑大数据建筑大数据外延建筑大数据的挑战6、初识物联网什么是物联网物联网起源与特征物联网的架构物联网与5G的协同应用7、5G对建筑应用的影响与变革案例：二、大数据技术基础1、大数据技术图谱大数据技术基础大数据数据源特点大数据技术逻辑大数据全域识别2、大数据处理数据源结构数据清洗数据标准化数据展现3、大数据分析与建模建模训练模型应用模型优化模型4、大数据标签化管理数据标签标签自动化生产多样化标签与场景化应用5、大数据平台技术数据采集数据开发计算智能算法据资产管理6、数据中台7、大数据环境下的数据安全数据安全管理组织结构数据安全管理策略数据生命周期与防护措施8、建筑大数据的关键技术建筑大数据分布式存储与处理技术实时数据处理技术元数据基于大数据的建筑数据中心9、大数据决策系统案例：三、大数据应用场景与建筑应用场景1、应用场景与场景逻辑2、应用场景引领数字化方向3、大数据应用场景及场景解析 大数据场景 场景模型分析4、建筑大数据基础平台5、建筑业务应用场景根据客户需求定制更贴切的应用案例6、建筑事务应用场景根据客户需求定制更贴切的应用案例7、海量数据的挑战案例：四、大数据驱动智能+创新1、数据分析驱动企业决策2、大数据、云计算与数据算法关系3、无数据，不AI4、大数据驱动智能+创新5、云是智能+创新的基础设施6、智能商业，未来以来互动与答疑

刘晖：大数据课程-太原

课程概要

适用对象

课程介绍

刘晖老师的其他课程

相关课程

添加企业微信