刘晖：大数据分析与运营（电网行业）

刘晖专家讲师 453查看

课程概要

培训时长 : 1天

课程价格 : 扫码添加微信咨询

课程分类 : 数据分析

课程编号 : 17756

联系老师

适用对象

课程介绍

【课程特色】

1. 课上采用案例式教学，通俗易懂，课下一对一辅导强化训练，学与练交叉进行强化记忆，你所要做的就是认真听，勤于问，乐于练。

2. 清晰的知识结构，根据应用经验采用最优化授课模式。

3. 内容充沛、详略得当，前后呼应。

4. 讲师资历丰富，具有丰富的实践经验。

5. 知识讲授+贴身案例+场景故事+互动讨论+现场演练+落地跟踪

【课程时间】0.5天

【课程大纲】

第一章：大数据简介

1. 什么是大数据

2.大数据的机器学习与专家思维

3.大数据的4V特征

4.大数据的来源

5.大数据决定企业竞争力

6.大数据带来的思维变革

7大数据创新的方法论

8大数据的应用案例解析

第二章：电力大数据背景简介

1. 电力大数据背景简介

2.电力大数据的价值

3.电力大数据的来源

4.电力大数据——整体框架

5.电力大数据对智能电网发展的重要性

第三章：电力大数据的应用场景

1.设备状态差异化、精细化评价

2.缴费渠道利用效率分析

3.客户用电行为分析

4.负荷预测

5.风、光发电预测

6.微电网中的储能控制

7.大数据与用户服务

8.输电线路在线视频监控

9.故障预测：状态检修的核心问题

10．利用大数据打造双层充电防护体系

第四章：大数据智能客服

1. 服务智能化势在必行

2.大数据+人工智能驱动服务智能化

3.服务机器人

4.挖掘数据的价值洼地：语音转文本

5.系统分析挖掘原理

6.智能客服的学习方法

7.虚拟配网调度员

第五章：国内外大数据案例分享

1.风机选址

2.电力大数据中间商创新电力业务模式

3.电费预算辅助工具

4.减少电力盗窃降低损失

5.利用大数据分析降低变压器更换成本

6.智能巡检机器人

7.虚拟电厂

第六章：大数据业务规划

1.大数据业务的常见问题

2.如何着手大数据？

3.一切从“小”而“美”做起

4.大数据的敏捷项目管理

5.数据的分析方法

6.大数据营销

刘晖老师的其他课程

• 刘晖：大数据分析实战-Spark编程: 【课程特色】1. 课上采用案例式教学，通俗易懂，课下一对一辅导强化训练，学与练交叉进行强化记忆，你所要做的就是认真听，勤于问，乐于练。2. 清晰的知识结构，根据应用经验采用最优化授课模式。3. 内容充沛、详略得当，前后呼应。4. 讲师资历丰富，具有丰富的实践经验。5. 知识讲授+贴身案例+场景故事+互动讨论+现场演练+落地跟踪【课程时间】2天【课程大纲】第一天：实战准备基础第1 章大数据技术概述1.1 大数据的概念与关键技术1.2 代表性大数据技术1.2.1 Hadoop 1.2.2 Spark1.2.3 Flink1.2.4 Beam1.3 编程语言的选择实验1 Linux 系统的安装和常用命令第2 章 Scala 语言基础2.1 Scala 语言概述2.2 Scala 基础知识2.3 面向对象编程基础2.4 函数式编程基础实验2 Scala 编程初级实践第3 章 Spark 的设计与运行原理3.1 概述3.2 Spark 生态系统3.3 Spark 运行架构3.4 Spark 的部署方式第4 章 Spark 环境搭建和使用方法4.1 安装Spark4.2 在spark-shell 中运行代码4.3 开发Spark 独立应用程序4.3.1 安装编译打包工具4.3.2 编写Spark 应用程序代码4.3.3 编译打包4.3.4 通过spark-submit 运行程序4.4 Spark 集群环境搭建4.5 在集群上运行Spark 应用程序实验3 Spark 和Hadoop 的安装第5 章 RDD 编程5.1 RDD 编程基础5.2 键值对RDD 5.3 数据读写5.4 综合实例实验4 RDD 编程初级实践第6 章 Spark SQL6.1 Spark SQL 简介6.2 DataFrame 概述6.3 DataFrame 的创建6.4 DataFrame 的保存6.5 DataFrame 的常用操作6.6 从RDD 转换得到DataFrame6.7 使用Spark SQL 读写数据库实验5 Spark SQL 编程初级实践第7 章 Spark Streaming7.1 流计算概述7.2 Spark Streaming7.3 DStream 操作概述7.4 基本输入源7.5 高级数据源7.6 转换操作7.7 输出操作实验6 Spark Streaming 编程初级实践第8 章 Spark Mllib8.1 基于大数据的机器学习8.2 机器学习库MLlib 概述8.3 基本数据类型8.4 机器学习流水线8.5 特征提取、转换和选择8.6 分类算法8.7 聚类算法8.8 协同过滤算法8.9 模型选择和超参数调整实验7 Spark 机器学习库MLlib 编程第二天：实战案例分析及运用讲解案例1：淘宝双11数据分析与预测延伸案例：生产状态实时监测案例简介本案例涉及数据预处理、存储、查询和可视化分析等数据处理全流程所涉及的各种典型操作，涵盖Linux、MySQL、Hadoop、Hive、Sqoop、Eclipse、ECharts、Spark等系统和软件的安装和使用方法。通过本案例，将有助于综合运用大数据课程知识以及各种工具软件，实现数据全流程操作。案例目的熟悉Linux系统、MySQL、Hadoop、Hive、Sqoop、Spark等系统和软件的安装和使用；了解大数据处理的基本流程；熟悉数据预处理方法；熟悉在不同类型数据库之间进行数据相互导入导出；熟悉使用JSP语言搭建动态Web工程；熟悉使用Spark MLlib进行简单的分类操作。硬件要求本案例可以在单机上完成，也可以在集群环境下完成。单机上完成本案例实验时，建议计算机硬件配置为：500GB以上硬盘，8GB以上内存。软件工具本案例所涉及的系统及软件：Linux系统MySQLHadoopHiveSqoopEChartsEclipseSpark数据集淘宝购物行为数据集 (5000万条记录，数据有偏移，不是真实的淘宝购物交易数据，但是不影响学习)案例任务安装Linux操作系统安装关系型数据库MySQL安装大数据处理框架Hadoop安装数据仓库Hive安装Sqoop安装Eclipse安装 Spark对文本文件形式的原始数据集进行预处理把文本文件的数据集导入到数据仓库Hive中对数据仓库Hive中的数据进行查询分析使用Sqoop将数据从Hive导入MySQL利用Eclipse搭建动态Web应用利用ECharts进行前端可视化分析利用Spark MLlib进行回头客行为预测讲解案例2：Spark大数据分析案例之平均心率检测延伸案例：智慧安防的大数据运用案例简介本案例涉及数据预处理、消息队列发送和接收消息、数据实时处理、数据实时推送和实时展示等数据处理全流程所涉及的各种典型操作，涵盖Linux、Spark、Kafka、Flask、Flask-SocketIO、Highcharts.js、sockert.io.js、PyCharm等系统和软件的安装和使用方法。案例目的熟悉Linux系统、Spark、Kafka、Flask、Flask-SocketIO、Highcharts.js、socket.io.js等系统和软件的安装和使用；了解Spark+Kafka实时处理数据的基本流程；熟悉Python操作Kafka的方法；熟悉Spark Streaming程序编写；熟悉Spark操作Kafka的方法；熟悉Python构建Web程序；熟悉SocketIO实时推送消息；熟悉Highcharts.js展示数据。硬件要求本案例可以在单机上完成，也可以在集群环境下完成。单机上完成本案例实验时，建议计算机硬件配置为：500GB以上硬盘，8GB以上内存。软件工具本案例所涉及的系统及软件：Linux系统SparkKafkaFlaskFlask-SocketIOHighcharts.jsSocket.io.jsPyCharm数据相关本案例采用的数据集是由应用程序producer随机产生的。该数据集表示的正常人的心跳速率。下面列出产生的数据格式定义：1. name | 姓名2. rate | 心跳率3. dt | 产生数据的时间案例任务安装Linux操作系统安装Spark安装Kafka安装Python依赖库安装PyCharm对文本文件形式的原始数据集进行预处理将预处理后的数据发送至KafkaSpark从Kafka获取数据，实时处理，结果发送至KafkaFlask构建的Web程序从Kafka获取处理后的数据Flask-SockerIO实时推送数据至客户端客户端Socket.io.js实时获取数据客户端Highcharts.js实时展示数据

• 刘晖：大数据分析平台系统培训课程: （1）培训背景大数据应用技术经过最近几年的爆发性发展，已经在各行各业产生了广泛而深刻的影响，但是我们仍然面对三大挑战：1. 人才缺口巨大。需要大量的工程师从其他方向转型投入到大数据方向上来，他们有基础、有经验，但是缺乏人工领域的专业知识，需要为他们在数据，算法，算力等多个层面上给予系统的指导，以便这些工程师尽快投入到大数据开发的工作中来。2. 从技能本身的角度来看，大数据是综合交叉学科，以数据为基础，算法为核心，业务理解和编程实现为手段，如何利用这些技术给我们和客户带来最大的价值，业界大多数人仍然对此没有深入的认识，而这些问题是关系到竞争力和价值创造的核心问题。3. 大数据业务落地应用效果产出的核心是大数据平台开发技术，如何掌握大数据平台开发语言更好的解决我们的业务问题，关系到我们业务价值的快速实现。（2）培训目标从解决客户实际问题出发，该人才培养方案的从三个角度做出了创新：1. 内容深度上的创新，在过去的十年，整个IT技术栈，从底层存储和计算到上层机器学习应用实现，大数据分布式存储和分布式并行计算框架及应用都做了很多的改变。因此，我们相比传统的大数据课程，增加了计算机组成、操作系统和集群技术的内容，同时在上层增加了大数据应用架构、业务应用场景和最佳实践案例的内容。2. 内容广度上的创新，IT技术发展至今，“生态”二字越来越重要，尤其是当我们探讨大数据落地应用的时候，更不能离开生态孤立地讨论大数据技术。本课程将基于授课讲师强大的专业背景和丰富的实战经验，结合大数据技术、数据、业务场景等来讲授大数据的应用模式，课程结合业务项目一起跟进如何落地实现。3. 从形式上，除了常规理论讲授与实际操作以外，我们还引入结合客户实际需求进行小组研讨、专家评审和相关项目案例引入的方式，将人才培养进一步落到实处，最大能力帮助客户提升能力，助力战略转型。（3）教学计划本系列课程总共由9门课程组成：教学设计NO.课程名称课程天数基础与概述1大数据技术基础与应用1天2Java语言入门2天3Linux基础1天4大数据基础理论与算法入门7天核心技术讲解及实际案例实操5Hadoop生态系统7天6Spark生态系统8天7大数据流式处理技术入门5天8大数据可视化2天大数据平台搭建9大数据平台搭建案例分享与实践7天第1-4门课属于基础与概述，分别从技术基础，Java,Linux及基础理论算法进行针对性基础知识加固。第5-9门课程就Hadoop系统、Spark系统、流式计算三大核心技术详细讲解，期间穿插实际案例讲解如何基于这些技术搭建企业级应用及开发实践。整个课程体系及授课有全栈大数据专家讲师全程落地，确保每个模块的深入落地及模块之间的衔接连贯，行成体系的综合开发技能（4）具体课程方案（含课程大纲）课程1：大数据技术基础与应用-1天【匹配关键知识点】大数据概述，大数据行业应用解析（PI）等内容。【课程时间】1天（6小时/天）【课程简介】本课程通过对大数据技术的时代背景和业务应用场景实践案例介绍大数据技术涉及的基础技术和典型应用场景，为学员学习大数据技术明确学习方向和目标。【课程收益】1、了解大数据技术的时代背景2、了解大数据技术的商业价值3、掌握大数据涉及的基本技术及应用【课程特点】通过“知识地图”和 “沙盘演练”帮助学员“边干边学”，提升其行动学习能力：● 采用“知识地图”形成持续学习网络“知识地图”分共三级：一级是领域知识一览图（思维导图）；二级是高度提炼的知识内容要点（PPT）；三级是中外优质资源的知识原文出处（网站链接）。通过 “知识地图”，帮助学员构建持续学习网络，使其对大数据架构“领域知识”一览无余，“前沿动态”实时掌握！● 通过“沙盘演练”在实战中学习课堂没有冗长乏味的理论讲授，而是通过“沙盘演练”，用实战串讲知识，用演练提升能力，助学员迅速从“初出茅庐”的新兵成长为“身经百战”的长胜将军，并具备在行动中学习的能力。● 本课程对应上机环境提供学员大数据虚拟机环境可以本地操作，也可以在线登录老师自主开发的大数据实战平台在线操作。【课程对象】大数据技术相关人员【学员基础】无前置课程要求【课程大纲】（1天*6小时）时间内容案例实践与练习Day1上午第一篇大数据概述一、大数据时代背景二、大数据业务应用场景三、大数据在各行业最佳实践案例案例讨论：大数据行业应用价值Day1下午第二篇大数据行业应用解析一、大数据处理技术发展趋势二、大数据主要存储技术介绍三、大数据主要计算技术介绍案例分析：大数据与传统存储计算技术的关系课程2：Java语言入门-2天【匹配关键知识点】Java概述与环境搭建，Java数据类型与运算符及语法等内容。【课程时间】2天（6小时/天）【课程简介】本课程通过Java基本开发语言的介绍，帮助学员掌握Java的核心原理和开发方法，并利用Java进行应用开发。培训实践与理论并重，通过理论讲解，实例分析，以及对关键技术的实操练习，从而帮助学员深刻理解Java核心原理和提升学员在工作中的实践技能。。【课程收益】1、了解Java的核心编程2、了解大数据技术的商业价值3、掌握大数据涉及的基本技术及应用【课程特点】通过“知识地图”和 “沙盘演练”帮助学员“边干边学”，提升其行动学习能力：● 采用“知识地图”形成持续学习网络“知识地图”分共三级：一级是领域知识一览图（思维导图）；二级是高度提炼的知识内容要点（PPT）；三级是中外优质资源的知识原文出处（网站链接）。通过 “知识地图”，帮助学员构建持续学习网络，使其对大数据架构“领域知识”一览无余，“前沿动态”实时掌握！● 通过“沙盘演练”在实战中学习课堂没有冗长乏味的理论讲授，而是通过“沙盘演练”，用实战串讲知识，用演练提升能力，助学员迅速从“初出茅庐”的新兵成长为“身经百战”的长胜将军，并具备在行动中学习的能力。● 本课程对应上机环境提供学员大数据虚拟机环境可以本地操作，也可以在线登录老师自主开发的大数据实战平台在线操作。【课程对象】大数据技术相关人员【学员基础】具备初步的IT基础知识【课程大纲】（2天*6小时）时间内容案例实践与练习Day1上午第一篇java 语言概述一、java 语言概述二、java 应用场景三、java 发展历史案例讨论：大数据行业应用价值Day1下午第二篇 java 语言基础一、 java编译原因二、基本的数据结构三、案例练习： java基础开发Day2上午第三篇java 面向对象开发一、类及对象二、识别类及类之间关系三、 Java类库中的GregorianCalendar类案例练习：面向对象开发Day2下午第四篇 java 开发应用一、图形程序设计基础二、创建框架及框架定位三、部署应用程序和applet案例练习：java 开发应用课程3：Linux基础-1天【匹配关键知识点】Linux概念及简单操作等内容。【课程时间】1天（6小时/天）【课程简介】本课程通过Linux系统体系及命令的介绍，帮助学员掌握Linux的核心原理和管理开发方法。培训实践与理论并重，通过理论讲解，实例分析，以及对关键技术的实操练习，从而帮助学员深刻理解Linux核心原理和提升学员在工作中的实践技能。。【课程收益】1、了解Linux核心原理2、了解Linux的系统体系功能3、掌握Linux的基本命令及应用【课程特点】通过“知识地图”和 “沙盘演练”帮助学员“边干边学”，提升其行动学习能力：● 采用“知识地图”形成持续学习网络“知识地图”分共三级：一级是领域知识一览图（思维导图）；二级是高度提炼的知识内容要点（PPT）；三级是中外优质资源的知识原文出处（网站链接）。通过 “知识地图”，帮助学员构建持续学习网络，使其对大数据架构“领域知识”一览无余，“前沿动态”实时掌握！● 通过“沙盘演练”在实战中学习课堂没有冗长乏味的理论讲授，而是通过“沙盘演练”，用实战串讲知识，用演练提升能力，助学员迅速从“初出茅庐”的新兵成长为“身经百战”的长胜将军，并具备在行动中学习的能力。● 本课程对应上机环境提供学员大数据虚拟机环境可以本地操作，也可以在线登录老师自主开发的大数据实战平台在线操作。【课程对象】大数据技术相关人员【学员基础】具备初步的IT基础知识【课程大纲】（1天*6小时）时间内容案例实践与练习Day1上午第一篇Linux系统基础一、开源历史、Linux系统的种类及优势特性二、常用的Linux系统命令及内核原理三、 Linux系统RPM、Yum及守护进程机制理论案例练习：Linux系统命令Day1下午第二篇 Linux系统命令一、 Linux系统命令Shell脚本原理及作用，环境变量的作用二、 Linux系统内核与BASH解释器的关系三、 Linux用户管理文件管理进程管理案例练习：用户管理文件管理进程管理实战演练课程4：大数据基础理论与算法入门-7天【匹配关键知识点】数理统计基础理论， SQL语法与应用实战，数据建模基础理论，数据预处理、探索性数据分析，数据采集、抽样和预测，SVM算法、决策树算法、聚类算法、贝叶斯算法、回归算法等内容。【课程时间】7天（6小时/天）【课程简介】本课程通过大数据基础理论与算法的介绍，帮助学员掌握大数据大数据基础理论与算法基础。培训实践与理论并重，通过理论讲解，实例分析，以及对关键技术的实操练习，从而帮助学员深刻理解大数据基础理论与算法应用和提升学员在工作中的实践技能。【课程收益】1、了解大数据基础理论及应用场景2、了解大数据核心算法原理3、掌握大数据平台基础理论与算法应用开发【课程特点】通过“知识地图”和 “沙盘演练”帮助学员“边干边学”，提升其行动学习能力：● 采用“知识地图”形成持续学习网络“知识地图”分共三级：一级是领域知识一览图（思维导图）；二级是高度提炼的知识内容要点（PPT）；三级是中外优质资源的知识原文出处（网站链接）。通过 “知识地图”，帮助学员构建持续学习网络，使其对大数据架构“领域知识”一览无余，“前沿动态”实时掌握！● 通过“沙盘演练”在实战中学习课堂没有冗长乏味的理论讲授，而是通过“沙盘演练”，用实战串讲知识，用演练提升能力，助学员迅速从“初出茅庐”的新兵成长为“身经百战”的长胜将军，并具备在行动中学习的能力。● 本课程对应上机环境提供学员大数据虚拟机环境可以本地操作，也可以在线登录老师自主开发的大数据实战平台在线操作。【课程对象】大数据技术相关人员【学员基础】具备初步的IT基础知识【课程大纲】（7天*6小时）时间内容第一天第1个主题：概率论与数理统计入门（目的：掌握必备的概率论与数理统计相关入门知识，为下个主题的深入讲解打好基础）聊聊概率这件事什么是随机变量什么是概率分布什么是古典概型联合概率与边缘概率乘法与全概率公式贝叶斯公式介绍独立性与独立事件课堂实操：概率统计各种相关类型习题讲解，由浅入深探索概率统计在各种业务/项目上的应用。第二天第2个主题：离散值的概率分布（目的：掌握离散值的概率分布相关知识点，包括伯努利、二项、方差等关键核心内容）定义与分布律介绍离散型随机变量介绍伯努利、二项及泊松分布期望值及其计算方法方差与标准差介绍大数定理介绍课堂实操：概率统计各种相关类型习题讲解，由浅入深探索概率统计第3个主题：SQL语法与应用实战（目的：掌握SQL语法及数据库实战应用）SQL概述数据库基本操作数据类型和约束条件数据填充与数据导入查询操作符与子查询SQL查询函数介绍课堂实操：动手实际实现客户订单查询案例第三天第4个主题：数据预处理（目的：掌握数据预处理的流程及方法）数据审核数据筛选数据排序数据清洗数据集成数据变换数据归约课堂实操：合并不同数据源数据、缺失值与异常值处理、数据标准化处理、Matplotlib绘图第5个主题：数据分析入门（目的：数据分析简介）数据分析概述数据分析开发环境搭建数据分析学习技巧课堂实操：量化炒股实例、python常用科学计算第四天第6个主题：Numpy与Pandas（目的：掌握数据处理常用库的使用）[Numpy]基本概述[Numpy]多维数据对象[Numpy]元素级别处理函数[Numpy]使用数组进行数据处理[Numpy]文件输入输出[Numpy]线性代数相关知识[Pandas]基本数据结构[Pandas]索引、选取、过滤、排序等[Pandas]汇总和计算描述统计[Pandas]缺失数据处理[Pandas]层次化索引课堂实操：数据处理及统计案例练习第五天第7个主题：大数据算法基础（目的：深入机器学习核心，掌握相关理论知识）K最邻近算法朴素贝叶斯线性回归梯度下降最大似然估计多重回归模型Logistic回归Logistic函数介绍支持向量机课堂实操：算法练习第六天第8个主题：大数据算法基础（目的：掌握核心算法以及了解机器学习相关的热门实现）什么是决策树什么是熵神经网络的感知机前向传播神经网络什么是聚类K均值算法自然语言处理推荐系统介绍课堂实操：实现机器学习相关完整案例第七天第9个主题：大数据算法实战训练（目的：带领学员完成大量的实战案例，巩固所学知识）课堂实操：深度学习热门框架实战课堂实操：花朵分类课堂实操：目标检测课堂实操：垃圾邮件处理课堂实操：金融数据分析课堂实操: kaggle竞赛实例课程5：Hadoop生态系统-7天【匹配关键知识点】HDFS使用操作， MapReduce开发，yarn原理和应用，Hbase数据库开发，Hive数据仓库开发，Scala入门等内容。【课程时间】7天（6小时/天）【课程简介】本课程通过Hadoop系统体系及命令的介绍，帮助学员掌握Hadoop的核心架构原理和管理开发方法。培训实践与理论并重，通过理论讲解，实例分析，以及对关键技术的实操练习，从而帮助学员深刻理解Hadoop生态系统及开发应用和提升学员在工作中的实践技能。【课程收益】1、了解Hadoop生态系统及应用场景2、了解Hadoop生态系统的核心功能和架构3、掌握Hadoop生态系统组件的基本命令及应用【课程特点】通过“知识地图”和 “沙盘演练”帮助学员“边干边学”，提升其行动学习能力：● 采用“知识地图”形成持续学习网络“知识地图”分共三级：一级是领域知识一览图（思维导图）；二级是高度提炼的知识内容要点（PPT）；三级是中外优质资源的知识原文出处（网站链接）。通过 “知识地图”，帮助学员构建持续学习网络，使其对大数据架构“领域知识”一览无余，“前沿动态”实时掌握！● 通过“沙盘演练”在实战中学习课堂没有冗长乏味的理论讲授，而是通过“沙盘演练”，用实战串讲知识，用演练提升能力，助学员迅速从“初出茅庐”的新兵成长为“身经百战”的长胜将军，并具备在行动中学习的能力。● 本课程对应上机环境提供学员大数据虚拟机环境可以本地操作，也可以在线登录老师自主开发的大数据实战平台在线操作。【课程对象】大数据技术相关人员【学员基础】学习完Java,Linux和大数据基础理论和应用前置课程【课程大纲】（7天*6小时）时间内容案例实践与练习Day1上午第一篇大数据Hadoop技术架构一、Hadoop在云计算技术的作用和地位，二、Hadoop的基础概念、数据管理、特性三、Hadoop集群及架构原理案例练习：Hadoop集群管理命令Day1下午第二篇 Hadoop组件详解：HDFS一、HDFS特征及读写文件二、NameNode的考虑三、HDFS安全概览案例练习：HDFS基础命令Day2上午第三篇Hadoop组件详解：HDFS一、运用 Hadoop文件Shell二、利用Flume 从外部源摄取数据三、利用Sqoop从关系数据库摄取数据案例练习：HDFS脚本及接口命令Day2下午第四篇 Hadoop的计算框架一、MapReduce原理及特征二、YARN2.0架构与原理三、Zookeeper和YARN2.0关系案例练习：MapReduce运行及调度Day3上午第五篇SQOOP核心原理架构一、SQOOP原理及特征二、SQOOP开发应用三、SQOOP和Hadoop关系案例练习：SQOOP开发Day3下午第六篇 zookeeper应用实战一、zookeeper原理及特征二、zookeeper架构与应用三、Zookeeper和Hadoop关系案例练习：Zookeeper集群管理命令Day4上午第七篇Hbase核心原理架构一、HBase原理及特征二、HBase and RDBMS三、HBase Shell案例练习：HBase Shell命令Day4下午第八篇 Hbase应用实战一、创建表二、HBase 的ROWKEY设计三、Hbase的优化设计案例练习：HBase 优化设计Day5上午第九篇Hive简介一、Hive模式和数据存储二、Hive与传统数据库的比较三、Hive应用案例案例练习：Hive模式及管理命令Day5下午第十篇 Hive 基础开发一、HQL基础DDL编程二、HQL基础DML编程三、HQL实现关联操作案例练习：Hive 基础开发Day6上午第十一篇Hive模型开发一、Hive管理的各中表与模型应用二、装载数据进入Hive 三、Hive维度模型开发应用案例练习：Hive模型开发Day6下午第十二篇 Hive与Flume,SQOOP组合应用一、Flume装载数据进入Hive 二、SQOOP装载数据进入Hive三、Hive开发与Hadoop关系案例练习：Hive接口开发Day7上午第十三篇Scala基础一、Scala基础知识二、Scala常用集合三、Scala应用场景案例练习：Scala基础开发Day7下午第十四篇 Scala开发应用一、函数对象二、编程实例三、Scala高级开发应用案例练习：Scala开发应用课程6：Spark生态系统-8天【匹配关键知识点】Spark生态系统概述及培训关键点概述，Spark SQL开发，Spark Streaming/Spark Mllib/ Spark Graphx开发等内容。【课程时间】8天（6小时/天）【课程简介】本课程通过Spark系统体系及命令的介绍，帮助学员掌握Spark的核心架构原理和管理开发方法。培训实践与理论并重，通过理论讲解，实例分析，以及对关键技术的实操练习，从而帮助学员深刻理解Spark生态系统及开发应用和提升学员在工作中的实践技能。【课程收益】1、了解Spark生态系统及应用场景2、了解Spark生态系统的核心功能和架构3、掌握Spark生态系统组件的基本命令及应用【课程特点】通过“知识地图”和 “沙盘演练”帮助学员“边干边学”，提升其行动学习能力：● 采用“知识地图”形成持续学习网络“知识地图”分共三级：一级是领域知识一览图（思维导图）；二级是高度提炼的知识内容要点（PPT）；三级是中外优质资源的知识原文出处（网站链接）。通过 “知识地图”，帮助学员构建持续学习网络，使其对大数据架构“领域知识”一览无余，“前沿动态”实时掌握！● 通过“沙盘演练”在实战中学习课堂没有冗长乏味的理论讲授，而是通过“沙盘演练”，用实战串讲知识，用演练提升能力，助学员迅速从“初出茅庐”的新兵成长为“身经百战”的长胜将军，并具备在行动中学习的能力。● 本课程对应上机环境提供学员大数据虚拟机环境可以本地操作，也可以在线登录老师自主开发的大数据实战平台在线操作。【课程对象】大数据技术相关人员【学员基础】学习完Java,Linux和大数据基础理论和应用前置课程【Spark生态系统系统课程大纲】（8天*6小时）时间内容案例实践与练习Day1上午第一篇Spark生态系统一、Spark发展历史及简介二、Spark业务应用场景三、Spark与Hadoop系统关系案例讨论：Spark与Hadoop系统关系Day1下午第二篇 Spark原理架构一、Spark原理及特征二、Spark架构及组件应用场景三、Spark接口及应用场景案例讨论：Spark接口及应用场景Day2上午第三篇Spark数据结构一、RDD基础二、转换操作与执行操作三、共享变量案例练习：RDD基础开发操作Day2下午第四篇 Spark计算模型一、Spark计算框架原理及特征二、Spark架构与应用三、Spark之宽窄依赖和DAG调度案例练习：Spark计算模型及运行日志查看Day3上午第五篇Spark调度模型一、Spark资源调度原理及特征二、Spark资源调度架构及应用三、Spark资源调度基于Hadoop案例练习：Spark调度命令Day3下午第六篇 Spark接口开发一、Spark生态系统接口介绍二、Spark生态系统接口与Hadoop三、Spark生态系统接口与大数据分析案例练习：Spark接口开发Day4上午第七篇Spark SQL基础开发一、Spark SQL原理与架构二、Hive SQL与Spark SQL 三、Spark SQL开发应用案例练习：Spark SQL基础开发Day4下午第八篇 Spark SQL模型开发一、Spark SQL与Hive二、Spark SQL与模型构建三、Spark SQL与数据挖掘分析案例练习：Spark SQL模型开发Day5上午第九篇Spark Streaming开发一、Spark Streaming基本原理二、Spark Streaming开发基础三、Spark Streaming开发应用案例练习：Spark Streaming开发Day5下午第十篇 Spark Mllib开发一、Spark ML读取数据二、Spark ML对数据进行探索三、Spark ML训练模型案例练习：Spark Mllib开发Day6上午第十一篇Spark Mllib开发一、Spark ML组装任务二、Spark ML评估、优化模型三、Spark Mllib开发案例练习：Spark Mllib开发Day6下午第十二篇 Spark Graphx应用一、Spark GraphX 的核心代码剖析二、Spark GraphX 命令方式操作三、Spark GraphX 的客户端 API 介绍案例练习：Spark Graphx开发Day7上午第十三篇SparkR接口开发一、R语言基础知识二、R语言开发基础三、SparkR开发及应用场景案例练习：SparkR开发Day7下午第十四篇 PySpark开发应用一、PySpark之Python基础二、Python数据结构三、Python循环结构案例练习：PySpark基础开发Day8上午第十五篇PySpark开发应用一、Python机器学习二、基于PySpark开发Python机器学习三、PySpark机器学习开发应用案例练习：PySpark机器学习开发应用Day8下午第十六篇 PySpark开发应用一、Python深度学习二、基于PySpark开发Python深度学习三、PySpark深度学习开发应用案例练习：PySpark深度学习开发应用课程7：大数据流式处理技

• 刘晖：大数据分析（全面）系统课程: （1）培训背景随着互联网、云计算、大数据、物联网、人工智能等科技的快速发展，经济发展已经进入全球化时代，企业的命运与国际经济环境紧密联系，如美国的经济危机会波及到全球各个国家与地区和企业，国家和企业已经不是孤立的存在。在经济全球化时代商业环境极其复杂，不仅要考虑国内、国外经济环境，同时还要考虑不同国家的国家政策，不同民族的民族文化，不同宗教的宗教信仰等，更加加深入了商业环境的复杂程度。在极其复杂的国际商业环境中，作为大型企业领导者仅凭经验与智慧无法全面了解与掌控企业、了解国际化的商业环境，因此很难做出正确的企业战略决策，甚至更无法做到企业精细化管理，更不可能做到高效运营，那么，如何突破因商业环境复杂度而导致的企业失控呢？并在复杂的商业竞争环境中脱颖而出并获得最大利润呢？答案是掌握企业数据和掌握国际化数据，并建立高效的数据分析体系，探索数据、挖掘数据高效准确的获取国际化的经济环境状况，洞察市场趋势提前做出有利于企业的战略决策，提高企业竞争力，规避市场风险，数据分析则是提升企业管理水平，实现上述目标的一种行之有效的方法。国际化的竞争就是信息的国际化竞争。随着大数据、人工智能的快速发展，数据的价值越发突显，并为海量的高并发的数据分析提供了新的工具与可行性，较以往的传统数据分析工具更为有效，甚至传统数据分析工具做不到的，大数据、人工智能都能做到。因此不仅仅企业，社会各个方面也因大数据的价值而提高了对数据的关注程度，也加大了数据分析的投入力度。无论是企业管理、战略决策、精准营销、精细化管理等都无处不体现着数据分析的重要性。数据如此重要，如何建设一个高效的数据分析体系呢？至少要具备以下两个条件：一是在宏观层面上正确理解数据分析；二是丰富的IT系统建设经验、分布式技术和较强的数据技术能力。第一点尤为重要，因为一旦在思想和认识层面对数据分析体系理解有误，那么即使精通于各种技术方案，所建立起来的也只是一堆技术架构的粗糙堆砌，虽然也能达到部分数据分析的效果，但必定会事倍功半。构建数据分析体系包括四个层面：一是数据基础平台；二是数据报表与可视化；三是精细化业务分析；四是战略分析与决策。如下图为数据分析体系结构图。那么在数据基础平台建设层面，均采用大数据平台，如Hadoop、Spark等大数据平台，其好处是开源、可控，无需从零开始搭建平台节约成本；也避免了因大数据的多样性、隐私性等特点导致供应无法深入挖掘数据的问题。为什么要自建数据分析平台呢？不能采购吗？答案是不能采购，只能自建！因为数据挖掘一个持续的过程，日常企业经常过程产生的数据、市场数据都是需要分析的，是一个持续不断的工作，不是编写几个算法了事的，所以如果从供应商采购必然会导致分析工作不够深入与不够专业，数据的价值是隐藏在数据中的，需要不断的持续的挖掘才能找的，不是算法和分析工具能做到的。因此企业需要自建数据分析平台，而不采购分析工具。Hadoop、Spark生态系统是大数据技术事实标准，是大数据思想、理念、机制的具体实现，是整个大数据技术中公认的核心框架和具有极强的使用价值与研究价值。Hadoop 系统是一款开源软件，能够处理海量的各种结构（包括结构化、非结构化、半结构化）的数据。Hadoop是分布式集群框架，可以管理成百上千台x86服务器集群。基于 Hadoop 的解决方案能够帮助企业应对多种大数据挑战，包括：分析海量（PB 级或者更多）的数据Hadoop 能够分析所有数据，使得分析更准确，预测更精确；从多个数据类型的组合中获得新的洞察力将来自多个数据源的不同类型的数据进行结合分析，发现新的数据关系和洞察力；存储大量的数据由于它不依赖于高端硬件，且是可扩展的，所以使存储大量数据变得经济有效；数据发现(data discovery)和研究的沙箱Hadoop 提供了一个地方，数据科学家可在此发现新的数据关系和相互依赖性。工业和信息化部电信研究院于2014年5月发布的“大数据白皮书”中指出：“2012 年美国联邦政府就在全球率先推出“大数据行动计划（Big data initiative）”，重点在基础技术研究和公共部门应用上加大投入。在该计划支持下，加州大学伯克利分校开发了完整的大数据开源软件平台“伯克利数据分析软件栈（Berkeley Data Analytics Stack），其中的内存计算软件Spark的性能比Hadoop 提高近百倍，对产业界大数据技术走向产生巨大影响” ----来源：工业和信息化部电信研究院 Spark是成为替代MapReduce架构的大数据分析技术，Spark的大数据生态体系包括流处理、图技术、机器学习等各个方面，并且已经成为Apache顶级项目，可以预计的是2014年下半年到2015年在社区和商业应用上会有爆发式的增长。国内外一些大型互联网公司已经部署了Spark，并且它的高性能已经得到实践的证明。国外Yahoo已在多个项目中部署Spark，尤其在信息推荐的项目中得到深入的应用；国内的淘宝、爱奇异、优酷土豆、网易、baidu、腾讯等大型互联网企业已经将Spark应用于自己的生产系统中。国内外的应用开始越来越广泛。Spark正在逐渐走向成熟，并在这个领域扮演更加重要的角色。（2）培训目标本次数据分析技术培训课程，整个课程体系设计完备，思路清晰，学员通过本次课程的系统性学习可以掌握如下技能：了解数据分析基本概念及产业链，数据分析与大数据等内容；学会数据的产生、导入与预处理。掌握大数据生成与导入，数据分析流程与建模思想，数据清洗与数据加工等内容；掌握数据分析与挖掘基础。学习常见数据分析方法与数据挖掘概述，描述型数据分析，常见数据分析与挖掘算法（Kmeans、购物篮、决策树、朴素贝叶斯等）等内容。学习数据分析工具R语言的数据分析实战。学习R语言入门基础，描述性统计分析，用R语言做数据挖掘实战等内容。介绍大数据工具之Hadoop。深入理解Hadoop原理及组件介绍，Hadoop数据分析入门等内容。介绍大数据工具之Spark。深入剖析Spark基本概念，Spark开发与数据分析等内容。编写Pyspark集群调度与数据处理程序。使用Python调度spark集群并进行数据处理等内容。学习大数据可视化技术。包括数据可视化技术概述及培训关键点概述，数据挖掘与可视化工具介绍（SAS、Project、Excel、SPSS、Tableau等），可视化案例分享等内容。学习Python与数据分析实战。包括Python语言入门，Python网络编程、爬虫与机器学习，Python数据分析案例分享，基于spark集群的python数据分析实战等内容。通过以上的系统学习，学员会建立完整的数据知识体系，使学员正确认识大数据，掌握大数据思维方法，为工作、生活和学习打下坚实的基础，为持续成长提供原动力。下图为本次课程结束后学员获取的完整数据知识体系如下图。完整数据知识体系（3）教学计划本系列课程总共由9门课程组成：教学设计NO.课程名称课程天数基础与概述1数据分析概述1天2数据的产生、导入与预处理5天数据分析与数据挖掘核心技术讲解及案例实操3数据分析与挖掘基础6天4R语言数据分析实战6天大数据技术讲解与编程实操5大数据工具介绍之Hadoop2天6大数据工具介绍之Spark3天7Pyspark集群调度与数据处理2天大数据可视化8大数据可视化2天Python与数据分析实战9Python与数据分析实战13天第1-2门课属于基础与概述，包括数据分析基本概念及产业链，数据分析与大数据等内容。大数据生成与导入，数据分析流程与建模思想，数据清洗与数据加工等内容。第3-4门课程数据分析与数据挖掘核心技术讲解及案例实操，包括常见数据分析方法与数据挖掘概述，描述型数据分析，常见数据分析与挖掘算法（Kmeans、购物篮、决策树、朴素贝叶斯等）等内容。R语言入门基础，描述性统计分析，用R语言做数据挖掘实战等内容。。第5-7门课程主要大数据技术讲解与编程实操，包括Hadoop原理及组件介绍，Hadoop数据分析入门等内容。Spark基本概念，Spark开发与数据分析等内容。使用Python调度spark集群并进行数据处理等内容。第8门是大数据可视化。包括数据可视化技术概述及培训关键点概述，数据挖掘与可视化工具介绍（SAS、Project、Excel、SPSS、Tableau等），可视化案例分享等内容。第9门是Python与数据分析实战。包括Python语言入门，Python网络编程、爬虫与机器学习，Python数据分析案例分享，基于spark集群的python数据分析实战等内容。（4）具体课程方案（含课程大纲）课程1：数据分析概述-1天【匹配关键知识点】数据分析基本概念及产业链，数据分析与大数据等内容。【课程时间】1天（6小时/天）【课程简介】本课程介绍大数据体系构建数据平台，重点内容包括数据平台基础理论、数据集成、数据维度等知识点；本课程让学员掌握基于大数据生态的数据分析知识、大数据生态体系技术选型，能够应用建模技术、大数据技术构建数据平台。随着大数据时代的快速到来，以及大数据在生产生活中迅速应用，数据分析、数据建模、数据挖掘、机器学习等重要性越发突出，本课程是针对大数据时代的特点，尹老师总结多年数据分析经验，而精心设计的课程，课程内容涵盖了数据领域的数据处理、统计分析、数据挖掘、机器学习等内容的应用范围、发展前景剖析。【课程收益】1、数据分析基本概念及产业链等内容；2、数据分析与大数据等内容；【课程特点】数据分析基本概念及产业链，数据分析与大数据等内容【课程对象】 数据分析师、技术经理、产品经理、产品助理等 将承担数据分析师职责的业务人员或信息化人员 希望加强数据分析能力的软件开发人员 系统集成企业售前工程师、售前顾问及方案制作人员【学员基础】 具有2年以IT部门工作经验，将负责数据分析等相关任务的技术人员【课程大纲】（1天*6小时）时间内容案例实践与练习Day1数据分析概述数据知识体系数据仓库诞生的历史背景大数据时代数据仓库的演变大数据是一套全新的思维体系纵向、横向扩容全量分析大数据是一套全新的技术体系大数据思维与传统软件思维的区别大数据的数据仓库与传统数据仓库的区别硬件成本、软件技术积累数据知识体系数据采集数据ETL数据挖掘数据可视化商务智能业务创新应用大数据生态体系介绍大数据支撑----云计算大数据核心----海量数据大数据灵魂----大数据技术大数据价值----大数据商业思维大数据企业应用障碍分析案例练习：通过大数据企业应用障碍分析案例的剖析数据分析过程，体会数据分析的难点和要点。研讨：大数据企业应用障碍分析课程2：数据的产生、导入与预处理-5天【匹配关键知识点】大数据生成与导入，数据分析流程与建模思想，数据清洗与数据加工等内容。【课程时间】5天（6小时/天）【课程简介】随着大数据时代的快速到来，以及大数据在生产生活中迅速应用，大数据领域如雨后春笋般的出现大量的新技术，如Hadoop、Spark等技术，其中Python语言已经成为大数据技术中最为重要的一部分，被越来越多的企业所使用。Python语言的功能涵盖了大数据领域的数据处理、统计分析、数据挖掘、机器学习、人工智能、大数据应用开发等各种不同类型的计算操作，应用范围广泛、前景非常广阔。本课程是尹老师多年工作经验的总结和归纳，从实际业务案例为入口，使学员从理论层到实操层面系统的学习数据处理技术，使学员深入理解Python语言等数据分析工具。通过本课程的学习，学员即可以正确的分析企业的数据，为管理者、决策层提供数据支撑。【课程收益】1、大数据生成与导入；2、数据分析流程与建模思想；3、数据清洗与数据加工。【课程特点】大数据生成与导入，数据分析流程与建模思想，数据清洗与数据加工等内容。【课程对象】 数据分析师、技术经理、产品经理、产品助理等 将承担数据分析师职责的业务人员或信息化人员 希望加强数据分析能力的软件开发人员 系统集成企业售前工程师、售前顾问及方案制作人员【学员基础】 具有2年以IT部门工作经验，将负责数据分析等相关任务的技术人员【课程大纲】（5天*6小时）时间内容案例实践与练习Day1数据的产生、导入与预处理数据知识体系数据采集数据ETL数据挖掘数据可视化商务智能业务创新应用数据分析挖掘的过程建立数据库的方法企业对数据分析挖掘的错误认识ETL的设计ETL的实施数据源数据采集随机抽样数据去重数据缺失值处理检验数据逻辑错误离群点检测数据转换数据分组课堂实操：数据整理的编程和应用案例练习：通过数据整理的编程和应用案例的剖析数据分析过程，体会数据分析的难点和要点。研讨：数据整理的编程和应用Day2数据清洗与数据加工ROLAP与多维数据库OLAP与OLTP的区别多维数据库与数据仓库的关系OLAP模型搭建（多维模型）确定维度、量度与事实的关系OLAP的应用场景决策支持技术企业OLAP模型设计案例剖析数据模型设计原则与模型搭建星型架构与雪花型架构事实表与维度表的设计逻辑设计与物理设计数据模型设计的常用方法数据模型设计技巧总结数据模型分片数据模型索引数据模型粒度数据模型案例分析案例练习：通过案例的剖析数据分析过程，体会数据分析的难点和要点。研讨：数据模型案例分析Day3大数据生成与导入大数据基础理论介绍大数据的生成与导入大数据技术CAP理论BASE思想消息机制分布式协调器心跳机制日志结构文件系统RWN理论跨操作系统调度资源大数据企业实践电商遇到的问题大型互联网企业遇到的问题大数据主要解决的问题实例分享：淘宝双十一实例分享：腾讯QQ实例分享：百度文库实例分享：打车大战大数据的作用Pig 设计的目标Pig Latine介绍Pig关键性技术Pig的实用案例Hive简介Hive的组件与体系架构Hive架构Hive vs RDBMSHive的高可用部署方案Hive Data TypesHive安装模式Hive安装部署Hive ShellHive API开发演示Hive中UDF和UDAFHive数据分析Sqoop简介Sqoop架构Sqoop安装Sqoop ShellFlume简介及使用Flume架构Flume数据源类型Flume收集数据2种主要工作模式电商客户日志分析大型国企大数据应用大数据架构案例分享及实战演练案例练习：通过淘宝双十一案例的剖析数据分析过程，体会数据分析的难点和要点。研讨：淘宝双十一Day4数据分析流程数据分析基本概念数据分析算法数据分析工具数据分析流程数据分析范畴数据挖掘基本概念数据挖掘模型数据挖掘模型评估数据挖掘目标数据挖掘数据质量数据挖掘的9大定律数据挖掘发展趋势案例研讨：通过数据挖掘案例的剖析数据分析过程，体会数据分析的难点和要点。研讨：数据挖掘Day5数据分析流程与建模思想定义挖掘目标数据取样数据探索数据预处理挖掘建模建立模型业务理解模型拟合训练集测试集模型评价企业实践案例分享案例练习：通过企业实践案例的剖析数据分析过程，体会数据分析的难点和要点。研讨：企业实践案例分享Day5数据的统计学知识和模型回归分析贝叶斯算法聚类算法SVM决策树算法关联规则算法时间序列算法神经网络深度学习人工智能其他挖掘算法以上数据模型的应用案例剖析案例练习：通过数据模型的应用案例剖析案例的剖析数据分析过程，体会数据分析的难点和要点。研讨：数据模型的应用案例剖析课程3：数据分析与挖掘基础-6天【匹配关键知识点】常见数据分析方法与数据挖掘概述，描述型数据分析，常见数据分析与挖掘算法（Kmeans、购物篮、决策树、朴素贝叶斯等）等内容。【课程时间】6天（6小时/天）【课程简介】随着大数据时代的快速到来，以及大数据在生产生活中迅速应用，数据分析、数据建模、数据挖掘、机器学习、神经网络、深度学习、人工智能等重要性越发突出，本课程是针对大数据时代的特点，尹老师总结多年数据分析经验，而精心设计的课程，课程内容涵盖了数据领域的数据处理、统计分析、数据挖掘、机器学习、神经网络、深度学习、人工智能等内容，以及人工智能的应用范围、发展前景剖析。【课程收益】1、常见数据分析方法与数据挖掘概述；2、描述型数据分析；3、常见数据分析与挖掘算法（Kmeans、购物篮、决策树、朴素贝叶斯等）等。【课程特点】常见数据分析方法与数据挖掘概述，描述型数据分析，常见数据分析与挖掘算法（Kmeans、购物篮、决策树、朴素贝叶斯等）等内容。【课程对象】 数据分析师、技术经理、产品经理、产品助理等 将承担数据分析师职责的业务人员或信息化人员 希望加强数据分析能力的软件开发人员 系统集成企业售前工程师、售前顾问及方案制作人员【学员基础】 具有2年以IT部门工作经验，将负责数据分析等相关任务的技术人员【课程大纲】（6天*6小时）时间内容案例实践与练习Day1常见数据分析方法与数据挖掘概述数据分析与建模的概念数据分析与建模过程数据分析模型开发过程数据建模概述机器学习概念机器学习算法剖析算法库分类算法库深度学习神经网络人工智能商业智能案例练习：通过案例的剖析数据分析过程，体会数据分析的难点和要点。研讨：数据分析的过程Day2描述型数据分析统计学基本概念统计数据的计量尺度常用基本统计量集中趋势的描述指标离散趋势的描述指标中心极限定理大数定律数据的分布正态分布的特征偏度和峰度检测数据集的分布数据的分布拟合检验与正态性检验抽样标准假设检验T检验置信区间案例练习：通过案例的剖析数据分析过程，体会数据分析的难点和要点。研讨：描述性数据分析Day3常见数据分析与挖掘算法数据挖掘的基本任务数据挖掘建模过程定义挖掘目标数据取样数据探索数据预处理挖掘建模建立模型业务理解模型拟合训练集测试集模型评价常用的数学预测模型线性回归回归（预测）与分类决策树与随机森林聚类分析（kmeans）关联规则时序模式离群点检测深度学习人工智能神经网络案例：如何从数据中挖掘出有价值的信息案例研讨：通过案例的剖析数据分析过程，体会数据分析的难点和要点。研讨：常用数据分析方法与算法Day4朴素贝叶斯与回归分析主成分分析和因子分析（深入剖析主成分分析及因子分析）主成分分析总体主成分样本主成分主成分分析模型案例：主成分分析模型实现课堂实操：主成分分析模型实现方差分析（深入剖析方差分析方法及实现）单因素方差分析单因素方差分析模型因素效应的显著性检验因素各水平均值的估计与比较两因素等重复试验下的方差分析统计模型交互效应及因素效应的显著性检验无交互效应时各因素均值的估计与比较有交互效应时因素各水平组合上的均值估计与比较两因素非重复试验下的方差分析金融案例：方差分析实现课堂实操：方差分析实现 Bayes统计分析（深入剖析Bayes统计分析）Baves统计模型Bayes统计分析的基本思想Bayes统计模型Bayes统计推断原则先验分布的Bayes假设与不变先验分布共轭先验分布先验分布中超参数的确定Baves统计推断参数的Bayes点估计Bayes区间估计Bayes假设检验案例：实现Bayes统计分析建模课堂实操：实现Bayes统计分析建模数学建模（深入剖析数学建模）数学建模数学预测模型模型评估模型参数优化回归分析与分类分析原理与应用（深入剖析数据的回归分析与分类分析的原理以及应用）回归与分类回归分析概念线性回归模型及其参数估计一元线性回归一元线性回归模型一元线性回归模型求解参数损失函数求偏导回归方程的显著性检验残差分析误差项的正态性检验残差图分析统计推断与预测回归模型的选取穷举法逐步回归法岭回归分析一元线性回归金融案例：一元线性回归模型检验多元线性回归概述多元线性回归模型金融案例：多元线性回归实现航空业信用打分和评级模型 Logistic回归分析（剖析Logistic回归与其它回归分析方法）Logistic回归介绍Logistic函数Logistic回归模型案例：SPSS Logistic回归实现课堂实操： Logistic回归实现航空业欺诈预测模型课堂实操： Logistic回归实现航空业风险分析模型非线性回归原理及应用（剖析非线性回归原理及应用实践）非线性回归双曲线函数幂函数指数函数对数函数S型曲线案例：非线性回归实现课堂实操：非线性回归实现航空业经营分析和绩效分析模型案例练习：通过案例的剖析数据分析过程，体会数据分析的难点和要点。研讨：主成分分析模型实现Day5聚类分析与关联规则挖掘数据建模常用距离（深入剖析数据建模过程中常用的距离模型）数据挖掘常用距离欧氏距离曼哈顿距离切比雪夫距离闵可夫斯基距离标准化欧氏距离马氏距离夹角余弦汉明距离杰卡德距离 & 杰卡德相似系数相关系数 & 相关距离信息熵聚类分析与建模实现（深入剖析聚类分析以及通过SPSS聚类算法模型分析数据）聚类分析聚类算法样品间相近性的度量快速聚类法快速聚类法的步骤用Lm距离进行快速聚类谱系聚类法类间距离及其递推公式谱系聚类法的步骤变量聚类案例：SPSS聚类实现及绘图案例：Kmeans应用案例剖析课堂实操：编写程序实现Kmeans应用案例剖析关联规则分析与实现（深入剖析关联规则分析以及通过SPSS关联规则算法模型分析数据）关联规则支持度与置信度关联规则挖掘的过程Apriori算法关联规则案例支持度与置信度计算案例：SPSS实现关联规则课堂实操：SPSS实现航空业数据关联规则分析案例练习：通过编写程序实现Kmeans应用案例的剖析数据分析过程，体会数据分析的难点和要点。研讨：编写程序实现Kmeans应用案例剖析Day6决策树与随机森林决策树分析与实现（深入剖析决策树分析以及通过SPSS决策树模型分析数据）决策树分析决策树决策树构成要素决策树算法原理决策树法的决策过程决策树算法案例：实现决策树分析课堂实操：实现航空业客户细分模型随机森林数据建模时序模式分析与实现（深入剖析时序模式分析）时序模式时间序列分析时间序列分析时间序列序列分析的三个阶段课堂实操：实现航空业客户流失模型案例练习：通过实现航空业客户细分模型案例的剖析数据分析过程，体会数据分析的难点和要点。研讨：实现航空业客户细分模型课程4：R语言数据分析实战-6天【匹配关键知识点】R语言入门基础，描述性统计分析，用R语言做数据挖掘实战等内容。【课程时间】6天（6小时/天）【课程简介】R语言由新西兰奥克兰大学ross ihaka和robert gentleman 开发。R语言是自由软件，具有非常强大的统计分析和作图功能，而且具有非常丰富的网上资源，目前R软件有3000多种贡献包，几乎可以实现所有的统计方法，目前大部分的顶级统计学家和计量经济学家都使用R语言，而且越来越多的数据分析实务人员也开始使用R语言。学习R软件正成为一种趋势。R语言具有简单易学，功能强大，体积小（仅30M），完全免费，可自由开发等特点，且R语言和S语言语法基本相同，绝大部分程序是互相兼容的。R软件最优美的地方是它能够修改很多前人编写的包的代码做各种你所需的事情，实际你是站在巨人的肩膀上。【课程收益】1、R语言入门基础；2、描述性统计分析；3、用R语言做数据挖掘实战等内容；【课程特点】R语言入门基础，描述性统计分析，用R语言做数据挖掘实战等内容。【课程对象】 数据分析师、技术经理、产品经理、产品助理等 将承担数据分析师职责的业务人员或信息化人员 希望加强数据分析能力的软件开发人员 系统集成企业售前工程师、售前顾问及方案制作人员【学员基础】 具有2年以IT部门工作经验，将负责数据分析等相关任务的技术人员【课程大纲】（6天*6小时）时间内容案例实践与练习Day1R语言入门基础 R语言简介（介绍R语言工具）R语言历史与趋势剖析安装R语言RStudio使用工作空间的设置R程序包的载入与使用R资源网上查找方法介绍 R语言语法介绍（R语言基础语法介绍）R语言的数据类型介绍R语言的数据结构介绍数据的读入和输出R语言连接RDBMS数据库介绍数据库的读/写R和SQL的交互循环语句条件语句遍历常用函数常用算法定性变量离散变量连续变量多元变量对向量、矩阵和列表进行运算提取和插入元素日期和时间数据的操作处理编写自定义函数解决复杂问题编程技巧编程案例介绍案例练习：通过案例的剖析数据分析过程，体会数据分析的难点和要点。研讨：R语言编程Day2R语言绘图功能 R语言的绘图功能介绍（R语言的探索性分析与数据可视化）绘图函数图形增强函数图形互动函数高级绘图命令散点图柱状图直方图R语言数据预处理（R语言的数据的读取、清洗和转换）数据预处理日期和时间的处理因子变量的操作下标数据整理技术字符串操作数据子集的筛选识别重复数据和缺失值处理函数映射数据转换整理技术变量的重新编码plyr、reshape2等包整理数据案例练习：通过案例的剖析数据分析过程，体会数据分析的难点和要点。研讨：R语言绘图Day3R语言与外部数据交互数据的读入和输出（R语言的数据的读取、加载和写出）数据的读入和写出read.tablescan内置数据集的读取R语言连接RDBMS数据库介绍R语言RDBMS数据库操作实操：R和MySQL的交互实操：R和Oracle的交互数据库的读/写R和SQL的交互实操：R和Excel的交互R语言大数据操作实操：R编写Spark程序案例研讨：通过案例的剖析数据分析过程，体会数据分析的难点和要点。研讨：R语言与RDBMS交互Day4描述性统计分析 R语言统计模拟与随机抽样（R语言的算法介绍）随机数生成蒙特卡洛模拟中心极限定理的模拟线性模型剖析线性模型诊断方法多元选择模型剖析随机抽样案例：蒙特卡罗模拟的应用描述统计分析与离群点检测（掌握R语言用法和基本数据分析、数据描述统计分析）基本数据分析（随机数的生成和统计模拟）单变量数据分析与作图双变量数据分析与作图（二维表分析，并列箱线图，相关系数）多变量数据分析与作图（多变量相关系数矩阵）离群点检测案例1：汽车数据描述统计分析案例2：财政收入与税收描述统计分析案例练习：通过案例的剖析数据分析过程，体会数据分析的难点和要点。研讨：描述性统计分析Day5用R语言做数据挖掘实战基本数据分析（数据分析和数据挖掘基础介绍）中心极限定理大数定律正态分布的特征偏度和峰度检测数据集的分布概率分布随机数生成随机抽样蒙特卡洛模拟用蒙特卡罗方法计算圆周率π案例：蒙特卡罗模拟的应用实操：R语言实现蒙特卡罗求圆周率回归与分类（掌握回归算法与实际建模分析应用,回归与分类剖析，R语言实现及预测应用）回归分析回归分析概念线性模型剖析一元线性回归一元线性回归模型一元线性回归模型求解参数损失函数求偏导线性模型评估方法实操：R语言一元线性回归实操：R语言一元线性回归模型检验多元线性回归（多元线性回归剖析，R语言实现及预测应用）多元选择模型剖析多元线性回归思想实操：R语言实现多元线性回归非线性回归（非线性回归剖析，R语言实现及预测应用）双曲线函数幂函数指数函数对数函数S 型曲线实操：R语言非线性回归逐步回归分析岭回归分析 Logistic回归（Logistic回归剖析，R语言实现及预测应用）Logistic函数绘制Logistic曲线Logistic回归介绍案例：用户离网预测案例：中国税收收入增长案例分析案例：新教学方法的效果案例：信用卡违约预测案例练习：通过用户离网预测案例的剖析数据分析过程，体会数据分析的难点和要点。研讨：用户离网预测Day6用R语言文本数据挖掘实战文本挖掘应用（介绍文本数据挖掘的实际应用场景）文本结构分析文章分类文章摘要文章聚类相似文章推荐NLP自然语言处理命名实体识别案例分析文本数据挖掘过程（介绍文本数据挖掘的流程）文本预处理文本挖掘模式与表示模式评估中文分词技术介绍（介绍文本挖掘的基础中文分词技术）信息检索倒排索引文本分词停用词词根主要的分词方法基于规则的词性标注自动语义标注中文分词软件包R语言中文分词代码实现中文分词TF-IDF算法介绍（介绍TF-IDF文章分类算法以及代码实

刘晖：大数据分析与运营（电网行业）

课程概要

适用对象

课程介绍

刘晖老师的其他课程

相关课程

添加企业微信