课时一:概念综述
- 大数据的定义由来和原因
- 大数据的6V特征
- 从数据库,数据仓库到大数据
- 大数据相关技术和处理
课时二:Hadoop生态圈、spark生态圈、搜索引擎概述
- hadoop:HDFS、Map-Reduce、Hbase、Hive等
- spark:scala、spark-SQL、spark-Streaming等
- 搜索引擎:lucene(solr)、ES
- 并发的机器学习工具:R-hadoop、spark-MLLIB、 spark-R、pyspark
课时三:存储在hbase中的数据
- NoSQL(key-value)
- Hbase:安装
- 行键与列簇
- 如何利用Hbase的特点存储数据
- 应用程序如何访问Hbase中的数据
- 数据迁移:sqoop
- Hbase的应用场景
课时四:Hive:为用SQL的开发者留的活路
- Hive:安装(单用户与多用户)
- Hive:基本操作
- Hive:与典型的关系型数据库的区别
- 如果“想慢”,你可以这样…(不恰当使用hive的案例介绍)
- Hive的应用场景
课时五:Spark各组件在卫生领域的应用
- Hadoop最大的特点是什么?
- Spark概述与安装
- Scala:你可以一直“点”下去
- RDD:“映射”、“转换”解决一切
- spark-SQL
- spark-streaming
- spark的其他组件
- 应用场景
课时六:机器学习算法介绍—I
- 综述(人工智能、数据挖掘、机器学习、机器智能、大数据:这些词的确切含义)
- 监督学习、无监督学习与强化学习
- 工具:R、Python等
- 决策树详解(熵、贪心法、连续的和离散的)
- 神经网络详解(神经元、激励函数、前馈神经网络的BP算法,其他神经网络)
课时七:机器学习算法介绍—II
- 关联规则详解(频繁项集、Apriori、支持度、置信度)
- 聚类详解(k-means、k-medoid)
- 常见算法的简述(Naïve-Bayes、k-NN、HMM、SVM等)