Hadoop离线计算
大数据概述和Hadoop环境安装
云计算和分布式、大数据应用场景、分布式文件系统设计原理、Hadoop集群环境的安装、HDFS的基本操作(命令行)、HDFS的配置文件的核心相关参数。
HDFS原理和应用
HDFS原理分析、HDFS工作流程分析、访问HDFS、分布式日志采集案例。
MapReduce和Yarn
MapReducer原理分析、MapReducer的算法模型、MapReduce和Yarn集群的配置、Yarn模型的运行管理机制、MapReduce的本地运行模式。
MapReduce编程案例
流量统计、汇总排序、订单分组topN、线段重叠统计、电影评分的topN、倒排索引、JOIN算法、MapReduce分布式启动运行流程、MapReduce数据处理流程、数据倾斜。
Hadoop架构和源码分析
数据仓库
Hive
Hive核心工作机制、Hive的安装和运行、Hive的DDL操作、SQL语法加强。
Hive加强
Hive数据类型、单行函数、聚合函数和表生成函数、Hive案例、窗口函数、Hive自定义函数等。
Hadoop生态圈组件
Flume工作机制、Flume安装和配置、Flume拦截器、Flume高可用、日志采集分类汇总、Sqoop工作机制、Sqoop的安装部署、Sqoop的导入导出案例案例、Azkaban的工作流调度器介绍、Azkaban的安装部署和使用配置等。
HBASE
HBASE概述和核心特点、HBASE工作原理、HBASE的集群部署、shell客户端的基本操作、Java操作HBASE、HBASE读写操作和流程等。
Storm实时计算
Storm编程入门
Storm概述和原理、Storm的本地和集群模式、Storm的核心组件详解、Storm的并行运算和分组运算、Storm集群执行过程分析,Storm案例。
Storm架构和源码分析
Storm核心机制
Ack机制概述、Storm通信机制、Storm数据分发机制。
消息中间件Kafka的使用
KafKa概述和原理、KafKa的集群环境部署、KafKa的生产者和消费者、KafKa分组策略、KafKa配置详解。
Scala语言
Scala语言基础、Scala函数和方法、Scala数据结构、Scala面向对象、隐式参数、隐式参数类型转换、泛型、视图界定、上下文界定、Akka的RPC通信框架等。
Spark内存计算
Spark入门
Spark原理、Spark架构分析、Spark集群安装、Spark-shell单机和集群、Spark任务执行流程、Spark程序调试。
Spark RDD
RDD运行架构、Transformation操作API、RDD分区数据的读取、Action操作API、Spark编程案例、自定义排序、Stage切分、Spark整体执行流程。
Spark SQL
Spark SQL原理、Spark SQL应用场景、Spark SQL性能分析、Spark SQL的案例、Spark SQL函数。
Spark Streaming
Stream运行架构、SparkStream工作原理、Spark Stream和KafKa整合、Spark Stream和Redis的整合等。
Spark架构和源码分析
大数据项目
大型日志采集系统、大数据综合项目
Python、人工智能