课程简介
基于开源大数据平台数据分析和挖掘实训课程,该是一个理论与实践相结合的课程,阐述大数据主流的系统架构,数据分析和挖掘的技术、流程。
本课程包含了两个真实数据分析和挖掘实战案例,通过具体的案例了解大数据平台常用的数据分析和挖掘技术。
本课程是目前基于大数据平台数据分析和挖掘的主流课程,涵盖了基于大数据平台数据分析和挖掘的整个流程和技术
目标收益
深度了解主流大数据系统的系统架构,组件交互,及其内核工作与运行机制;
了解大数据平台常用的以希望数据分析和挖掘的技术,如:Hadoop、Hive、Spark等
深度了解机器学习算法,及其Spark MLlib基本算法原理,以及机器学习算法实践与优化。
了解目前主流的数据分析和挖掘平台
了解基于Python数据分析和挖掘的技术栈
能够使用Python基于Spark额mllib上面进行数据分析和挖掘。
培训对象
具有1年及以上工作经验,并期望掌握大数据系统与机器学习算法,大数据系统架构,机器学习算法运行机制的研发工程师,算法工程师,及其架构师。
利用大数据平台数据分析挖掘的同学
了解基于大数据平台常用数据分析和挖掘的流程和方法
课程大纲
第一天 Spark技术栈介绍 |
Spark-Core介绍 Spark SQL介绍 Spark Streaming介绍 Spark mllib介绍 Spark GraphX介绍 PySpark介绍 SparkR介绍 Spark3.0重要特性介绍 |
Spark编程模型和解析 |
Spark的编程模型 Spark编程模型解析 Partition实现机制 RDD的特点、操作、依赖关系 Transformation RDD详解 Action RDD详解 Spark的累加器详解 Spark的广播变量详解 Spark容错机制 —lineage和checkpoint详解 Spark的运行方式 Spark的Shuffle原理详解 —Sort-Based原理 —Hash-Based原理 Spark Partition详解 |
Spark SQL原理和实践 |
Spark SQL原理 Spark SQL的Catalyst优化器 Spark SQL内核 Spark SQL和Hive连接 DataFrame和DataSet架构 Fataframe、DataSet和Spark SQL的比较 SparkSQL parquet格式实战 Spark SQL的实例和编程 Spark SQL的实例操作demo Spark SQL的编程 Spark SQL学员实操训练 |
Spark Streaming详解 |
Spark Streaming原理 Spark Streaming的应用场景 Windows 窗口操作 DStream详解 Spark SQL on Spark Streaming详解 Structured Streaming介绍 Structured Streaming的水印操作 Structured Streaming+kafka应用实战 流式任务的痛点和注意点 流式任务数据延迟问题 流式任务作业性能问题 流式任务任务常见的处理方式 |
Day2 上午 Spark优化实战 |
Spark DAG原理和优化 GC垃圾回收分析 减少任务使用内存 广播大变量 数据本地化 Spark shuffle原理和优化 Spark内存模型设计原理 Spark堆内内存管理 Spark堆外内存管理 Spark任务执行过程分析和资源占用详解 sparkSQL核心配置参数详解 |
Day2 下午 数据分析和数据挖掘方法论和Spark数据分析实战 |
数据分析和挖掘技术介绍 数据分析和挖掘挖掘应用场景介绍 数据分析和挖掘挖掘常用的算法介绍 数据分析和挖掘挖掘应用架构 数据分析和挖掘挖掘流程CRISP-DM模型介绍 数据分析和挖掘挖掘流程方法论介绍 数据特征工程构建方法论 |
第一天 Spark技术栈介绍 Spark-Core介绍 Spark SQL介绍 Spark Streaming介绍 Spark mllib介绍 Spark GraphX介绍 PySpark介绍 SparkR介绍 Spark3.0重要特性介绍 |
Spark编程模型和解析 Spark的编程模型 Spark编程模型解析 Partition实现机制 RDD的特点、操作、依赖关系 Transformation RDD详解 Action RDD详解 Spark的累加器详解 Spark的广播变量详解 Spark容错机制 —lineage和checkpoint详解 Spark的运行方式 Spark的Shuffle原理详解 —Sort-Based原理 —Hash-Based原理 Spark Partition详解 |
Spark SQL原理和实践 Spark SQL原理 Spark SQL的Catalyst优化器 Spark SQL内核 Spark SQL和Hive连接 DataFrame和DataSet架构 Fataframe、DataSet和Spark SQL的比较 SparkSQL parquet格式实战 Spark SQL的实例和编程 Spark SQL的实例操作demo Spark SQL的编程 Spark SQL学员实操训练 |
Spark Streaming详解 Spark Streaming原理 Spark Streaming的应用场景 Windows 窗口操作 DStream详解 Spark SQL on Spark Streaming详解 Structured Streaming介绍 Structured Streaming的水印操作 Structured Streaming+kafka应用实战 流式任务的痛点和注意点 流式任务数据延迟问题 流式任务作业性能问题 流式任务任务常见的处理方式 |
Day2 上午 Spark优化实战 Spark DAG原理和优化 GC垃圾回收分析 减少任务使用内存 广播大变量 数据本地化 Spark shuffle原理和优化 Spark内存模型设计原理 Spark堆内内存管理 Spark堆外内存管理 Spark任务执行过程分析和资源占用详解 sparkSQL核心配置参数详解 |
Day2 下午 数据分析和数据挖掘方法论和Spark数据分析实战 数据分析和挖掘技术介绍 数据分析和挖掘挖掘应用场景介绍 数据分析和挖掘挖掘常用的算法介绍 数据分析和挖掘挖掘应用架构 数据分析和挖掘挖掘流程CRISP-DM模型介绍 数据分析和挖掘挖掘流程方法论介绍 数据特征工程构建方法论 |