工程师
其他
大数据
数据分析
大数据平台
推荐课程
average > 0 ? $model->average . '分' : '10.0分' ?>

基于Hadoop、Spark数据分析和挖掘实战

刘老师

某知名咨询公司 云平台系统架构师

毕业于⼤连理⼯⼤学
简介:
精通开源的⼤数据⽣态技术和架构,Hadoop、Hive、Hbase、 Spark、Flink等开源技术栈。
有10年左右基于⼤数据解决⽅案平台、数据架构、数据中台、数据治理、数据分析和挖掘的⼤型数据湖和数
据中台项⽬架构实施经验,
⽬前任职国内知名咨询公司,先后服务于北京⼤学软件研究所、阿⾥巴巴、Teradata,实施过基于开源⼤数据技术
栈的数据湖解决⽅案和实施、湖仓⼀体架构咨询和实施、数据中台的咨询和设施
最近主要项⽬介绍:
某移动⼤数据平台架构设计和设施 (Hadoop、Spark)
四⼤⾏之⼀的数据湖咨询和实施
某⼤型商业银⾏数据中台咨询
某银⾏基于开源⼤数据技术栈数据中台的咨询和实施
某航空公司数据平台流批⼀体解决⽅案和实施
特长:
在⼤数据架构、开发、运维和优化、数据集成、 数据湖(Data Lake)、数据建模、数据挖掘/机器学习、数据
中台等⽅⾯有丰富经 验。

毕业于⼤连理⼯⼤学 简介: 精通开源的⼤数据⽣态技术和架构,Hadoop、Hive、Hbase、 Spark、Flink等开源技术栈。 有10年左右基于⼤数据解决⽅案平台、数据架构、数据中台、数据治理、数据分析和挖掘的⼤型数据湖和数 据中台项⽬架构实施经验, ⽬前任职国内知名咨询公司,先后服务于北京⼤学软件研究所、阿⾥巴巴、Teradata,实施过基于开源⼤数据技术 栈的数据湖解决⽅案和实施、湖仓⼀体架构咨询和实施、数据中台的咨询和设施 最近主要项⽬介绍: 某移动⼤数据平台架构设计和设施 (Hadoop、Spark) 四⼤⾏之⼀的数据湖咨询和实施 某⼤型商业银⾏数据中台咨询 某银⾏基于开源⼤数据技术栈数据中台的咨询和实施 某航空公司数据平台流批⼀体解决⽅案和实施 特长: 在⼤数据架构、开发、运维和优化、数据集成、 数据湖(Data Lake)、数据建模、数据挖掘/机器学习、数据 中台等⽅⾯有丰富经 验。

课程费用

6800.00 /人

课程时长

2

成为教练

课程简介

基于开源大数据平台数据分析和挖掘实训课程,该是一个理论与实践相结合的课程,阐述大数据主流的系统架构,数据分析和挖掘的技术、流程。
本课程包含了两个真实数据分析和挖掘实战案例,通过具体的案例了解大数据平台常用的数据分析和挖掘技术。
本课程是目前基于大数据平台数据分析和挖掘的主流课程,涵盖了基于大数据平台数据分析和挖掘的整个流程和技术

目标收益

深度了解主流大数据系统的系统架构,组件交互,及其内核工作与运行机制;
了解大数据平台常用的以希望数据分析和挖掘的技术,如:Hadoop、Hive、Spark等
深度了解机器学习算法,及其Spark MLlib基本算法原理,以及机器学习算法实践与优化。
了解目前主流的数据分析和挖掘平台
了解基于Python数据分析和挖掘的技术栈
能够使用Python基于Spark额mllib上面进行数据分析和挖掘。

培训对象

具有1年及以上工作经验,并期望掌握大数据系统与机器学习算法,大数据系统架构,机器学习算法运行机制的研发工程师,算法工程师,及其架构师。
利用大数据平台数据分析挖掘的同学
了解基于大数据平台常用数据分析和挖掘的流程和方法

课程大纲

第一天
Spark技术栈介绍
Spark-Core介绍
Spark SQL介绍
Spark Streaming介绍
Spark mllib介绍
Spark GraphX介绍
PySpark介绍
SparkR介绍
Spark3.0重要特性介绍
Spark编程模型和解析 Spark的编程模型
Spark编程模型解析
Partition实现机制
RDD的特点、操作、依赖关系
Transformation RDD详解
Action RDD详解
Spark的累加器详解
Spark的广播变量详解
Spark容错机制
—lineage和checkpoint详解
Spark的运行方式
Spark的Shuffle原理详解
—Sort-Based原理
—Hash-Based原理
Spark Partition详解
Spark SQL原理和实践 Spark SQL原理
Spark SQL的Catalyst优化器
Spark SQL内核
Spark SQL和Hive连接
DataFrame和DataSet架构
Fataframe、DataSet和Spark SQL的比较
SparkSQL parquet格式实战
Spark SQL的实例和编程
Spark SQL的实例操作demo
Spark SQL的编程
Spark SQL学员实操训练
Spark Streaming详解 Spark Streaming原理
Spark Streaming的应用场景
Windows 窗口操作
DStream详解
Spark SQL on Spark Streaming详解
Structured Streaming介绍
Structured Streaming的水印操作
Structured Streaming+kafka应用实战
流式任务的痛点和注意点
流式任务数据延迟问题
流式任务作业性能问题
流式任务任务常见的处理方式
Day2 上午
Spark优化实战
Spark DAG原理和优化
GC垃圾回收分析
减少任务使用内存
广播大变量
数据本地化
Spark shuffle原理和优化
Spark内存模型设计原理
Spark堆内内存管理
Spark堆外内存管理
Spark任务执行过程分析和资源占用详解
sparkSQL核心配置参数详解
Day2 下午
数据分析和数据挖掘方法论和Spark数据分析实战
数据分析和挖掘技术介绍
数据分析和挖掘挖掘应用场景介绍
数据分析和挖掘挖掘常用的算法介绍
数据分析和挖掘挖掘应用架构
数据分析和挖掘挖掘流程CRISP-DM模型介绍
数据分析和挖掘挖掘流程方法论介绍
数据特征工程构建方法论
第一天
Spark技术栈介绍
Spark-Core介绍
Spark SQL介绍
Spark Streaming介绍
Spark mllib介绍
Spark GraphX介绍
PySpark介绍
SparkR介绍
Spark3.0重要特性介绍
Spark编程模型和解析
Spark的编程模型
Spark编程模型解析
Partition实现机制
RDD的特点、操作、依赖关系
Transformation RDD详解
Action RDD详解
Spark的累加器详解
Spark的广播变量详解
Spark容错机制
—lineage和checkpoint详解
Spark的运行方式
Spark的Shuffle原理详解
—Sort-Based原理
—Hash-Based原理
Spark Partition详解
Spark SQL原理和实践
Spark SQL原理
Spark SQL的Catalyst优化器
Spark SQL内核
Spark SQL和Hive连接
DataFrame和DataSet架构
Fataframe、DataSet和Spark SQL的比较
SparkSQL parquet格式实战
Spark SQL的实例和编程
Spark SQL的实例操作demo
Spark SQL的编程
Spark SQL学员实操训练
Spark Streaming详解
Spark Streaming原理
Spark Streaming的应用场景
Windows 窗口操作
DStream详解
Spark SQL on Spark Streaming详解
Structured Streaming介绍
Structured Streaming的水印操作
Structured Streaming+kafka应用实战
流式任务的痛点和注意点
流式任务数据延迟问题
流式任务作业性能问题
流式任务任务常见的处理方式
Day2 上午
Spark优化实战
Spark DAG原理和优化
GC垃圾回收分析
减少任务使用内存
广播大变量
数据本地化
Spark shuffle原理和优化
Spark内存模型设计原理
Spark堆内内存管理
Spark堆外内存管理
Spark任务执行过程分析和资源占用详解
sparkSQL核心配置参数详解
Day2 下午
数据分析和数据挖掘方法论和Spark数据分析实战
数据分析和挖掘技术介绍
数据分析和挖掘挖掘应用场景介绍
数据分析和挖掘挖掘常用的算法介绍
数据分析和挖掘挖掘应用架构
数据分析和挖掘挖掘流程CRISP-DM模型介绍
数据分析和挖掘挖掘流程方法论介绍
数据特征工程构建方法论

课程费用

6800.00 /人

课程时长

2

预约体验票 我要分享

近期公开课推荐

近期公开课推荐

活动详情

提交需求