大数据平台搭建与高性能计算最佳实战培训班（青岛，8月24-26日）-分类信息-去发帖网-免费、简洁、高效的信息发布平台！

大数据平台搭建与高性能计算最佳实战培训班（青岛，8月24-26日）山东

mand04 2020-6-30 633

大数据平台搭建与高性能计算最佳实战培训班（青岛，8月24-26日）
【举办单位】北京曼顿培训网
【咨询电话】4006820825 010-56133998 13810210257
【培训日期】
青岛，2020年8月24-26日；成都，2020年10月26-28日
北京，2020年11月12-14日；广州，2020年12月22-24日
【培训地点】青岛、成都、北京、广州

【课程大纲】
第一天
上午大数据技术基础
1.大数据的产生背景与发展历程
2.大数据的4V特征，以及与云计算的关系
3.大数据应用需求以及潜在价值分析
4.业界最新的大数据技术发展态势与应用趋势
5.大数据思维的转变
6.大数据项目的系统与技术选型，及落地实施的挑战
7.“互联网+”时代下的电子商务、制造业、交通行业、电信运营商、银行金融业、电子政务、移动互联网、教育信息化等行业应用实践与应用案例介绍
■业界主流的大数据技术方案
1.大数据软硬件系统全栈与关键技术介绍
2.大数据生态系统全景图
3.主流的大数据解决方案介绍
4.Apache大数据平台方案剖析
5.CDH大数据平台方案剖析
6.HDP大数据平台方案剖析
7.基于云的大数据平台方案剖析
8.大数据解决方案与传统数据库方案比较
9.国内外大数据平台方案与厂商对比
■大数据计算模型（一）——批处理MapReduce
1.MapReduce产生背景与适用场景
2.MapReduce计算模型的基本原理
3.MapReduce作业执行流程
4.MapReduce编程模型: Map处理和Reduce处理
5.MapReduce处理流程：数据读取collect、中间数据sort、中间数据spill、中间数据shuffle、聚合分析reduce
6.MapReduce开发高级应用：Combiner技术与应用场景、Partitioner技术与应用场景、多Reducers应用
7.MapReduce开发与应用实战：Hadoop平台搭建与运行；MapReduce安装与部署；
8.应用案例：基于HDFS+MapReduce集成的服务器日志分析采集、存储与分析MapReduce程序实例开发与运行
9.MapReduce参数调优与性能优化技巧
第一天
下午■大数据存储系统与应用实践

1.分布式文件系统HDFS产生背景与适用场景
2.HDFS master-slave系统架构与读写工作原理
3.HDFS核心组件技术讲解，NameNode与fsimage、editslog，DataNode与数据块
4.HDFS Federation机制，viewfs机制，使用场景讲解
5.HDFS高可用保证机制，SecondaryNameNode，NFS冷备份，基于zookeeper的HA方案
6.HDFS参数调优与性能优化
■大数据实战练习一

1. Hadoop平台搭建、部署与应用实践，包含HDFS分布式文件系统，YARN资源管理软件，MapReduce计算框架软件
2. HDFS 文件、目录创建、上传、下载等命令操作，HDFS合并、归档操作，HDFS监控平台使用
3. MapReduce程序在YARN上运行，YARN监控平台使用
第二天
上午■Hadoop框架与生态发展，以及应用实践操作
1.Hadoop的发展历程
2.Hadoop 1.0的核心组件JobTracker，TaskTracker，以及适用范围
3.Hadoop 3.0的核心组件YARN工作原理，以及与Hadoop 1.0的联系与区别
4.Hadoop关键机制：任务推测执行，任务容错，任务选择执行，心跳机制
5.Hadoop YARN的资源管理与作业调度机制：FIFO调度，Capacity调度器，Fair调度器
6.Hadoop 常用参数调优与性能优化技术
■大数据计算模型（二）——实时处理/内存计算 Spark
■1.MapReduce计算模型的瓶颈
2.Spark产生动机、基本概念与适用场景
3.Spark编程模型与RDD弹性分布式数据集的工作原理与机制
4.Spark实时处理平台运行架构与核心组件
5.Spark RDD主要Transformation：map, flatMap, filter, union, sample, join, reduceByKey, groupByKey
6.Spark RDD主要action：count，collect，reduce，saveAsTextFile
7.Spark宽、窄依赖关系与DAG图分析
8.Spark容错机制
9.Spark作业调度机制
10.Spark缓存机制：Cache操作，Persist操作与存储级别
11.Spark作业执行机制：执行DAG图、任务集、executor执行模型、

BlockManager管理
12.Spark standardalone，Spark on YARN运行模式
13.Scala开发介绍与Spark常用Transformation函数介绍
14.Spark调优：序列化机制、RDD复用、Broadcast机制、高性能算子、资源参数调优
第二天
下午■大数据仓库查询技术Hive、SparkSQL、Impala，以及应用实践
1.基于MapReduce的大型分布式数据仓库Hive基础知识与应用场景
2.Hive数据仓库的平台架构与核心技术剖析
3.Hive metastore的工作机制与应用
4.Hive内部表和外部表
5.Hive 分区、分桶机制
6.Hive行、列存储格式
7.基于Spark的大型分布式数据仓库SparkSQL基础知识与应用场景
8.Spark SQL实时数据仓库的实现原理与工作机制
9.SparkSQL数据模型DataFrame
10.SparkSQL程序开发与
11.SparkSQL数据读取与结果保存：json，Hive table，Parquet file，RDD
12.SparkSQL和Hive的区别与联系
13.SparkSQL操作实战
14.基于MPP的大型分布式数据仓库Presto基础知识与应用场景
15.Presto实时查询系统平台架构、关键技术介绍，以及与Hive，SparkSQL的对比
■Hadoop集群运维监控工具
1.Hadoop运维管理监控系统Ambari工具介绍
2. 第三方运维系统与工具Ganglia, Nagios
■大数据实战练习二
1.基于 Hadoop平台搭建、部署与配置Spark集群，Spark shell环境实践操作，Spark案例程序分析
2.基于sbt的Spark程序编译、开发与提交运行
3.应用案例一：基于Spark的服务器运行日志TopN分析、程序实例开发
4.应用案例二：
■基于Spark的搜索引擎日志热词与用户分析、程序实例开发
5.基于MapReduce的Hive数据仓库实践，Hive集群安装部署，基于文件的Hive数据仓库表导入导出与分区操作，Hive SQL操作，Hive客户端操作
6.SparkSQL shell实践操作：数据表读取、查询与结果保存
第三天
上午
■大数据计算模型（三）——流处理Storm, SparkStreaming
■1.流数据处理应用场景与流数据处理的特点
2.流数据处理工具Storm的平台架构与集群工作原理
3.Storm关键技术与并发机制
4.Storm编程模型与基本开发模式
5.Storm数据流分组
6.Storm可靠性保证与Acker机制
7.Storm应用案例分析
8.流数据处理工具Spark Streaming基本概念与数据模型
9.SparkStreaming工作机制
10.SparkStreaming程序开发介绍
11.SparkStreaming的全局统计和窗口函数
12.Storm与SparkStreaming的对比
13.SparkStreaming开发案例：基于文件流的SparkStreaming程序开发；基于socket消息的SparkStreaming程序开发
■大数据与机器学习技术
1.机器学习发展历程
2.机器学习与大数据关联与区别
3.数据挖掘经典算法
4.预测算法：线性回归与应用场景，非线性回归与应用场景
5.分类算法：逻辑回归与应用场景，决策树与应用场景，朴素贝叶斯算法与应用场景，支持向量机算法与应用场景
6.聚类算法；
■k-means与应用场景
7.基于Hadoop的大数据机器学习技术
8.基于MapReduce的机器学习库Mahout
9.Mahout支持的数据挖掘算法
10.Mahout编程模型与发
11.基于Spark的机器学习库Spark MLlib
12.Spark MLlib支持的数据挖掘算法
13.Spark MLlib编程模型与开发：基于Spark MLlib的文本分类，基于Spark MLlib的聚类
第三天
下午
■大数据ETL操作工具，与大数据分布式采集系统
1.Hadoop与DBMS之间数据交互工具的应用
2.Sqoop导入导出数据的工作原理
3.Flume-NG数据采集系统的数据流模型与系统架构
4.Kafka分布式消息订阅系统的应用介绍与平台架构，及其使用模式
■面向OLTP型应用的NoSQL数据库及应用实践
1.关系型数据库瓶颈，以及NoSQL数据库的发展，概念，分类，及其在半结构化和非结构化数据场景下的适用范围
2.列存储NoSQL数据库HBase简介与数据模型剖析
3.HBase分布式集群系统架构与读写机制，ZooKeeper分布式协调服务系统的工作原理与应用
4.HBase表设计模式与primary key设计规范
5.文档NoSQL数据库MongoDB简介与数据模型剖析
6.MongoDB集群模式、读写机制与常用API操作
8.键值型NoSQL数据库Redis简介与数据模型剖析
9.Redis多实例集群架构与关键技术
10.NewSQL数据库技术简介及其适用场景
■大数据ELT数据采集与应用实战
1.Sqoop安装、部署与配置，基于Sqoop、MySQL与Hive操作MySQL数据库与Hive数据仓库数据导入导出
2.Kafka安装、部署与配置，基于Kafka创建和消费topic实践操作
3.Flume+HDFS+MapReduce/Spark大数据采集、存储与分析实践操作
■新一代大数据处理引擎Flink
Flink简介，Flink的体系架构，对比：Flink、Storm和Spark Streaming，Standalone的模式，Yarn模式的两种模式，Yarn两种模式的区分，Flink on yarn内部实现，ZooKeeper的体系架构，Flink Standalone HA 配置，Flink on Yarn HA 配置，Flink批处理开发，
Flink流处理开发，Flink的窗口操作，Flink scala shell代码调试
第四天
■学习考核与业内经验交流

【费用及报名】
1、费用：培训费6800元（含培训费、讲义费）；如需食宿，会务组可统一安排,费用自理。
2、报名咨询：4006820825 010-56133998 56028090 13810210257 鲍老师
3、报名流程：电话登记-->填写报名表-->发出培训确认函
4、备注：如课程已过期，请访问我们的网站，查询最新课程
5、详细资料请访问北京曼顿培训网 (每月在全国开设四百多门公开课，欢迎报名学习)

免责声明

网站所有内容均为用户自行发布，本网站不对内容的真实性负责，请勿相信转账汇款等信息，文章内容如有侵权，请联系管理员删除！

上一篇：20年9月重点大学网教学历招生无需外地考试2.5年轻松毕业
下一篇：高并发、高可用架构设计与最佳实践培训班（深圳，12月21-23日）

最新回复 (0)

发新帖

mand04

主题数
10227

帖子数
0

精华数
0

注册排名
13

大数据平台搭建与高性能计算最佳实战培训班（青岛，8月24-26日） 山东

免责声明

mand04

作者最近主题：

大数据平台搭建与高性能计算最佳实战培训班（青岛，8月24-26日）山东