
Hadoop大数据开发实战课程大纲
本课程将让学员掌握 Hadoop 架构原理和 使用场景,通过项目实战锻炼,独立规划及部署生产环境的Hadoop集群,掌握Hadoop基本运维思路和方法,对Hadoop集群进行管理和优化,熟练使用Hadoop进行MapReduce程序开发。
技术储备阶段
Hadoop以及相关模块实操
Hadoop介绍
hadoop分为运维和开发:
运维一般是搭建集群环境,调优集群,保证集群良好运行;开发就是通过运行mapreduce等程序,让他完成我们想让hadoop集群完成的事情。
本章节将让学员了解Hadoop,把握分布式计算框架及未来发展方向,在大数据时代能为企业的技术选型及架构设计提供决策参考。
数据仓库HIVE
Hive是大数据开发的核心工具,本章详解数据仓库HIVE,让学员了解并掌握Hadoop的数据仓库原理和运行机制。
分布式数据库Hbase
Hadoop介绍
计算模型MapReduce
Spark项目入门与提高
分布式文件系统HDFS体系结构
分布式协作系统ZooKeeper
Scala介绍
Spark平台下的机器学习
Spark项目编译
Hbase是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统,本章将详细讲解Hbase体系及存储机制
是一个用来将Hadoop和关系型数据库中的数据相互转移的工具,是不同类型数据库互操作的重要应用工具。
MapReduce能够让用户编写的Hadoop并行应用程序运行更加简化高效,本章节将让学员学习软件的执行原理,并通过实际编写练习掌握
MapReduce
是用来解决分布式应用中经常遇到的一些数据管理问题,简化分布式应用协调及其管理的难度,提供高性能的分布式服务;本章节将介绍ZooKeeper原理和基本操作。
Hadoop中的分布式文件系统HDFS能够实现数据在计算机集群组成的云上高效的存储和管理,是hadoop中核心体系,本章将让学员通过理论及实际操作了解HDFS的体系结构和操作规范。
Spark是应对实时查询和迭代计算的有力工具,本章帮助学员了解并掌握Spark的原理,开发环境的搭建,掌握各个算法的使用场景与适用范围
作为流计算技术中的佼佼者和主流的Storm被誉为实时版的Hadoop,本章节将详细介绍Storm,让学员了解并掌握分布式实时大数据处理工具, 弥补hadoop在实时数据上的不足。
Spark在机器学习方面有着得天独厚的优势,特别适合需要多次迭代计算的算法。
Scala在大数据,云计算方面有较为广泛的运用,而且由于Spark是由Scala语言开发的,所以大家在开发Spark应用程序时,Scala成为必学语言之一。
Hadoop项目实战
行业案例实战
通过真实企业案例,让学员从理论到实践上都能掌握大数据企业开发必备技能,为就业打下坚实理论与实战基础。