课程长度:3天
培训对象:
需要使用Apache Spark来开发功能强大的数据分析应用的程序开发人员和大数据工程师。
学员基础:
本课程使用Scala和Python进行讲解。学员需至少掌握这两种编程语言的其中一种,具备面向对象的编程基础及经验。掌握基本的Linux技能,无需Hadoop方面的基础和经验。
培训内容:
?使用Spark的动机
?Spark基础
?Resilient Distributed Datasets (RDDs)
?HDFS
?在机群环境下运行Spark
?Spark并发处理
?Caching和Persistence
?编写Spark应用
?集成Spark、Hadoop到企业数据中心
?Spark Streaming
?常用Spark算法举例
?Spark性能
教学大纲:
?介绍
?传统大规模系统的问题
?Spark简介
?Spark Shell
?RDDs
?Spark函数式编程
?RDD操作
?键-值对型RDD
?MapReduce和键-值对型RDD操作
?HDFS体系结构
?如何使用HDFS
?Spark机群
?Spark机群Web UI
?RDD分区和HDFS数据本地化
?使用分区并行处理
?RDD Lineage
?Caching和Persistence
?编写Spark应用
?创建SparkContex
?配置Spark属性
?生成和运行Spark应用程序
?日志
?Spark和Hadoop生态系统
?Spark和MapReduce
?Spark流处理
?Streaming单词计数举例
?Streaming操作
?滑动窗口Streaming操作
?编写Spark流处理应用
?迭代算法
?图处理分析
?机器学习
?共享变量:Broadcast变量
?共享变量:Accumulators
?常见性能问题