课程优势:
1. 真正的大数据处理及开发技术课程
2. 课程源于甲骨文雇主企业的需求,真正符合企业用人需要
3. 由获取甲骨文原厂国际认证的讲师授课
4. 理论与实践并重,多个企业真实项目案例贯穿其中
5. 真正的Oracle原厂教材,完整规范的技术知识体系
6. Oracle标准课程与国内主流技术的有机整合,实用性与指导性并重
7. 涵盖最为流行Hadoop、MapReduce、HDFS、Hive、Pig、Spark等技术
8. 涵盖NoSQL海量存储数据库HBase与开源关系型数据库MySQL
9. 涵盖大数据分析和统计专业R编程语言和Java编程语言
10. 具备获取Oracle原厂国际认证OCJP和OCE-WCD的能力
适用群体:大专及以上学历,具备基本的计算机操作能力、基本的英语阅读能力
培养目标:具备高端、多方位、专业级水平的大数据软件开发人才
就业岗位:大数据工程师、大数据应用开发工程师、Hadoop开发工程师、Java研发工程师、Spark开发工程师、数据分析师、大数据云维工程师、大数据系统研发工程师、大数据监控工程师
课程内容:
课程名称
课程及实训内容
C1 Linux操作系统使用与管理
主题
主要知识点
Linux发展历史
UNIX和Linux的历史、现状及发展;Linux操作的不同产品。
安装Linux操作系统
Linux操作系统的安装与初始化配置。
常用命令
Linux基本命令、常用命令操作;vi编辑器的三种状态及状态间的切换、常用的编辑命令。
用户管理
用户和组的概念、口令、权限等管理机制;系统管理、启动过程、任务调度;root密码安全设置。
服务管理
Service概念;环境变量设置;进程的查看、监视、调度和控制;远程Telnet,FTP等网络技术。
文件管理
Linux的基本的目录结构、文件属性和访问权限。
磁盘管理
磁盘分区、磁盘的挂接原理;为Linux增加磁盘;逻辑卷管理。
进程管理
Linux进程的概念,进程的基本原理;进程相关的管理命令。
C2 Linux操作系统管理与维护
主题
主要知识点
Vi编辑器高级应用
Vi编辑器的高级命令,包括文本位移、字符串检索、全局替换、shell插入、缓冲区等。
使用udev工具
udev的概念和用途,使用udev设定设备文件属性。
软件管理
配置系统参数,加载RPM包,启动与关闭,账户安全、目录树等基本概念。
模块管理
Linux的构成,存储模块、文件管理模块、用户组群管理模块、网络管理模块、磁盘管理模块。
文件系统
Linux文件及目录属性,用户组群管理时对其访问权限的设定,实际工作中的应用范例。
主机信任关系
Linux两节点间如何设置信任关系,无障碍收发信息等实用功能设置。
网络管理与服务
TCP/IP基础,网络和主机地址、网关、子网、路由等概念,NTP、NFS、Samba、DNS、Web服务的配置。
高级服务管理
日志的原理及用途、日志的结构,设置服务属性,调整服务的启动和关闭顺序。
备份与恢复
系统备份和恢复技; 日志分析;调节和维护系统内核参数。
P1 项目实训
名称
项目描述
TNA系统Linux基础架构
实现一个真实的、基于B/S架构的《电信网络学院(TNA)系统》的Linux基础架构,项目关注于在Linux操作系统上搭建项目所需的基础架构平台。根据TNA项目的要求,完成底层Linux操作系统的用户、权限配置、磁盘及文件的规划和配置,以及中间件(如JDK和Tomcat)和IDE开发环境的安装和配置等工作。
C3 Java编程语言基础
主题
主要知识点
走进Java语言
Java编程语言的特性;三大平台;JVM/ JRE/ JDK的概念和区别;JDK开发环境
变量和数据类型
变量和运算符;表达式;十六进制、二进制、八进制及转换;字节与位;位的与、或、异或、补运算;八种基本数据类型;字符串与标识符;注释语句
分支和循环语句
if /switch分支语句、while/ do-while/ for循环语句、增强型for循环
声明和使用方法
方法的声明和调用;重载方法
类和对象
面向对象的编程;类和对象;字段/属性;垃圾回收
类的封装
类的封装;public与private访问控制修饰符
声明和使用构造器
构造器的声明和使用;对象的内存模型
创建和使用数组
声明和使用数组、多维数组;命令行参数;方法的可变参数
P2 项目实训
名称
项目描述
A.家庭收支记账软件
模拟实现一个基于文本界面的《家庭收支记账软件》,该软件能够记录家庭的收入、支出,并能够生成收支明细表。该项目的目的在于掌握初步的编程技巧和调试技巧。主要涉及以下知识点:局部变量和基本数据类型、循环语句、分支语句、方法调用和返回值的接收、简单的屏幕输出格式控制。
B.客户信息管理软件
模拟实现一个基于文本界面的《客户信息管理软件》,该软件能够实现对客户对象的插入、修改和删除,并能够打印生成客户明细表。该项目的目的是进一步掌握编程技巧和调试技巧,熟悉面向对象编程。主要涉及以下知识点:类和对象(属性、方法及构造器)、类的封装、引用数组、数组的插入删除和替换、对象的聚集处理、多对象协同工作。
C4 Java面向对象的核心逻辑
主题
主要知识点
类的继承
类的继承;方法覆盖
多 态
多态引用和多态参数、instanceof运算符与对象的强制类型转换
对象关联与Object类
对象的关联与包容;继承Object类并使用equals、hashcode和toString方法
static与final修饰符
static与final修饰符的功能;修饰类、属性、方法的作用
抽象类、接口和枚举
声明和使用抽象类、接口、枚举类
包的管理
package与import;jar包的管理;静态导入
异 常
异常的概念和用途、受检异常和非受检异常;异常的常用处理手段
P3项目实训
名称
项目描述
开发团队调度软件
模拟实现一个基于文本界面的《开发团队人员调度软件》,该软件实现以下功能:
“根据给定的数据创建公司部分成员列表,基于现有的公司成员,组建一个开发团队以开发一个新的项目。开发团队成员包括架构师、设计师和程序员。”;该项目的目的是熟悉Java面向对象的高级特性,进一步掌握编程技巧和调试技巧;主要涉及以下知识点:类的继承和多态、对象的关联、static和final修饰符、特殊类的使用、异常处理等。
C5 开发JavaSE高级应用程序
主题
主要知识点
使用基础API
包裹类与拆箱/装箱、java.util.Math类、String/ StringBuffer/ StringBuilder类
集合与泛型
集合框架;Collection/Set/List类型的集合;泛型的使用;泛型的通配符类型参数
集合高级应用
HastSet/TreeSet集合算法与数据结构;;ArrayList/LinkedList集合算法与数据结构;Map集合;迭代器与遍历集合
I/O数据流访问
I/O的输入输出流、字节流与字符流;字符流链接与包装;字符节链接与包装
文件与对象序列化
File对象API;文件信息封装、目录信息封装;标准对象的序列化与反序列化;自定义序列化对象
控制台与格式化I/O
标准控制台I/O;scanf格式化输入;字符串格式化输出、日期时间格式化输出
创建和使用线程
多线程的创建与启动;线程的控制和结束;线程的基本状态、Sleep()、Join()方法
线程同步与交互
线程的共享数据;线程的同步、synchronized;线程的交互、wait()与notify()
P4项目实训
名称
项目描述
单机考试管理软件
仿真实现一个基于文本界面的《单机考试系统》,该系统能够提供机上考试功能,并且能够自动判分;能够自动记录最后考试成绩、查询显示考试的答题情况和成绩。该项目以增量方式开发,帮助学员建立查看使用API文档的习惯、掌握编程技巧和调试技巧。项目主要涉及以下主要知识点:基础API、集合的存储与遍历、I/O流基础知识、I/O流的链接、将散装数据合成对象、控制台I/O等。
C6 MySQL数据库设计与开发
主题
主要知识点
走进MySQL数据库
MySQL发展简史与产品构成;MySQL数据库安装;经典world数据库。
服务器与客户端
MySQL服务器的启动与停止、客户端常用命令。
表数据查询
使用SELECT语句查询表数据;MySQL的数值、字符串、日期/时间等数据类型;使用SQL表达式。
管理数据库和表
创建、修改和删除数据库;创建、修改和删除表。
操作表数据
使用INSERT/UPDATE/DELETE进行数据的插入、修改和删除。
表的联接
联接(join)概念;在SQL中联接表;基本联接、内联接、外联接。
预处理语句
预备、关闭预处理语句,基于参数执行预处理。
使用外键
外键、外键约束和引用完整性。
事务与隔离级别
使用事务控制语句执行多个并发的SQL语句;理解事务的ACID属性;事务的隔离级别。
C7 Hadoop大数据处理
主题
主要知识点
大数据与Hadoop
大数据的概念与特点;Hadoop发展历史;Hadoop在大数据处理中的应用;Hadoop生态系统
配置Hadoop运行环境
Hadoop的三种运行模式;Hadoop安装环境配置;Hadoop进程启停;执行经典案例WordCount
Hadoop系统架构
Hadoop 基本原理;Hadoop 1.x架构及后台进程;HDFS架构与命名空间;HDFS数据存储与复制
使用HDFS文件系统
HDFS常用命令,如ls、cat、put、get等;HDFS管理与维护,safemode管理,balancer工具等
开发HDFS应用程序
使用Eclipse IDE,安装Hadoop插件;使用Hadoop API访问HDFS,包括文件读写、管理等
MapReduce分布式计算
MapReduce编程模型及工作原理; MapReduce作业调度;分析WordCount运行原理,分析源代码
开发MapReduce应用程序
MapReduce程序自定义Combiner;内置数据类型、自定义数据类型;实现MapReduce组合式作业
大数据处理平台Pig
Pig大数据处理平台;Pig工作模式;Pig运行方式;Pig Latin语法、操作命令、数据类型、表达式等
开发Pig脚本应用
Pig常用函数、不同类型的数据检索,包括建表、查询、关联查询等;开发Pig脚本应用程序
数据仓库工具Hive
数据仓库简介;数据仓库工具Hive的用途;Hive架构;Hive三种运行模式;Hive QL的JDBC编程
无限大表数据库HBase
Hadoop数据库HBase用途;HBase逻辑模型与物理模型;HBase Shell模式命令、HBase API编程
P5 项目实训
名称
项目描述
HDFS大数据云盘
实现一个Web客户端的大数据云盘系统。该系统以Hadoop的HDFS文件系统为存储介质,因些具有海量存储的能力。云盘系统可供用户上传文件、查看、管理和共享云文件。项目主要涉及以下知识点:搭建和配置Hadoop环境,启动Hadoop进程,HDFS文件命令使用,使用HDFS API,编写处理HDF云盘处理程序,用Web界面查看操作HDFS等。
C8 Hadoop管理与维护
主题
主要知识点
Hadoop系统部署
Hadoop系统部署的相关因素,包括机架、主从节点、网络等;集群的规模规划;虚拟机和云部署
Hadoop日常维护
Hadoop系统的均衡性、Hadoop性能调优;常用维护命令;系统监控与日志;数据可靠性和容错性
基于Kerberos的安全配置
Hadoop系统安全问题;Kerberos工作原理;Kerberos运行过程;Kerberos安全机制的配置
Hadoop管理工具
Hadoop Web界面管理工具Hue;Hadoop集群部署与监控工具Ambari
ZooKeeper与配置管理
集群环境下的配置管理;ZooKeeper的用途;ZooKeeper架构;Zookeeper数据模型;ZooKeeper应用
HDFS的维护与性能优化
HDFS文件访问与控制、命令行与API方式;HDFS性能优化、数据块、存储平衡;HDFS小文件存储
内数据整合工具HCatalog
HCatalog的需求与实现;MapReduce、Pig使用HCatalog管理数据;HCatalog的命令行与通知
外数据整合工具Sqoop
Sqoop的功能与用途;Sqoop导入数据、导出数据;Sqoop与Hive结合使用;处理大对象数据
P6 项目实训
美国历年航班大数据统计分析
本项目基于美国民航航班的历年数据(1987年-2008年),计算处理某一年各个航班的飞行架次等数据。项目将原始数据上传到Hadoop的HDFS上,通过编写MapReduce程序读取航班数据并计算和统计航班相关数据。项目主要涉及以下知识点:搭建和配置Hadoop环境,启动Hadoop进程,开发航班处理MapReduce程序、Pig脚本程序,使用Hive JDBC处理数据,通过JSP查询处理过结果。
C9 Spark大数据处理
主题
主要知识点
Spark简介
Spark的发展史;Spark的特点和作用;Spark的体系结构;Spark的框架;Spark的生态系统;Spark的数据存储
Spark环境配置
Spark运行环境配置;Spark开发环境的配置;Spark编译环境配置
Spark编程模型概述
Spark编程模型概述;SparkContext;RDD简介;共享变量;Spark核心开发实践
Spark内部机制
RDD接口;RDD分区和依赖关系;RDD计算函数;RDD的分区器和持久化;Spark调度机制;Shuffle过程
Spark SQL
Spark SQL入门;数据源;分布式SQL引擎;Shark迁移至Spark SQL指南;Spark SQL数据类型
Spark Streaming
Spark Streaming简介;入门实例;基本概念
Spark GraphX
Spark GraphX简介;属性图;图操作;图构造器;顶点与边相关RDD;最优化表示;图算法
Spark MLib
Spark MLib简介;数据类型;基本统计分析;分类与回归;协同过滤;聚类;降维;特征提取与转换;最优化算法
SparkR
SparkR DataFrame DataFrame的相关操作;从SparkR运行SQL查询
P7 项目实训
名称
项目描述
基于大数据的百万歌曲音乐轨迹分析系统
基于公共网站的百万歌曲音乐实战大数据处理。本项目采用公共网站的百万歌曲音乐轨迹作为真实的数据集,遍历所有歌曲,进行基本的统计分析,实现歌曲类型分类、排名、年度获奖歌曲预测、获取歌手名单,以及获取指定歌手的歌曲等功能。项目主要涉及以下知识点:Spark系统部署,Spark编程模型的建立,SparkContext、RDD接口的开发,SparkSQL数据引擎的配置开发,Spark MLib的基本数据统计与分析。
C10 R语言大数据分析与统计
主题
主要知识点
R 语言介绍
R语言历史;R语言下载和运行环境;R语言的安装;R语言的命令包
R语言的基本使用规则
简单数学运算;数据读取并放入R中;数据项的类型和结构保存和加载数据
R语言处理数据对象
构造数据对象;汇总数据对象;提取并处理数据对象;对象不同形式下进行转换
R语言描述统计和制表
汇总数据样本;使用累计统计;创建汇总表格;交叉制表;验证对象类型
R语言处理数据分布
创建直方图及样本分布的其他图表;检验各种分布;验证正太分布;生成随机数
R语言简单假设验证
基础假设验证;学生t检验;非参数数据执行U检验;配对检验;生成相关性和协方差矩阵;相关性检验;使用卡方分析进行关联关系检验;计算拟合度检验的优良性
R语言在Hadoop环境的应用
由HDFS收集数据;处理数据;描述统计并制表;获取数据分布;对数据进行假设验证
R语言在Spark环境的应用
由Spark收集数据;处理数据;描述统计并制表;获取数据分布;对数据进行假设验证
P8 项目实训
名称
项目描述
气象大数据分析与统计系统
基于美国国家气候数据中心收集的全球各地的气象数据,进行天气数据的存储,每日更新,地图和天气的可视化,以及用户的交互,并对天气数据进行基本的统计分析,并对未来的天气进行预测。项目主要涉及以下知识点: 导入数据到R语言;用R语言构造并处理数据,统计并制表,用R语言创建样本分布图及可视化处理,使用基础的检验进行预测。
开课时间:循环开课
上课地点:北京市海淀区北四环中路229号海泰大厦/郑州市金水区农业路东23号 豫星大厦