全套服务(在线、面授均享)
1、面授+远程+录播
2、24小时远程真机练习
3、行业专家讲师亲临授课
4、每班一名班主任督学
5、一年半免费重听学习
通过Cloudera公司提供的Hadoop和企业数据中心培训,将您的知识提升到一个新的水平并有助于您解决实际问题。
Cloudera大学提供的为期3天的检索培训课程是专门针对希望在Hadoop中索引数据以实现更强大的实时查询功能的开发人员和工程师而设计的。培训学员将学习如何通过将Cloudera检索系统与外部应用程序进行整合,以挖掘他们的数据更多的价值。
提升您的生态系统专业知识
Cloudera检索系统具备全文本、交互式搜索功能,并且具备针对Hadoop和企业数据中心的可扩展、灵活索引功能。Cloudera检索系统由Apache Solr提供技术支持,可以针对新一代集成式、多工作负载查询提供规模性和可靠性。
一. 培训内容
通过讲师在课堂上的讲解,以及实操练习,学员将学习以下内容:
对存储在HDFS和HBase中的数据进行批量索引。
通过Flume以近实时的方式执行流数据的索引。
以多语言和多文件格式对内容进行索引。
通过Morphlines处理和转换输入数据。
使用Hue创建索引的用户界面。
将Cloudera检索系统与外部应用程序进行整合。
使用层面搜索(faceting)、高亮(highlighting)、拼写纠错等功能改善搜索体验。
二. 培训对象及学员基础
本课程是专门针对至少基本了解Hadoop和具备通用语言(例如Java、C、C ++、Perl或Python)编程经验的开发人员和工程师设计的。培训学员应非常熟悉Linux命令行,并且应该能够执行基本任务(例如,创建和删除目录、查看和更改文件权限、执行脚本、并检查文件输出)。不要求培训学员必需具备Apache Solr或Cloudera检索系统使用经验,同时也不要求具备HBase或SQL使用经验。
三. 课程大纲
1. Cloudera Search概述
什么是Cloudera Search?
特性
使用案例
基本架构
2. 执行基本查询
在Admin UI中执行查询
基本语法
近似匹配技术
控制输出
3. 编写功能更强大的查询
相关性和过滤器
查询解析器
函数
地理空间搜索
层面搜索(Faceting)
4. 准备索引文档
索引过程概述
了解Morphlines
生成配置文件
模式设计
文档集管理
5. 通过MapReduce批量索引HDFS数据
HDFS批量索引过程概述
MapReduce索引工具的使用
测试和故障排除
6. 通过Flume的近实时索引
近实时索引过程概述
Apache Flume简介
如何通过Flume执行近实时索引
测试和故障排除
7. 通过Lily索引HBase数据
什么是Apache HBase?
HBase的批量索引
以近实时方式索引HBase表
8. 以其他语言和格式索引数据
字段类型和分析器链
单词衍生、字符映射和语言支持
Admin UI中的模式和分析支持
通过Apache Tika进行元数据和
9. 内容提取
通过SolrCell索引二进制文件类型
10. 提高搜索质量和性能
相关结果递送
帮助用户查找信息
查询性能和故障排除
11. 构建搜索用户界面
搜索UI概述
通过Hue构建用户界面
将搜索(Search)功能集成到自定义
12. 应用程序中
13. 部署注意事项
部署规划
确定硬件需求
安全性概述
文档集别名
14. 结论
Cloudera大数据课程体系