10月【上海站】数分析师——pig、hive、impala培训课程

发布时间:2018年09月25日 18:09    作者:ielilan
一、培训特色
1. 标准的课程体系及原厂商认证的授课讲师
与美国同步的原厂课程、经过层层考核的授课讲师,保证了我们的课程的规范化与标准化。大数据技术不同于其他学科技术,非常的新,发展也非常迅速,技术的迭代也使得我们的课程在不断更新。就目前来看,我们的课程涵盖的大数据运维、开发、分析方面,已处于市场领先地位。
2. 课程设计合理
知识体系层层递进,从基础开始逐渐深入,深入浅出授课,使学员更易于学习掌握。理论加实验的授课方式使课程更丰满。
3. 重底层、讲原理
为学员提供虚拟环境实战的同时,不放弃理论深度,以理论带动实际操作,使学员不仅仅只是一个纸上谈兵的理论者,更有动手的实力。

二、培训目标
为期四天的数据分析培训课程专注于Apache Pig、 Hive 和Impala,将教会您如何将传统的数据分析和商业智能技术应用到大数据领域。为数据专业人员提供了基于SQL 和其它熟悉的脚 本编程语言的工具,用来访问、操作、转换和分析复杂数据集。
提升你的生态系统专业知识
Apache Hive 使得没有Java 编程经验的分析师、数据库管理员等数据专 业人员能够访问多结构化数据。Apache Pig 将熟悉的脚本语言的基本属性应用在Hadoop 集群中。Impala 通过自身SQL 引擎实现了对存储在 Hadoop 中数据的实时交互分析。

三、培训对象
本课程是专为数据分析师、商业智能专家、开发人员、系统架构师和 数据库管理员开发的。培训学员需具备一定的SQL 知识水平,且基本熟悉 Linux 命令行。培训学员至少熟悉一种脚本语言知识(例如,Bash 脚本编程、 Perl、Python 和Ruby)将会更有帮助,但不是必需的。此外,培训学员不需具备Apache Hadoop 知识。

四、培训证书
培训结束并顺利通过考试后,颁发Cloudera全球认证证书,证书全球通用。
证书可作为专业技术人员职业能力考核的证明,以及专业技术人员岗位聘用、任职、定级和晋升职务的重要依据。

五、时间地点及联系方式
上海市宜山路900号 10月11-14日(每三个月一期)
Q1438118790;  TEL4006-01-6012
六、课程大纲
Hadoop 基础知识
> Hadoop 动机。 > Hadoop 概述。 > 数据存储:HDFS。 > 分布式数据处理:YARN、MapReduce    和 Spark。 >数据处理与分析:Pig、Hive和Impala。 > 数据集成:Sqoop。 > 其它的 Hadoop 数据工具。 > 练习分析场景说明。

Pig 简介
> Pig 是什么? > Pig 的特点。 > Pig 使用案例。 > 与Pig 的交互。

Pig 基本数据分析
> PigLatin 语法。 > 加载数据。 > 简单数据类型。 > 字段定义。 > 数据输出。 > 架构查看。 > 数据筛选和排序。 > 常用函数。

使用 Pig 处理复杂的数据
> 数据存储格式。 > 复合 /嵌套数据类型。 > 数据分组。 > 复杂数据内置函数。 > 遍历分组数据。

Pig 多数据集操作
> 数据集合并技术。 > 在Pig 中联接数据集。 > 集合运算。 > 拆分数据集。Pig 故障诊断和性能优化 > Pig 故障排除。 > 日志。> 使用 Hadoop 的Web UI。 > 数据采样及调试。 > 性能概述。 > 了解执行计划。 > 提高 Pig 作业性能的技巧。

Hive 和 Impala 简介
> 什么是 Hive ? > 什么是 Impala ? > 架构和数据存储 > Hive 与传统数据库的比较。 > Hive 使用案例。

使用 Hive 和 Impala 进行数据查询
> 数据库和表。 > 基本的 Hive 和Impala 查询语言语法。 > 数据类型。 > Hive 和Impala 查询语法之间的差异。 > 使用 Hue 来执行查询。 > Impala Shell 的使用。

数据管理
> 数据存储。 > 创建数据库和表。 > 加载数据。 > 修改数据库和表。 > 使用视图简化查询。 > 存储查询结果。

数据存储和性能
> 对表进行分区。 > 选择文件格式。 > 管理元数据。 > 控制对数据的访问。使用 Hive 和     Impala 进行关系数据分析 > 联接数据集。 > 常见的内置函数。 > 聚合和窗口函数。

理解、扩展和改善 Impala
> Impala 是如何执行查询的。 > 使用用户定义的函数扩展 Impala。 > 改善 Impala 的性能。

使用Hive分析文本和复杂数据
> Hive 中的复杂数据。 > 在Hive 中使用正则表达式。 > 情感分析和 N-Grams。 > 结论。

Hive 优化
> 了解查询性能。 > 控制作业执行计划。 > Bucketing(分桶)。 > 索引数据。

扩展 Hive
> SerDes。 > 基于自定义脚本的数据转换。 > 用户定义函数。 > 参数化查询。

选择最佳工具
> 比较 MapReduce、Pig、Hive、Impala 和    关系数据库。 > 该选择哪一个?



欢迎分享本文,转载请保留出处:/thread-547660-1-1.html     【打印本页】
您需要登录后才可以发表评论 登录 | 立即注册

回顶部
网站地图