分析

Hadoop分析师认证

了解认证 如何将传统数据分析和商业智能技术应用到大数据领域。该培训课程介绍了数据专业人员使用 SQL 和其它熟悉的脚本语言来访问、操作、转换和分析复杂数据集所需的工具。建议掌握的知识 (1)大数据工具的开源生态系统如何应对传统 RDBMS 未能解决的挑战(2)使用 Apache Hive 和 Apache Impala 提供对数据的 SQL 访问(3)Hive 和 Impala 语法和数据格式,包

  • 授课范围:

了解认证

如何将传统数据分析和商业智能技术应用到大数据领域。该培训课程介绍了数据专业人员使用 SQL 和其它熟悉的脚本语言来访问、操作、转换和分析复杂数据集所需的工具。

建议掌握的知识

(1)大数据工具的开源生态系统如何应对传统 RDBMS 未能解决的挑战

(2)使用 Apache Hive 和 Apache Impala 提供对数据的 SQL 访问

(3)Hive 和 Impala 语法和数据格式,包括函数和子查询

(4)创建、修改和删除表、视图和数据库;加载数据;并存储查询结果

(5)创建和使用分区和不同的文件格式

(6)根据需要使用 JOIN 或 UNION 组合两个或多个数据集

(7)什么是分析和窗口函数,以及如何使用它们

(8)存储和查询复杂或嵌套的数据结构

(9)处理和分析半结构化和非结构化数据

(10)优化 Hive 和 Impala 查询的技术

(11)使用参数、自定义文件格式和 SerDes 以及外部脚本扩展 Hive 和 Impala 的功能

(12)如何确定 Hive、Impala、RDBMS 或其综合应用是否最适合给定任务试

面向对象

该培训课程是专为数据分析师、商业智能专家、开发人员、系统架构师和数据库管理员而设计的。培训学员需具备一定的 SQL 知识水平,并且熟悉基本的 Linux 命令行。

考试科目

考试代码

认证考试

CCA159

CCA Data Analyst

数据分析师认证

考试内容

准备数据

使用提取、转换、加载(ETL)过程为查询准备数据。

使用 Sqoop 将数据从 MySQL 数据库导入 HDFS 中

使用 Sqoop 从 HDFS 导出数据到 MySQL 数据库中

在元存储的表之间移动数据

在分析之前对传入数据的值、列或文件格式进行转换

 

为数据提供结构

利用数据定义语言(DDL)语句在元存储中创建或更改数据结构以供 Hive 和 Impala 使用。

使用各种数据类型、分隔符和文件格式创建表

使用现有表创建新表以定义模式

通过在元存储中创建分区表来提高查询性能

更改表以修改现有模式

创建视图以简化查询

 

数据分析

在 Hive 和 Impala 中使用查询语言(QL)语句来分析集群上的数据。

使用 SELECT 命令(包括联合查询和子查询)准备报告

在查询期间计算汇总统计信息,例如总和和平均值

使用 join 命令为多个数据源创建查询

使用内置函数转换查询的输出格式

使用窗口函数跨行执行查询

 

 

 

考题格式

考题数量: Cloudera Enterprise 集群上的 8–12 个基于性能表现的(实际操作)任务。请参阅下面的完整集群配置信息。

考试时长: 120分钟

合格分数: 70%

语言: 英语

考试费用: 295美元

 

考生将需要解决 8 到 12 个客户问题,都配有一个独特的大数据集、一个 CDH 集群,考试时长为 120 分钟。对于每一个问题,考生必须实施一个满足所有要求的高度精准的技术解决方案。考生可以在集群上使用任何工具或工具组合(请参阅以下列表) - 考生可以选择适合该工作的工具。考生必须拥有足够的知识来分析问题,并在给定时间的限制条件下提出最佳解决方法。考生需要首先知道应该做什么,然后在现场集群上进行,在限定时间内,并由监考人员监督。

 

认证有效期

CCA 认证的有效期为两年。CCP 认证的有效期为三年。


首页
新闻
业务入口
联系