Tarih: 9 Mayıs 2017 - 12 Mayıs 2017

Süre: 4 Gün

Yer: Istanbul / Türkiye

Cloudera Data Analist Eğitimi ile Büyük Veri yeteneğinizi bir üst seviyeye taşıyın

Cloudera'nın dört günlük uygulamalı data analist eğitimi Apache Pig, Hive ve Cloudera Impala kullanarak geleneksel veri analitiği ve iş zekası yeteneklerini büyük veri üzerinde uygulamak için ihtiyaç duyduğunuz yetkinliği kazanmanızı sağlar. Cloudera kompleks veri setlerine SQL ve script dillerini kullanarak ulaşma, değiştirme ve analiz etme için gerekli araçları ve yöntemleri sunar.

Apache Hive çoklu yapılandırılmış verinin Java programlama deneyimi olmayan analist ve veritabanı yöneticileri tarafından ulaşılabilir olmasını sağlamaktadır. Apache Pig yaygın olarak bilinen script dillerinin temellerinin Hadoop kümesi üzerinde uygulanabilmesi için kullanılmaktadır. Cloudera Impala, Hadoop üzerinde bulunan verinin SQL ortamıyla gerçek zamanlı ve etkileşimli analizlerinin gerçekleştirilebilmesini sağlayan teknolojidir.

Uygulamalı Hadoop

Eğitmen eşliğinde uygulamalı olarak gerçekleştirilecek eğitimde katılımcılar Hadoop'u keşfedecek ve aşağıdaki konuları kavrayacaklardır:

  • Pig, Hive ve Impala'nın veri alma, saklama ve analiz etme özellikleri
  • Apache Hadoop ve ETL'in (extract, transform, load) temel özellikleri
  • Pig, Hive ve Impala ile veri analizi işlerinde verimliliği arttırma
  • Farklı veri setlerini birleştirerek değerli iş iç görülerini ortaya çıkarma
  • Veri setleri üzerinde gerçek zamanlı, kompleks sorgular uygulama ve yürütme

Katılımcı Profili ve Ön Koşullar

Cloudera Data Analist eğitimi veri analistleri, iş zekası uzmanları, kod geliştiriciler, sistem mimarları ve veritabanı yöneticileri için tasarlanmıştır. SQL bilgisinin olması ve basit Linux komutlarının bilinmesi tavsiye edilir. En az bir script dilinin (Bash scripting, Perl, Python, Ruby gibi) bilgisinin olması faydalıdır ancak zorunlu değildir. Apache Hadoop bilgisinin olması ön koşul değildir.

CCA Data Analyst Sertifikasyonu

Cloudera Data Analist eğitimini tamamlayanlar Cloudera Certified Data Analyst (CCA) sertifikasyon sınavını alarak bu alandaki yeteneklerini, teknik bilgilerini ve tecrübelerini belgelendirmiş olurlar.

Introduction

Hadoop Fundamentals

  • The Motivation for Hadoop
  • Hadoop Overview
  • Data Storage: HDFS
  • Distributed Data Processing: YARN, MapReduce, and Spark
  • Data Processing and Analysis: Pig, Hive, and Impala
  • Data Integration: Sqoop
  • Other Hadoop Data Tools
  • Exercise Scenarios Explanation

Introduction to Pig

  • What Is Pig?
  • Pig’s Features
  • Pig Use Cases
  • Interacting with Pig

Basic Data Analysis with Pig

  • Pig Latin Syntax
  • Loading Data
  • Simple Data Types
  • Field Definitions
  • Data Output
  • Viewing the Schema
  • Filtering and Sorting Data
  • Commonly-Used Functions

Processing Complex Data with Pig

  • Storage Formats
  • Complex/Nested Data Types
  • Grouping
  • Built-In Functions for Complex Data
  • Iterating Grouped Data

Multi-Dataset Operations with Pig

  • Techniques for Combining Data Sets
  • Joining Data Sets in Pig
  • Set Operations
  • Splitting Data Sets

Pig Troubleshooting and Optimization

  • Troubleshooting Pig
  • Logging
  • Using Hadoop’s Web UI
  • Data Sampling and Debugging
  • Performance Overview
  • Understanding the Execution Plan
  • Tips for Improving the Performance of Your Pig Jobs

Introduction to Hive and Impala

  • What Is Hive?
  • What Is Impala?
  • Schema and Data Storage
  • Comparing Hive to Traditional Databases
  • Hive Use Cases

Querying with Hive and Impala

  • Databases and Tables
  • Basic Hive and Impala Query Language Syntax
  • Data Types
  • Differences Between Hive and Impala Query Syntax
  • Using Hue to Execute Queries
  • Using the Impala Shell

Data Management

  • Data Storage
  • Creating Databases and Tables
  • Loading Data
  • Altering Databases and Tables
  • Simplifying Queries with Views
  • Storing Query Results

Data Storage and Performance

  • Partitioning Tables
  • Choosing a File Format
  • Managing Metadata
  • Controlling Access to Data

Relational Data Analysis with Hive and Impala

  • Joining Datasets
  • Common Built-In Functions
  • Aggregation and Windowing

Working with Impala

  • How Impala Executes Queries
  • Extending Impala with User-Defined Functions
  • Improving Impala Performance

Analyzing Text and Complex Data with Hive

  • Complex Values in Hive
  • Using Regular Expressions in Hive
  • Sentiment Analysis and N-Grams
  • Conclusion

Hive Optimization

  • Understanding Query Performance
  • Controlling Job Execution Plan
  • Bucketing
  • Indexing Data

Extending Hive

  • SerDes
  • Data Transformation with Custom Scripts
  • User-Defined Functions
  • Parameterized Queries

Choosing the Best Tool for the Job

  • Comparing MapReduce, Pig, Hive, Impala, and Relational Databases
  • Which to Choose?

Conclusion