Tarih: 22 Mayıs 2017 - 25 Mayıs 2017

Süre: 4 Gün

Yer: Istanbul / Türkiye

Cloudera Hadoop Developer Eğitimi ile Apache Hadoop'a veri yükleme ve Hadoop ekosistemi bileşenleri ile veri işleme yeteneklerini kazanın

Cloudera'nın dört günlük uygulamalı Developer eğitimi Hadoop kümesine veri aktarımı ve veri işleme ile ilgili konuları işleyecektir. Bu eğitim Hadoop ekosistemi projelerinden Spark, Hive, Flume, Sqoop ve Impala ile gerçek dünya sorunlarıyla karşılaşan Hadoop geliştiricileri için en iyi hazırlıktır.

Uygulamalı Hadoop

Eğitmen eşliğinde gerçekleştirilecek alıştırmalar ile katılımcılar Apache Spark ve Hadoop'u keşfedecek, tüm Hadoop ekosistemindeki yerini ve entegrasyonunu öğreneceklerdir:

  • Hadoop kümesinde verinin dağıtımı, saklanması ve işlenmesi
  • Apache Spark uygulamalarının yazılması ve konfigürasyonu
  • Spark shell ile etkileşimli veri analizi
  • Spark SQL ile yapılandırılmış verinin sorgulanması ve işlenmesi
  • Spark Streaming ile akan veriyi işleme
  • Flume ve Kafka ile Spark Streaming'e veri aktarımı

Katılımcı Profili ve Ön Koşullar

Cloudera Developer eğitimi programlama deneyimi olan yazılımcılar ve mühendisler için tasarlanmıştır. Apache Spark örnekleri Scala ve Python ile hazırlandığı için bu dillerden birine hakim olunması gereklidir. Temel Linux komut bilgi ve temel SQL bilgisi tavsiye edilir. Hadoop ön bilgisi gerekli değildir.

CCAH Spark & Hadoop Developer

Cloudera Developer eğitimini tamamlayanlar Cloudera Certified Administrator for Apache Hadoop (CCAH) sertifikasyon sınavını alarak bu alandaki yeteneklerini, teknik bilgilerini ve tecrübelerini belgelendirmiş olurlar.

Introduction

Introduction to Hadoop and the Hadoop Ecosystem

  • Problems with Traditional Large-scale Systems
  • Hadoop!
  • The Hadoop EcoSystem

Hadoop Architecture and HDFS

  • Distributed Processing on a Cluster
  • Storage: HDFS Architecture
  • Storage: Using HDFS
  • Resource Management: YARN Architecture
  • Resource Management: Working with YARN

Importing Relational Data with Apache Sqoop

  • Sqoop Overview
  • Basic Imports and Exports
  • Limiting Results
  • Improving Sqoop’s Performance
  • Sqoop 2

Introduction to Impala and Hive

  • Introduction to Impala and Hive
  • Why Use Impala and Hive?
  • Comparing Hive to Traditional Databases
  • Hive Use Cases

Modeling and Managing Data with Impala and Hive

  • Data Storage Overview
  • Creating Databases and Tables
  • Loading Data into Tables
  • HCatalog
  • Impala Metadata Caching

Data Formats

  • Selecting a File Format
  • Hadoop Tool Support for File Formats
  • Avro Schemas
  • Using Avro with Hive and Sqoop
  • Avro Schema Evolution
  • Compression

Data Partitioning

  • Partitioning Overview
  • Partitioning in Impala and Hive

Capturing Data with Apache Flume

  • What is Apache Flume?
  • Basic Flume Architecture
  • Flume Sources
  • Flume Sinks
  • Flume Channels
  • Flume Configuration

Spark Basics

  • What is Apache Spark?
  • Using the Spark Shell
  • RDDs (Resilient Distributed Datasets)
  • Functional Programming in Spark

Working with RDDs in Spark

  • A Closer Look at RDDs
  • Key-Value Pair RDDs
  • MapReduce
  • Other Pair RDD Operations

Writing and Deploying Spark Applications

  • Spark Applications vs. Spark Shell
  • Creating the SparkContext
  • Building a Spark Application (Scala and Java)
  • Running a Spark Application
  • The Spark Application Web UI
  • Configuring Spark Properties
  • Logging

Parallel Programming with Spark

  • Review: Spark on a Cluster
  • RDD Partitions
  • Partitioning of File-based RDDs
  • HDFS and Data Locality
  • Executing Parallel Operations
  • Stages and Tasks

Spark Caching and Persistence

  • RDD Lineage
  • Caching Overview
  • Distributed Persistence

Common Patterns in Spark Data Processing

  • Common Spark Use Cases
  • Iterative Algorithms in Spark
  • Graph Processing and Analysis
  • Machine Learning
  • Example: k-means

Preview: Spark SQL

  • Spark SQL and the SQL Context
  • Creating DataFrames
  • Transforming and Querying DataFrames
  • Saving DataFrames
  • Comparing Spark SQL with Impala

Conclusion