> Toutes nos certifications > Hadoop Cloudera développeur, préparation à la certification (CCA175)

Formation : Hadoop Cloudera développeur, préparation à la certification (CCA175)

Hadoop Cloudera développeur, préparation à la certification (CCA175)

Télécharger au format pdf Partager cette formation par e-mail 2

Télécharger au format pdf Partager cette formation par e-mail 2

Cette formation vous apprendra les concepts clés et l’expertise nécessaire pour intégrer et enregistrer les données dans un cluster Hadoop avec les techniques et les outils plus récents. Elle prépare à la certification « CCA Spark and Hadoop developer ».


Intra
Sur mesure

Formation dans vos locaux, chez nous ou à distance

Réf. HDZ
  4j - 28h
Vous souhaitez transposer cette formation, sans modification, pour votre entreprise ?




Cette formation vous apprendra les concepts clés et l’expertise nécessaire pour intégrer et enregistrer les données dans un cluster Hadoop avec les techniques et les outils plus récents. Elle prépare à la certification « CCA Spark and Hadoop developer ».

Objectifs pédagogiques
À l’issue de la formation, le participant sera en mesure de :
  • Découvrir l'écosystème Hadoop
  • Comprendre le système de fichiers distribué HDFS et maitriser le traitement MapReduce et l'écriture de code
  • Connaître les bonnes pratiques de développement et d'implémentation des algorithmes courants
  • Optimiser les configurations et améliorer les performances
  • Utiliser Hive, Pig, Flume, Mahout et Sqoop pour les projets de l'écosystème Hadoop
  • Préparer la certification Cloudera

Public concerné
Chefs de projets, développeurs, data scientists, et toute personne souhaitant comprendre les techniques de développement avec MapReduce dans l'environnement Hadoop.

Prérequis
Connaissances de base dans un langage de programmation objet.
Vous recevrez par mail des informations permettant de valider vos prérequis avant la formation.

Programme de la formation

Hadoop, HDFS et traitement distribué sur un cluster Hadoop

  • Introduction générale à Hadoop et à son écosystème.
  • Traitement de données.
  • HDFS : le système de fichiers Hadoop.
  • Les composants d’un cluster hadoop.
  • L’architecture d’HDFS. Utiliser HDFS.
  • L’architecture de YARN et travailler avec YARN.

Les bases de Spark

  • Introduction à Spark.
  • Démarrer et utiliser la console Spark.
  • Introduction aux Datasets et DataFrames Spark.
  • Les opérations sur les DataFrames.

Manipulation des dataframes, des schémas, analyse des données avec requête

  • Créer des DataFrames depuis diverses sources de données.
  • Sauvegarder des DataFrames. Les schémas des DataFrames.
  • Exécution gloutonne et paresseuse de Spark.
  • Requêter des DataFrames avec des expressions sur les colonnes nommées.
  • Les requêtes de groupement et d’agrégation.
  • Les jointures.

Les RDD et requêtage de tables et de vues avec Spark SQL

  • Structure fondamentale de Spark.
  • Transformer les données avec des RDD.
  • Agrégation des données avec les RDD de paires.
  • Requêter des tables en Spark en utilisant SQL.
  • Requêter des fichiers et des vues.
  • L’API catalogue de Spark.

Travailler avec Spark

  • Travailler avec les Datasets Spark en Scala. Les différences entre Datasets et DataFrames.
  • Créer, charger et sauvegarder des Datasets. Les opérations sur les Datasets.
  • Écrire, configurer et lancer des applications Spark.
  • Écrire une application Spark. Compiler et lancer une application. Le mode de déploiement d’une application.
  • L’interface utilisateur web des applications Spark. Configurer les propriétés d’une application.
  • Le traitement distribué avec Spark. Rappels sur les fonctionnements de Spark avec YARN.
  • Le partitionnement des données dans les RDD, dans les requêtes, jobs, étapes et tâches.

Persistance de la donnée distribuée

  • La persistance des DataFrames et des Datasets.
  • Les niveaux de persistances.
  • Les RDD persistés

Les algorithmes itératifs avec Spark et introduction à Spark streaming

  • D’autres cas d’usages courants de Spark.
  • Les algorithmes itératifs en Spark. Machine learning avec Spark.
  • Introduction à Spark streaming. Créer des streaming DataFrames.
  • Transformer des DataFrames. Exécuter des requêtes de streaming.

Structured streaming avec Kafka et opérations sur des streaming Dataframes

  • Introduction. Recevoir et envoyer des messages Kafka.
  • Agrégation et jointure sur des streaming DataFrames.


Certification
À la suite de la formation, il sera possible de passer l’examen « Cloudera Certified Associate Spark and Hadoop Developer (CCA175) ». Cet examen se déroule en dehors du temps de la formation. L'objectif est de devenir expert certifié Cloudera dans son entreprise. Inscriptions sur www.examslocal.com.

Modalités pratiques
Méthodes pédagogiques;
Cette formation big data comprend 50% de travaux pratiques sur les 4 jours de formation.

Modalités d'évaluation
Le formateur évalue la progression pédagogique du participant tout au long de la formation au moyen de QCM, mises en situation, travaux pratiques…
Le participant complète également un test de positionnement en amont et en aval pour valider les compétences acquises.

Solutions de financement
Pour trouver la meilleure solution de financement adaptée à votre situation : contactez votre conseiller formation.
Il vous aidera à choisir parmi les solutions suivantes :
  • Le plan de développement des compétences de votre entreprise : rapprochez-vous de votre service RH.
  • Le dispositif FNE-Formation
  • L’OPCO (opérateurs de compétences) de votre entreprise.
  • France Travail sous réserve de l’acceptation de votre dossier par votre conseiller France Travail.
  • Le plan de développement des compétences de votre entreprise : rapprochez-vous de votre service RH.
  • Le dispositif FNE-Formation
  • L’OPCO (opérateurs de compétences) de votre entreprise.
  • France Travail sous réserve de l’acceptation de votre dossier par votre conseiller France Travail.

Horaires
En présentiel, les cours ont lieu de 9h à 12h30 et de 14h à 17h30.
Les participants sont accueillis à partir de 8h45. Les pauses et déjeuners sont offerts.
En classe à distance, la formation démarre à partir de 9h.
Pour les stages pratiques de 4 ou 5 jours, quelle que soit la modalité, les sessions se terminent à 16h le dernier jour.