> Toutes nos certifications > Data Engineering on Google Cloud Platform

Formation : Data Engineering on Google Cloud Platform

Cours officiel, préparation aux examens de certification Google Cloud

Data Engineering on Google Cloud Platform

Cours officiel, préparation aux examens de certification Google Cloud
Télécharger le programme Partager cette formation

Télécharger le programme Partager cette formation

Avec cette formation, vous apprendrez à concevoir et créer des systèmes de traitement des données sur Google Cloud Platform. Grâce à de nombreux travaux pratiques, vous apprendrez à concevoir des systèmes de traitement des données, à construire des pipelines de données de bout en bout, à analyser les données et à effectuer un apprentissage automatique. Cette formation couvre les données structurées, non structurées et en streaming.


Inter
Intra
Sur mesure

Cours pratique en présentiel ou en classe à distance

Réf. DGC
Prix : 3810 € H.T.
  4j - 28h00
Pauses-café et
déjeuners offerts




Avec cette formation, vous apprendrez à concevoir et créer des systèmes de traitement des données sur Google Cloud Platform. Grâce à de nombreux travaux pratiques, vous apprendrez à concevoir des systèmes de traitement des données, à construire des pipelines de données de bout en bout, à analyser les données et à effectuer un apprentissage automatique. Cette formation couvre les données structurées, non structurées et en streaming.

Objectifs pédagogiques
À l’issue de la formation, le participant sera en mesure de :
  • Concevoir et développer des systèmes de traitement des données sur Google Cloud
  • Traiter des données par lot ou par flux en mettant en œuvre des pipelines de données d'autoscaling sur Dataflow
  • Obtenir des insights métier à partir d'ensembles de données extrêmement volumineux à l'aide de BigQuery
  • Exploiter des données non structurées à l'aide de Spark et des interfaces de programmation de ML sur Dataproc
  • Obtenir des insights immédiats à partir de flux de données
  • Découvrir les API de machine learning (ML) et BigQuery ML, et apprendre à utiliser Cloud AutoML

Public concerné
Développeurs expérimentés responsables de la gestion des transformations des méga données notamment l’extraction, le chargement, la transformation, le nettoyage et la validation des données.

Prérequis
Avoir suivi "Google Cloud Fundamentals : big data et machine learning" ou connaissances équivalentes et des compétences en langage de requête, en modélisation de données, en Python et en statistiques.
Vous recevrez par mail des informations permettant de valider vos prérequis avant la formation.

Programme de la formation

Introduction à l'ingénierie des données

  • Explorer le rôle d'un data engineer.
  • Analyser les défis de l'ingénierie des données.
  • Introduction à BigQuery.
  • Les data lakes et les data warehouses.
  • Démonstration "Federated Queries avec BigQuery".
  • Bases de données transactionnelles versus data warehouses.
  • Démonstration "Recherche de données personnelles dans votre jeu de données avec l'API DLP".
  • Travailler efficacement avec d’autres équipes de données.
  • Gérer l’accès aux données et gouvernance.
  • Construire des pipelines prêts pour la production.
  • Étude de cas d'un client Google Cloud Platform (GCP).
Travaux pratiques
Analyse de données avec BigQuery.

Construire un data lake

  • Introduction aux data lakes.
  • Stockage de données et options ETL sur GCP.
  • Construction d’un data lake à l’aide de Cloud Storage.
  • Démonstration : optimisation des coûts avec les classes et les fonctions cloud de Google Cloud Storage.
  • Sécurisation de Cloud Storage.
  • Stocker tous les types de données.
  • Démonstration : exécution de requêtes fédérées sur des fichiers Parquet et ORC dans BigQuery.
  • Cloud SQL en tant que data lake relationnel.
Travaux pratiques
Charger la BDD Taxis dans le Cloud SQL.

Construire un data warehouse

  • Le data warehouse moderne.
  • Introduction à BigQuery.
  • Démonstration : requêtes de Terabits de données en quelques secondes.
  • Chargement de données.
  • Démonstration : interroger Cloud SQL à partir de BigQuery.
  • Explorer les schémas.
  • Exploration des jeux de données publics BigQuery avec SQL à l’aide de INFORMATION_SCHEMA.
  • Conception de schémas.
  • Champs imbriqués et répétés.
  • Champs imbriqués et répétés dans BigQuery.
  • Optimiser le partitionnement et le clustering.
  • Démonstration : tables partitionnées et groupées dans BigQuery.
  • Transformation de données par lots et en continu.
Travaux pratiques
Charger des données avec la console et la CLI. Travailler avec les tableaux et les structures.

Introduction à la construction de pipelines de données par lots

  • Les approches d'intégration EL, ELT et ETL (Extraction, chargement et transformation de données).
  • Les considérations de qualité.
  • Comment effectuer des opérations dans BigQuery.
  • Démonstration : ELT pour améliorer la qualité des données dans BigQuery.
  • Les lacunes.
  • ETL pour résoudre les problèmes de qualité.

Exécution de Spark sur Cloud Dataproc

  • L'écosystème Hadoop.
  • Exécution de Hadoop sur Cloud Dataproc GCS au lieu de HDFS.
  • Optimiser Dataproc.
Travaux pratiques
Exécuter des jobs Apache Spark sur Cloud Dataproc.

Traitement de données sans serveur avec Cloud Dataflow

  • Cloud Dataflow.
  • Pourquoi les clients apprécient-ils Dataflow ?
  • Pipelines de flux de données.
  • Templates Dataflow.
  • Dataflow SQL.
Travaux pratiques
Pipeline de flux de données simple (Python/Java). MapReduce dans un flux de données (Python/Java). Entrées latérales (Python/Java).

Gestion des pipelines de données avec Cloud Data Fusion et Cloud Composer

  • Création visuelle de pipelines de données par lots avec Cloud Data Fusion.
  • Orchestrer le travail entre les services GCP avec Cloud Composer - Apache Airflow Environnement - DAG et opérateurs.
  • Démonstration : chargement de données déclenché par un événement avec Cloud Composer, Cloud Functions, Cloud Storage...
  • Surveillance et journalisation.
Travaux pratiques
Construire et exécuter un graphe de pipeline dans Cloud Data Fusion (composants, présentation de l'interface utilisateur, construire un pipeline, exploration de données en utilisant Wrangler). Utilisation de Cloud Composer.

Introduction au traitement de données en streaming

  • Traitement des données en streaming.

Serverless messaging avec Cloud Pub/Sub

  • Présentation de Cloud Pub/Sub.
Travaux pratiques
Publier des données en continu dans Pub/Sub.

Fonctionnalités streaming du Cloud Dataflow

  • Fonctionnalités streaming de Cloud Dataflow.
Travaux pratiques
Pipelines de données en continu.

Fonctionnalités streaming à haut débit BigQuery et Bigtable

  • Fonctionnalités streaming BigQuery.
  • Cloud Bigtable.
Travaux pratiques
Analyse en continu et tableaux de bord. Pipelines de données en continu vers Bigtable.

Fonctionnalités avancées de BigQuery et performance

  • Fonctionnalités "Analytic Window".
  • Utilisation des clauses With.
  • Fonctions SIG.
  • Démonstration : cartographie des codes postaux à la croissance la plus rapide avec BigQuery GeoViz.
  • Considérations de performance.
Travaux pratiques
Optimiser vos requêtes BigQuery pour la performance. Créer des tables partitionnées par date dans BigQuery (optionnel).

Introduction à l'analytique et à l'intelligence artificielle

  • Qu'est-ce que l'intelligence artificielle (IA) ?
  • De l’analyse de données ad hoc aux décisions basées sur les données.
  • Options pour modèles de machine learning (ML) sur Google Cloud Platform.

API de modèles de ML prédéfinies pour les données non structurées

  • Les données non structurées sont difficiles à utiliser.
  • API ML pour enrichir les données.
Travaux pratiques
Utiliser l’interface de programmation des applications (API) en langage naturel pour classer le texte non structuré.

Big Data Analytics avec les notebooks Cloud AI Platform

  • Qu'est-ce qu'un notebook ?
  • BigQuery Magic et liens avec Pandas.
Travaux pratiques
BigQuery dans Jupyter Labs sur IA Platform.

Pipelines de production de machine learning avec Kubeflow

  • Façons de faire du machine learning (ML) sur Google Cloud Platform.
  • Kubeflow AI Hub.
  • Artificial Intelligence (AI) Hub.
Travaux pratiques
Utiliser des modèles d'IA sur Kubeflow.

Création de modèles personnalisés avec SQL dans BigQuery ML

  • BigQuery ML pour la construction de modèles rapides.
  • Démonstration : entraîner un modèle avec BigQuery ML pour prédire les tarifs de taxis à New York.
  • Modèles pris en charge.

Création de modèles personnalisés avec Cloud AutoML

  • Pourquoi AutoML ?
  • Auto ML Vision.
  • Auto ML Natural Language Processing (NLP).
  • Auto ML Tables.


Certification
Nous vous recommandons de suivre cette formation si vous souhaitez préparer la certification "Google Cloud Professional Data Engineer".
Comment passer votre examen ?

Méthodes et moyens pédagogiques
Méthodes pédagogiques;
Animation de la formation en français. Support de cours officiel en anglais.

Modalités d'évaluation
Le formateur évalue la progression pédagogique du participant tout au long de la formation au moyen de QCM, mises en situation, travaux pratiques…
Le participant complète également un test de positionnement en amont et en aval pour valider les compétences acquises.

Solutions de financement
Pour trouver la meilleure solution de financement adaptée à votre situation : contactez votre conseiller formation.
Il vous aidera à choisir parmi les solutions suivantes :
  • Le plan de développement des compétences de votre entreprise : rapprochez-vous de votre service RH.
  • Le dispositif FNE-Formation
  • L’OPCO (opérateurs de compétences) de votre entreprise.
  • France Travail sous réserve de l’acceptation de votre dossier par votre conseiller France Travail.
  • Le plan de développement des compétences de votre entreprise : rapprochez-vous de votre service RH.
  • Le dispositif FNE-Formation
  • L’OPCO (opérateurs de compétences) de votre entreprise.
  • France Travail sous réserve de l’acceptation de votre dossier par votre conseiller France Travail.

Horaires
En présentiel, les cours ont lieu de 9h à 12h30 et de 14h à 17h30.
Les participants sont accueillis à partir de 8h45. Les pauses et déjeuners sont offerts.
En classe à distance, la formation démarre à partir de 9h.
Pour les stages pratiques de 4 ou 5 jours, quelle que soit la modalité, les sessions se terminent à 16h le dernier jour.

Dates et lieux
Sélectionnez votre lieu ou optez pour la classe à distance puis choisissez votre date.
Classe à distance