Introduction à l'ingénierie des données
- Explorer le rôle d'un data engineer.
- Analyser les défis de l'ingénierie des données.
- Introduction à BigQuery.
- Les data lakes et les data warehouses.
- Démonstration "Federated Queries avec BigQuery".
- Bases de données transactionnelles versus data warehouses.
- Démonstration "Recherche de données personnelles dans votre jeu de données avec l'API DLP".
- Travailler efficacement avec d’autres équipes de données.
- Gérer l’accès aux données et gouvernance.
- Construire des pipelines prêts pour la production.
- Étude de cas d'un client Google Cloud Platform (GCP).
Travaux pratiques
Analyse de données avec BigQuery.
Construire un data lake
- Introduction aux data lakes.
- Stockage de données et options ETL sur GCP.
- Construction d’un data lake à l’aide de Cloud Storage.
- Démonstration : optimisation des coûts avec les classes et les fonctions cloud de Google Cloud Storage.
- Sécurisation de Cloud Storage.
- Stocker tous les types de données.
- Démonstration : exécution de requêtes fédérées sur des fichiers Parquet et ORC dans BigQuery.
- Cloud SQL en tant que data lake relationnel.
Travaux pratiques
Charger la BDD Taxis dans le Cloud SQL.
Construire un data warehouse
- Le data warehouse moderne.
- Introduction à BigQuery.
- Démonstration : requêtes de Terabits de données en quelques secondes.
- Chargement de données.
- Démonstration : interroger Cloud SQL à partir de BigQuery.
- Explorer les schémas.
- Exploration des jeux de données publics BigQuery avec SQL à l’aide de INFORMATION_SCHEMA.
- Conception de schémas.
- Champs imbriqués et répétés.
- Champs imbriqués et répétés dans BigQuery.
- Optimiser le partitionnement et le clustering.
- Démonstration : tables partitionnées et groupées dans BigQuery.
- Transformation de données par lots et en continu.
Travaux pratiques
Charger des données avec la console et la CLI. Travailler avec les tableaux et les structures.
Introduction à la construction de pipelines de données par lots
- Les approches d'intégration EL, ELT et ETL (Extraction, chargement et transformation de données).
- Les considérations de qualité.
- Comment effectuer des opérations dans BigQuery.
- Démonstration : ELT pour améliorer la qualité des données dans BigQuery.
- Les lacunes.
- ETL pour résoudre les problèmes de qualité.
Exécution de Spark sur Cloud Dataproc
- L'écosystème Hadoop.
- Exécution de Hadoop sur Cloud Dataproc GCS au lieu de HDFS.
- Optimiser Dataproc.
Travaux pratiques
Exécuter des jobs Apache Spark sur Cloud Dataproc.
Traitement de données sans serveur avec Cloud Dataflow
- Cloud Dataflow.
- Pourquoi les clients apprécient-ils Dataflow ?
- Pipelines de flux de données.
- Templates Dataflow.
- Dataflow SQL.
Travaux pratiques
Pipeline de flux de données simple (Python/Java). MapReduce dans un flux de données (Python/Java). Entrées latérales (Python/Java).
Gestion des pipelines de données avec Cloud Data Fusion et Cloud Composer
- Création visuelle de pipelines de données par lots avec Cloud Data Fusion.
- Orchestrer le travail entre les services GCP avec Cloud Composer - Apache Airflow Environnement - DAG et opérateurs.
- Démonstration : chargement de données déclenché par un événement avec Cloud Composer, Cloud Functions, Cloud Storage...
- Surveillance et journalisation.
Travaux pratiques
Construire et exécuter un graphe de pipeline dans Cloud Data Fusion (composants, présentation de l'interface utilisateur, construire un pipeline, exploration de données en utilisant Wrangler). Utilisation de Cloud Composer.
Introduction au traitement de données en streaming
- Traitement des données en streaming.
Serverless messaging avec Cloud Pub/Sub
- Présentation de Cloud Pub/Sub.
Travaux pratiques
Publier des données en continu dans Pub/Sub.
Fonctionnalités streaming du Cloud Dataflow
- Fonctionnalités streaming de Cloud Dataflow.
Travaux pratiques
Pipelines de données en continu.
Fonctionnalités streaming à haut débit BigQuery et Bigtable
- Fonctionnalités streaming BigQuery.
- Cloud Bigtable.
Travaux pratiques
Analyse en continu et tableaux de bord. Pipelines de données en continu vers Bigtable.
Fonctionnalités avancées de BigQuery et performance
- Fonctionnalités "Analytic Window".
- Utilisation des clauses With.
- Fonctions SIG.
- Démonstration : cartographie des codes postaux à la croissance la plus rapide avec BigQuery GeoViz.
- Considérations de performance.
Travaux pratiques
Optimiser vos requêtes BigQuery pour la performance. Créer des tables partitionnées par date dans BigQuery (optionnel).
Introduction à l'analytique et à l'intelligence artificielle
- Qu'est-ce que l'intelligence artificielle (IA) ?
- De l’analyse de données ad hoc aux décisions basées sur les données.
- Options pour modèles de machine learning (ML) sur Google Cloud Platform.
API de modèles de ML prédéfinies pour les données non structurées
- Les données non structurées sont difficiles à utiliser.
- API ML pour enrichir les données.
Travaux pratiques
Utiliser l’interface de programmation des applications (API) en langage naturel pour classer le texte non structuré.
Big Data Analytics avec les notebooks Cloud AI Platform
- Qu'est-ce qu'un notebook ?
- BigQuery Magic et liens avec Pandas.
Travaux pratiques
BigQuery dans Jupyter Labs sur IA Platform.
Pipelines de production de machine learning avec Kubeflow
- Façons de faire du machine learning (ML) sur Google Cloud Platform.
- Kubeflow AI Hub.
- Artificial Intelligence (AI) Hub.
Travaux pratiques
Utiliser des modèles d'IA sur Kubeflow.
Création de modèles personnalisés avec SQL dans BigQuery ML
- BigQuery ML pour la construction de modèles rapides.
- Démonstration : entraîner un modèle avec BigQuery ML pour prédire les tarifs de taxis à New York.
- Modèles pris en charge.
Création de modèles personnalisés avec Cloud AutoML
- Pourquoi AutoML ?
- Auto ML Vision.
- Auto ML Natural Language Processing (NLP).
- Auto ML Tables.