> Toutes nos certifications > Spark Avancé
Nouvelle formation

Formation : Spark Avancé

Machine Learning et industrialisation des flux analytiques

Spark Avancé

Machine Learning et industrialisation des flux analytiques
Télécharger au format pdf Partager cette formation par e-mail 2

Télécharger au format pdf Partager cette formation par e-mail 2

Framework de calcul distribué, Spark permet d'effectuer des traitements et des analyses complexes en big data. Vous avez déjà utilisé Spark, nous vous proposons ici d’approfondir vos analyses avec du machine learning et de découvrir le MLOps pour le déploiement et l’industrialisation des modèles analytiques.


Inter
Intra
Sur mesure

Cours pratique

Réf. SPN
Prix : 2280 € H.T.
  3j - 21h00
Pauses-café et
déjeuners offerts




Framework de calcul distribué, Spark permet d'effectuer des traitements et des analyses complexes en big data. Vous avez déjà utilisé Spark, nous vous proposons ici d’approfondir vos analyses avec du machine learning et de découvrir le MLOps pour le déploiement et l’industrialisation des modèles analytiques.

Objectifs pédagogiques
À l’issue de la formation, le participant sera en mesure de :
  • Apprendre l’analyse avancée des données avec Spark
  • Effectuer des traitements de machine learning (ML) avec Spark
  • Comprendre Docker et son utilité dans le cadre de l'industrialisation des flux analytiques
  • Détailler et mettre en œuvre les étapes du cycle analytique avec Spark
  • Apprendre l’industrialisation du flux d’analyse
  • Découvrir le MLOps

Public concerné
Professionnels qui souhaitent utiliser Spark pour faire de l’analytique en mode batch ainsi qu'en temps réel.

Prérequis
Connaissances des API Spark, notamment RDD et DataFrame. Connaissances des algorithmes d’apprentissage supervisés et non supervisés. Maîtrise d’un des langages suivants : Scala, Python.
Vous recevrez par mail des informations permettant de valider vos prérequis avant la formation.

Programme de la formation

Introduction

  • Rappels sur l'API Spark.
  • Concepts de Docker et son utilité dans les analyses de données.
  • Les conteneurs Docker.
Travaux pratiques
Prise en main de l'environnement de travail, création des conteneurs Docker.

Le cycle analytique avec Spark

  • Ingestion de données.
  • Exploration.
  • Préparation des données.
  • Apprentissage.
  • Industrialisation.
Echanges
Présentation de cas concrets et échanges autour des différentes étapes du cycle.

Ingestion des données.

  • Le chargement de données.
  • Traitements batch.
  • Traitements en streaming.
  • Les formats de données : images, binaires, structurés, Graph…
Travaux pratiques
Chargement de données à partir de diverses sources.

Exploration des données

  • Statistiques descriptives.
  • Identifier les cas aberrants, les données vides.
  • Identifier les valeurs invalides et autres anomalies.
Travaux pratiques
Identifier les anomalies dans un jeu de données.

Préparation et feature engineering (processus de transformation de données)

  • Nettoyage des données.
  • Pipelines.
  • Transformer les valeurs numériques, catégoriques, binaires et texte.
  • Création de nouvelles features.
  • Réduction de dimensions.
  • Vectorisation.
Travaux pratiques
Préparer les données pour effectuer des analyses.

Cycle de vie du ML avec MLflow

  • Cycle de vie d'un projet de machine learning.
  • Présentation de la plateforme open source MLflow.
  • Les composants principaux de MLflow : Tracking, Models et Projects.
  • Paramètres, métriques, balises et artefacts.
Travaux pratiques
Création et utilisation d’un projet de machine learning.

Machine learning

  • MLlib la bibliothèque d'apprentissage automatique de Spark et les algorithmes disponibles.
  • Diviser un jeu de données.
  • Configurer un modèle et l’exécuter.
  • Interprétation et validation de résultats d’apprentissage.
  • Introduction à Spark Streaming.
Travaux pratiques
Mise en œuvre du machine learning.

Études de cas

  • Effectuer des recommandations.
  • Faire des prévisions de vente.
  • Analyse sémantique.
  • Computer vision avec Spark et PyTorch.
  • Analyse temps réel avec Spark et Kafka.
Etude de cas
Effectuer les différentes études de cas proposées.


Modalités pratiques
Travaux pratiques
Alternance de théorie et de travaux pratiques. 60?% d'exercices pour un meilleur approfondissement. Des retours d'expérience concrets.

Modalités d'évaluation
Le formateur évalue la progression pédagogique du participant tout au long de la formation au moyen de QCM, mises en situation, travaux pratiques…
Le participant complète également un test de positionnement en amont et en aval pour valider les compétences acquises.

Solutions de financement
Pour trouver la meilleure solution de financement adaptée à votre situation : contactez votre conseiller formation.
Il vous aidera à choisir parmi les solutions suivantes :
  • Le plan de développement des compétences de votre entreprise : rapprochez-vous de votre service RH.
  • Le dispositif FNE-Formation
  • L’OPCO (opérateurs de compétences) de votre entreprise.
  • France Travail sous réserve de l’acceptation de votre dossier par votre conseiller France Travail.
  • Le plan de développement des compétences de votre entreprise : rapprochez-vous de votre service RH.
  • Le dispositif FNE-Formation
  • L’OPCO (opérateurs de compétences) de votre entreprise.
  • France Travail sous réserve de l’acceptation de votre dossier par votre conseiller France Travail.

Horaires
En présentiel, les cours ont lieu de 9h à 12h30 et de 14h à 17h30.
Les participants sont accueillis à partir de 8h45. Les pauses et déjeuners sont offerts.
Pour les stages pratiques de 4 ou 5 jours, quelle que soit la modalité, les sessions se terminent à 16h le dernier jour.

Dates et lieux
Sélectionnez votre lieu ou optez pour la classe à distance puis choisissez votre date.
Classe à distance