> Toutes nos certifications > Spark Python, développer des applications pour le big data
Formation incontournable

Formation : Spark Python, développer des applications pour le big data

Spark Python, développer des applications pour le big data

Télécharger le programme Partager cette formation


Spark est un framework de calcul distribué permettant de manipuler des données volumineuses. Conçu au départ pour accélérer les traitements d'Hadoop, il est devenu un système autonome. Il peut se programmer avec quatre langages, dont Python, devenu prédominant. Ce cours vous fait découvrir Spark Python.


Inter
Intra
Sur mesure

Cours pratique en présentiel ou en classe à distance

Réf. QNC
Prix : 1870 € H.T.
  3j - 21h00
Pauses-café et
déjeuners offerts




Spark est un framework de calcul distribué permettant de manipuler des données volumineuses. Conçu au départ pour accélérer les traitements d'Hadoop, il est devenu un système autonome. Il peut se programmer avec quatre langages, dont Python, devenu prédominant. Ce cours vous fait découvrir Spark Python.

Objectifs pédagogiques
À l’issue de la formation, le participant sera en mesure de :
  • Découvrir les concepts fondamentaux de Spark
  • Utiliser le concept des RDD de Spark
  • Exploiter des données avec Spark SQL
  • Effectuer de l’analyse en temps réel avec Spark Streaming
  • Utiliser Spark avec les notebooks Jupyter, manipuler les données avec Pyspark comme avec Pandas
  • Aborder le machine learning avec Spark

Public concerné
Toute personne connaissant Python souhaitant découvrir le framework Spark de la fondation Apache.

Prérequis
Bonne pratique du langage Python.
Vous recevrez par mail des informations permettant de valider vos prérequis avant la formation.

Programme de la formation

Présentation d’Apache Spark

  • Historique du framework.
  • Les quatre principaux composants : Spark SQL, Spark Streaming, MLlib et GraphX.
  • Les outils et les librairies Python pour Spark : PySpark, notebooks Jupyter, Koalas.
  • Les concepts de programmation de Spark.
  • Exécuter Spark dans un environnement distribué.
Travaux pratiques
Mise en place de l’environnement Python pour Spark. Mise en œuvre de scripts manipulant des concepts de Spark.

Utiliser Spark avec Python : les resilient distributed datasets (RDD)

  • Configurer son environnement Python.
  • Se connecter à Spark avec Python : les contextes et les sessions.
  • Présentation des RDD. Créer, manipuler et réutiliser des RDD.
  • Les principales fonctions/transformations, mise en œuvre d’algorithmes de type map/reduce.
  • Accumulateurs et variables broadcastées.
  • Utiliser des partitions.
  • Utiliser les notebooks et soumettre des jobs Python.
Travaux pratiques
Manipulation de contextes et de sessions. Création et réutilisation de RDD. Soumission de travaux.

Manipuler des données structurées

  • Présentation de Spark SQL et des DataFrames et datasets.
  • Les différents types/formats de sources de données.
  • Interopérabilité avec les RDD.
  • Utiliser la librairie PySpark Pandas.
Travaux pratiques tutorés
Exécution de requêtes avec Spark SQL. Mise en œuvre de DataFrames et datasets. Manipulation de DataFrame.

Machine learning avec Spark

  • Introduction au machine learning.
  • Les différentes classes d'algorithmes.
  • Présentation de MLlib.
  • Implémentation des différents algorithmes dans MLlib.
Travaux pratiques
Mise en œuvre d’apprentissages supervisés au travers d’une classification.

Analyser en temps réel avec Spark Streaming

  • Comprendre l’architecture du streaming.
  • Présentation des Discretized Streams (DStreams).
  • Les différents types de sources.
  • Manipulation de l'API (agrégations, watermarking...).
  • Machine learning en temps réel.
Travaux pratiques
Création de statistiques en temps réel à partir d’une source de données et prédictions à l’aide du machine learning.

Théorie des graphes

  • Introduction à la théorie des graphes (nœuds, arêtes, graphes orientés, chemins, principaux algorithmes).
  • Utilisation de l’API.
  • Présentation des librairies GraphX et GraphFrame.
Travaux pratiques
Mise en œuvre d’un algorithme de recherche du plus court chemin ou page rank et visualisation du graphe.


Modalités pratiques
Exercice
De nombreux exercices sont réalisés pour illustrer les sujets.
Méthodes pédagogiques;
Chaque sujet est illustré par des démonstrations se déroulant sur un cluster dans le cloud. Les participants réalisent des exercices après la présentation des concepts.

Modalités d'évaluation
Le formateur évalue la progression pédagogique du participant tout au long de la formation au moyen de QCM, mises en situation, travaux pratiques…
Le participant complète également un test de positionnement en amont et en aval pour valider les compétences acquises.

Parcours certifiants associés
Pour aller plus loin et renforcer votre employabilité, découvrez les parcours certifiants qui contiennent cette formation :

Solutions de financement
Pour trouver la meilleure solution de financement adaptée à votre situation : contactez votre conseiller formation.
Il vous aidera à choisir parmi les solutions suivantes :
  • Le plan de développement des compétences de votre entreprise : rapprochez-vous de votre service RH.
  • Le dispositif FNE-Formation
  • L’OPCO (opérateurs de compétences) de votre entreprise.
  • France Travail sous réserve de l’acceptation de votre dossier par votre conseiller France Travail.
  • Le plan de développement des compétences de votre entreprise : rapprochez-vous de votre service RH.
  • Le dispositif FNE-Formation
  • L’OPCO (opérateurs de compétences) de votre entreprise.
  • France Travail sous réserve de l’acceptation de votre dossier par votre conseiller France Travail.

Avis clients
4,4 / 5
Les avis clients sont issus des évaluations de fin de formation. La note est calculée à partir de l’ensemble des évaluations datant de moins de 12 mois. Seules celles avec un commentaire textuel sont affichées.
AYMERIC D.
02/10/24
4 / 5

Partie pratique intéressante, partie théorique un peu trop détaillée si vu en pratiqueCertains sujets (spark stream + spark ML) vu trop rapidement
MATHILDE M.
02/10/24
4 / 5

La formation a permis de découvrir les concepts fondamentaux de Spark mais j’aurais aimé plus d’exercices pour mettre en pratique, avec une difficulté évolutive. Il faudrait un TP sur le machine learning plus accessible pour pouvoir le faire en autonomie. La formatrice était à l’écoute de nos questions.
THIBAULT L.
03/07/24
4 / 5

Contenu très intéressant bien qu’il s’éloigne de la manipulation que je pourrai avoir de Spark au travail.




Horaires
En présentiel, les cours ont lieu de 9h à 12h30 et de 14h à 17h30.
Les participants sont accueillis à partir de 8h45. Les pauses et déjeuners sont offerts.
En classe à distance, la formation démarre à partir de 9h.
Pour les stages pratiques de 4 ou 5 jours, quelle que soit la modalité, les sessions se terminent à 16h le dernier jour.

Dates et lieux
Sélectionnez votre lieu ou optez pour la classe à distance puis choisissez votre date.
Classe à distance