Objectifs pédagogiques de la formation

Cette formation permet de :
  • Se former à Spark, l’utiliser en ligne de commande et en développement
  • L’interfacer avec d’autres composants Big Data comme Kafka et Cassandra
  • Comprendre les notions de base des RDD (Resilient Distributed Datasets) et le partitionnement, le pipelining et les calculs de données
  • Comprendre les implications et les optimisations de performance lors de l’utilisation de Spark.
  •  

    Programme de la formation

    Introduction au Big Data
    • Apache Spark
    • Spark version MapReduce
    • Architecture de Spark
    • Interagir avec Spark
    • Resilient Distributed Datasets (RDD)
    Poste de travail
    • Différents composants ( Kafka, Spark, Cassandra)
    • Outils de développement
    • Travaux Pratiques
    Introduction à Scala
    • Les types de données
    • La manipulation des données (Map, FlatMap,For)
    • La programmation fonctionnelle
    • L’approche immutable
    • Exercices
    Kafka, fonctionnement
    • TP Kafka
    • Spark Streaming
    • Développement Spark Streaming
    • Générer une source de données
    • Faire un traitement
    Présentation SQL
    • Concevoir un modèle de données
    • Ecrire des requêtes
    • Spark SQL
    • TP simples
    Support Cassandra
    • Description rapide de l'architecture Cassandra
    • Mise en œuvre depuis Spark.
    • Exécution de travaux Spark s'appuyant sur une grappe Cassandra.
    •  

      Profil du formateur

      Formateur consultant expert en BIG DATA

       

      Modalités d’évaluation

      Auto-évaluation des acquis par le stagiaire via un questionnaire en ligne
      Attestation de fin de stage remise au stagiaire

       

      Méthode pédagogique

      1 poste et 1 support par stagiaire
      8 à 10 stagiaires par salle
      Remise d’une documentation pédagogique papier ou numérique pendant le stage
      La formation est constituée d’apports théoriques, d’exercices pratiques, de réflexions et de retours d’expérience