Phare Phirio  : apprendre à apprendre

Pharepuzzle Phirio

PhareDataCenter Phirio

PhareSerious Games

PrecedentSuivant
  • Formations
    • Catalogue
    • Cloud
    • Big Data
    • Applicatif
    • DataScience
    • Infrastructures
    • Accompagnement
    • Sur mesure
  • Cheat sheets & labs
    • Présentation des technologies
    • Le Laboratoire
    • Blockchain
    • Big Data
    • Liens utiles
  • Informations pratiques
    • Phirio Team
    • Prestations
    • Qualité
    • Centre de formation
    • Nos références
  • Contact
    • Plan d'accès
    • Contact post-formation
    • Recrutement
    • Demande d'informations
  1. Vous êtes ici : Accueil
  2. Formations
  3. Catalogue
  4. Applications
  5. Big data
  6. CB033

Formation : Hadoop : développement

Durée de la formation

2 jours

Code cours

CB033

Prix de la formation

1 670 € HT

Sessions programmées

4 au 5 septembre11 au 12 décembre

Public :

Développeurs, Chefs de projets, data-scientists, architectes, ...

Objectifs :

A l’issue de la formation, le stagiaire sera capable de développer des applications compatibles avec la plateforme Hadoop d'Apache pour traiter des données Big Data.

Prérequis :

Avoir la connaissance d'un langage de programmation objet comme Java et du scripting

  • Pour tester vos connaissances actuelles sur le sujet : Validation des pré-requis
  • Pour nous préciser vos attentes : Validation des attentes

Objectifs pédagogiques:

  • Comprendre l’écosystème Hadoop Cloudera/Hortonworks
  • Présenter les principes du Framework Hadoop
  • Mettre en oeuvre des tâches Hadoop pour extraire des éléments pertinents d'ensembles de données volumineux et variés
  • Développer des algorithmes parallèles efficaces avec MapReduce
  • Charger des données non structurées des systèmes HDFS et HBase

Programme détaillé de la formation

Comprendre l’écosystème Hadoop

Les fonctionnalités du framework Hadoop. Les différentes versions.
Distributions : Apache, Cloudera, Hortonworks, EMR, MapR, DSE.
Spécificités de chaque distribution.
Architecture et principe de fonctionnement. Zoom sur la distribution Cloudera/Hortonworks
Terminologie : NameNode, DataNode, ResourceManager, NodeManager. Rôle des différents composants. Le projet et les modules : Hadoop Common, HDFS, YARN, Spark, MapReduce, Hue, Oozie, Pig, Hive, HBase, Zeppelin, ...
Atelier : Manipulations de base sur la console Hadoop


Présenter les principes du Framework Hadoop

Le projet et les modules : Hadoop Common, HDFS, YARN, Spark, MapReduce
Utilisation de yarn pour piloter les jobs map/reduce.
Infrastructure/mise en oeuvre : Avro, Ambari, Zookeeper, Pig, Tez, Oozie. Vue d'ensemble. Gestion des données. Exemple de sqoop.
Restitution : webhdfs, hive, Hawq, Mahout, ElasticSearch, ...
Outils complémentaires de traitement : Spark, SparkQL, SparkR, Spark/ML, Storm, BigTop ; outils de développement : Cascading, Scalding, Flink; outils d'analyse : RHadoop, Hama, Chukwa, kafka
Atelier : exécution de jobs sur la ferme Hadoop


Mettre en oeuvre des tâches Hadoop pour extraire des éléments pertinents d'ensembles de données volumineux et variés

Lac de données. Construction et utilisation. Exploitation des données du lac.
Les différents outils : Yarn, MapReduce, Spark, Hive, Pig
Différentes solutions : calculs en mode batch, ou en temps réel,sur des flux de données ou des données statiques.
Principe de map/reduce et exemples d'implémentations, langages et sur-couches.
Découpage des travaux (jobs) avec stockage intermédiaire. Le format parquet.
Atelier : développement d'un extracteur de données et qualification de la donnée.


Développer des algorithmes parallèles efficaces avec MapReduce

Principe et objectifs du modèle de programmation map/reduce.
Configuration des jobs, notion de configuration.
Les interfaces principales : mapper, reducer, fonctions map() et reduce(). Couples (clés, valeurs).
Implémentation par le framework Hadoop.
Etude de la collection d'exemples.
Atelier : Réduction de la donnée extraite précedemment. Recherche et scores.


Charger des données non structurées des systèmes HDFS et HBase

Format des données : texte, json, csv, parquet, ...
Format des entrées et sorties d'un job map/reduce : InputFormat et OutputFormat.
Atelier : type personnalisés : création d'un writable spécifique. Utilisation. Contraintes.


Accès à des systèmes externes : S3, hdfs, har, hbase, ...
Outils d'interfaçage entre les différents composants
Atelier : Ecriture d'un ETL HDFS vers HBase




Déroulé pédagogique
Modalités et délais d'accès
Méthodes mobilisées et modalités d'évaluation

Phirio

+33 1 55 33 52 10
info@phirio.fr
Calendrier
Code cours : CB033

Contenu de la formation
Hadoop : développement:
  • Comprendre l’écosystème Hadoop
  • Présenter les principes du Framework Hadoop
  • Mettre en oeuvre des tâches Hadoop pour extraire des éléments pertinents d'ensembles de données volumineux et variés
  • Développer des algorithmes parallèles efficaces avec MapReduce
  • Charger des données non structurées des systèmes HDFS et HBase

Accès à la liste des cours



Vous pouvez bien entendu composer votre programme personnel à partir de nos descriptifs de cours


Version du document : R727
Date de mise à jour du document : 2024/08/27


quelques une de nos réalisations
  • Recrutement
  • Data Dock Data Dock
  • Qualiopi
    Qualiopi
    La certification qualité a été délivrée par Proneo Certification au titre de la catégorie d'action suivante : ACTIONS DE FORMATION.

INFORMATIONS LEGALES

  • Protection des données personnelles
  • Mentions légales et crédits
  • Condition générales d'utilisation (CGU)

INFORMATIONS PRODUITS

  • Calendrier
  • Présentations de technologies
2025 Phirio Paris