Formations IT : Cloud, Big Data, Machine Learning Phirio

Création d'un lac de données

Quels types de données seront stockés ? Documents à structure statique, documents à structure variable, relations, modèles structurés ?

Quelle utilisation sera faite des données ? Lac de données statique, mise à jour permanente, stockage intermédiaire ?

Quels types de traitements seront réalisés ? Requêtes simples, analyses statistiques ?

Dans quel environnement va s'intégrer le système ? Autonome, en lien avec des serveurs JEE, PHP, dans un cloud OpenStack ?

Quels types de performances sont attendues ? Temps réel, calculs à long terme, flux continus ?

De manière générale, une base NoSQL n'a pas vocation à remplacer une base SQL existante et stable. Il est important de considérer les technologies utilisées par chaque outil et la capacité à intégrer un nouvel élément dans un environnement existant.

Critères

On peut ensuite identifier quatre critères qui permettront d'affiner le choix fonctionnel :

La performance
L'évolutivité
La flexibilité
La complexité

Outils

Les outils existants sont nombreux :

Stockage
- Séries temporelles (time-series) : InfluxDB, OpenTSDB, Kafka
- Fichiers : HDFS, Ceph
- Clés/valeurs : Cassandra, Accumulo, HBase
Calculs
- YARN
- Spark
- Dask
- Storm

Le projet Hadoop regroupe un ensemble d'outils permettant d'exploiter des volumes importants de données : système de stockage, outils d'extraction, de conversion (ETL), d'analyse, systèmes d'organisation des tâches, interfaces de pilotage, etc. HDFS pour le stockage, YARN pour la répartition des tâches, Pig pour simplifier l'écriture de tâches MapReduce, ...

Les différents ateliers permettent de comprendre l'écosystème Hadoop, de savoir installer et configurer les outils, de développer avec MapReduce dans l'environnement Hadoop.