Phare Phirio  : apprendre à apprendre

Pharepuzzle Phirio

PhareDataCenter Phirio

PhareSerious Games

PrecedentSuivant
  • Formations
    • Catalogue
    • Cloud
    • Big Data
    • Applicatif
    • DataScience
    • Infrastructures
    • Accompagnement
    • Sur mesure
  • Cheat sheets & labs
    • Présentation des technologies
    • Le Laboratoire
    • Blockchain
    • Big Data
    • Liens utiles
  • Informations pratiques
    • Phirio Team
    • Prestations
    • Qualité
    • Centre de formation
    • Nos références
  • Contact
    • Plan d'accès
    • Contact post-formation
    • Recrutement
    • Demande d'informations
  1. Vous êtes ici : Accueil
  2. Formations
  3. Déroulés pédagogiques
  4. Applications
  5. Big data
  6. CB042

Formation : Dask : mise en oeuvre, programmation

Durée3 jours
Code coursCB042
Dates7 au 9 juillet
3 au 5 novembre

(cliquez sur une date pour vous inscrire)

Public:

Chefs de projet, Data Scientists, Développeurs, Architectes...

Objectifs:

Savoir mettre en oeuvre Dask pour paralléliser des calculs en Python

Connaissances préalables nécessaires:

Bases de la programmation python.

Objectifs pédagogiques:

    Déroulé pédagogique


    Introduction
    Durée : 2h
    Méthodes pédagogiques : exposé/échanges
    Matériels et moyens : video-projecteur en présentiel, tableau partagé en classe virtuelle
    Présentation de Dask, fonctionnalités, apports.Comparaison avec d'autres environnements : yarn, spark.
    Calculs parallèles en environnements distribués, ou sur un seul serveur.
    Les composants de Dask : scheduler, collections BigData.
    Premiers pas avec Dask
    Durée : 3h30
    Méthodes pédagogiques : alternance de théorie et de travaux pratiques
    Matériels et moyens : vidéo-projecteur en présentiel, tableau partagé en classe virtuelle, infrastructure distribuée serveurs Linux
    Différentes méthodes d'installation : Anaconda, pip, depuis les sources
    Atelier : installation, et création d'objets Dask,


    choix des méthodes et tâches, visualisation des graphes d'exécution.
    exécution par le scheduler
    Elements de base
    Durée : 6h30
    Méthodes pédagogiques : alternance de théorie et de travaux pratiques
    Matériels et moyens : vidéo-projecteur en présentiel, tableau partagé en classe virtuelle, infrastructure distribuée serveurs Linux
    Array: cas d'usages, compatibilité NumPy, définition de chunks, exemples, bonnes pratiques
    Atelier : création, stockage de Dask Array


    Bag : définition, limites
    Atelier : exemple de création, stockage, calcul sur des Dask Bags


    Dask Dataframes : regroupement de dataframes pandas, stockage sur disque ou dans un cluster,
    critères de choix par rapport aux dataframes pandas, bonne pratiques,
    compatibilité avec Parquet, intégration de tables SQL
    Atelier : mise en oeuvre de dask.dataframes et comparaison avec pandas


    Delayed ou Futures : une exécution stockée dans un graphe d'actions, ou en temps réel, critères de choix
    Fonctionnement avancé
    Durée : 3h30
    Méthodes pédagogiques : alternance de théorie et de travaux pratiques
    Matériels et moyens : vidéo-projecteur en présentiel, tableau partagé en classe virtuelle, infrastructure distribuée serveurs Linux
    Gesion des performances
    Configuration du scheduler
    Les graphes d'exécution
    Utilisation du dashboard
    Outils de debugging
    Atelier : tests de performances et debugging


    Dask.distributed
    Durée : 3h
    Méthodes pédagogiques : alternance de théorie et de travaux pratiques
    Matériels et moyens : vidéo-projecteur en présentiel, tableau partagé en classe virtuelle, infrastructure distribuée serveurs Linux
    Fonctionnalités : exécution dans un environnement distribué ou en local,
    outils de diagnostic et de suivi des performances,
    utilisation de l'API Futures pour des calculs en temps réel
    Architecture : dask-scheduler et dask-worker
    Atelier : mise en oeuvre de dask.distributed : installation, configuration, initialisation d'un client.


    Présentation du dashboard
    Analyse des performances
    Limites de Dask.distributed
    Bonnes pratiques
    Dask-ML
    Durée : 3h
    Méthodes pédagogiques : alternance de théorie et de travaux pratiques
    Matériels et moyens : vidéo-projecteur en présentiel, tableau partagé en classe virtuelle, infrastructure distribuée serveurs Linux
    Apports : utiliser les outils classiques de machine learning comme scikit-learn dans un environnement Dask
    Exemples d'utilisation : modèles complexes, volumes de données importants
    Présentation de Dask-ML et principe de fonctionnement
    Intégration scikit-learn, PyTorch, Keras / Tensorflow
    Atelier : Installation et exemples avec scikit-learn



    Retour au descriptif
    Modalités et délais d'accès
    Méthodes mobilisées et modalités d'évaluation

    Phirio

    +33 1 55 33 52 10
    info@phirio.fr
    Calendrier
    Code cours : CB042

    Contenu de la formation
    Dask : mise en oeuvre, programmation:
    • Introduction
    • Premiers pas avec Dask
    • Elements de base
    • Fonctionnement avancé
    • Dask.distributed
    • Dask-ML

    Accès à la liste des cours



    Vous pouvez bien entendu composer votre programme personnel à partir de nos descriptifs de cours


    Version du document : R726
    Date de mise à jour du document : 2024/08/26


    quelques une de nos réalisations
    • Recrutement
    • Data Dock Data Dock
    • Qualiopi
      Qualiopi
      La certification qualité a été délivrée par Proneo Certification au titre de la catégorie d'action suivante : ACTIONS DE FORMATION.

    INFORMATIONS LEGALES

    • Protection des données personnelles
    • Mentions légales et crédits
    • Condition générales d'utilisation (CGU)

    INFORMATIONS PRODUITS

    • Calendrier
    • Présentations de technologies
    2025 Phirio Paris