Formation : IA - Construction de modèles : texte, image, son

Durée de la formation

2 jours

Code cours

IA060

Prix de la formation

1 720 € HT

Sessions programmées

18 au 19 juin 24 au 25 septembre 5 au 6 novembre

Public :

Data scientists, ingénieurs ML souhaitant acquérir une compréhension pratique et concrète de la construction de modèles de deep learning en entraînant eux-mêmes des modèles sur des problèmes réels de texte, d'image et de son.

Objectifs :

Construire de bout en bout des modèles de deep learning sur trois modalités (texte, image, son). Comprendre par l'expérimentation l'impact des hyperparamètres sur la qualité des modèles. Identifier les limites d'un modèle et savoir quand et comment les repousser. Acquérir les réflexes pratiques de construction : préparation des données, choix d'architecture, entraînement, évaluation, itération.

Prérequis :

Bonne maîtrise de Python. Avoir suivi IA020 (Deep Learning) ou posséder des connaissances équivalentes sur les réseaux de neurones (CNN, RNN, fonctions de perte, optimiseurs).

Pour tester vos connaissances actuelles sur le sujet : Validation des pré-requis
Pour nous préciser vos attentes : Validation des attentes

Programme détaillé de la formation

Méthodologie de construction de modèles

Démarche expérimentale : formuler une hypothèse, entraîner, mesurer, itérer.
Le cycle de construction : données → architecture → entraînement → évaluation → diagnostic → ajustement.
Préparer un dataset d'entraînement : collecte, nettoyage, split train/val/test, équilibrage des classes.
Baseline : pourquoi toujours commencer par un modèle simple.
Les hyperparamètres clés : learning rate, batch size, nombre d'epochs, taille du modèle, dropout, régularisation — que fait chaque levier.
Outils de suivi : TensorBoard, Weights & Biases — visualiser les courbes de perte, détecter overfitting et underfitting.
Diagnostiquer un modèle qui ne converge pas : checklist des causes fréquentes.

Atelier : Mise en place de l'environnement de travail — PyTorch, TensorBoard, dataset synthétique simple. Entraînement d'une baseline, modification systématique des hyperparamètres un par un, observation et documentation des effets.

Construire un modèle de langage sur un micro-corpus

Création d'un micro-langage inventé : grammaire simple, vocabulaire contrôlé, règles de syntaxe définies par les stagiaires.
Génération du dataset d'entraînement à partir de la grammaire.
Construction pas à pas d'un modèle séquence-à-séquence : embeddings, RNN/LSTM puis Transformer minimal.
Entraînement et observation : le modèle apprend-il les règles ? Où échoue-t-il ?
Expérimentation dirigée sur les hyperparamètres : taille du vocabulaire, dimension des embeddings, nombre de couches, learning rate — mesurer l'impact sur la capacité à apprendre la grammaire.
Limites : complexité du langage vs taille du modèle, données insuffisantes, overfitting sur un petit corpus.
Extension : ajouter des règles plus complexes (accords, dépendances longues) et observer à quel moment le modèle décroche.

Atelier : Chaque stagiaire définit un micro-langage, génère son dataset, entraîne son modèle et pousse les hyperparamètres jusqu'aux limites. Comparaison des résultats entre stagiaires : quels langages sont plus durs à apprendre ? Pourquoi ?

Construire un modèle de reconnaissance d'images

Problème choisi : classification d'images sur un dataset maîtrisé (par ex. objets du quotidien, caractères manuscrits, imagerie médicale simplifiée).
Construction incrémentale d'un CNN : convolutions, pooling, couches denses — ajouter de la complexité progressivement.
Data augmentation : rotations, recadrage, bruit — impact mesurable sur la généralisation.
Expérimentation dirigée : profondeur du réseau, taille des filtres, dropout, batch normalization — chaque modification est mesurée.
Transfer learning pratique : partir d'un modèle pré-entraîné (ResNet, EfficientNet), geler/dégeler des couches, comparer avec le modèle construit from scratch.
Limites : quand le dataset est trop petit, quand les classes sont ambiguës, quand le modèle mémorise au lieu de généraliser.
Interprétabilité : GradCAM pour visualiser ce que le modèle "regarde" — surprises et diagnostics.

Atelier : Construction d'un classifieur d'images de A à Z — dataset personnalisé (photos prises par les stagiaires ou dataset fourni), CNN from scratch, puis transfer learning, comparaison des performances, visualisation GradCAM.

Construire un modèle de reconnaissance de sons

Introduction au traitement audio pour le deep learning : signal temporel, spectrogrammes, mel-spectrogrammes — transformer du son en "image" exploitable par un réseau.
Problème choisi : classification de sons (commandes vocales, sons d'environnement, bruits machines).
Préparation des données audio : découpage, normalisation, augmentation (bruit, pitch shift, time stretch).
Approche CNN sur spectrogrammes : réutiliser les compétences du chapitre image sur une modalité différente.
Approche séquentielle : RNN/LSTM directement sur le signal — comparaison avec l'approche spectrogramme.
Expérimentation dirigée : résolution du spectrogramme, taille de la fenêtre FFT, architecture du réseau — impact sur la capacité à distinguer des sons proches.
Limites : bruit ambiant, variabilité inter-locuteurs, sons similaires — diagnostic et stratégies d'amélioration.
Transversalité : les mêmes réflexes (baseline, hyperparamètres, overfitting, augmentation) s'appliquent aux trois modalités.

Atelier : Classification de sons — enregistrement ou dataset fourni, extraction de spectrogrammes, construction d'un classifieur, expérimentation des hyperparamètres. Comparaison avec les résultats obtenus sur texte et image : quelles modalités sont plus faciles à modéliser ? Pourquoi ?

Synthèse et passage à l'échelle

Retour d'expérience transversal : texte, image, son — points communs et différences dans la construction de modèles.
Grille de diagnostic universelle : underfitting, overfitting, déséquilibre des classes, données bruitées — les mêmes causes produisent les mêmes effets quelle que soit la modalité.
Quand un modèle custom suffit vs quand utiliser un pré-entraîné : critères de décision (taille du dataset, spécificité du domaine, budget compute).
Aller plus loin : fine tuning de modèles pré-entraînés (lien avec IA065), multimodal (texte+image), modèles génératifs.
Bonnes pratiques de reproductibilité : seeds, versioning des datasets et des expériences, documentation.
Mise en production d'un modèle construit maison : export, optimisation, monitoring de la dérive.

Atelier : Projet de synthèse — chaque stagiaire choisit une modalité et un problème, construit un modèle optimisé en appliquant les leçons des chapitres précédents, présente ses résultats et son diagnostic au groupe.

Ces formations pourraient aussi vous intéresser

IA - Deep Learning : tensorflow, Caffe, Pytorch

Code : IA020|Durée : 3 jours

IA : traitement du langage naturel (NLP)

Code : IA051|Durée : 2 jours

IA - analyse, génération de sons : WaveNet, AWS Transcribe

Code : IA050|Durée : 2 jours

Phirio

+33 1 55 33 52 10
info@phirio.fr

Calendrier
Code cours : IA060

Contenu de la formation
IA - Construction de modèles : texte, image, son:

Méthodologie de construction de modèles
Construire un modèle de langage sur un micro-corpus
Construire un modèle de reconnaissance d'images
Construire un modèle de reconnaissance de sons
Synthèse et passage à l'échelle

Accès à la liste des cours

Vous pouvez bien entendu composer votre programme personnel à partir de nos descriptifs de cours

Télécharger le programme

Version du document : T327
Date de mise à jour du document : 2026/04/27

Formation : IA - Construction de modèles : texte, image, son

Durée de la formation

Code cours

Prix de la formation

Sessions programmées

Public :

Objectifs :

Prérequis :

Programme détaillé de la formation

Méthodologie de construction de modèles

Construire un modèle de langage sur un micro-corpus

Construire un modèle de reconnaissance d'images

Construire un modèle de reconnaissance de sons

Synthèse et passage à l'échelle

Liens complémentaires

Déroulé pédagogique

Modalités et délais d'accès

Méthodes mobilisées et modalités d'évaluation

Ces formations pourraient aussi vous intéresser

IA - Deep Learning : tensorflow, Caffe, Pytorch

IA : traitement du langage naturel (NLP)

IA - analyse, génération de sons : WaveNet, AWS Transcribe

Phirio

Phirio

Formations