Phare : logo phirio Phirio  : apprendre à apprendre

Phare : logo phiriopuzzle pour les serious games Phirio

Phare : logo phirioDataCenter de Phirio

Phare : logo phirioIllustration des Serious Games Phirio

PrecedentSuivant
  • Formations
    • Catalogue
    • Cloud
    • Big Data
    • Applicatif
    • DataScience
    • Infrastructures
    • Accompagnement
    • Sur mesure
  • Cheat sheets & labs
    • Présentation des technologies
    • Le Laboratoire
    • Blockchain
    • Big Data
    • Liens utiles
  • Informations pratiques
    • Phirio Team
    • Prestations
    • Qualité
    • Centre de formation
    • Nos références
  • Contact
    • Plan d'accès
    • Contact post-formation
    • Recrutement
    • Demande d'informations
  1. Vous êtes ici : Accueil
  2. Déroulés pédagogiques
  3. Ia
  4. Ia langage nlp traduction analyse

Formation : IA : traitement du langage naturel (NLP)

Durée2 jours
Code coursIA051
Dates6 au 7 juillet
5 au 6 octobre
10 au 11 décembre

(cliquez sur une date pour vous inscrire)

Public:

Data scientists, développeurs IA, analystes texte, ingénieurs NLP, ou toute personne amenée à traiter, analyser ou exploiter des données textuelles à grande échelle (veille, conformité, juridique, support client, documentation).

Objectifs:

Comprendre les fondements et l'évolution du traitement du langage naturel. Maîtriser l'écosystème Hugging Face pour le NLP. Mettre en oeuvre les tâches NLP fondamentales avec des modèles Transformers pré-entraînés. Construire des pipelines de recherche sémantique et de RAG textuel. Adapter un modèle pré-entraîné à un cas d'usage métier spécifique. Évaluer et déployer une solution NLP en production.

Connaissances préalables nécessaires:

Bonne maîtrise de Python. Notions de base en machine learning (entraînement, évaluation, surapprentissage).

Déroulé pédagogique


Fondements du NLP et architecture Transformer
Durée : 3h
Méthodes pédagogiques : alternance de théorie et de travaux pratiques
Matériels et moyens : vidéo-projecteur en présentiel, tableau partagé en classe virtuelle, infrastructure distribuée serveurs Linux
Du NLP classique aux Transformers : évolution des approches (règles, statistiques, deep learning, Transformers). Ce que NLTK et TF-IDF faisaient, pourquoi les Transformers les ont remplacés.
Architecture Transformer : mécanisme d'attention, self-attention, multi-head attention, positional encoding — comprendre le fonctionnement sans entrer dans l'implémentation mathématique complète.
Familles de modèles : encoder-only (BERT, RoBERTa, CamemBERT), decoder-only (GPT), encoder-decoder (T5, mBART) — quand utiliser quoi.
Tokenization : BPE, WordPiece, SentencePiece — impact sur la qualité et la gestion du multilingue.
Écosystème Hugging Face : Hub, Transformers, Tokenizers, Datasets — navigation et prise en main.
Panorama des modèles francophones : CamemBERT, FlauBERT, Mistral, Croissant — positionnement et performances.
Atelier : Exploration du Hub Hugging Face — chargement de modèles pré-entraînés, tokenization comparative (BERT vs GPT vs SentencePiece), premiers tests d'inférence sur du texte français.


Tâches NLP fondamentales avec Transformers
Durée : 3h
Méthodes pédagogiques : alternance de théorie et de travaux pratiques
Matériels et moyens : vidéo-projecteur en présentiel, tableau partagé en classe virtuelle, infrastructure distribuée serveurs Linux
Classification de texte : analyse de sentiment, catégorisation thématique, détection de spam — pipeline et fine tuning rapide.
Extraction d'entités nommées (NER) : personnes, organisations, lieux, montants — modèles pré-entraînés et adaptation au domaine.
Résumé automatique : extractif vs abstractif, modèles T5 et BART, contrôle de la longueur.
Traduction automatique : modèles multilingues (mBART, NLLB, Helsinki-NLP), traduction de domaine spécialisé.
Question-answering extractif : retrouver la réponse dans un texte source, SQuAD-style.
Analyse syntaxique et sémantique : POS tagging, dépendances, désambiguïsation — ce qui reste utile au-delà des pipelines end-to-end.
Atelier : Pipeline NLP multi-tâches sur un corpus métier — classification, NER, résumé et QA sur un jeu de documents réels (juridiques ou support client), évaluation des résultats.


Embeddings, recherche sémantique et RAG textuel
Durée : 3h
Méthodes pédagogiques : alternance de théorie et de travaux pratiques
Matériels et moyens : vidéo-projecteur en présentiel, tableau partagé en classe virtuelle, infrastructure distribuée serveurs Linux
Embeddings de texte : principe, sentence-transformers, modèles d'embedding multilingues (e5, BGE, Solon).
Similarité sémantique : cosinus, distance euclidienne — applications (déduplication, clustering de tickets, détection de plagiat).
Bases vectorielles : Chroma, FAISS, pgvector, Pinecone — insertion, recherche, filtrage par métadonnées.
Chunking de documents : stratégies (taille fixe, par paragraphe, sémantique), impact sur la qualité du retrieval.
Architecture RAG (Retrieval Augmented Generation) : ingestion, indexation, requête, reranking, génération.
RAG avancé : hybrid search (keyword + sémantique), reranking (cross-encoder), gestion des sources et citations.
Évaluation d'un pipeline RAG : métriques de retrieval (recall@k, MRR), métriques de génération (faithfulness, relevance).
Atelier : Construction d'un RAG textuel complet — ingestion d'un corpus documentaire, chunking, indexation vectorielle, recherche sémantique, génération de réponses avec citations, évaluation de la qualité.


Adaptation de modèles et traitement de cas métier
Durée : 3h
Méthodes pédagogiques : alternance de théorie et de travaux pratiques
Matériels et moyens : vidéo-projecteur en présentiel, tableau partagé en classe virtuelle, infrastructure distribuée serveurs Linux
Quand fine-tuner un modèle NLP vs utiliser un pré-entraîné tel quel vs passer par un LLM en zero-shot.
Fine tuning léger d'un modèle BERT/CamemBERT : classification métier, NER de domaine — avec Hugging Face Trainer.
Préparation de datasets NLP : annotation (Label Studio, Argilla), formats Hugging Face Datasets, augmentation de données textuelles.
LLM pour le NLP : utiliser GPT/Mistral/Llama en zero-shot ou few-shot pour des tâches NLP sans entraînement — prompting structuré.
Comparaison systématique : modèle spécialisé fine-tuné vs LLM généraliste — coût, latence, qualité, maintenance.
Cas métier types : extraction d'informations dans des contrats, classification de tickets support, analyse de verbatims clients, veille réglementaire.
Atelier : Adaptation d'un modèle NER à un domaine métier — annotation d'un petit corpus, fine tuning de CamemBERT, comparaison avec un LLM en few-shot sur les mêmes données, analyse coût/qualité.


Évaluation, déploiement et passage à l'échelle
Durée : 2h30
Méthodes pédagogiques : alternance de théorie et de travaux pratiques
Matériels et moyens : vidéo-projecteur en présentiel, tableau partagé en classe virtuelle, infrastructure distribuée serveurs Linux
Métriques NLP : F1, précision, rappel pour la classification et le NER. ROUGE et BERTScore pour le résumé. Évaluation humaine et LLM-as-judge.
Construction d'un benchmark maison : jeu de tests représentatif, scoring automatique, tests de régression entre versions.
Déploiement d'un modèle NLP : API FastAPI, batch processing, gestion de la charge.
Optimisation pour la production : quantification ONNX, distillation de modèle (DistilBERT), choix du runtime (Transformers, ONNX Runtime, TensorRT).
Traitement à grande échelle : parallélisation, processing de corpus volumineux, pipelines batch.
Veille et cycle de vie : drift linguistique, réentraînement planifié, monitoring de la qualité en production.
Atelier : Pipeline de production NLP — export ONNX d'un modèle fine-tuné, déploiement API, benchmark de latence, traitement batch d'un corpus de 10 000 documents.



Retour au descriptif
Modalités et délais d'accès
Méthodes mobilisées et modalités d'évaluation

Phirio

+33 1 55 33 52 10
info@phirio.fr
Calendrier
Code cours : IA051

Contenu de la formation
IA : traitement du langage naturel (NLP):
  • Fondements du NLP et architecture Transformer
  • Tâches NLP fondamentales avec Transformers
  • Embeddings, recherche sémantique et RAG textuel
  • Adaptation de modèles et traitement de cas métier
  • Évaluation, déploiement et passage à l'échelle

Accès à la liste des cours


Vous pouvez bien entendu composer votre programme personnel à partir de nos descriptifs de cours

Note de satisfaction des participants à la formation IA : traitement du langage naturel (NLP)

4.9/5



Télécharger le programme


Version du document : T327
Date de mise à jour du document : 2026/04/27


quelques une de nos réalisations

Phirio

+33 1 55 33 52 10
info@phirio.fr

Plus de 30 ans d'expertise

Formations

  • Calendrier
  • Présentations de technologies
  • Plan d'accès
  • Contact
Data Docklogo Data Dock
logo Qualiopi
La certification qualité a été délivrée par Proneo Certification au titre de la catégorie d'action suivante : ACTIONS DE FORMATION.

2026 Phirio Paris
Protection des données personnelles
Mentions légales et crédits
Conditions générales de vente