Formation : IA : traitement du langage naturel (NLP)

Durée de la formation

2 jours

Code cours

IA051

Prix de la formation

1 700 € HT

Sessions programmées

6 au 7 juillet 5 au 6 octobre 10 au 11 décembre

Public :

Data scientists, développeurs IA, analystes texte, ingénieurs NLP, ou toute personne amenée à traiter, analyser ou exploiter des données textuelles à grande échelle (veille, conformité, juridique, support client, documentation).

Objectifs :

Comprendre les fondements et l'évolution du traitement du langage naturel. Maîtriser l'écosystème Hugging Face pour le NLP. Mettre en oeuvre les tâches NLP fondamentales avec des modèles Transformers pré-entraînés. Construire des pipelines de recherche sémantique et de RAG textuel. Adapter un modèle pré-entraîné à un cas d'usage métier spécifique. Évaluer et déployer une solution NLP en production.

Prérequis :

Bonne maîtrise de Python. Notions de base en machine learning (entraînement, évaluation, surapprentissage).

Pour tester vos connaissances actuelles sur le sujet : Validation des pré-requis
Pour nous préciser vos attentes : Validation des attentes

Programme détaillé de la formation

Fondements du NLP et architecture Transformer

Du NLP classique aux Transformers : évolution des approches (règles, statistiques, deep learning, Transformers). Ce que NLTK et TF-IDF faisaient, pourquoi les Transformers les ont remplacés.
Architecture Transformer : mécanisme d'attention, self-attention, multi-head attention, positional encoding — comprendre le fonctionnement sans entrer dans l'implémentation mathématique complète.
Familles de modèles : encoder-only (BERT, RoBERTa, CamemBERT), decoder-only (GPT), encoder-decoder (T5, mBART) — quand utiliser quoi.
Tokenization : BPE, WordPiece, SentencePiece — impact sur la qualité et la gestion du multilingue.
Écosystème Hugging Face : Hub, Transformers, Tokenizers, Datasets — navigation et prise en main.
Panorama des modèles francophones : CamemBERT, FlauBERT, Mistral, Croissant — positionnement et performances.

Atelier : Exploration du Hub Hugging Face — chargement de modèles pré-entraînés, tokenization comparative (BERT vs GPT vs SentencePiece), premiers tests d'inférence sur du texte français.

Tâches NLP fondamentales avec Transformers

Classification de texte : analyse de sentiment, catégorisation thématique, détection de spam — pipeline et fine tuning rapide.
Extraction d'entités nommées (NER) : personnes, organisations, lieux, montants — modèles pré-entraînés et adaptation au domaine.
Résumé automatique : extractif vs abstractif, modèles T5 et BART, contrôle de la longueur.
Traduction automatique : modèles multilingues (mBART, NLLB, Helsinki-NLP), traduction de domaine spécialisé.
Question-answering extractif : retrouver la réponse dans un texte source, SQuAD-style.
Analyse syntaxique et sémantique : POS tagging, dépendances, désambiguïsation — ce qui reste utile au-delà des pipelines end-to-end.

Atelier : Pipeline NLP multi-tâches sur un corpus métier — classification, NER, résumé et QA sur un jeu de documents réels (juridiques ou support client), évaluation des résultats.

Embeddings, recherche sémantique et RAG textuel

Embeddings de texte : principe, sentence-transformers, modèles d'embedding multilingues (e5, BGE, Solon).
Similarité sémantique : cosinus, distance euclidienne — applications (déduplication, clustering de tickets, détection de plagiat).
Bases vectorielles : Chroma, FAISS, pgvector, Pinecone — insertion, recherche, filtrage par métadonnées.
Chunking de documents : stratégies (taille fixe, par paragraphe, sémantique), impact sur la qualité du retrieval.
Architecture RAG (Retrieval Augmented Generation) : ingestion, indexation, requête, reranking, génération.
RAG avancé : hybrid search (keyword + sémantique), reranking (cross-encoder), gestion des sources et citations.
Évaluation d'un pipeline RAG : métriques de retrieval (recall@k, MRR), métriques de génération (faithfulness, relevance).

Atelier : Construction d'un RAG textuel complet — ingestion d'un corpus documentaire, chunking, indexation vectorielle, recherche sémantique, génération de réponses avec citations, évaluation de la qualité.

Adaptation de modèles et traitement de cas métier

Quand fine-tuner un modèle NLP vs utiliser un pré-entraîné tel quel vs passer par un LLM en zero-shot.
Fine tuning léger d'un modèle BERT/CamemBERT : classification métier, NER de domaine — avec Hugging Face Trainer.
Préparation de datasets NLP : annotation (Label Studio, Argilla), formats Hugging Face Datasets, augmentation de données textuelles.
LLM pour le NLP : utiliser GPT/Mistral/Llama en zero-shot ou few-shot pour des tâches NLP sans entraînement — prompting structuré.
Comparaison systématique : modèle spécialisé fine-tuné vs LLM généraliste — coût, latence, qualité, maintenance.
Cas métier types : extraction d'informations dans des contrats, classification de tickets support, analyse de verbatims clients, veille réglementaire.

Atelier : Adaptation d'un modèle NER à un domaine métier — annotation d'un petit corpus, fine tuning de CamemBERT, comparaison avec un LLM en few-shot sur les mêmes données, analyse coût/qualité.

Évaluation, déploiement et passage à l'échelle

Métriques NLP : F1, précision, rappel pour la classification et le NER. ROUGE et BERTScore pour le résumé. Évaluation humaine et LLM-as-judge.
Construction d'un benchmark maison : jeu de tests représentatif, scoring automatique, tests de régression entre versions.
Déploiement d'un modèle NLP : API FastAPI, batch processing, gestion de la charge.
Optimisation pour la production : quantification ONNX, distillation de modèle (DistilBERT), choix du runtime (Transformers, ONNX Runtime, TensorRT).
Traitement à grande échelle : parallélisation, processing de corpus volumineux, pipelines batch.
Veille et cycle de vie : drift linguistique, réentraînement planifié, monitoring de la qualité en production.

Atelier : Pipeline de production NLP — export ONNX d'un modèle fine-tuné, déploiement API, benchmark de latence, traitement batch d'un corpus de 10 000 documents.

Ces formations pourraient aussi vous intéresser

Architectures de solutions IA

Code : IA007|Durée : 3 jours

Administration de solutions IA en production

Code : IA070|Durée : 3 jours

IA - Construction de modèles : texte, image, son

Code : IA060|Durée : 2 jours

Phirio

+33 1 55 33 52 10
info@phirio.fr

Calendrier
Code cours : IA051

Contenu de la formation
IA : traitement du langage naturel (NLP):

Fondements du NLP et architecture Transformer
Tâches NLP fondamentales avec Transformers
Embeddings, recherche sémantique et RAG textuel
Adaptation de modèles et traitement de cas métier
Évaluation, déploiement et passage à l'échelle

Accès à la liste des cours

Vous pouvez bien entendu composer votre programme personnel à partir de nos descriptifs de cours

Note de satisfaction des participants à la formation IA : traitement du langage naturel (NLP)

4.9/5

Télécharger le programme

Version du document : T327
Date de mise à jour du document : 2026/04/27

Formation : IA : traitement du langage naturel (NLP)

Durée de la formation

Code cours

Prix de la formation

Sessions programmées

Public :

Objectifs :

Prérequis :

Programme détaillé de la formation

Fondements du NLP et architecture Transformer

Tâches NLP fondamentales avec Transformers

Embeddings, recherche sémantique et RAG textuel

Adaptation de modèles et traitement de cas métier

Évaluation, déploiement et passage à l'échelle

Liens complémentaires

Déroulé pédagogique

Modalités et délais d'accès

Méthodes mobilisées et modalités d'évaluation

Ces formations pourraient aussi vous intéresser

Architectures de solutions IA

Administration de solutions IA en production

IA - Construction de modèles : texte, image, son

Phirio

Note de satisfaction des participants à la formation IA : traitement du langage naturel (NLP)

4.9/5

Phirio

Formations