Formation : IA : traitement du langage naturel (NLP)

Durée	2 jours
Code cours	IA051
Dates	6 au 7 juillet 5 au 6 octobre 10 au 11 décembre (cliquez sur une date pour vous inscrire)

Public:

Data scientists, développeurs IA, analystes texte, ingénieurs NLP, ou toute personne amenée à traiter, analyser ou exploiter des données textuelles à grande échelle (veille, conformité, juridique, support client, documentation).

Objectifs:

Comprendre les fondements et l'évolution du traitement du langage naturel. Maîtriser l'écosystème Hugging Face pour le NLP. Mettre en oeuvre les tâches NLP fondamentales avec des modèles Transformers pré-entraînés. Construire des pipelines de recherche sémantique et de RAG textuel. Adapter un modèle pré-entraîné à un cas d'usage métier spécifique. Évaluer et déployer une solution NLP en production.

Connaissances préalables nécessaires:

Bonne maîtrise de Python. Notions de base en machine learning (entraînement, évaluation, surapprentissage).

Déroulé pédagogique


	Fondements du NLP et architecture Transformer
Durée : 3h Méthodes pédagogiques : alternance de théorie et de travaux pratiques Matériels et moyens : vidéo-projecteur en présentiel, tableau partagé en classe virtuelle, infrastructure distribuée serveurs Linux	Du NLP classique aux Transformers : évolution des approches (règles, statistiques, deep learning, Transformers). Ce que NLTK et TF-IDF faisaient, pourquoi les Transformers les ont remplacés. Architecture Transformer : mécanisme d'attention, self-attention, multi-head attention, positional encoding — comprendre le fonctionnement sans entrer dans l'implémentation mathématique complète. Familles de modèles : encoder-only (BERT, RoBERTa, CamemBERT), decoder-only (GPT), encoder-decoder (T5, mBART) — quand utiliser quoi. Tokenization : BPE, WordPiece, SentencePiece — impact sur la qualité et la gestion du multilingue. Écosystème Hugging Face : Hub, Transformers, Tokenizers, Datasets — navigation et prise en main. Panorama des modèles francophones : CamemBERT, FlauBERT, Mistral, Croissant — positionnement et performances. Atelier : Exploration du Hub Hugging Face — chargement de modèles pré-entraînés, tokenization comparative (BERT vs GPT vs SentencePiece), premiers tests d'inférence sur du texte français.

	Tâches NLP fondamentales avec Transformers
Durée : 3h Méthodes pédagogiques : alternance de théorie et de travaux pratiques Matériels et moyens : vidéo-projecteur en présentiel, tableau partagé en classe virtuelle, infrastructure distribuée serveurs Linux	Classification de texte : analyse de sentiment, catégorisation thématique, détection de spam — pipeline et fine tuning rapide. Extraction d'entités nommées (NER) : personnes, organisations, lieux, montants — modèles pré-entraînés et adaptation au domaine. Résumé automatique : extractif vs abstractif, modèles T5 et BART, contrôle de la longueur. Traduction automatique : modèles multilingues (mBART, NLLB, Helsinki-NLP), traduction de domaine spécialisé. Question-answering extractif : retrouver la réponse dans un texte source, SQuAD-style. Analyse syntaxique et sémantique : POS tagging, dépendances, désambiguïsation — ce qui reste utile au-delà des pipelines end-to-end. Atelier : Pipeline NLP multi-tâches sur un corpus métier — classification, NER, résumé et QA sur un jeu de documents réels (juridiques ou support client), évaluation des résultats.

	Embeddings, recherche sémantique et RAG textuel
Durée : 3h Méthodes pédagogiques : alternance de théorie et de travaux pratiques Matériels et moyens : vidéo-projecteur en présentiel, tableau partagé en classe virtuelle, infrastructure distribuée serveurs Linux	Embeddings de texte : principe, sentence-transformers, modèles d'embedding multilingues (e5, BGE, Solon). Similarité sémantique : cosinus, distance euclidienne — applications (déduplication, clustering de tickets, détection de plagiat). Bases vectorielles : Chroma, FAISS, pgvector, Pinecone — insertion, recherche, filtrage par métadonnées. Chunking de documents : stratégies (taille fixe, par paragraphe, sémantique), impact sur la qualité du retrieval. Architecture RAG (Retrieval Augmented Generation) : ingestion, indexation, requête, reranking, génération. RAG avancé : hybrid search (keyword + sémantique), reranking (cross-encoder), gestion des sources et citations. Évaluation d'un pipeline RAG : métriques de retrieval (recall@k, MRR), métriques de génération (faithfulness, relevance). Atelier : Construction d'un RAG textuel complet — ingestion d'un corpus documentaire, chunking, indexation vectorielle, recherche sémantique, génération de réponses avec citations, évaluation de la qualité.

	Adaptation de modèles et traitement de cas métier
Durée : 3h Méthodes pédagogiques : alternance de théorie et de travaux pratiques Matériels et moyens : vidéo-projecteur en présentiel, tableau partagé en classe virtuelle, infrastructure distribuée serveurs Linux	Quand fine-tuner un modèle NLP vs utiliser un pré-entraîné tel quel vs passer par un LLM en zero-shot. Fine tuning léger d'un modèle BERT/CamemBERT : classification métier, NER de domaine — avec Hugging Face Trainer. Préparation de datasets NLP : annotation (Label Studio, Argilla), formats Hugging Face Datasets, augmentation de données textuelles. LLM pour le NLP : utiliser GPT/Mistral/Llama en zero-shot ou few-shot pour des tâches NLP sans entraînement — prompting structuré. Comparaison systématique : modèle spécialisé fine-tuné vs LLM généraliste — coût, latence, qualité, maintenance. Cas métier types : extraction d'informations dans des contrats, classification de tickets support, analyse de verbatims clients, veille réglementaire. Atelier : Adaptation d'un modèle NER à un domaine métier — annotation d'un petit corpus, fine tuning de CamemBERT, comparaison avec un LLM en few-shot sur les mêmes données, analyse coût/qualité.

	Évaluation, déploiement et passage à l'échelle
Durée : 2h30 Méthodes pédagogiques : alternance de théorie et de travaux pratiques Matériels et moyens : vidéo-projecteur en présentiel, tableau partagé en classe virtuelle, infrastructure distribuée serveurs Linux	Métriques NLP : F1, précision, rappel pour la classification et le NER. ROUGE et BERTScore pour le résumé. Évaluation humaine et LLM-as-judge. Construction d'un benchmark maison : jeu de tests représentatif, scoring automatique, tests de régression entre versions. Déploiement d'un modèle NLP : API FastAPI, batch processing, gestion de la charge. Optimisation pour la production : quantification ONNX, distillation de modèle (DistilBERT), choix du runtime (Transformers, ONNX Runtime, TensorRT). Traitement à grande échelle : parallélisation, processing de corpus volumineux, pipelines batch. Veille et cycle de vie : drift linguistique, réentraînement planifié, monitoring de la qualité en production. Atelier : Pipeline de production NLP — export ONNX d'un modèle fine-tuné, déploiement API, benchmark de latence, traitement batch d'un corpus de 10 000 documents.

Retour au descriptif
Modalités et délais d'accès
Méthodes mobilisées et modalités d'évaluation

Phirio

+33 1 55 33 52 10
info@phirio.fr

Calendrier
Code cours : IA051

Contenu de la formation
IA : traitement du langage naturel (NLP):

Fondements du NLP et architecture Transformer
Tâches NLP fondamentales avec Transformers
Embeddings, recherche sémantique et RAG textuel
Adaptation de modèles et traitement de cas métier
Évaluation, déploiement et passage à l'échelle

Accès à la liste des cours

Vous pouvez bien entendu composer votre programme personnel à partir de nos descriptifs de cours

Note de satisfaction des participants à la formation IA : traitement du langage naturel (NLP)

4.9/5

Télécharger le programme

Version du document : T327
Date de mise à jour du document : 2026/04/27

Phirio

Formations