Data scientists, développeurs IA, analystes texte, ingénieurs NLP, ou toute personne amenée à traiter, analyser ou exploiter des données textuelles à grande échelle (veille, conformité, juridique, support client, documentation).
Comprendre les fondements et l'évolution du traitement du langage naturel. Maîtriser l'écosystème Hugging Face pour le NLP. Mettre en oeuvre les tâches NLP fondamentales avec des modèles Transformers pré-entraînés. Construire des pipelines de recherche sémantique et de RAG textuel. Adapter un modèle pré-entraîné à un cas d'usage métier spécifique. Évaluer et déployer une solution NLP en production.
Bonne maîtrise de Python. Notions de base en machine learning (entraînement, évaluation, surapprentissage).
|
| Fondements du NLP et architecture Transformer |
Durée : 3h Méthodes pédagogiques : alternance de théorie et de travaux pratiques Matériels et moyens : vidéo-projecteur en présentiel, tableau partagé en classe virtuelle, infrastructure distribuée serveurs Linux | Du NLP classique aux Transformers : évolution des approches (règles, statistiques, deep learning, Transformers). Ce que NLTK et TF-IDF faisaient, pourquoi les Transformers les ont remplacés. Architecture Transformer : mécanisme d'attention, self-attention, multi-head attention, positional encoding — comprendre le fonctionnement sans entrer dans l'implémentation mathématique complète. Familles de modèles : encoder-only (BERT, RoBERTa, CamemBERT), decoder-only (GPT), encoder-decoder (T5, mBART) — quand utiliser quoi. Tokenization : BPE, WordPiece, SentencePiece — impact sur la qualité et la gestion du multilingue. Écosystème Hugging Face : Hub, Transformers, Tokenizers, Datasets — navigation et prise en main. Panorama des modèles francophones : CamemBERT, FlauBERT, Mistral, Croissant — positionnement et performances.Atelier : Exploration du Hub Hugging Face — chargement de modèles pré-entraînés, tokenization comparative (BERT vs GPT vs SentencePiece), premiers tests d'inférence sur du texte français.
|
|
| Tâches NLP fondamentales avec Transformers |
Durée : 3h Méthodes pédagogiques : alternance de théorie et de travaux pratiques Matériels et moyens : vidéo-projecteur en présentiel, tableau partagé en classe virtuelle, infrastructure distribuée serveurs Linux | Classification de texte : analyse de sentiment, catégorisation thématique, détection de spam — pipeline et fine tuning rapide. Extraction d'entités nommées (NER) : personnes, organisations, lieux, montants — modèles pré-entraînés et adaptation au domaine. Résumé automatique : extractif vs abstractif, modèles T5 et BART, contrôle de la longueur. Traduction automatique : modèles multilingues (mBART, NLLB, Helsinki-NLP), traduction de domaine spécialisé. Question-answering extractif : retrouver la réponse dans un texte source, SQuAD-style. Analyse syntaxique et sémantique : POS tagging, dépendances, désambiguïsation — ce qui reste utile au-delà des pipelines end-to-end.Atelier : Pipeline NLP multi-tâches sur un corpus métier — classification, NER, résumé et QA sur un jeu de documents réels (juridiques ou support client), évaluation des résultats.
|
|
| Embeddings, recherche sémantique et RAG textuel |
Durée : 3h Méthodes pédagogiques : alternance de théorie et de travaux pratiques Matériels et moyens : vidéo-projecteur en présentiel, tableau partagé en classe virtuelle, infrastructure distribuée serveurs Linux | Embeddings de texte : principe, sentence-transformers, modèles d'embedding multilingues (e5, BGE, Solon). Similarité sémantique : cosinus, distance euclidienne — applications (déduplication, clustering de tickets, détection de plagiat). Bases vectorielles : Chroma, FAISS, pgvector, Pinecone — insertion, recherche, filtrage par métadonnées. Chunking de documents : stratégies (taille fixe, par paragraphe, sémantique), impact sur la qualité du retrieval. Architecture RAG (Retrieval Augmented Generation) : ingestion, indexation, requête, reranking, génération. RAG avancé : hybrid search (keyword + sémantique), reranking (cross-encoder), gestion des sources et citations. Évaluation d'un pipeline RAG : métriques de retrieval (recall@k, MRR), métriques de génération (faithfulness, relevance).Atelier : Construction d'un RAG textuel complet — ingestion d'un corpus documentaire, chunking, indexation vectorielle, recherche sémantique, génération de réponses avec citations, évaluation de la qualité.
|
|
| Adaptation de modèles et traitement de cas métier |
Durée : 3h Méthodes pédagogiques : alternance de théorie et de travaux pratiques Matériels et moyens : vidéo-projecteur en présentiel, tableau partagé en classe virtuelle, infrastructure distribuée serveurs Linux | Quand fine-tuner un modèle NLP vs utiliser un pré-entraîné tel quel vs passer par un LLM en zero-shot. Fine tuning léger d'un modèle BERT/CamemBERT : classification métier, NER de domaine — avec Hugging Face Trainer. Préparation de datasets NLP : annotation (Label Studio, Argilla), formats Hugging Face Datasets, augmentation de données textuelles. LLM pour le NLP : utiliser GPT/Mistral/Llama en zero-shot ou few-shot pour des tâches NLP sans entraînement — prompting structuré. Comparaison systématique : modèle spécialisé fine-tuné vs LLM généraliste — coût, latence, qualité, maintenance. Cas métier types : extraction d'informations dans des contrats, classification de tickets support, analyse de verbatims clients, veille réglementaire.Atelier : Adaptation d'un modèle NER à un domaine métier — annotation d'un petit corpus, fine tuning de CamemBERT, comparaison avec un LLM en few-shot sur les mêmes données, analyse coût/qualité.
|
|
| Évaluation, déploiement et passage à l'échelle |
Durée : 2h30 Méthodes pédagogiques : alternance de théorie et de travaux pratiques Matériels et moyens : vidéo-projecteur en présentiel, tableau partagé en classe virtuelle, infrastructure distribuée serveurs Linux | Métriques NLP : F1, précision, rappel pour la classification et le NER. ROUGE et BERTScore pour le résumé. Évaluation humaine et LLM-as-judge. Construction d'un benchmark maison : jeu de tests représentatif, scoring automatique, tests de régression entre versions. Déploiement d'un modèle NLP : API FastAPI, batch processing, gestion de la charge. Optimisation pour la production : quantification ONNX, distillation de modèle (DistilBERT), choix du runtime (Transformers, ONNX Runtime, TensorRT). Traitement à grande échelle : parallélisation, processing de corpus volumineux, pipelines batch. Veille et cycle de vie : drift linguistique, réentraînement planifié, monitoring de la qualité en production.Atelier : Pipeline de production NLP — export ONNX d'un modèle fine-tuné, déploiement API, benchmark de latence, traitement batch d'un corpus de 10 000 documents.
|