Pourquoi le RAG : augmenter un LLM avec des données métier sans réentraînement.
Architecture RAG standard : ingestion → chunking → embedding → indexation → retrieval → génération.
Stratégies de chunking : taille fixe, sémantique, par structure de document — impact sur la qualité du retrieval.
Embeddings : choix du modèle (e5, BGE, Solon), dimensionnement, mise à jour incrémentale.
Bases vectorielles : Chroma, pgvector, Weaviate, Pinecone — critères de choix (volume, latence, coût, hébergement). Haute disponibilité et sauvegarde des index.
Recherche hybride : keyword (BM25) + sémantique. Reranking (cross-encoder). Impact sur l'architecture.
RAG avancé : multi-index (plusieurs sources documentaires), RAG conversationnel (reformulation de requête), RAG multi-modal (texte + images).
Évaluation d'un pipeline RAG : métriques de retrieval (recall@k, MRR), métriques de génération (faithfulness, relevance). Architecture de test automatisé.
Anti-patterns RAG : chunking trop fin, embeddings inadaptés au domaine, absence de reranking, pas de monitoring de la qualité.
Atelier : Conception d'une architecture RAG complète pour un corpus documentaire métier — choix des composants, schéma d'architecture, stratégie de chunking, pipeline d'évaluation, plan de mise en production.