Formation : Architectures de solutions IA

Durée de la formation

3 jours

Code cours

IA007

Prix de la formation

2 580 € HT

Sessions programmées

15 au 17 juin 28 au 30 septembre 30 novembre au 2 décembre

Public :

Architectes IA, architectes SI, tech leads, ingénieurs MLOps, responsables techniques impliqués dans la conception et le déploiement de solutions IA.

Objectifs :

Concevoir des architectures de solutions IA adaptées aux contraintes métier. Arbitrer entre les approches (prompt engineering, RAG, fine tuning, modèle spécialisé). Architecturer le serving de modèles ML et LLM en production. Concevoir des systèmes RAG et agentiques robustes. Intégrer l'IA dans un SI existant. Sécuriser et gouverner les déploiements IA.

Prérequis :

Expérience en architecture logicielle ou infrastructure. Connaissance des concepts fondamentaux de l'IA (ML, deep learning, LLM).

Pour tester vos connaissances actuelles sur le sujet : Validation des pré-requis
Pour nous préciser vos attentes : Validation des attentes

Programme détaillé de la formation

Paysage architectural de l'IA

Les deux mondes : ML classique (modèles entraînés sur données métier) vs LLM/IA générative (modèles pré-entraînés adaptés). Cas d'usage respectifs, complémentarités.
Arbre de décision architectural : prompt engineering → RAG → fine tuning (LoRA, QLoRA) → modèle entraîné from scratch. Critères : volume de données, spécificité du domaine, latence, coût, confidentialité.
Modèles d'exécution : inférence synchrone (API), asynchrone (queue), batch, streaming. Critères de choix selon le cas d'usage.
Cloud vs on-premise vs edge vs hybride : grille de décision pour l'IA (souveraineté, coûts, latence, GPU).
Écosystème des composants d'une solution IA : modèle, serving, gateway, vector store, guardrails, observabilité — cartographie des briques et de leurs interactions.

Atelier : Face à 4 cas d'usage métier (chatbot support, détection de fraude temps réel, analyse documentaire juridique, inspection visuelle industrielle) — choix argumenté de l'approche, de l'architecture cible et du modèle d'exécution. Présentation et débat.

Architectures de serving et déploiement de modèles

Serving de modèles ML classiques : TensorFlow Serving, Triton, ONNX Runtime — architectures et patterns.
Serving de LLM : vLLM, TGI, Ollama — continuous batching, PagedAttention, KV-cache. Dimensionnement : VRAM, débit tokens/s, utilisateurs concurrents.
Architecture multi-LoRA : un modèle de base + N adaptateurs LoRA chargés à la volée selon la requête. Multi-tenancy sur un seul GPU. Support natif vLLM.
Gateway LLM : routage intelligent (petit modèle pour les requêtes simples, grand modèle pour les tâches complexes), caching sémantique, rate limiting, fallback entre providers.
Patterns de déploiement : bleu-vert, canari, mode fantôme (shadow), tests A/B de modèles et de prompts.
Streaming SSE : gestion des connexions longues, impact sur le load balancing et les reverse proxies.
Architecture multi-modèles : registre de modèles, gestion des versions, cohabitation ML classique + LLM sur la même infra.

Atelier : Conception d'une architecture de serving multi-modèles — gateway avec routage intelligent, serving vLLM avec 2 adaptateurs LoRA, déploiement canari, schéma d'architecture documenté.

Architectures RAG

Pourquoi le RAG : augmenter un LLM avec des données métier sans réentraînement.
Architecture RAG standard : ingestion → chunking → embedding → indexation → retrieval → génération.
Stratégies de chunking : taille fixe, sémantique, par structure de document — impact sur la qualité du retrieval.
Embeddings : choix du modèle (e5, BGE, Solon), dimensionnement, mise à jour incrémentale.
Bases vectorielles : Chroma, pgvector, Weaviate, Pinecone — critères de choix (volume, latence, coût, hébergement). Haute disponibilité et sauvegarde des index.
Recherche hybride : keyword (BM25) + sémantique. Reranking (cross-encoder). Impact sur l'architecture.
RAG avancé : multi-index (plusieurs sources documentaires), RAG conversationnel (reformulation de requête), RAG multi-modal (texte + images).
Évaluation d'un pipeline RAG : métriques de retrieval (recall@k, MRR), métriques de génération (faithfulness, relevance). Architecture de test automatisé.
Anti-patterns RAG : chunking trop fin, embeddings inadaptés au domaine, absence de reranking, pas de monitoring de la qualité.

Atelier : Conception d'une architecture RAG complète pour un corpus documentaire métier — choix des composants, schéma d'architecture, stratégie de chunking, pipeline d'évaluation, plan de mise en production.

Architectures agentiques

Agent vs chatbot vs pipeline RAG : frontières et cas d'usage.
Boucles de raisonnement : ReAct, plan-and-execute, self-reflection — implications architecturales (latence, coût, nombre d'appels LLM).
Outils et intégrations : function calling, tool use, MCP (Model Context Protocol) — comment l'agent interagit avec le SI.
Mémoire : context window (court terme) vs mémoire vectorielle (long terme) vs graphe de connaissances. Gestion d'état, checkpointing, reprise sur erreur.
Architectures multi-agents : hiérarchique (orchestrateur + spécialistes), pair-à-pair, pipeline. Protocoles de communication inter-agents. Frameworks : LangGraph, CrewAI, AutoGen — critères de choix.
Patterns de déploiement agentique : agent as a service, agent event-driven, agent embarqué (edge).
Maîtrise des coûts : estimation du nombre d'appels LLM par tâche, caching, throttling, choix du modèle par étape.
Fiabilité : détection de boucles infinies, timeout, fallback, human-in-the-loop.

Atelier : Conception d'une architecture multi-agents — orchestrateur + 3 agents spécialisés, schéma d'architecture, protocole de communication, gestion de la mémoire, estimation des coûts, plan de guardrails.

Dimensionnement et infrastructure GPU

Anatomie d'un serveur d'inférence : GPU, VRAM, NVLink, PCIe — ce que l'architecte doit comprendre.
Dimensionnement GPU pour l'inférence : taille du modèle × quantification × batch size × utilisateurs concurrents → VRAM et débit.
Quantification : GGUF, GPTQ, AWQ, FP8 — impact sur la qualité et les performances. Décision architecturale : quel niveau de quantification pour quel cas d'usage.
Architectures GPU : mono-GPU, multi-GPU (tensor parallelism), multi-nœuds. Quand passer à l'échelle.
Inférence edge : Jetson, ONNX Runtime, TensorRT — contraintes et patterns d'architecture.
Scaling : autoscaling basé sur la file d'attente, scale-to-zero, burst vers le cloud. Kubernetes et scheduling GPU.
Optimisation des coûts : instances spot, capacité réservée, mutualisation des GPU entre workloads, caching sémantique.

Atelier : Dimensionnement d'une infrastructure d'inférence — calcul des besoins GPU pour 3 scénarios (assistant interne 50 users, API client 500 users, edge industriel), estimation des coûts cloud vs on-premise sur 12 mois.

Intégration de l'IA dans le SI existant

Patterns d'intégration : IA comme API (découplé), IA comme copilote (intégré dans l'UI), IA comme automatisation (event-driven).
Intégrer un RAG dans une application existante : ajout d'un assistant contextuel sans refonte, gestion du cycle de vie des documents indexés.
Intégrer un agent dans un SI : périmètre d'action, permissions, audit des actions automatisées, principe du moindre privilège pour les outils.
Gestion des APIs IA : versioning, rétrocompatibilité, contrats d'interface (schémas function calling).
Cohabitation avec les systèmes hérités : couches d'adaptation, migration progressive, coexistence.
Impact organisationnel : qui maintient le modèle, qui gère les prompts, qui surveille la qualité — responsabilités et interfaces entre équipes.

Atelier : Stratégie d'intégration — insertion d'un assistant RAG et d'un agent d'automatisation dans un SI existant (schéma d'architecture, contrats d'API, matrice RACI, plan de migration).

Sécurité, gouvernance et observabilité

Menaces spécifiques à l'IA : prompt injection (directe, indirecte), exfiltration de données via les outils, jailbreak, hallucination comme vecteur de désinformation.
Guardrails : filtrage d'entrée/sortie, détection d'anomalies comportementales, sandboxing des actions à fort impact. Positionnement dans l'architecture (gateway vs applicatif vs modèle).
Sécurisation des données : chiffrement des embeddings et des index vectoriels, isolation des données par tenant, conformité RGPD (droit à l'oubli dans un vector store).
Observabilité IA : métriques métier (taux de résolution, satisfaction), métriques techniques (latence, tokens, coût), traces LLM (LangSmith, Langfuse, Phoenix). Construction d'un socle d'observabilité.
Gouvernance des prompts : versionning, revue, promotion entre environnements, audit trail.
Gouvernance des modèles : registre, traçabilité de la provenance, licences, documentation des décisions (ADR).
Méthodologies de documentation : modèle C4, arc42 — documenter une architecture IA.

Atelier : Audit de sécurité d'une architecture IA — modélisation des menaces, positionnement des guardrails, conception du socle d'observabilité, rédaction d'un ADR pour un choix architectural clé.

Études de cas et projet de synthèse

Étude de cas 1 : assistant de support client — RAG + agent d'escalade, intégration CRM, serving multi-LoRA par client.
Étude de cas 2 : copilote métier intégré à un ERP — agent avec outils, sécurité des actions, human-in-the-loop.
Étude de cas 3 : plateforme d'IA interne multi-équipes — gateway centralisée, multi-modèles, observabilité, FinOps.
Compromis architecturaux : performance vs coût, sécurité vs expérience utilisateur, modèle spécialisé vs LLM généraliste, cloud vs on-premise.
Limites et perspectives : fiabilité des agents, coûts à l'échelle, évolution des standards (MCP, A2A).
Atelier final : Conception complète d'une architecture IA pour un cas d'usage choisi par le stagiaire — schéma d'architecture C4, ADR des choix clés, dimensionnement, plan de sécurité, estimation des coûts. Présentation et revue par les pairs.

Ces formations pourraient aussi vous intéresser

Administration de solutions IA en production

Code : IA070|Durée : 3 jours

IA agentique - Conception et mise en œuvre

Code : IA008|Durée : 3 jours

Interfacer des applications et des solutions IA

Code : IA030|Durée : 3 jours

Phirio

+33 1 55 33 52 10
info@phirio.fr

Calendrier
Code cours : IA007

Contenu de la formation
Architectures de solutions IA:

Paysage architectural de l'IA
Architectures de serving et déploiement de modèles
Architectures RAG
Architectures agentiques
Dimensionnement et infrastructure GPU
Intégration de l'IA dans le SI existant
Sécurité, gouvernance et observabilité
Études de cas et projet de synthèse

Accès à la liste des cours

Vous pouvez bien entendu composer votre programme personnel à partir de nos descriptifs de cours

Télécharger le programme

Version du document : T501
Date de mise à jour du document : 2026/06/01

Formation : Architectures de solutions IA

Durée de la formation

Code cours

Prix de la formation

Sessions programmées

Public :

Objectifs :

Prérequis :

Programme détaillé de la formation

Paysage architectural de l'IA

Architectures de serving et déploiement de modèles

Architectures RAG

Architectures agentiques

Dimensionnement et infrastructure GPU

Intégration de l'IA dans le SI existant

Sécurité, gouvernance et observabilité

Études de cas et projet de synthèse

Liens complémentaires

Déroulé pédagogique

Modalités et délais d'accès

Méthodes mobilisées et modalités d'évaluation

Ces formations pourraient aussi vous intéresser

Administration de solutions IA en production

IA agentique - Conception et mise en œuvre

Interfacer des applications et des solutions IA

Phirio

Phirio

Formations