Formation : Architectures de solutions IA

Durée	3 jours
Code cours	IA007
Dates	15 au 17 juin 28 au 30 septembre 30 novembre au 2 décembre (cliquez sur une date pour vous inscrire)

Public:

Architectes IA, architectes SI, tech leads, ingénieurs MLOps, responsables techniques impliqués dans la conception et le déploiement de solutions IA.

Objectifs:

Concevoir des architectures de solutions IA adaptées aux contraintes métier. Arbitrer entre les approches (prompt engineering, RAG, fine tuning, modèle spécialisé). Architecturer le serving de modèles ML et LLM en production. Concevoir des systèmes RAG et agentiques robustes. Intégrer l'IA dans un SI existant. Sécuriser et gouverner les déploiements IA.

Connaissances préalables nécessaires:

Expérience en architecture logicielle ou infrastructure. Connaissance des concepts fondamentaux de l'IA (ML, deep learning, LLM).

Déroulé pédagogique


	Paysage architectural de l'IA
Durée : 3h Méthodes pédagogiques : alternance de théorie et de travaux pratiques Matériels et moyens : vidéo-projecteur en présentiel, tableau partagé en classe virtuelle, infrastructure distribuée serveurs Linux	Les deux mondes : ML classique (modèles entraînés sur données métier) vs LLM/IA générative (modèles pré-entraînés adaptés). Cas d'usage respectifs, complémentarités. Arbre de décision architectural : prompt engineering → RAG → fine tuning (LoRA, QLoRA) → modèle entraîné from scratch. Critères : volume de données, spécificité du domaine, latence, coût, confidentialité. Modèles d'exécution : inférence synchrone (API), asynchrone (queue), batch, streaming. Critères de choix selon le cas d'usage. Cloud vs on-premise vs edge vs hybride : grille de décision pour l'IA (souveraineté, coûts, latence, GPU). Écosystème des composants d'une solution IA : modèle, serving, gateway, vector store, guardrails, observabilité — cartographie des briques et de leurs interactions. Atelier : Face à 4 cas d'usage métier (chatbot support, détection de fraude temps réel, analyse documentaire juridique, inspection visuelle industrielle) — choix argumenté de l'approche, de l'architecture cible et du modèle d'exécution. Présentation et débat.

	Architectures de serving et déploiement de modèles
Durée : 3h Méthodes pédagogiques : alternance de théorie et de travaux pratiques Matériels et moyens : vidéo-projecteur en présentiel, tableau partagé en classe virtuelle, infrastructure distribuée serveurs Linux	Serving de modèles ML classiques : TensorFlow Serving, Triton, ONNX Runtime — architectures et patterns. Serving de LLM : vLLM, TGI, Ollama — continuous batching, PagedAttention, KV-cache. Dimensionnement : VRAM, débit tokens/s, utilisateurs concurrents. Architecture multi-LoRA : un modèle de base + N adaptateurs LoRA chargés à la volée selon la requête. Multi-tenancy sur un seul GPU. Support natif vLLM. Gateway LLM : routage intelligent (petit modèle pour les requêtes simples, grand modèle pour les tâches complexes), caching sémantique, rate limiting, fallback entre providers. Patterns de déploiement : bleu-vert, canari, mode fantôme (shadow), tests A/B de modèles et de prompts. Streaming SSE : gestion des connexions longues, impact sur le load balancing et les reverse proxies. Architecture multi-modèles : registre de modèles, gestion des versions, cohabitation ML classique + LLM sur la même infra. Atelier : Conception d'une architecture de serving multi-modèles — gateway avec routage intelligent, serving vLLM avec 2 adaptateurs LoRA, déploiement canari, schéma d'architecture documenté.

	Architectures RAG
Durée : 3h Méthodes pédagogiques : alternance de théorie et de travaux pratiques Matériels et moyens : vidéo-projecteur en présentiel, tableau partagé en classe virtuelle, infrastructure distribuée serveurs Linux	Pourquoi le RAG : augmenter un LLM avec des données métier sans réentraînement. Architecture RAG standard : ingestion → chunking → embedding → indexation → retrieval → génération. Stratégies de chunking : taille fixe, sémantique, par structure de document — impact sur la qualité du retrieval. Embeddings : choix du modèle (e5, BGE, Solon), dimensionnement, mise à jour incrémentale. Bases vectorielles : Chroma, pgvector, Weaviate, Pinecone — critères de choix (volume, latence, coût, hébergement). Haute disponibilité et sauvegarde des index. Recherche hybride : keyword (BM25) + sémantique. Reranking (cross-encoder). Impact sur l'architecture. RAG avancé : multi-index (plusieurs sources documentaires), RAG conversationnel (reformulation de requête), RAG multi-modal (texte + images). Évaluation d'un pipeline RAG : métriques de retrieval (recall@k, MRR), métriques de génération (faithfulness, relevance). Architecture de test automatisé. Anti-patterns RAG : chunking trop fin, embeddings inadaptés au domaine, absence de reranking, pas de monitoring de la qualité. Atelier : Conception d'une architecture RAG complète pour un corpus documentaire métier — choix des composants, schéma d'architecture, stratégie de chunking, pipeline d'évaluation, plan de mise en production.

	Architectures agentiques
Durée : 2h30 Méthodes pédagogiques : alternance de théorie et de travaux pratiques Matériels et moyens : vidéo-projecteur en présentiel, tableau partagé en classe virtuelle, infrastructure distribuée serveurs Linux	Agent vs chatbot vs pipeline RAG : frontières et cas d'usage. Boucles de raisonnement : ReAct, plan-and-execute, self-reflection — implications architecturales (latence, coût, nombre d'appels LLM). Outils et intégrations : function calling, tool use, MCP (Model Context Protocol) — comment l'agent interagit avec le SI. Mémoire : context window (court terme) vs mémoire vectorielle (long terme) vs graphe de connaissances. Gestion d'état, checkpointing, reprise sur erreur. Architectures multi-agents : hiérarchique (orchestrateur + spécialistes), pair-à-pair, pipeline. Protocoles de communication inter-agents. Frameworks : LangGraph, CrewAI, AutoGen — critères de choix. Patterns de déploiement agentique : agent as a service, agent event-driven, agent embarqué (edge). Maîtrise des coûts : estimation du nombre d'appels LLM par tâche, caching, throttling, choix du modèle par étape. Fiabilité : détection de boucles infinies, timeout, fallback, human-in-the-loop. Atelier : Conception d'une architecture multi-agents — orchestrateur + 3 agents spécialisés, schéma d'architecture, protocole de communication, gestion de la mémoire, estimation des coûts, plan de guardrails.

	Dimensionnement et infrastructure GPU
Durée : 2h30 Méthodes pédagogiques : alternance de théorie et de travaux pratiques Matériels et moyens : vidéo-projecteur en présentiel, tableau partagé en classe virtuelle, infrastructure distribuée serveurs Linux	Anatomie d'un serveur d'inférence : GPU, VRAM, NVLink, PCIe — ce que l'architecte doit comprendre. Dimensionnement GPU pour l'inférence : taille du modèle × quantification × batch size × utilisateurs concurrents → VRAM et débit. Quantification : GGUF, GPTQ, AWQ, FP8 — impact sur la qualité et les performances. Décision architecturale : quel niveau de quantification pour quel cas d'usage. Architectures GPU : mono-GPU, multi-GPU (tensor parallelism), multi-nœuds. Quand passer à l'échelle. Inférence edge : Jetson, ONNX Runtime, TensorRT — contraintes et patterns d'architecture. Scaling : autoscaling basé sur la file d'attente, scale-to-zero, burst vers le cloud. Kubernetes et scheduling GPU. Optimisation des coûts : instances spot, capacité réservée, mutualisation des GPU entre workloads, caching sémantique. Atelier : Dimensionnement d'une infrastructure d'inférence — calcul des besoins GPU pour 3 scénarios (assistant interne 50 users, API client 500 users, edge industriel), estimation des coûts cloud vs on-premise sur 12 mois.

	Intégration de l'IA dans le SI existant
Durée : 2h30 Méthodes pédagogiques : alternance de théorie et de travaux pratiques Matériels et moyens : vidéo-projecteur en présentiel, tableau partagé en classe virtuelle, infrastructure distribuée serveurs Linux	Patterns d'intégration : IA comme API (découplé), IA comme copilote (intégré dans l'UI), IA comme automatisation (event-driven). Intégrer un RAG dans une application existante : ajout d'un assistant contextuel sans refonte, gestion du cycle de vie des documents indexés. Intégrer un agent dans un SI : périmètre d'action, permissions, audit des actions automatisées, principe du moindre privilège pour les outils. Gestion des APIs IA : versioning, rétrocompatibilité, contrats d'interface (schémas function calling). Cohabitation avec les systèmes hérités : couches d'adaptation, migration progressive, coexistence. Impact organisationnel : qui maintient le modèle, qui gère les prompts, qui surveille la qualité — responsabilités et interfaces entre équipes. Atelier : Stratégie d'intégration — insertion d'un assistant RAG et d'un agent d'automatisation dans un SI existant (schéma d'architecture, contrats d'API, matrice RACI, plan de migration).

	Sécurité, gouvernance et observabilité
Durée : 2h30 Méthodes pédagogiques : alternance de théorie et de travaux pratiques Matériels et moyens : vidéo-projecteur en présentiel, tableau partagé en classe virtuelle, infrastructure distribuée serveurs Linux	Menaces spécifiques à l'IA : prompt injection (directe, indirecte), exfiltration de données via les outils, jailbreak, hallucination comme vecteur de désinformation. Guardrails : filtrage d'entrée/sortie, détection d'anomalies comportementales, sandboxing des actions à fort impact. Positionnement dans l'architecture (gateway vs applicatif vs modèle). Sécurisation des données : chiffrement des embeddings et des index vectoriels, isolation des données par tenant, conformité RGPD (droit à l'oubli dans un vector store). Observabilité IA : métriques métier (taux de résolution, satisfaction), métriques techniques (latence, tokens, coût), traces LLM (LangSmith, Langfuse, Phoenix). Construction d'un socle d'observabilité. Gouvernance des prompts : versionning, revue, promotion entre environnements, audit trail. Gouvernance des modèles : registre, traçabilité de la provenance, licences, documentation des décisions (ADR). Méthodologies de documentation : modèle C4, arc42 — documenter une architecture IA. Atelier : Audit de sécurité d'une architecture IA — modélisation des menaces, positionnement des guardrails, conception du socle d'observabilité, rédaction d'un ADR pour un choix architectural clé.

	Études de cas et projet de synthèse
Durée : 2h30 Méthodes pédagogiques : alternance de théorie et de travaux pratiques Matériels et moyens : vidéo-projecteur en présentiel, tableau partagé en classe virtuelle, infrastructure distribuée serveurs Linux	Étude de cas 1 : assistant de support client — RAG + agent d'escalade, intégration CRM, serving multi-LoRA par client. Étude de cas 2 : copilote métier intégré à un ERP — agent avec outils, sécurité des actions, human-in-the-loop. Étude de cas 3 : plateforme d'IA interne multi-équipes — gateway centralisée, multi-modèles, observabilité, FinOps. Compromis architecturaux : performance vs coût, sécurité vs expérience utilisateur, modèle spécialisé vs LLM généraliste, cloud vs on-premise. Limites et perspectives : fiabilité des agents, coûts à l'échelle, évolution des standards (MCP, A2A). Atelier final : Conception complète d'une architecture IA pour un cas d'usage choisi par le stagiaire — schéma d'architecture C4, ADR des choix clés, dimensionnement, plan de sécurité, estimation des coûts. Présentation et revue par les pairs.

Retour au descriptif
Modalités et délais d'accès
Méthodes mobilisées et modalités d'évaluation

Phirio

+33 1 55 33 52 10
info@phirio.fr

Calendrier
Code cours : IA007

Contenu de la formation
Architectures de solutions IA:

Paysage architectural de l'IA
Architectures de serving et déploiement de modèles
Architectures RAG
Architectures agentiques
Dimensionnement et infrastructure GPU
Intégration de l'IA dans le SI existant
Sécurité, gouvernance et observabilité
Études de cas et projet de synthèse

Accès à la liste des cours

Vous pouvez bien entendu composer votre programme personnel à partir de nos descriptifs de cours

Télécharger le programme

Version du document : T501
Date de mise à jour du document : 2026/06/01

Phirio

Formations