Plan du cours

Fondements des systèmes agences en production

  • Architectures agences : boucles, outils, mémoire et couches d'orchestration
  • Cycle de vie des agents : développement, déploiement et opération continue
  • Défis de la gestion à grande échelle des agents en production

Infrastructures et modèles de déploiement

  • Déploiement d'agents dans des environnements conteneurisés et cloud
  • Modèles de mise à l'échelle : échelonnage horizontal vs vertical, concurrence et limitation
  • Orchestration multi-agents et équilibrage des charges

Surveillance et observabilité

  • Métriques clés : latence, taux de succès, utilisation de la mémoire et profondeur des appels d'agents
  • Traçage de l'activité des agents et des graphes d'appels
  • Instrumentation de l'observabilité avec Prometheus, OpenTelemetry et Grafana

Journalisation, audit et conformité

  • Journalisation centralisée et collecte d'événements structurés
  • Conformité et traçabilité dans les flux de travail agents
  • Conception de traces d'audit et de mécanismes de replay pour le débogage

Optimisation des performances et des ressources

  • Réduction du surcoût d'inférence et optimisation des cycles d'orchestration des agents
  • Mise en cache de modèles et embeddings légers pour une récupération plus rapide
  • Tests de charge et scénarios de stress pour les pipelines d'IA

Contrôle des coûts et gouvernance

  • Compréhension des facteurs de coût des agents : appels API, mémoire, calcul et intégrations externes
  • Suivi des coûts au niveau des agents et mise en œuvre de modèles de chargeback
  • Politiques d'automatisation pour prévenir la prolifération des agents et la consommation de ressources inactives

Stratégies CI/CD et déploiement des agents

  • Intégration des pipelines d'agents dans les systèmes CI/CD
  • Tests, versioning et stratégies de retour en arrière pour les mises à jour itératives des agents
  • Déploiements progressifs et mécanismes de déploiement sécurisés

Récupération en cas de panne et ingénierie de fiabilité

  • Conception pour la tolérance aux pannes et la dégradation gracieuse
  • Modèles de réessai, de délai d'attente et de circuit breaker pour la fiabilité des agents
  • Cadres de réponse aux incidents et post-mortem pour les opérations d'IA

Projet final

  • Construire et déployer un système d'IA agents avec une surveillance complète et un suivi des coûts
  • Simuler la charge, mesurer les performances et optimiser l'utilisation des ressources
  • Présenter l'architecture finale et le tableau de bord de surveillance aux pairs

Résumé et étapes suivantes

Pré requis

  • Compréhension approfondie de MLOps et des systèmes d'apprentissage automatique en production
  • Expérience avec les déploiements conteneurisés (Docker/Kubernetes)
  • Familiarité avec l'optimisation des coûts cloud et les outils d'observabilité

Public cible

  • Ingénieurs MLOps
  • Ingénieurs de fiabilité du site (SREs)
  • Managers techniques supervisant l'infrastructure IA
 21 Heures

Nombre de participants


Prix ​​par Participant

Nos clients témoignent (3)

Cours à venir

Catégories Similaires