Merci d'avoir envoyé votre demande ! Un membre de notre équipe vous contactera sous peu.
Merci d'avoir envoyé votre réservation ! Un membre de notre équipe vous contactera sous peu.
Plan du cours
Introduction à l'AIOps Prédictive
- Aperçu des analyses prédictives dans les opérations IT
- Sources de données pour la prédiction (logs, métriques, événements)
- Concepts clés en forecasting de séries temporelles et en détection d'anomalies
Conception de Modèles de Prédiction des Incidents
- Étiquetage des incidents historiques et du comportement du système
- Choix et entraînement des modèles (par exemple, LSTM, Random Forest, AutoML)
- Évaluation des performances du modèle et gestion des faux positifs
Collecte de Données et Ingénierie des Caractéristiques
- Ingestion et alignement des données de logs et de métriques pour l'entrée du modèle
- Extraction de caractéristiques à partir de données structurées et non structurées
- Gestion du bruit et des données manquantes dans les pipelines opérationnels
Automatisation de l'Analyse des Causes Racines (RCA)
- Corrélation basée sur un graphe des services et de l'infrastructure
- Utilisation de ML pour inférer les causes probables à partir des chaînes d'événements
- Visualisation de la RCA avec des tableaux de bord conscients de la topologie
Remédiation et Automatisation des Workflows
- Intégration à des plateformes d'automatisation (par exemple, Ansible, Rundeck)
- Déclenchement de rollbacks, redémarrages ou redirections de trafic
- Audit et documentation des interventions automatisées
Évolution des Pipelines AIOps Intelligents
- MLOps pour l'observabilité : retraining et versionnement de modèles
- Exécution de prédictions en temps réel sur des nœuds distribués
- Meilleures pratiques pour le déploiement d'AIOps dans des environnements de production
Études de Cas et Applications Pratiques
- Analyse de données réelles d'incidents à l'aide de modèles AIOps prédictifs
- Déploiement de pipelines RCA avec des données synthétiques et de production
- Examen des cas d'usage de l'industrie : pannes cloud, instabilité des microservices, dégradations réseau
Résumé et Étapes Suivantes
Pré requis
- Expérience avec des systèmes de surveillance tels que Prometheus ou ELK
- Connaissances pratiques de Python et d'apprentissage automatique de base
- Familiarité avec les workflows de gestion des incidents
Public cible
- Ingénieurs sénior en fiabilité du site (SREs)
- Architectes d'automatisation IT
- Responsables de plateformes DevOps et d'observabilité
14 Heures