Plan du cours

Introduction à AIOps avec des outils open source

  • Aperçu des concepts et avantages de AIOps
  • Prometheus et Grafana dans la pile d’observabilité
  • Où se situe l’apprentissage automatique (ML) dans AIOps: analyse prédictive vs. réactive

Configuration de Prometheus et Grafana

  • Installation et configuration de Prometheus pour la collecte des séries temporelles
  • Création de tableaux de bord dans Grafana en utilisant des métriques en temps réel
  • Exploration des exportateurs, du re-labeling et de la découverte de services

Prétraitement des données pour ML

  • Extraction et transformation des métriques Prometheus
  • Préparation des ensembles de données pour la détection d’anomalies et la prévision
  • Utilisation des transformations Grafana ou des pipelines Python

Application de Machine Learning pour la détection d’anomalies

  • Modes de base d’ML pour la détection des valeurs aberrantes (par exemple, Forêt d'isolement, SVM à une classe)
  • Entraînement et évaluation des modèles sur les données de séries temporelles
  • Visionnage des anomalies dans les tableaux de bord Grafana

Métriques Forecasting avec ML

  • Construction de modèles de prévision simples (ARIMA, Prophet, introduction au LSTM)
  • Prévisions sur la charge du système ou l'utilisation des ressources
  • Utilisation des prédictions pour alerter tôt et prendre des décisions d’échelle

Intégration de ML avec les alertes et l’automatisation

  • Définition de règles d'alerte basées sur la sortie du ML ou des seuils
  • Utilisation d’Alertmanager et de la mise en route des notifications
  • Déclenchement de scripts ou de flux de travail automatisés à partir de la détection d’anomalies

Mise à l’échelle et opérationnalisation de AIOps

  • Intégration des outils externes d’observabilité (par exemple, pile ELK, Moogsoft, Dynatrace)
  • Opérationnalisation des modèles ML dans les pipelines d'observabilité
  • Bonnes pratiques pour AIOps à grande échelle

Résumé et prochaines étapes

Pré requis

  • Une compréhension des concepts de surveillance système et d'observabilité
  • Expérience avec Grafana ou Prometheus
  • Familiarité avec Python et les principes fondamentaux de l'apprentissage automatique (machine learning)

Public cible

  • Ingénieurs en observabilité
  • Équipes d'infrastructure et DevOps
  • Architectes de plateforme de surveillance et ingénieurs de fiabilité des sites (SREs)
 14 Heures

Nombre de participants


Prix ​​par Participant

Cours à venir

Catégories Similaires