Merci d'avoir envoyé votre demande ! Un membre de notre équipe vous contactera sous peu.
Merci d'avoir envoyé votre réservation ! Un membre de notre équipe vous contactera sous peu.
Plan du cours
Infrastructure as Code pour EXO
- Vue d'ensemble des modèles de déploiement EXO : nœud unique, multi-nœuds et clusters RDMA.
- Automatisation de l'installation des dépendances (Xcode, uv, Node.js, Rust) avec la gestion de la configuration.
- Utilisation de Nix flakes pour des builds EXO reproductibles et des environnements de développement.
- Rédaction de playbooks Ansible ou de scripts shell pour le provisionnement sans surveillance des clusters.
Builds reproductibles et intégration CI
- Épingler les dépendances et construire le tableau de bord dans les pipelines CI.
- Exécuter des tests de fumée EXO dans les runners GitHub Actions ou GitLab CI.
- Créer des images de référence et des workflows de retour arrière basés sur des instantanés pour les machines virtuelles macOS et Linux.
- Versionner les fiches de modèles personnalisés alongside du code de l'application.
Découverte des clusters et automatisation du réseau
- Configuration de mDNS et de DNS statique pour une découverte fiable des nœuds libp2p.
- Automatisation de la création de profils réseau et de la gestion du pont Thunderbolt sous macOS.
- Utilisation de namespaces personnalisés (EXO_LIBP2P_NAMESPACE) pour séparer les clusters de dev, de staging et de prod.
- Règles de pare-feu et segmentation réseau pour les environnements multi-locataires.
Gestion du stockage et du cycle de vie des modèles
- Conception des stratégies EXO_MODELS_DIRS et EXO_MODELS_READ_ONLY_DIRS.
- Montage de partages NFS ou SAN en tant que dépôts de modèles en lecture seule pour un provisionnement rapide.
- Nettoyage des caches périmés et politiques de rétention des poids versionnés.
- Automatisation des pré-téléchargements de modèles et des vérifications de santé avant les mises à jour progressives.
Surveillance et alertes
- Acheminement des logs EXO vers une journalisation centralisée (ELK, Loki ou Splunk).
- Création de tableaux de bord Grafana à partir de la sortie EXO_TRACING_ENABLED.
- Alertes sur les changements de membres du cluster, les événements OOM et les pics de latence d'inférence.
- Corrélation de la télémétique matériel macmon avec les régressions de performance des modèles.
Mises à jour, retour arrière et reprise après sinistre
- Préparer les mises à jour des binaires EXO sur un nœud canari avant le déploiement à grande échelle.
- Retour arrière au niveau des modèles : basculer entre des versions quantifiées sans retéléchargement.
- Sauvegarder et restaurer l'état du cluster, les namespaces personnalisés et les poids en cache.
- Documenter les playbooks de reprise pour les scénarios de reconstruction totale du cluster.
- Application du TLS au niveau du proxy inverse (nginx, traefik) pour le tableau de bord et l'API.
- Mise en œuvre de la limitation de débit API et du whitelisting des adresses IP pour les points de terminaison EXO.
- Isolation des clusters avec des VLAN et des politiques de réseau zero-trust.
- Audit de l'accès et maintien d'un inventaire des modèles déployés et de leurs versions.
Pré requis
- Expérience avec les pratiques DevOps (CI/CD, IaC, orchestration de conteneurs)
- Connaissance de l'administration système et de la gestion des packages sous macOS ou Linux
- Compréhension des concepts de réseau, de DNS et de stockage
Audience
- Ingénieurs DevOps
- Architectes infrastructure
- SRE responsables des charges de travail IA sur site
21 Heures
Nos clients témoignent (2)
Craig était très impliqué dans la formation, toujours en s'assurant que nous prêtions attention, en adaptant les exemples à nos activités quotidiennes et en fournissant une réponse chaque fois qu'on lui posait une question, même si l'information n'était pas incluse dans la présentation.
Ecaterina Ioana Nicoale - BOOKING HOLDINGS ROMANIA SRL
Formation - DevOps Foundation®
Traduction automatique
Niveau élevé d’engagement et de connaissances du formateur
Jacek - Softsystem
Formation - DevOps Engineering Foundation (DOEF)®
Traduction automatique