Merci d'avoir envoyé votre demande ! Un membre de notre équipe vous contactera sous peu.
Merci d'avoir envoyé votre réservation ! Un membre de notre équipe vous contactera sous peu.
Plan du cours
Introduction à l'échelle d'Ollama
- Architecture et considérations sur l'échelle d'Ollama
- Bottlenecks courants dans les déploiements multi-utilisateurs
- Méthodes recommandées pour la préparation de l'infrastructure
Allouer des ressources et optimiser le GPU
- Stratégies efficaces d'utilisation CPU/GPU
- Considérations sur la mémoire et la bande passante
- Contraintes de ressources au niveau des conteneurs
Déploiement avec des conteneurs et Kubernetes
- Conteneurisation d'Ollama avec Docker
- Exécution d'Ollama dans les clusters Kubernetes
- Balancing de charge et découverte de service
Autoscaling et Batching
- Définir des politiques d'auto-échelle pour Ollama
- Techniques d'inférence en lots pour l'optimisation du débit
- Courbes de latence contre débit
Optimisation de la Latence
- Profiling des performances d'inférence
- Stratégies de mise en cache et préchauffage du modèle
- Réduction des surcoûts I/O et de communication
Surveillance et Observabilité
- Intégration de Prometheus pour les métriques
- Création de tableaux de bord avec Grafana
- Alertes et gestion des incidents pour l'infrastructure Ollama
Gestion des Coûts et Stratégies d'échelle
- Allouer le GPU en fonction des coûts
- Considérations entre déploiement dans le cloud et sur site
- Stratégies pour un échelonnement durable
Récapitulation et Étapes Suivantes
Pré requis
- Expérience de l'administration du système Linux
- Compréhension de la conteneurisation et de l'orchestration
- Familiarité avec le déploiement des modèles d'apprentissage automatique
Public cible
- Ingénieurs DevOps
- Équipes d'infrastructure ML
- Ingénieurs de fiabilité des sites
21 Heures