Prenez contact avec nous

Plan du cours

Fondamentaux du déploiement en production de Tencent Hunyuan

  • Aperçu des scénarios de service des modèles Tencent Hunyuan
  • Caractéristiques de production des modèles de grande taille et des modèles MoE
  • Goulots d'étranglement courants en termes de latence, de débit et de coûts
  • Définition des objectifs de niveau de service pour les charges de travail d'inférence

Architecture de déploiement et flux de service

  • Composants principaux d'une pile d'inférence en production
  • Choix entre les modèles de déploiement conteneurisés, sur site et cloud
  • Chargement des modèles, routage des requêtes et bases de l'allocation GPU
  • Conception axée sur la fiabilité et la simplicité opérationnelle

Optimisation de la latence en pratique

  • Utilisation de moteurs d'inférence optimisés tels que TensorRT lorsque cela est applicable
  • Concepts de cache KV et ajustement pratique du cache
  • Réduction des surcoûts de démarrage, de préchauffage et de réponse
  • Mesure du temps jusqu'au premier jeton et de la vitesse de génération de jetons

Débit, regroupement par lots et efficacité du GPU

  • Stratégies de regroupement continu et de regroupement par lots de requêtes
  • Gestion de la concurrence et du comportement des files d'attente
  • Amélioration de l'utilisation du GPU sans nuire à l'expérience utilisateur
  • Gestion des requêtes à contexte long et des charges de travail mixtes

Quantification et contrôle des coûts

  • Importance de la quantification pour le service en production
  • Compromis pratiques entre FP16, INT8 et d'autres options de précision courantes
  • Équilibre entre qualité du modèle, latence et coût de l'infrastructure
  • Élaboration d'une liste de contrôle simple d'optimisation des coûts

Opérations, surveillance et revue de préparation

  • Déclencheurs de mise à l'échelle automatique pour les services d'inférence
  • Surveillance de la latence, du débit, de l'utilisation du cache et de la santé du GPU
  • Bases de la journalisation, des alertes et de la gestion des incidents
  • Examen d'un déploiement de référence et élaboration d'un plan d'amélioration

Pré requis

  • Compréhension de base du déploiement des grands modèles de langage et des flux de travail d'inférence
  • Expérience avec les conteneurs, l'infrastructure cloud ou sur site, et les services basés sur des API
  • Connaissance pratique de Python ou des tâches d'ingénierie système

Cible

  • Ingénieurs en apprentissage automatique déployant des LLM en production
  • Ingénieurs de plateforme responsables des services d'inférence basés sur GPU
  • Architectes de solutions concevant des plateformes de service d'IA évolutives
 14 Heures

Nombre de participants


Prix par participant

Cours à venir

Catégories Similaires