Merci d'avoir envoyé votre demande ! Un membre de notre équipe vous contactera sous peu.
Merci d'avoir envoyé votre réservation ! Un membre de notre équipe vous contactera sous peu.
Plan du cours
Aperçu des Technologies Speech Recognition
- Histoire et évolution de la reconnaissance vocale
- Modèles acoustiques, modèles linguistiques et décodage
- Architectures modernes : RNNs, transformers et Whisper
Prétraitement Audio et Fondamentaux de la Transcription
- Gestion des formats audio et des taux d'échantillonnage
- Nettoyage, tronçonnage et segmentation de l'audio
- Génération de texte à partir du son : temps réel contre lots
Pratique avec Whisper et autres API
- Installation et utilisation de OpenAI Whisper
- Appels aux API cloud (Google, Azure) pour la transcription
- Comparaison des performances, latence et coût
Langues, Accentuations et Adaptation du Domaine
- Travail avec plusieurs langues et accents
- Vocabulaires personnalisés et tolérance au bruit
- Gestion des langages juridiques, médicaux ou techniques
Formattage de la Sortie et Intégration
- Ajout de timestamps, ponctuation et étiquettes de locuteur
- Exportation sous forme de texte, SRT ou formats JSON
- Intégration des transcriptions dans les applications ou bases de données
Use Case Ateliers d'implémentation
- Transcription de réunions, entretiens ou podcasts
- Systèmes de commande vocaux-textes
- Sous-titres en temps réel pour les flux vidéo/audio
Évaluation, Limitations et Éthique
- Métriques d'exactitude et benchmarking des modèles
- Biases et équité dans les modèles vocaux
- Considérations en matière de confidentialité et de conformité
Résumé et Prochaines Étapes
Pré requis
- Une compréhension des concepts généraux de l'IA et de l'apprentissage automatique
- Familiarité avec les formats et outils de fichiers audio ou multimédia
Public cible
- Scientifiques des données et ingénieurs IA travaillant sur des données vocales
- Développeurs logiciels construisant des applications basées sur la transcription
- Organisations explorant la reconnaissance vocale pour l'automatisation
14 Heures