Merci d'avoir envoyé votre demande ! Un membre de notre équipe vous contactera sous peu.
Merci d'avoir envoyé votre réservation ! Un membre de notre équipe vous contactera sous peu.
Plan du cours
Aperçu des technologies de reconnaissance vocale
- Histoire et évolution de la reconnaissance vocale
- Modèles acoustiques, modèles linguistiques et décodage
- Architectures modernes : RNNs, transformers et Whisper
Prétraitement audio et bases de la transcription
- Gestion des formats audio et des taux d'échantillonnage
- Nettoyage, rognage et segmentation audio
- Génération de texte à partir de l'audio : en temps réel versus par lots
Manipulation pratique de Whisper et d'autres API
- Installation et utilisation d'OpenAI Whisper
- Appel d'API cloud (Google, Azure) pour la transcription
- Comparaison des performances, de la latence et du coût
Langues, accents et adaptation à un domaine spécifique
- Travail avec plusieurs langues et accents
- Vocabulaires personnalisés et tolérance au bruit
- Gestion des langages juridiques, médicaux ou techniques
Mise en forme de la sortie et intégration
- Ajout d'horodatage, de ponctuation et de labels de locuteur
- Exportation au format texte, SRT ou JSON
- Intégration des transcriptions dans des applications ou des bases de données
Laboratoires d'implémentation de cas d'utilisation
- Transcription de réunions, d'entretiens ou de podcasts
- Systèmes de commande vocale vers texte
- Sous-titres en temps réel pour des flux vidéo/audio
Évaluation, limitations et éthique
- Métriques de précision et benchmarking des modèles
- Biais et équité dans les modèles vocaux
- Considérations sur la confidentialité et la conformité
Résumé et étapes suivantes
Pré requis
- Une compréhension des concepts généraux de l'IA et de l'apprentissage automatique
- Familiarité avec les formats et outils audio ou multimédia
Public cible
- Data scientists et ingénieurs IA travaillant avec des données vocales
- Développeurs de logiciels construisant des applications basées sur la transcription
- Organisations explorant la reconnaissance vocale pour l'automatisation
14 Heures