Merci d'avoir envoyé votre demande ! Un membre de notre équipe vous contactera sous peu.
Merci d'avoir envoyé votre réservation ! Un membre de notre équipe vous contactera sous peu.
Plan du cours
Introduction à l'IA multimodale et Ollama
- Aperçu de l'apprentissage multimodal
- Défis clés dans l'intégration vision-langage
- Fonctionnalités et architecture d'Ollama
Configuration de l'environnement Ollama
- Installation et configuration d'Ollama
- Traitement des déploiements locaux de modèles
- Intégration d'Ollama avec Python et Jupyter
Traitement des entrées multimodales
- Intégration texte-et-image
- Incorporation de l'audio et des données structurées
- Conception de pipelines de prétraitement
Applications d'analyse documentaire
- Extraction d'informations structurées à partir de PDFs et images
- Combinaison de l'OCR avec les modèles de langage
- Construction de workflows d'analyse de documents intelligents
Réponse visuelle aux questions (VQA)
- Configuration des jeux de données VQA et des références
- Formation et évaluation des modèles multimodaux
- Construction d'applications interactives VQA
Conception d'agents multimodaux
- Principes de conception d'agents avec raisonnement multimodal
- Combinaison de la perception, du langage et de l'action
- Déploiement d'agents pour des cas d'utilisation réels
Intégration avancée et optimisation
- Ajustement fin des modèles multimodaux avec Ollama
- Optimisation de la performance d'inférence
- Considérations d'évolutivité et de déploiement
Récapitulation et prochaines étapes
Pré requis
- Compréhension approfondie des concepts d'apprentissage machine
- Expérience avec les frameworks d'apprentissage profond tels que PyTorch ou TensorFlow
- Familiarité avec le traitement du langage naturel et la vision par ordinateur
Public cible
- Ingénieurs en apprentissage machine
- Chercheurs en intelligence artificielle
- Développeurs de produits intégrant des workflows de vision et de texte
21 Heures