Plan du cours

Introduction à l'IA multimodale et Ollama

  • Aperçu de l'apprentissage multimodal
  • Défis clés dans l'intégration vision-langage
  • Fonctionnalités et architecture d'Ollama

Configuration de l'environnement Ollama

  • Installation et configuration d'Ollama
  • Traitement des déploiements locaux de modèles
  • Intégration d'Ollama avec Python et Jupyter

Traitement des entrées multimodales

  • Intégration texte-et-image
  • Incorporation de l'audio et des données structurées
  • Conception de pipelines de prétraitement

Applications d'analyse documentaire

  • Extraction d'informations structurées à partir de PDFs et images
  • Combinaison de l'OCR avec les modèles de langage
  • Construction de workflows d'analyse de documents intelligents

Réponse visuelle aux questions (VQA)

  • Configuration des jeux de données VQA et des références
  • Formation et évaluation des modèles multimodaux
  • Construction d'applications interactives VQA

Conception d'agents multimodaux

  • Principes de conception d'agents avec raisonnement multimodal
  • Combinaison de la perception, du langage et de l'action
  • Déploiement d'agents pour des cas d'utilisation réels

Intégration avancée et optimisation

  • Ajustement fin des modèles multimodaux avec Ollama
  • Optimisation de la performance d'inférence
  • Considérations d'évolutivité et de déploiement

Récapitulation et prochaines étapes

Pré requis

  • Compréhension approfondie des concepts d'apprentissage machine
  • Expérience avec les frameworks d'apprentissage profond tels que PyTorch ou TensorFlow
  • Familiarité avec le traitement du langage naturel et la vision par ordinateur

Public cible

  • Ingénieurs en apprentissage machine
  • Chercheurs en intelligence artificielle
  • Développeurs de produits intégrant des workflows de vision et de texte
 21 Heures

Nombre de participants


Prix ​​par Participant

Cours à venir

Catégories Similaires