Plan du cours

Introduction aux modèles multimodaux Mistral

  • Aperçu de Mistral Medium et des capacités multimodales
  • Modèles OCR/documents et cas d'utilisation
  • Intégration avec les écosystèmes open source

Pipelines OCR et vision

  • Fondements de l'OCR avec les modèles Mistral
  • Traitement préalable des images et documents scannés
  • Extraction de texte structuré à partir d'images

Compréhension des documents

  • Conception de pipelines NLP pour les documents
  • Reconnaissance d'entités, résumés et classification
  • Liaison multimodale de données textuelles et visuelles

Applications de recherche et de connaissance

  • Systèmes de recherche texte-vision
  • Construction d'une recherche sémantique avec des résultats OCR
  • Référentiels de documents d'entreprise

Applications assistives et interactives

  • Conception d'interfaces utilisateur pour les assistants multimodaux
  • Applications d'accessibilité (par exemple, vision-texte)
  • Outils de productivité réels

Prestations et optimisation

  • Mise à l'échelle des pipelines multimodaux
  • Ajustement des performances d'inférence
  • Évaluation des compromis entre précision et efficacité

Études de cas et directions futures

  • Applications industrielles de l'IA multimodale
  • Tendances de recherche en OCR et IA documentaire
  • Considérations d'IA responsable dans les tâches texte-vision

Bilan et étapes suivantes

Pré requis

  • Une compréhension des concepts de traitement du langage naturel
  • Une expérience avec Python et les frameworks d'IA
  • Une familiarité avec les bases de la vision par ordinateur

Public cible

  • Équipes produit
  • Cheercheurs en IA
  • Ingénieurs appliqués en IA
 14 Heures

Nombre de participants


Prix ​​par Participant

Cours à venir

Catégories Similaires