Prenez contact avec nous

Plan du cours

Programme de formation détaillé

  1. Introduction au NLP
    • Compréhension du NLP
    • Frameworks de NLP
    • Applications commerciales du NLP
    • Collecte de données depuis le web
    • Utilisation de diverses API pour récupérer des données textuelles
    • Manipulation et stockage des corpus textuels, sauvegarde du contenu et des métadonnées pertinentes
    • Avantages de l'utilisation de Python et cours accéléré NLTK
  2. Compréhension pratique d'un corpus et d'un ensemble de données
    • Pourquoi avons-nous besoin d'un corpus ?
    • Analyse du corpus
    • Types d'attributs de données
    • Formats de fichiers différents pour les corpus
    • Préparation d'un ensemble de données pour les applications NLP
  3. Compréhension de la structure des phrases
    • Composants du NLP
    • Compréhension du langage naturel
    • Analyse morphologique - racine, mot, token, étiquettes grammaticales
    • Analyse syntaxique
    • Analyse sémantique
    • Gestion de l'ambiguïté
  4. Prétraitement des données textuelles
    • Corpus - texte brut
      • Tokenisation des phrases
      • Racinement (stemming) du texte brut
      • Lemmatisation du texte brut
      • Suppression des mots vides
    • Corpus - phrases brutes
      • Tokenisation des mots
      • Lemmatisation des mots
    • Manipulation des matrices Termes-Documents / Documents-Termes
    • Tokenisation du texte en n-grammes et phrases
    • Prétraitement pratique et personnalisé
  5. Analyse des données textuelles
    • Fonctionnalités de base du NLP
      • Analyseurs et analyse syntaxique
      • Étiquetage grammatical (POS tagging) et étiqueteurs
      • Reconnaissance d'entités nommées
      • N-grammes
      • Sac de mots (Bag of words)
    • Fonctionnalités statistiques du NLP
      • Concepts d'algèbre linéaire pour le NLP
      • Théorie probabiliste pour le NLP
      • TF-IDF
      • Vectorisation
      • Encodeurs et décodeurs
      • Normalisation
      • Modèles probabilistes
    • Ingénierie avancée des fonctionnalités et NLP
      • Bases de word2vec
      • Composants du modèle word2vec
      • Logique du modèle word2vec
      • Extension du concept word2vec
      • Application du modèle word2vec
    • Étude de cas : Application du sac de mots : résumé automatique de textes utilisant les algorithmes simplifiés et réels de Luhn
  6. Clustering de documents, classification et modélisation thématique
    • Clustering de documents et extraction de motifs (clustering hiérarchique, k-moyennes, etc.)
    • Comparaison et classification des documents en utilisant les mesures de distance TFIDF, Jaccard et cosinus
    • Classification des documents utilisant Naïve Bayes et Maximum Entropy
  7. Identification des éléments textuels importants
    • Réduction de la dimensionnalité : Analyse en Composantes Principales, Décomposition en Valeurs Singulières, factorisation matricielle non négative
    • Modélisation thématique et récupération d'information utilisant l'Analyse Sémantique Latente
  8. Extraction d'entités, analyse des sentiments et modélisation thématique avancée
    • Positif vs négatif : degré de sentiment
    • Théorie de la réponse à l'item
    • Étiquetage grammatical et ses applications : identification des personnes, lieux et organisations mentionnés dans le texte
    • Modélisation thématique avancée : Allocation Dirichlet Latente
  9. Études de cas
    • Extraction d'avis utilisateurs non structurés
    • Classification et visualisation des sentiments des données d'avis produits
    • Extraction des journaux de recherche pour les modèles d'utilisation
    • Classification de texte
    • Modélisation thématique

Pré requis

Connaissance et compréhension des principes du NLP et appréciation de l'application de l'IA dans le domaine des affaires.

 21 Heures

Nombre de participants


Prix par participant

Nos clients témoignent (1)

Cours à venir

Catégories Similaires