Plan du cours

Introduction à la science des données pour l'analyse de gros volumes de données

  • Aperçu de la science des données
  • Aperçu des gros volumes de données (Big Data)
  • Structures de données
  • Pilotes et complexités des gros volumes de données
  • Écosystème des gros volumes de données et nouvelle approche de l'analyse
  • Technologies clés dans les gros volumes de données
  • Processus d'extraction de données (Data Mining) et problèmes associés
    • Extraction de motifs d'association
    • Regroupement de données (Clustering)
    • Détection des valeurs aberrantes (Outlier Detection)
    • Classification des données

Introduction au cycle de vie de l'analyse de données

  • Découverte
  • Préparation des données
  • Planification du modèle
  • Construction du modèle
  • Présentation/Communication des résultats
  • Mise en œuvre opérationnelle
  • Exercice : Étude de cas

Dès ce point, la majorité du temps de formation (80%) sera consacrée à des exemples et des exercices en R et avec les technologies Big Data associées.

Prise en main de R

  • Installation de R et RStudio
  • Fonctionnalités du langage R
  • Objets en R
  • Données en R
  • Manipulation des données
  • Problèmes liés aux gros volumes de données
  • Exercices

Prise en main de Hadoop

  • Installation de Hadoop
  • Compréhension des modes de Hadoop
  • HDFS (Système de fichiers distribué de Hadoop)
  • Architecture MapReduce
  • Aperçu des projets associés à Hadoop
  • Rédaction de programmes en Hadoop MapReduce
  • Exercices

Intégration de R et Hadoop avec RHadoop

  • Composants de RHadoop
  • Installation de RHadoop et connexion avec Hadoop
  • Architecture de RHadoop
  • Traitement en streaming avec R
  • Résolution de problèmes d'analyse de données avec RHadoop
  • Exercices

Prétraitement et préparation des données

  • Étapes de préparation des données
  • Extraction de caractéristiques (Feature Extraction)
  • Nettoyage des données
  • Intégration et transformation des données
  • Réduction des données – échantillonnage, sélection de sous-ensembles de caractéristiques,
  • Réduction de la dimensionnalité
  • Discrétisation et binning
  • Exercices et étude de cas

Méthodes d'analyse exploratoire des données en R

  • Statistiques descriptives
  • Analyse exploratoire des données
  • Visualisation – étapes préliminaires
  • Visualisation d'une variable unique
  • Examen de plusieurs variables
  • Méthodes statistiques d'évaluation
  • Tests d'hypothèses
  • Exercices et étude de cas

Visualisations de données

  • Visualisations de base en R
  • Packages pour la visualisation des données ggplot2, lattice, plotly, lattice
  • Mise en forme des graphiques en R
  • Graphiques avancés
  • Exercices

Régression (Estimation de valeurs futures)

  • Régression linéaire
  • Cas d'utilisation
  • Description du modèle
  • Diagnostics
  • Problèmes de la régression linéaire
  • Méthodes de réduction, régression ridge, lasso
  • Généralisations et non-linéarité
  • Régressions splines
  • Régression polynomiale locale
  • Modèles additifs généralisés
  • Régression avec RHadoop
  • Exercices et étude de cas

Classification

  • Problèmes liés à la classification
  • Rappel bayésien
  • Naïve Bayes
  • Régression logistique
  • K-plus proches voisins (K-Nearest Neighbors)
  • Algorithme des arbres de décision
  • Réseaux de neurones
  • Machines à vecteurs de support (Support Vector Machines)
  • Diagnostics des classifieurs
  • Comparaison des méthodes de classification
  • Algorithmes de classification évolutifs
  • Exercices et étude de cas

Évaluation des performances et sélection du modèle

  • Biais, variance et complexité du modèle
  • Precision vs Interprétabilité
  • Évaluation des classifieurs
  • Mesures de performance du modèle/algorithmes
  • Méthode de validation par partition (Hold-out)
  • Cross-validation
  • Ajustement des algorithmes d'apprentissage automatique avec le package caret
  • Visualisation des performances du modèle avec les courbes Profit ROC et Lift

Méthodes de regroupement (Ensemble Methods)

  • Bagging
  • Random Forests
  • Boosting
  • Gradient boosting
  • Exercices et étude de cas

Machines à vecteurs de support pour la classification et la régression

  • Classifieurs à marge maximale
    • Classifieurs à vecteurs de support
    • Machines à vecteurs de support (SVM)
    • SVM pour les problèmes de classification
    • SVM pour les problèmes de régression
  • Exercices et étude de cas

Identification de groupes inconnus dans un ensemble de données

  • Sélection de caractéristiques pour le regroupement
  • Algorithmes basés sur des représentants : k-means, k-medoids
  • Algorithmes hiérarchiques : méthodes agglomératives et divisives
  • Algorithmes probabilistes : EM (Expectation-Maximization)
  • Algorithmes basés sur la densité : DBSCAN, DENCLUE
  • Validation des clusters
  • Concepts avancés de regroupement
  • Regroupement avec RHadoop
  • Exercices et étude de cas

Découverte de connexions avec l'analyse des liens (Link Analysis)

  • Concepts d'analyse des liens
  • Métriques pour analyser les réseaux
  • L'algorithme Pagerank
  • Recherche de sujets induite par les hyperliens (HITS)
  • Prediction des liens
  • Exercices et étude de cas

Extraction de motifs d'association

  • Modèle d'extraction de motifs fréquents
  • Problèmes de scalabilité dans l'extraction de motifs fréquents
  • Algorithmes par force brute
  • L'algorithme Apriori
  • L'approche FP growth
  • Évaluation des règles candidates
  • Applications des règles d'association
  • Validation et test
  • Diagnostics
  • Règles d'association avec R et Hadoop
  • Exercices et étude de cas

Construction de moteurs de recommandation

  • Compréhension des systèmes de recommandation
  • T techniques d'exploration de données utilisées dans les systèmes de recommandation
  • Systèmes de recommandation avec le package recommenderlab
  • Évaluation des systèmes de recommandation
  • Recommandations avec RHadoop
  • Exercice : Construction d'un moteur de recommandation

Analyse textuelle

  • Étapes d'analyse textuelle
  • Récupération du texte brut
  • Sac de mots (Bag of Words)
  • Fréquence des termes – Fréquence inverse documentaire (TF-IDF)
  • Détermination des sentiments
  • Exercices et étude de cas
 35 Heures

Nombre de participants


Prix ​​par Participant

Nos clients témoignent (2)

Cours à venir

Catégories Similaires