Merci d'avoir envoyé votre demande ! Un membre de notre équipe vous contactera sous peu.
Merci d'avoir envoyé votre réservation ! Un membre de notre équipe vous contactera sous peu.
Plan du cours
Introduction à la science des données pour l'analyse de gros volumes de données
- Aperçu de la science des données
- Aperçu des gros volumes de données (Big Data)
- Structures de données
- Pilotes et complexités des gros volumes de données
- Écosystème des gros volumes de données et nouvelle approche de l'analyse
- Technologies clés dans les gros volumes de données
- Processus d'extraction de données (Data Mining) et problèmes associés
- Extraction de motifs d'association
- Regroupement de données (Clustering)
- Détection des valeurs aberrantes (Outlier Detection)
- Classification des données
Introduction au cycle de vie de l'analyse de données
- Découverte
- Préparation des données
- Planification du modèle
- Construction du modèle
- Présentation/Communication des résultats
- Mise en œuvre opérationnelle
- Exercice : Étude de cas
Dès ce point, la majorité du temps de formation (80%) sera consacrée à des exemples et des exercices en R et avec les technologies Big Data associées.
Prise en main de R
- Installation de R et RStudio
- Fonctionnalités du langage R
- Objets en R
- Données en R
- Manipulation des données
- Problèmes liés aux gros volumes de données
- Exercices
Prise en main de Hadoop
- Installation de Hadoop
- Compréhension des modes de Hadoop
- HDFS (Système de fichiers distribué de Hadoop)
- Architecture MapReduce
- Aperçu des projets associés à Hadoop
- Rédaction de programmes en Hadoop MapReduce
- Exercices
Intégration de R et Hadoop avec RHadoop
- Composants de RHadoop
- Installation de RHadoop et connexion avec Hadoop
- Architecture de RHadoop
- Traitement en streaming avec R
- Résolution de problèmes d'analyse de données avec RHadoop
- Exercices
Prétraitement et préparation des données
- Étapes de préparation des données
- Extraction de caractéristiques (Feature Extraction)
- Nettoyage des données
- Intégration et transformation des données
- Réduction des données – échantillonnage, sélection de sous-ensembles de caractéristiques,
- Réduction de la dimensionnalité
- Discrétisation et binning
- Exercices et étude de cas
Méthodes d'analyse exploratoire des données en R
- Statistiques descriptives
- Analyse exploratoire des données
- Visualisation – étapes préliminaires
- Visualisation d'une variable unique
- Examen de plusieurs variables
- Méthodes statistiques d'évaluation
- Tests d'hypothèses
- Exercices et étude de cas
Visualisations de données
- Visualisations de base en R
- Packages pour la visualisation des données ggplot2, lattice, plotly, lattice
- Mise en forme des graphiques en R
- Graphiques avancés
- Exercices
Régression (Estimation de valeurs futures)
- Régression linéaire
- Cas d'utilisation
- Description du modèle
- Diagnostics
- Problèmes de la régression linéaire
- Méthodes de réduction, régression ridge, lasso
- Généralisations et non-linéarité
- Régressions splines
- Régression polynomiale locale
- Modèles additifs généralisés
- Régression avec RHadoop
- Exercices et étude de cas
Classification
- Problèmes liés à la classification
- Rappel bayésien
- Naïve Bayes
- Régression logistique
- K-plus proches voisins (K-Nearest Neighbors)
- Algorithme des arbres de décision
- Réseaux de neurones
- Machines à vecteurs de support (Support Vector Machines)
- Diagnostics des classifieurs
- Comparaison des méthodes de classification
- Algorithmes de classification évolutifs
- Exercices et étude de cas
Évaluation des performances et sélection du modèle
- Biais, variance et complexité du modèle
- Precision vs Interprétabilité
- Évaluation des classifieurs
- Mesures de performance du modèle/algorithmes
- Méthode de validation par partition (Hold-out)
- Cross-validation
- Ajustement des algorithmes d'apprentissage automatique avec le package caret
- Visualisation des performances du modèle avec les courbes Profit ROC et Lift
Méthodes de regroupement (Ensemble Methods)
- Bagging
- Random Forests
- Boosting
- Gradient boosting
- Exercices et étude de cas
Machines à vecteurs de support pour la classification et la régression
- Classifieurs à marge maximale
- Classifieurs à vecteurs de support
- Machines à vecteurs de support (SVM)
- SVM pour les problèmes de classification
- SVM pour les problèmes de régression
- Exercices et étude de cas
Identification de groupes inconnus dans un ensemble de données
- Sélection de caractéristiques pour le regroupement
- Algorithmes basés sur des représentants : k-means, k-medoids
- Algorithmes hiérarchiques : méthodes agglomératives et divisives
- Algorithmes probabilistes : EM (Expectation-Maximization)
- Algorithmes basés sur la densité : DBSCAN, DENCLUE
- Validation des clusters
- Concepts avancés de regroupement
- Regroupement avec RHadoop
- Exercices et étude de cas
Découverte de connexions avec l'analyse des liens (Link Analysis)
- Concepts d'analyse des liens
- Métriques pour analyser les réseaux
- L'algorithme Pagerank
- Recherche de sujets induite par les hyperliens (HITS)
- Prediction des liens
- Exercices et étude de cas
Extraction de motifs d'association
- Modèle d'extraction de motifs fréquents
- Problèmes de scalabilité dans l'extraction de motifs fréquents
- Algorithmes par force brute
- L'algorithme Apriori
- L'approche FP growth
- Évaluation des règles candidates
- Applications des règles d'association
- Validation et test
- Diagnostics
- Règles d'association avec R et Hadoop
- Exercices et étude de cas
Construction de moteurs de recommandation
- Compréhension des systèmes de recommandation
- T techniques d'exploration de données utilisées dans les systèmes de recommandation
- Systèmes de recommandation avec le package recommenderlab
- Évaluation des systèmes de recommandation
- Recommandations avec RHadoop
- Exercice : Construction d'un moteur de recommandation
Analyse textuelle
- Étapes d'analyse textuelle
- Récupération du texte brut
- Sac de mots (Bag of Words)
- Fréquence des termes – Fréquence inverse documentaire (TF-IDF)
- Détermination des sentiments
- Exercices et étude de cas
35 Heures
Nos clients témoignent (2)
Intensité, Matériel et expertise de formation, Clarté, Communication empruntée avec Alessandra Excel
Marija Hornis Dmitrovic - Marija Hornis
Formation - Data Science for Big Data Analytics
Traduction automatique
The example and training material were sufficient and made it easy to understand what you are doing.
Teboho Makenete
Formation - Data Science for Big Data Analytics
Traduction automatique