Plan du cours

Introduction à Data Science for Big Data Analytics

    Data Science Présentation du Big Data Présentation des structures de données Facteurs et complexités du Big Data Écosystème du Big Data et nouvelle approche de l'analyse Technologies clés dans le processus et les problèmes du Big Data Data Mining Association Pattern Mining Data Clustering Détection des valeurs aberrantes Classification des données

Introduction au cycle de vie de l'analyse des données

    Découverte Préparation des données Planification du modèle Construction du modèle Présentation/Communication des résultats Exercice d'opérationnalisation : étude de cas

À partir de ce moment, la majeure partie du temps de formation (80 %) sera consacrée à des exemples et à des exercices sur R et sur la technologie Big Data associée.

Débuter avec R

    Installation des fonctionnalités R et Rstudio des objets du langage R dans les données R dans R Manipulation des données Problèmes liés au Big Data Exercices

Premiers pas avec Hadoop

    Installation de Hadoop Comprendre Hadoop modes Architecture HDFS MapReduce Hadoop Présentation des projets associés Écriture de programmes dans Hadoop Exercices MapReduce

Intégration de R et Hadoop avec RHadoop

    Composants de RHadoop Installer RHadoop et se connecter avec Hadoop L'architecture de RHadoop Hadoop Streaming avec R Résolution de problèmes d'analyse de données avec RHadoop Exercices

Prétraitement et préparation des données

    Étapes de préparation des données Extraction des fonctionnalités Nettoyage des données Intégration et transformation des données Réduction des données – échantillonnage, sélection de sous-ensembles de fonctionnalités, réduction de la dimensionnalité Discrétisation et regroupement Exercices et étude de cas

Méthodes exploratoires d’analyse de données dans R

    Statistiques descriptives Analyse exploratoire des données Visualisation – étapes préliminaires Visualisation d'une variable unique Examen de plusieurs variables Méthodes statistiques d'évaluation Test d'hypothèse Exercices et étude de cas

Data Visualizations

    Visualisations de base dans R Packages pour la visualisation de données ggplot2, lattice, plotly, lattice Formatage des tracés dans R Graphiques avancés Exercices

Régression (estimation des valeurs futures)

    Régression linéaire Cas d'utilisation Description du modèle Diagnostic Problèmes avec la régression linéaire Méthodes de retrait, régression de crête, le lasso Généralisations et non-linéarité Splines de régression Régression polynomiale locale Modèles additifs généralisés Régression avec RHadoop Exercices et étude de cas

Classification

    Les problèmes liés à la classification Rappel bayésien Bayes naïf Régression logistique K-plus proches voisins Algorithme d'arbres de décision Réseaux de neurones Machines à vecteurs de support Diagnostic des classificateurs Comparaison des méthodes de classification Scala algorithmes de classification ble Exercices et étude de cas

Évaluation des performances et de la sélection du modèle

    Biais, variance et complexité du modèle Précision vs interprétabilité Évaluation des classificateurs Mesures des performances du modèle/algorithme Méthode de validation de maintien Validation croisée Optimisation des algorithmes d'apprentissage automatique avec le package caret Visualisation des performances du modèle avec les courbes Profit ROC et Lift

Méthodes d'ensemble

    Bagging Random Forests Boosting Exercices de boosting de gradient et étude de cas

Machines vectorielles de support pour la classification et la régression

    Classificateurs de marge maximale Prise en charge des classificateurs vectoriels Prise en charge des machines vectorielles SVM pour les problèmes de classification SVM pour les problèmes de régression
Exercices et étude de cas
  • Identifier les groupements inconnus au sein d'un ensemble de données
  • Sélection de fonctionnalités pour le clustering Algorithmes basés sur des k-moyennes, k-médoïdes Algorithmes hiérarchiques : méthodes agglomératives et divisives Algorithmes de base probabilistes : EM Algorithmes basés sur la densité : DBSCAN, DENCLUE Validation de cluster Concepts de clustering avancés Clustering avec RHadoop Exercices et étude de cas

      Découverte des connexions avec Link Analysis

    Concepts d'analyse de liens Métriques pour l'analyse des réseaux L'algorithme Pagerank Sujet induit par des hyperliens Search Exercices de prédiction de liens et étude de cas

      Exploration de modèles d'association

    Exploration de modèles fréquents Modèle Scala Problèmes de capacité dans l'exploration de modèles fréquents Algorithmes de force brute Algorithme apriori L'approche de croissance FP Évaluation des règles candidates Applications des règles d'association Validation et tests Diagnostics Règles d'association avec R et Hadoop Exercices et étude de cas

      Construire des moteurs de recommandations

    Comprendre les systèmes de recommandation Techniques d'exploration de données utilisées dans les systèmes de recommandation Systèmes de recommandation avec le package recommendationrlab Évaluation des systèmes de recommandation Recommandations avec RHadoop Exercice : Création d'un moteur de recommandation

      Analyse de texte

    Étapes d'analyse de texte Collecte de texte brut Sac de mots Fréquence des termes – Fréquence inverse des documents Détermination des sentiments Exercices et étude de cas

      35 heures

    Nombre de participants



    Prix par participant

    Nos Clients témoignent (2)

    Cours Similaires

    Unified Batch and Stream Processing with Apache Beam

      14 heures

    Catégories Similaires