Plan du cours

spark.mllib : types de données, algorithmes et utilitaires

    Types de données Statistiques de base statistiques récapitulatives corrélations échantillonnage stratifié tests d'hypothèses streaming tests de signification génération de données aléatoires
Modèles linéaires de classification et de régression (SVM, régression logistique, régression linéaire)
  • Bayes naïf
  • arbres de décision
  • ensembles d'arbres (Random Forests et arbres boostés par dégradé)
  • régression isotonique
  • Filtrage collaboratif par moindres carrés alternés (ALS)
  • Clustering k-moyennes
  • Mélange gaussien
  • clustering d'itérations de puissance (PIC)
  • Allocation latente de Dirichlet (LDA)
  • k-moyennes bissectrices
  • streaming k-means
  • Décomposition en valeurs singulières de réduction de dimensionnalité (SVD)
  • analyse en composantes principales (ACP)
  • Extraction et transformation de fonctionnalités
  • Exploration fréquente de modèles de croissance FP
  • règles d'association
  • PréfixeSpan
  • Paramètres d'évaluation
  • Exportation de modèle PMML
  • Optimisation (développeur) descente de gradient stochastique
  • BFGS à mémoire limitée (L-BFGS)
  • spark.ml : API de haut niveau pour les pipelines ML
  • Présentation : estimateurs, transformateurs et pipelines Extraction, transformation et sélection d'entités Classification et régression Clustering Sujets avancés

    Pré requis

    Connaissance de l'un des domaines suivants

    • Java
    • Scala
    • Python
    • SparkR
     35 heures

    Nombre de participants



    Prix par participant

    Nos Clients témoignent (1)

    Cours Similaires

    Big Data Analytics in Health

    21 heures

    Catégories Similaires