Plan du cours

spark.mllib : types de données, algorithmes et utilitaires

    Types de données Statistiques de base statistiques récapitulatives corrélations échantillonnage stratifié tests d'hypothèses streaming tests de signification génération de données aléatoires
Modèles linéaires de classification et de régression (SVM, régression logistique, régression linéaire)
  • Bayes naïf
  • arbres de décision
  • ensembles d'arbres (Random Forests et arbres boostés par dégradé)
  • régression isotonique
  • Filtrage collaboratif par moindres carrés alternés (ALS)
  • Clustering k-moyennes
  • Mélange gaussien
  • clustering d'itérations de puissance (PIC)
  • Allocation latente de Dirichlet (LDA)
  • k-moyennes bissectrices
  • streaming k-means
  • Décomposition en valeurs singulières de réduction de dimensionnalité (SVD)
  • analyse en composantes principales (ACP)
  • Extraction et transformation de fonctionnalités
  • Exploration fréquente de modèles de croissance FP
  • règles d'association
  • PréfixeSpan
  • Paramètres d'évaluation
  • Exportation de modèle PMML
  • Optimisation (développeur) descente de gradient stochastique
  • BFGS à mémoire limitée (L-BFGS)
  • spark.ml : API de haut niveau pour les pipelines ML
  • Présentation : estimateurs, transformateurs et pipelines Extraction, transformation et sélection d'entités Classification et régression Clustering Sujets avancés

    Pré requis

    Connaissance de l'un des domaines suivants

    • Java
    • Scala
    • Python
    • SparkR
      35 heures
     

    Nombre de participants


    Début

    Fin


    Dates are subject to availability and take place between 09:30 and 16:30.
    Les formations ouvertes requièrent plus de 3 participants.

    Nos Clients témoignent (8)

    Cours Similaires

    Big Data Analytics in Health

      21 heures

    Catégories Similaires