Formation Apache Spark MLlib

Code formation

spmllib

Duration

35 hours (généralement 5 jours pauses comprises)

Pré requis

Knowledge of one of the following:

  • Java
  • Scala
  • Python
  • SparkR.

Overview

MLlib est la bibliothèque d'apprentissage automatique (ML) de Spark Son objectif est de rendre l'apprentissage automatique pratique évolutif et facile Il se compose d'algorithmes d'apprentissage et d'utilitaires communs, notamment la classification, la régression, le regroupement, le filtrage collaboratif, la réduction de la dimensionnalité, ainsi que des primitives d'optimisation de niveau inférieur et des API de pipeline de niveau supérieur Il se divise en deux paquets: sparkmllib contient l'API originale construite au-dessus des RDD sparkml fournit une API de niveau supérieur construite au-dessus de DataFrames pour la construction de pipelines ML Public Ce cours s'adresse aux ingénieurs et aux développeurs qui souhaitent utiliser une bibliothèque intégrée pour Apache Spark .

Plan du cours

spark.mllib: data types, algorithms, and utilities

  • Data types
  • Basic statistics
    • summary statistics
    • correlations
    • stratified sampling
    • hypothesis testing
    • streaming significance testing
    • random data generation
  • Classification and regression
    • linear models (SVMs, logistic regression, linear regression)
    • naive Bayes
    • decision trees
    • ensembles of trees (Random Forests and Gradient-Boosted Trees)
    • isotonic regression
  • Collaborative filtering
    • alternating least squares (ALS)
  • Clustering
    • k-means
    • Gaussian mixture
    • power iteration clustering (PIC)
    • latent Dirichlet allocation (LDA)
    • bisecting k-means
    • streaming k-means
  • Dimensionality reduction
    • singular value decomposition (SVD)
    • principal component analysis (PCA)
  • Feature extraction and transformation
  • Frequent pattern mining
    • FP-growth
    • association rules
    • PrefixSpan
  • Evaluation metrics
  • PMML model export
  • Optimization (developer)
    • stochastic gradient descent
    • limited-memory BFGS (L-BFGS)

spark.ml: high-level APIs for ML pipelines

  • Overview: estimators, transformers and pipelines
  • Extracting, transforming and selecting features
  • Classification and regression
  • Clustering
  • Advanced topics

Nos Clients témoignent

★★★★★
★★★★★

Réduction spéciale

Newsletter offres spéciales

Nous respectons le caractère privé de votre adresse mail. Nous ne divulguerons ni ne vendrons votre adresse email à quiconque
Vous pouvez toujours modifier vos préférences ou vous désinscrire complètement.

Nos clients

is growing fast!

We are looking to expand our presence in France!

As a Business Development Manager you will:

  • expand business in France
  • recruit local talent (sales, agents, trainers, consultants)
  • recruit local trainers and consultants

We offer:

  • Artificial Intelligence and Big Data systems to support your local operation
  • high-tech automation
  • continuously upgraded course catalogue and content
  • good fun in international team

If you are interested in running a high-tech, high-quality training and consulting business.

Apply now!