Plan du cours
Introduction
Installation et configuration de Dataiku Data Science Studio (DSS)
- Configuration requise pour Dataiku DSS
- Configuration des intégrations Apache Hadoop et Apache Spark
- Configurer Dataiku DSS avec des proxies web
- Migrer d'autres plateformes vers Dataiku DSS
Aperçu des caractéristiques et de l'architecture de Dataiku DSS
- Objets et graphes fondamentaux de Dataiku DSS
- Qu'est-ce qu'une recette dans Dataiku DSS ?
- Types d'ensembles de données supportés par Dataiku DSS
Création d'un projet Dataiku DSS
Définir des ensembles de données pour se connecter à des ressources de données dans Dataiku DSS
- Travailler avec les connecteurs DSS et les formats de fichiers
- Formats standards DSS et formats spécifiques Hadoop
- Téléchargement de fichiers pour un projet Dataiku DSS
Vue d'ensemble du système de fichiers du serveur dans Dataiku DSS
Création et utilisation de dossiers gérés
- Recette Dataiku DSS pour le dossier de fusion
- Dossiers gérés locaux ou non locaux
Construction d'un ensemble de données sur le système de fichiers à l'aide du contenu des dossiers gérés
- Effectuer des nettoyages avec une recette de code DSS
Travailler avec le jeu de données Metrics et le jeu de données Internal Stats
Mise en œuvre de la recette de téléchargement DSS pour l'ensemble de données HTTP
Relocalisation des jeux de données SQL et des jeux de données HDFS à l'aide de DSS
Ordonner les ensembles de données dans Dataiku DSS
- Ordre de l'écrivain vs ordre de la lecture
Exploration et préparation de visuels de données pour un projet DSS Dataiku
Aperçu des schémas, des types de stockage et des significations de Dataiku
Exécution de scripts de nettoyage, de normalisation et d'enrichissement des données dans Dataiku DSS
Travailler avec l'interface graphique de Dataiku DSS et les types d'agrégations visuelles
Utilisation de la caractéristique interactive Statistics des DSS
- Analyse univariée et analyse bivariée
- Utilisation de l'outil DSS d'analyse en composantes principales (ACP)
Aperçu de Machine Learning avec Dataiku DSS
- ML supervisé vs. ML non supervisé
- Références pour DSS ML Algorithmes et traitement des caractéristiques
- Deep Learning avec Dataiku DSS
Vue d'ensemble du flux dérivé des ensembles de données et des recettes du MAS
Transformer des ensembles de données existants dans DSS avec des recettes visuelles
Utilisation de recettes DSS basées sur un code défini par l'utilisateur
Optimiser l'exploration et l'expérimentation du code avec les carnets de code DSS
Écrire des visualisations DSS avancées et des fonctionnalités frontales personnalisées avec des applications Web
Travailler avec la fonctionnalité Dataiku DSS Code Reports
Partager les données du projet Element et se familiariser avec le tableau de bord DSS
Conception et conditionnement d'un projet Dataiku DSS en tant qu'application réutilisable
Aperçu des méthodes avancées de Dataiku DSS
- Mise en œuvre d'un partitionnement optimisé des ensembles de données à l'aide de DSS
- Exécution de parties spécifiques du traitement DSS par le biais de calculs dans les conteneurs Kubernetes.
Aperçu de Collaboration et du contrôle de version dans Dataiku DSS
Mise en œuvre de scénarios d'automatisation, de mesures et de contrôles pour les tests de projets DSS
Déploiement et mise à jour d'un projet avec le nœud d'automatisation DSS et les Bundles
Travailler avec des API en temps réel dans Dataiku DSS
- API supplémentaires et API de repos dans DSS
Analyse et Forecasting Dataiku DSS Série temporelle
Sécuriser un projet dans Dataiku DSS
- Gestion des permissions sur les projets et des autorisations sur les tableaux de bord
- Mise en œuvre d'options de sécurité avancées
Intégration de Dataiku DSS avec le Cloud
Dépannage
Résumé et conclusion
Pré requis
- Expérience des langages de programmation Python, SQL et R .
- Connaissance de base du traitement des données avec Apache Hadoop et Spark .
- Compréhension des concepts d'apprentissage automatique et des modèles de données .
- Expérience des analyses statistiques et des concepts de science des données .
- Expérience de la visualisation et de la communication de données .
Audience
- Ingénieurs
- Data Scientists
- Analystes de données