Merci d'avoir envoyé votre demande ! Un membre de notre équipe vous contactera sous peu.
Merci d'avoir envoyé votre réservation ! Un membre de notre équipe vous contactera sous peu.
Plan du cours
Chaque session dure 2 heures
Jour-1 : Session -1 : Aperçu commercial du Big Data et de l'intelligence d'affaires dans le gouvernement
- Études de cas provenant de NIH, DoE
- Taux d'adoption du Big Data dans les agences gouvernementales et comment elles alignent leurs futures opérations autour des analyses prédictives du Big Data
- Domaines d'application à grande échelle au sein de la Défense, de l'Agence de sécurité nationale (NSA), du Service des impôts internes (IRS) et de l'Agriculture (USDA)
- Intégration du Big Data avec les données héritées
- Compréhension de base des technologies d'enablement dans l'analyse prédictive
- Intégration de données et visualisation de tableaux de bord
- Gestion de la fraude
- Génération de règles commerciales/détection de fraude
- Détection et profilage des menaces
- Analyse coût-bénéfice pour l'implémentation du Big Data
Jour-1 : Session-2 : Introduction au Big Data - 1
- Caractéristiques principales du Big Data — volume, variété, vitesse et véracité. Architecture MPP pour le volume.
- Entrepôts de données — schéma statique, jeu de données évoluant lentement
- Bases de données MPP comme Greenplum, Exadata, Teradata, Netezza, Vertica, etc.
- Solutions basées sur Hadoop — pas de conditions sur la structure du jeu de données.
- Schéma typique : HDFS, MapReduce (traitement), récupération à partir d'HDFS
- Traitement par lots — adapté aux analyses/non-interactives
- Volume : données de streaming CEP
- Choix typiques — produits CEP (par exemple, Infostreams, Apama, MarkLogic, etc.)
- Moins prêts à la production — Storm/S4
- Bases de données NoSQL (colonne et clé-valeur) : mieux adaptées en complément d'un entrepôt de données/base de données pour l'analyse
Jour-1 : Session -3 : Introduction au Big Data - 2
Solutions NoSQL
- KV Store — Keyspace, Flare, SchemaFree, RAMCloud, Oracle NoSQL Database (OnDB)
- KV Store — Dynamo, Voldemort, Dynomite, SubRecord, Mo8onDb, DovetailDB
- KV Store (hiérarchique) — GT.m, Cache
- KV Store (ordonné) — TokyoTyrant, Lightcloud, NMDB, Luxio, MemcacheDB, Actord
- KV Cache — Memcached, Repcached, Coherence, Infinispan, EXtremeScale, JBossCache, Velocity, Terracoqua
- Tuple Store — Gigaspaces, Coord, Apache River
- Base de données objet — ZopeDB, DB40, Shoal
- Base de données documentaire — CouchDB, Cloudant, Couchbase, MongoDB, Jackrabbit, XML-Databases, ThruDB, CloudKit, Persevere, Riak-Basho, Scalaris
- Store à colonnes larges — BigTable, HBase, Apache Cassandra, Hypertable, KAI, OpenNeptune, Qbase, KDI
Variétés de données : Introduction aux problèmes de nettoyage des données dans le Big Data
- SGBD — structure/statut statique, ne favorise pas un environnement agile et exploratoire.
- NoSQL — semi-structuré, suffisamment structuré pour stocker des données sans schéma exact avant le stockage
- Problèmes de nettoyage des données
Jour-1 : Session-4 : Introduction au Big Data - 3 : Hadoop
- Quand choisir Hadoop ?
- STRUCTURÉ — Les entrepôts de données/les bases de données d'entreprise peuvent stocker des volumes massifs de données (à un coût) mais imposent une structure (pas bon pour l'exploration active)
- DONNÉES SEMI-STRUCTURÉES — difficiles à gérer avec des solutions traditionnelles (DW/DB)
- Création d'entrepôts de données = effort énorme et statique même après l'implémentation
- Pour la variété et le volume de données, traitées sur du matériel standard — HADOOP
- Matériel H/standard nécessaire pour créer un cluster Hadoop
Introduction à MapReduce/HDFS
- MapReduce — distribution des calculs sur plusieurs serveurs
- HDFS — rend les données disponibles localement pour le processus de calcul (avec redondance)
- Données — peuvent être non structurées/sans schéma (contrairement aux SGBD)
- Responsabilité du développeur de donner un sens aux données
- Programmation MapReduce = travail avec Java (avantages/inconvénients), chargement manuel des données dans HDFS
Jour-2 : Session-1 : Écosystème du Big Data — Construction de l'ETL du Big Data : univers des outils de Big Data — lequel utiliser et quand ?
- Hadoop vs. autres solutions NoSQL
- Pour l'accès interactif, aléatoire aux données
- Hbase (base de données orientée colonne) sur Hadoop
- Accès aléatoire aux données mais restrictions imposées (max 1 PB)
- Pas bon pour les analyses ad hoc, bon pour le logging, le comptage, les séries temporelles
- Sqoop — Importation de bases de données vers Hive ou HDFS (accès JDBC/ODBC)
- Flume — flux de données (par exemple, données de logs) dans HDFS
Jour-2 : Session-2 : Système de gestion du Big Data
- Composants mobiles, nœuds de calcul démarrent/échouent : ZooKeeper — pour la configuration/coordonnées/services de nommage
- Pipeline/flux complexes : Oozie — gestion des flux, des dépendances, enchaînement
- Déploiement, configuration, gestion de cluster, mise à niveau, etc. (administrateur système) : Ambari
- Dans le cloud : Whirr
Jour-2 : Session-3 : Analyse prédictive dans l'intelligence d'affaires - 1 : Techniques fondamentales et analyse basée sur l'apprentissage automatique
- Introduction à l'apprentissage automatique
- Techniques de classification d'apprentissage
- Prédiction bayésienne — préparation du fichier d'entraînement
- Machine à vecteurs de support (SVM)
- KNN p-Tree Algebra & vertical mining
- Réseaux de neurones
- Problème des grandes variables du Big Data — Forêts aléatoires (RF)
- Problème d'automatisation du Big Data — Ensemble de modèles multi-modèles RF
- Automatisation par Soft10-M
- Outil d'analyse textuelle — Treeminer
- Apprentissage agile
- Apprentissage basé sur les agents
- Apprentissage distribué
- Introduction aux outils open source pour l'analyse prédictive : R, Rapidminer, Mahut
Jour-2 : Session-4 Écosystème de l'analyse prédictive - 2 : Problèmes courants d'analyse prédictive dans le gouvernement
- Analyse des insights
- Analyse visuelle
- Analyse prédictive structurée
- Analyse prédictive non structurée
- Profilage des menaces/fraudes/fournisseurs
- Moteur de recommandation
- Détection de modèles
- Découverte de règles/scénarios — échec, fraude, optimisation
- Découverte des causes profondes
- Analyse des sentiments
- Analyse CRM
- Analyse de réseau
- Analyse textuelle
- Examen assisté par la technologie
- Analyse des fraudes
- Analyse en temps réel
Jour-3 : Session-1 : Analyse en temps réel et évolutive sur Hadoop
- Pourquoi les algorithmes d'analyse courants échouent dans Hadoop/HDFS
- Apache Hama — pour le calcul distribué synchrone en bloc
- Apache SPARK — pour le calcul de cluster en temps réel
- Laboratoire de graphiques CMU Graphics Lab2 — approche asynchrone basée sur les graphes pour le calcul distribué
- Approche KNN p-Algebra de Treeminer pour réduire le coût matériel des opérations
Jour-3 : Session-2 : Outils d'eDiscovery et de forensique
- eDiscovery sur le Big Data vs. les données héritées — comparaison des coûts et des performances
- Codage prédictif et examen assisté par la technologie (TAR)
- Démonstration en direct d'un produit TAR (vMiner) pour comprendre comment le TAR fonctionne pour une découverte plus rapide
- Indexation plus rapide via HDFS — vitesse des données
- NLP ou Traitement du langage naturel — diverses techniques et produits open source
- eDiscovery en langues étrangères — technologie de traitement des langues étrangères
Jour-3 : Session 3 : BI Big Data pour la sécurité informatique — Compréhension d'une vue complète de 360 degrés, de la collecte rapide des données à l'identification des menaces
- Compréhension des bases de l'analyse de sécurité — surface d'attaque, mauvaise configuration de la sécurité, défenses hôtes
- Infrastructure réseau/Grande datapipe/ETL de réponse pour l'analyse en temps réel
- Prescriptif vs prédictif — Règles fixes basées sur les métadonnées vs découverte automatique des règles de menace
Jour-3 : Session 4 : Big Data au USDA : Application dans l'agriculture
- Introduction à IoT (Internet des objets) pour l'agriculture — données de capteurs basées sur le Big Data et contrôle
- Introduction à l'imagerie par satellite et ses applications dans l'agriculture
- Intégration des données de capteurs et d'imagerie pour la fertilité du sol, les recommandations de culture et la prévision
- Assurance agricole et Big Data
- Prévision des pertes de récolte
Jour-4 : Session-1 : Prévention de la fraude BI à partir du Big Data dans le gouvernement — Analyse de la fraude
- Classification de base des analyses de fraude — basées sur des règles vs prédictives
- Apprentissage automatique supervisé vs non supervisé pour la détection de modèles de fraude
- Fraude de fournisseur/surcharge pour les projets
- Fraudes d'assurance maladie et Medicaid — techniques de détection de fraudes pour le traitement des demandes
- Fraudes de remboursement de voyages
- Fraudes de remboursement d'impôt par l'IRS
- Des études de cas et des démonstrations en direct seront fournies là où les données sont disponibles.
Jour-4 : Session-2 : Analyse des médias sociaux — Collecte et analyse d'intelligence
- API ETL Big Data pour extraire les données des médias sociaux
- Texte, image, métadonnées et vidéo
- Analyse des sentiments à partir des flux de médias sociaux
- Filtrage contextuel et non contextuel des flux de médias sociaux
- Tableau de bord des médias sociaux pour intégrer diverses sources de médias sociaux
- Profilage automatique des profils de médias sociaux
- Une démonstration en direct de chaque analyse sera donnée via l'outil Treeminer.
Jour-4 : Session-3 : Analyse du Big Data dans le traitement d'image et les flux vidéo
- Techniques de stockage d'images dans le Big Data — solutions de stockage pour des données dépassant les pétaoctets
- LTFS et LTO
- GPFS-LTFS (solution de stockage en couches pour les grandes images)
- Fondements de l'analyse d'image
- Reconnaissance d'objets
- Segmentation d'images
- Suivi de mouvement
- Reconstruction d'images 3D
Jour-4 : Session-4 : Applications du Big Data au NIH
- Domaines émergents de la bio-informatique
- Méta-génomique et problèmes d'exploitation des données Big Data
- Analyse prédictive du Big Data pour la pharmacogénomique, la métabolomique et la protéomique
- Big Data dans le processus génomique en aval
- Applications de l'analyse prédictive du Big Data pour la santé publique
Tableau de bord Big Data pour un accès rapide et une visualisation diversifiée des données :
- Intégration de la plateforme d'application existante avec le tableau de bord Big Data
- Gestion du Big Data
- Étude de cas de tableau de bord Big Data : Tableau et Pentaho
- Utilisation d'une application Big Data pour pousser des services basés sur l'emplacement dans le gouvernement
- Système de suivi et gestion
Jour-5 : Session-1 : Comment justifier l'implémentation de l'intelligence d'affaires Big Data au sein d'une organisation :
- Définition du retour sur investissement (ROI) pour l'implémentation du Big Data
- Études de cas pour économiser le temps des analystes dans la collecte et la préparation des données — augmentation de la productivité
- Études de cas d'augmentation des revenus grâce à l'économie sur les coûts des bases de données sous licence
- Augmentation des revenus grâce aux services basés sur l'emplacement
- Économies réalisées grâce à la prévention de la fraude
- Une approche intégrée de tableur pour calculer les dépenses approximatives vs. le gain/les économies de revenus issus de l'implémentation du Big Data.
Jour-5 : Session-2 : Procédure étape par étape pour remplacer un système de données héritées par un système de Big Data :
- Compréhension du plan d'implémentation pratique du Big Data
- Quelles sont les informations importantes à connaître avant de concevoir une implémentation de Big Data
- Quelles sont les différentes méthodes pour calculer le volume, la vitesse, la variété et la véracité des données
- Comment estimer la croissance des données
- Études de cas
Jour-5 : Session 4 : Revue des fournisseurs de Big Data et évaluation de leurs produits. Séance Q/A :
- Accenture
- APTEAN (anciennement CDC Software)
- Cisco Systems
- Cloudera
- Dell
- EMC
- GoodData Corporation
- Guavus
- Hitachi Data Systems
- Hortonworks
- HP
- IBM
- Informatica
- Intel
- Jaspersoft
- Microsoft
- MongoDB (anciennement 10Gen)
- MU Sigma
- Netapp
- Opera Solutions
- Oracle
- Pentaho
- Platfora
- Qliktech
- Quantum
- Rackspace
- Revolution Analytics
- Salesforce
- SAP
- SAS Institute
- Sisense
- Software AG/Terracotta
- Soft10 Automation
- Splunk
- Sqrrl
- Supermicro
- Tableau Software
- Teradata
- Think Big Analytics
- Tidemark Systems
- Treeminer
- VMware (partie de EMC)
Pré requis
- Connaissances de base des opérations commerciales et des systèmes de données du gouvernement dans leur domaine
- Compréhension de base de SQL/Oracle ou d'une base de données relationnelle
- Connaissance de base des statistiques (au niveau des tableurs)
35 Heures
Nos clients témoignent (1)
La capacité du formateur à aligner le cours sur les exigences de l'organisation, et non simplement à le dispenser pour le principe de sa livraison.
Masilonyane - Revenue Services Lesotho
Formation - Big Data Business Intelligence for Govt. Agencies
Traduction automatique