Plan du cours

Chaque séance dure 2 heures

Jour 1 : Session -1 : Business Aperçu du pourquoi Big Data Business L'intelligence dans Govt.

  • Études de cas du NIH et du DoE
  • Big Data taux d'adaptation en Govt. Les agences et comment elles alignent leurs futures opérations autour de Big Data Predictive Analytics
  • Domaine d'application à grande échelle dans le DoD, la NSA, l'IRS, l'USDA, etc.
  • Interfaçage Big Data avec les données héritées
  • Compréhension de base des technologies habilitantes dans l'analyse prédictive
  • Data Integration & Visualisation du tableau de bord
  • Gestion de la fraude
  • Business Génération de règles/détection de fraude
  • Détection et profilage des menaces
  • Analyse coûts-avantages pour la mise en œuvre de Big Data

Jour-1 : Session-2 : Introduction de Big Data-1

  • Principales caractéristiques de Big Data-volume, variété, vélocité et véracité. Architecture MPP pour le volume.
  • Data Warehouses – schéma statique, ensemble de données évoluant lentement
  • MPP Database comme Greenplum, Exadata, Teradata, Netezza, Vertica etc.
  • Hadoop Solutions basées – aucune condition sur la structure de l’ensemble de données.
  • Modèle typique : HDFS, MapReduce (crunch), récupération depuis HDFS
  • Lot adapté aux applications analytiques/non interactives
  • Volume : données en streaming CEP
  • Choix typiques – produits CEP (par exemple Infostreams, Apama, MarkLogic, etc.)
  • Moins prêt pour la production – Storm/S4
  • NoSQL Databases – (colonne et valeur-clé) : Idéal comme complément analytique à l'entrepôt de données/base de données

Jour-1 : Session -3 : Introduction à Big Data-2

NoSQL solutions

  • Magasin KV - Keyspace, Flare, SchemaFree, RAMCloud, Oracle NoSQL Database (OnDB)
  • Magasin KV - Dynamo, Voldemort, Dynomite, SubRecord, Mo8onDb, DovetailDB
  • Magasin KV (hiérarchique) - GT.m, Cache
  • KV Store (commandé) - TokyoTyrant, Lightcloud, NMDB, Luxio, MemcacheDB, Actord
  • Cache KV - Memcached, Repcached, Coherence, Infinispan, EXtremeScale, JBossCache, Velocity, Terracoqua
  • Tuple Store - Gigaspaces, Coord, Apache River
  • Objet Database - ZopeDB, DB40, Shoal
  • Magasin de documents - CouchDB, Cloudant, Couchbase, MongoDB, Jackrabbit, XML-Databases, ThruDB, CloudKit, Prsevere, Riak-Basho, Scalaris
  • Large magasin en colonnes - BigTable, HBase, Apache Cassandra, Hypertable, KAI, OpenNeptune, Qbase, KDI

Variétés de données : introduction au problème Data Cleaning dans Big Data

  • SGBDR – structure/schéma statique, ne favorise pas un environnement agile et exploratoire.
  • NoSQL – semi-structuré, suffisamment structuré pour stocker des données sans schéma exact avant de stocker les données
  • Problèmes de nettoyage des données

Jour-1 : Session-4 : Big Data Introduction-3 : Hadoop

  • Quand sélectionner Hadoop ?
  • STRUCTURÉ – Les entrepôts de données/bases de données d'entreprise peuvent stocker des données massives (à un coût) mais imposer une structure (pas bon pour l'exploration active)
  • Données SEMI-STRUCTURÉES – difficiles à réaliser avec des solutions traditionnelles (DW/DB)
  • Données d'entreposage = effort ÉNORME et statique même après la mise en œuvre
  • Pour la variété et le volume de données, basés sur du matériel standard – HADOOP
  • Produits matériels et matériels nécessaires pour créer un cluster Hadoop

Introduction à Map Réduire /HDFS

  • MapReduce – répartissez l'informatique sur plusieurs serveurs
  • HDFS – rendre les données disponibles localement pour le processus informatique (avec redondance)
  • Données – peuvent être non structurées/sans schéma (contrairement au SGBDR)
  • Responsabilité du développeur de donner un sens aux données
  • Programming MapReduce = travailler avec Java (avantages/inconvénients), chargement manuel des données dans HDFS

Jour 2 : Session 1 : Big Data Construction d'un écosystème Big Data ETL : univers de Big Data Outils - lequel utiliser et quand ?

  • Hadoop vs autres solutions NoSQL
  • Pour un accès interactif et aléatoire aux données
  • Hbase (base de données orientée colonnes) au-dessus de Hadoop
  • Accès aléatoire aux données mais restrictions imposées (max 1 Po)
  • Pas bon pour les analyses ad hoc, bon pour la journalisation, le comptage et les séries chronologiques
  • Sqoop - Importer depuis des bases de données vers Hive ou HDFS (accès JDBC/ODBC)
  • Flume – Diffusez des données (par exemple, des données de journal) dans HDFS

Jour 2 : Session 2 : Big Data Management Système

  • Pièces mobiles, démarrage/échec des nœuds de calcul :ZooKeeper - Pour les services de configuration/coordination/naming
  • Pipeline/workflow complexe : Oozie – gérer le workflow, les dépendances et la connexion en série
  • Déployer, configurer, gestion de cluster, mise à niveau, etc. (administrateur système) :Ambari
  • Dans le Cloud : Whirr

Jour-2 : Session-3 : Analyse prédictive dans Business Intelligence -1 : Techniques fondamentales et BI basée sur l'apprentissage automatique :

  • Introduction à l'apprentissage automatique
  • Apprentissage des techniques de classification
  • Fichier de formation pour la préparation de la prédiction bayésienne
  • Machine à vecteurs de support
  • KNN p-Algèbre des arbres et exploitation minière verticale
  • Réseau neuronal
  • Big Data problème de grandes variables - Forêt aléatoire (RF)
  • Big Data Problème d’automatisation – RF d’ensemble multimodèle
  • Automatisation via Soft10-M
  • Outil d'analyse de texte-Treeminer
  • Agile apprentissage
  • Apprentissage basé sur les agents
  • Apprentissage distribué
  • Introduction aux outils Open source pour l'analyse prédictive : R, Rapidminer, Mahut

Jour 2 : Session 4 Écosystème d'analyse prédictive-2 : Problèmes courants d'analyse prédictive dans Govt.

  • Analyse d'informations
  • Analyse de visualisation
  • Analyse prédictive structurée
  • Analyse prédictive non structurée
  • Profilage des menaces, des fraudeurs et des fournisseurs
  • Moteur de recommandation
  • Détection de modèles
  • Découverte de règles/scénarios – échec, fraude, optimisation
  • Découverte des causes profondes
  • Analyse des sentiments
  • Analyse CRM
  • Analyse de réseau
  • Analyse de texte
  • Examen assisté par la technologie
  • Analyse de fraude
  • Analyse en temps réel

Jour 3 : Session-1 : Temps réel et Scalable Analytic Over Hadoop

  • Pourquoi les algorithmes analytiques courants échouent dans Hadoop/HDFS
  • Apache Hama- pour l'informatique distribuée synchrone en masse
  • Apache SPARK - pour le calcul en cluster pour des analyses en temps réel
  • CMU Graphics Lab2 - Approche asynchrone basée sur des graphiques pour l'informatique distribuée
  • Approche basée sur l'algèbre p KNN de Treeminer pour réduire les coûts d'exploitation du matériel

Jour 3 : Session 2 : Outils pour la découverte électronique et la criminalistique

  • eDiscovery sur Big Data par rapport aux données héritées – une comparaison des coûts et des performances
  • Codage prédictif et révision assistée par la technologie (TAR)
  • Démo en direct d'un produit Tar (vMiner) pour comprendre comment TAR fonctionne pour une découverte plus rapide
  • Indexation plus rapide via HDFS – vitesse des données
  • Traitement du Langage Naturel ou PNL – diverses techniques et produits open source
  • eDiscovery en langues étrangères – technologie pour le traitement des langues étrangères

Jour 3 : Session 3 : Big Data BI pour Cyber Security – Comprendre les vues complètes à 360 degrés de la collecte rapide de données jusqu'à l'identification des menaces

  • Comprendre les bases de l'analyse de sécurité : surface d'attaque, mauvaise configuration de la sécurité, défenses de l'hôte
  • Infrastructure réseau/Grand canal de données/Réponse ETL pour une analyse en temps réel
  • Prescriptif vs prédictif – Basé sur des règles fixes ou découverte automatique des règles de menace à partir des métadonnées

Jour 3 : Session 4 : Big Data à l'USDA : Application en agriculture

  • Introduction à l'IoT (Internet des objets) pour l'agriculture basée sur des capteurs Big Data et le contrôle
  • Introduction à l'imagerie satellitaire et à son application en agriculture
  • Intégration de données de capteurs et d'images pour la fertilité du sol, les recommandations de culture et les prévisions
  • Assurance agricole et Big Data
  • Prévision des pertes de récolte

Jour 4 : Session 1 : BI sur la prévention de la fraude de Big Data dans Govt-Fraud analytique :

  • Classification de base de l'analyse de la fraude : analyse basée sur des règles ou analyse prédictive
  • Apprentissage automatique supervisé ou non supervisé pour la détection des modèles de fraude
  • Fraude des fournisseurs/facturation excessive des projets
  • Fraude Medicare et Medicaid - techniques de détection de la fraude pour le traitement des réclamations
  • Fraudes au remboursement des voyages
  • Fraudes au remboursement IRS
  • Des études de cas et des démonstrations en direct seront présentées partout où les données sont disponibles.

Jour 4 : Session-2 : Social Media Analytique – Collecte et analyse de renseignements

  • Big Data API ETL pour extraire les données des réseaux sociaux
  • Texte, image, métadonnées et vidéo
  • Analyse des sentiments à partir du flux des médias sociaux
  • Filtrage contextuel et non contextuel des flux de médias sociaux
  • Social Media Tableau de bord pour intégrer divers médias sociaux
  • Profilage automatisé du profil des réseaux sociaux
  • Une démonstration en direct de chaque analyse sera proposée via Treeminer Tool.

Jour-4 : Session-3 : Big Data Analyse en traitement d'images et flux vidéo

  • Techniques de stockage d'images dans Big Data - Solution de stockage pour les données dépassant les pétaoctets
  • LTFS et LTO
  • GPFS-LTFS (solution de stockage en couches pour les données d'images volumineuses)
  • Fondamentaux de l'analyse d'images
  • Reconnaissance d'objets
  • Segmentation d'images
  • Suivi de mouvement
  • Reconstruction d'images 3D

Jour 4 : Session 4 : Big Data applications aux NIH :

  • Domaines émergents de la Bio-informatique
  • Problèmes de méta-génomique et Big Data d'exploitation minière
  • Big Data Analyse prédictive pour la pharmacogénomique, la métabolomique et la protéomique
  • Big Data dans le processus de génomique en aval
  • Application de l'analyse prédictive Big data à la santé publique

Big Data Tableau de bord pour un accès rapide à diverses données et affichage :

  • Intégration de la plateforme d'application existante avec Big Data Dashboard
  • Big Data gestion
  • Étude de cas de Big Data Tableau de bord : Tableau et Pentaho
  • Utilisez l'application Big Data pour diffuser les services basés sur la localisation dans Govt.
  • Système de suivi et gestion

Jour-5 : Session-1 : Comment justifier Big Data la mise en œuvre de la BI au sein d'une organisation :

  • Définir le retour sur investissement pour la mise en œuvre de Big Data
  • Études de cas permettant aux analystes de gagner du temps pour la collecte et la préparation des données – augmentation du gain de productivité
  • Études de cas sur les gains de revenus résultant de la réduction du coût de la base de données sous licence
  • Gain de revenus grâce aux services géolocalisés
  • Économiser grâce à la prévention de la fraude
  • Une approche intégrée de feuille de calcul pour calculer env. dépenses par rapport aux gains/économies de revenus résultant de la mise en œuvre de Big Data.

Jour 5 : Session 2 : Procédure étape par étape pour remplacer le système de données existant par le système Big Data :

  • Comprendre la feuille de route pratique Big Data pour la migration
  • Quelles sont les informations importantes nécessaires avant de concevoir une implémentation Big Data
  • Quelles sont les différentes manières de calculer le volume, la vélocité, la variété et la véracité des données
  • Comment estimer la croissance des données
  • Études de cas

Jour 5 : Session 4 : Examen de Big Data fournisseurs et examen de leurs produits. Séance de questions/réponses :

  • Accenture
  • APTEAN (anciennement CDC Software)
  • Cisco Systèmes
  • Cloudera
  • Dell
  • CEM
  • GoodData Corporation
  • Guavus
  • Systèmes de données Hitachi
  • Hortons
  • HP
  • IBM
  • Informatique
  • Intel
  • Jaspersoft
  • Microsoft
  • MongoDB (anciennement 10Gen)
  • MU Sigma
  • Netapp
  • Solutions Opéra
  • Oracle
  • Pentaho
  • Plateforme
  • Qliktech
  • Quantum
  • Espace rackable
  • Analyse de la révolution
  • Salesforce
  • SAP
  • SAS Institut
  • Sisense
  • Software AG/Terre cuite
  • Automatisation Soft10
  • Splunk
  • Sqrl
  • Supermicro
  • Tableau Logiciel
  • Teradata
  • Voir grand
  • Systèmes de marquage des marées
  • Mineur d'arbres
  • VMware (partie d'EMC)

Pré requis

  • Connaissance de base des opérations commerciales et des systèmes de données du gouvernement dans leur domaine
  • Compréhension de base de SQL/Oracle ou d'une base de données relationnelle
  • .
  • Compréhension de base de Statistics (au niveau du tableur) 
  35 heures
 

Nombre de participants


Début

Fin


Dates are subject to availability and take place between 09:30 and 16:30.
Les formations ouvertes requièrent plus de 3 participants.

Nos Clients témoignent (4)

Cours Similaires

Catégories Similaires