Plan du cours

=====
Jour 01
=====
Vue d'ensemble des Big Data Business renseignements pour l'analyse du renseignement criminel

  • Études de cas dans le domaine de l'application de la loi - Police prédictive
  • Le taux d'adoption des technologies de l'information et de la communication Big Data dans les services répressifs et la manière dont ils orientent leurs futures opérations autour de Big Data Predictive Analytics
  • Solutions technologiques émergentes telles que les détecteurs de coups de feu, la vidéo de surveillance et les médias sociaux
  • Utilisation de la technologie Big Data pour atténuer la surcharge d'informations
  • Interfacer Big Data avec les données existantes
  • Compréhension de base des technologies habilitantes dans l'analyse prédictive
  • [Visualisation des tableaux de bord
  • Gestion de la fraude
  • [Règles et détection de la fraude
  • Détection des menaces et profilage
  • Analyse coût-bénéfice pour la mise en œuvre de Big Data

Introduction à Big Data

  • Principales caractéristiques de Big Data : volume, variété, rapidité et véracité.
  • Architecture MPP (traitement massivement parallèle)
  • Data Warehouses - schéma statique, ensemble de données à évolution lente
  • MPP Database : Greenplum, Exadata, Teradata, Netezza, Vertica, etc.
  • Solutions basées sur Hadoop - aucune condition sur la structure de l'ensemble de données.
  • Modèle type : HDFS, MapReduce (crunch), récupération à partir de HDFS
  • [pour le traitement en flux
  • Batch - adapté au traitement analytique/non interactif
  • Volume : Données en continu de la CEP
  • Choix typiques - produits CEP (par exemple Infostreams, Apama, MarkLogic, etc.)
  • Moins prêts pour la production - Storm/S4
  • NoSQL Databases - (en colonnes et clé-valeur) : Mieux adaptés comme complément analytique à un entrepôt de données/une base de données

Solutions NoSQL

  • KV Store - Keyspace, Flare, SchemaFree, RAMCloud, Oracle NoSQL Database (OnDB)
  • KV Store - Dynamo, Voldemort, Dynomite, SubRecord, Mo8onDb, DovetailDB
  • Magasin KV (hiérarchique) - GT.m, Cache
  • KV Store (ordonné) - TokyoTyrant, Lightcloud, NMDB, Luxio, MemcacheDB, Actord
  • KV Cache - Memcached, Repcached, Coherence, Infinispan, EXtremeScale, JBossCache, Velocity, Terracoqua
  • Tuple Store - Gigaspaces, Coord, Apache River
  • Objet Database - ZopeDB, DB40, Shoal
  • Magasin de documents - CouchDB, Cloudant, Couchbase, MongoDB, Jackrabbit, XML-Databases, ThruDB, CloudKit, Prsevere, Riak-Basho, Scalaris
  • Magasins à colonnes larges - BigTable, HBase, Apache Cassandra, Hypertable, KAI, OpenNeptune, Qbase, KDI

Variétés de données : Introduction à Data Cleaning questions dans Big Data

  • SGBDR - structure statique/schéma, ne favorise pas un environnement agile et exploratoire.
  • SGBDR NoSQL - semi-structuré, structure suffisante pour stocker les données sans schéma exact avant le stockage des données
  • Problèmes de nettoyage des données

Hadoop

  • Quand choisir Hadoop ?
  • STRUCTURÉ - Les entrepôts de données/bases de données d'entreprise peuvent stocker des données massives (à un certain coût) mais imposent une structure (ce qui n'est pas bon pour l'exploration active).
  • Données SEMI STRUCTURÉES - difficiles à réaliser avec les solutions traditionnelles (DW/DB)
  • Entreposage de données = effort énorme et statique même après la mise en œuvre
  • Pour la variété et le volume des données, il est nécessaire d'utiliser du matériel de base - HADOOP
  • Matériel de base nécessaire pour créer un Hadoop cluster

Introduction à Map Reduce /HDFS

  • MapReduce - répartir les calculs sur plusieurs serveurs
  • HDFS - rend les données disponibles localement pour le processus de calcul (avec redondance)
  • Données - peuvent être non structurées/sans schéma (contrairement aux SGBDR)
  • La responsabilité du développeur est de donner un sens aux données
  • [MapReduce = travailler avec Java (avantages/inconvénients), charger manuellement les données dans HDFS

=====
Jour 02
=====
Big Data Ecosystème -- Construire Big Data ETL (Extract, Transform, Load) -- Quels Big Data outils utiliser et quand ?

  • Solutions Hadoop vs. autres NoSQL solutions
  • Pour un accès interactif et aléatoire aux données
  • Hbase (base de données orientée colonnes) sur Hadoop
  • Accès aléatoire aux données mais restrictions imposées (max 1 PB)
  • Ne convient pas pour les analyses ad hoc, mais bien pour l'enregistrement, le comptage et les séries chronologiques.
  • Sqoop - Importation à partir de bases de données vers Hive ou HDFS (accès JDBC/ODBC)
  • Flume - Flux de données (par exemple, données de journalisation) dans HDFS

Big Data Management Système

  • Pièces mobiles, démarrage/échec des nœuds de calcul : ZooKeeper - Pour les services de configuration/coordination/nommage
  • Pipeline/flux de travail complexe : Oozie - gestion du flux de travail, des dépendances, de la chaîne en marguerite
  • Déploiement, configuration, gestion des clusters, mise à niveau, etc. (administrateur système) :Ambari
  • Dans le nuage : Whirr

Predictive Analytics -- Techniques fondamentales et intelligence Business basée sur Machine Learning

  • Introduction à Machine Learning
  • Apprentissage des techniques de classification
  • Prédiction bayésienne -- préparation d'un fichier d'entraînement
  • Machine à vecteur de support
  • KNN p-Tree Algebra & vertical mining
  • Neural Networks
  • Big Data Problème des grandes variables -- Forêt aléatoire (FA)
  • Big Data Problème d'automatisation - ensemble multi-modèle RF
  • Automatisation par Soft10-M
  • Outil d'analyse de texte - Treeminer
  • Agile Apprentissage
  • Apprentissage basé sur des agents
  • Apprentissage distribué
  • Introduction aux outils open source pour l'analyse prédictive : R, Python, Rapidminer, Mahut

[L'écosystème et son application à l'analyse du renseignement criminel

  • Technologie et processus d'enquête
  • Analyse de l'information
  • Analyse de visualisation
  • Analyse prédictive structurée
  • Analyse prédictive non structurée
  • Profilage des menaces/fraudeurs/fournisseurs
  • Moteur de recommandation
  • Détection de modèles
  • Découverte de règles/scénarios - échec, fraude, optimisation
  • Découverte des causes profondes
  • Analyse des sentiments
  • Analyse CRM
  • Analyse de réseau
  • Analyse de texte pour obtenir des informations à partir de transcriptions, de déclarations de témoins, de conversations sur Internet, etc.
  • Examen assisté par la technologie
  • Analyse de la fraude
  • Analyse en temps réel

=====
Jour 03
=====
Analyse en temps réel et Scalable sur Hadoop

  • Pourquoi les algorithmes analytiques courants échouent dans Hadoop/HDFS
  • Apache Hama - pour le calcul distribué synchrone en masse
  • Apache SPARK - pour le calcul en grappe et l'analyse en temps réel
  • CMU Graphics Lab2 - Approche asynchrone basée sur les graphes pour le calcul distribué
  • KNN p -- Approche basée sur l'algèbre de Treeminer pour réduire le coût d'exploitation du matériel.

Outils pour l'eDiscovery et la criminalistique

  • eDiscovery sur Big Data vs. données patrimoniales - une comparaison des coûts et des performances
  • Codage prédictif et examen assisté par la technologie (TAR)
  • Démonstration en direct de vMiner pour comprendre comment la révision assistée par la technologie permet une découverte plus rapide
  • Indexation plus rapide grâce à HDFS - Vélocité des données
  • NLP (Natural Language processing) - produits et techniques open source
  • eDiscovery en langues étrangères - technologie pour le traitement des langues étrangères

[BI pour Cyber Security - Obtenir une vue à 360 degrés, accélérer la collecte des données et l'identification des menaces

  • Comprendre les bases de l'analyse de la sécurité -- surface d'attaque, mauvaise configuration de la sécurité, défenses de l'hôte
  • Infrastructure réseau / Grandes données / Réponse ETL pour l'analyse en temps réel
  • Prescription vs prédiction - règles fixes vs découverte automatique de règles de menace à partir de métadonnées

Collecte de données disparates pour l'analyse du renseignement criminel

  • Utilisation de l'IoT (Internet des objets) comme capteurs pour la capture de données
  • Utilisation de l'imagerie satellitaire pour la surveillance intérieure
  • Utilisation de données de surveillance et d'images pour l'identification des criminels
  • Autres technologies de collecte de données - drones, caméras corporelles, systèmes de marquage GPS et technologie d'imagerie thermique
  • Combinaison de l'extraction automatisée de données avec des données obtenues à partir d'informateurs, d'interrogatoires et de recherches
  • Forecasting activité criminelle

=====
Jour 04
=====
Prévention de la fraude BI de Big Data dans l'analyse de la fraude

  • Classification de base de l'analyse de la fraude - analyse basée sur des règles ou analyse prédictive
  • Apprentissage automatique supervisé ou non supervisé pour la détection de modèles de fraude
  • L'apprentissage automatique pour la détection des schémas de fraude Business à la fraude commerciale, à la fraude médicale, à la fraude à l'assurance, à l'évasion fiscale et au blanchiment d'argent.

Social Media Analyse -- Collecte et analyse de renseignements

  • Comment Social Media est utilisé par les criminels pour organiser, recruter et planifier.
  • Big Data API ETL pour l'extraction des données des médias sociaux
  • Texte, image, métadonnées et vidéo
  • Analyse des sentiments à partir des flux de médias sociaux
  • Filtrage contextuel et non contextuel des flux de médias sociaux
  • [Tableau de bord pour intégrer divers médias sociaux
  • Profilage automatisé du profil des médias sociaux
  • Des démonstrations en direct de chaque outil d'analyse seront effectuées à l'aide de l'outil Treeminer.

Big Data Analyse du traitement des images et des flux vidéo

  • Techniques de stockage d'images Big Data -- Solution de stockage pour les données dépassant les pétaoctets
  • LTFS (Linear Tape File System) et LTO (Linear Tape Open)
  • GPFS-LTFS (General Parallel File System - Linear Tape File System) -- solution de stockage en couches pour les données d'images volumineuses.
  • Principes fondamentaux de l'analyse d'images
  • Reconnaissance d'objets
  • Segmentation d'images
  • Suivi des mouvements
  • Reconstruction d'images en 3D

BioMétriques, ADN et programmes d'identification de nouvelle génération

  • Au-delà des empreintes digitales et de la reconnaissance faciale
  • Reconnaissance de la parole, de la frappe (analyse de la frappe d'un utilisateur) et CODIS (système de fichier combiné des empreintes génétiques)
  • Au-delà de la comparaison d'ADN : utilisation du phénotypage d'ADN pour construire un visage à partir d'échantillons d'ADN.

Big Data Tableau de bord pour un accès rapide aux diverses données et à l'affichage :

  • Intégration de la plate-forme d'application existante avec le Big Data tableau de bord.
  • Gestion Big Data
  • Étude de cas du tableau de bord Big Data : Tableau et Pentaho
  • Utilisation de l'application Big Data pour pousser des services basés sur la localisation dans Govt.
  • Système de suivi et gestion

=====
Jour 05
=====
Comment justifier la mise en œuvre de Big Data BI au sein d'une organisation :

  • Définir le ROI (Return on Investment) pour l'implémentation de Big Data.
  • Etudes de cas pour économiser le temps des analystes dans la collecte et la préparation des données - augmenter la productivité
  • Gain de revenus grâce à la réduction des coûts de licence de la base de données
  • Gain de revenus grâce aux services de géolocalisation
  • Réduction des coûts grâce à la prévention de la fraude
  • Une approche intégrée à l'aide d'un tableur pour calculer les dépenses approximatives par rapport aux gains/économies de revenus résultant de la mise en œuvre de Big Data.

Procédure étape par étape pour remplacer un système de données existant par un système Big Data.

  • Feuille de route de la migration Big Data
  • Quelles sont les informations essentielles nécessaires à l'élaboration d'un système Big Data ?
  • Quelles sont les différentes manières de calculer le volume, la vitesse, la variété et la véracité des données ?
  • Comment estimer la croissance des données ?
  • Études de cas

Examen des fournisseurs de Big Data et de leurs produits.

  • Accenture
  • APTEAN (anciennement CDC Software)
  • Cisco Systèmes
  • Cloudera
  • Dell
  • EMC
  • GoodData Corporation
  • Guavus
  • Hitachi Data Systems
  • Hortonworks
  • HP
  • IBM
  • Informatica
  • Intel
  • Jaspersoft
  • Microsoft
  • MongoDB (anciennement 10Gen)
  • MU Sigma
  • Netapp
  • Opera Solutions
  • Oracle
  • Pentaho
  • Platfora
  • Qliktech
  • Quantum
  • Rackspace
  • Revolution Analytics
  • Salesforce
  • SAP
  • SAS Institut
  • Sisense
  • Software AG/Terracotta
  • Soft10 Automation
  • Splunk
  • Sqrrl
  • Supermicro
  • Tableau Logiciels
  • Teradata
  • Think Big Analytics
  • Tidemark Systems
  • Treeminer
  • VMware (partie d'EMC)

Session de questions/réponses

Pré requis

  • Connaissance des processus d'application de la loi et des systèmes de données
  • Compréhension de base de SQL/Oracle ou d'une base de données relationnelle
  • Compréhension de base des statistiques (au niveau du tableur)
  35 heures
 

Nombre de participants


Début

Fin


Dates are subject to availability and take place between 09:30 and 16:30.
Les formations ouvertes requièrent plus de 3 participants.

Nos Clients témoignent (4)

Cours Similaires

Catégories Similaires