Plan du cours
Prétraitement des données Data Cleaning Intégration et transformation des données Réduction des données Discrétisation et génération de hiérarchie de concepts
Inférence statistique Distributions de probabilité, variables aléatoires, théorème central limite
ÉchantillonnageIntervalles de confianceInférence statistiqueTests d'hypothèsesSpécification de régression linéaire multivariéeSélection de sous-ensemble
EstimationValidationPrédictionMéthodes de classification Régression logistiqueAnalyse discriminante linéaireK-voisins les plus proches
Bayes naïfComparaison des méthodes de classificationNeural Networks Adaptation des réseaux de neuronesProblèmes de formation des réseaux de neuronesArbres de décision Arbres de régressionArbres de classification
Arbres et modèles linéairesEnsachage, Random Forests, Ensachage BoostingRandom Forests
BoosterMachines vectorielles de support et classificateur de marge maximale de disque flexiblePrise en charge des classificateurs vectorielsMachines vectorielles de support
2 classes et plus de SVMRelation avec la régression logistiqueAnalyse des composantes principalesClustering K-signifie clustering
Regroupement des K-médoïdesClassification hiérarchiqueClustering basé sur la densitéÉvaluation du modèle et biais de sélection, variance et complexité du modèleErreur de prédiction dans l'échantillonL'approche bayésienne
Validation croiséeBootstrap méthodes