DATA MINING - Taliste à l'Ucl

cuttinglettersAI and Robotics

Oct 20, 2013 (4 years and 23 days ago)

90 views

STAT2350

:

DATA
-
MINING


Sujet

: Étude de Data Mining en
utilisant SAS:EM



Année académique 2009


2010


UNIVERSITE CATHOLIQUE DE LOUVAIN


Spinel

Jean
-
Denis


Mitskos
Christina


Plan


Objectif et méthodologie



Les différents nodes



Les différends modèles



Résultats obtenu

Objectif:


Target



Modèles prédictifs



Variables Pertinentes

Méthodologie

:

Node

: Input Data


!!: Surentrainement



Entrainement, Validation, Test




Note: Cross
-
Validation ?

Node

: Transform Variable

Node

: Replacement



Si binaire


0



Si !Finance


Moyenne



Sinon


Tree Inputation

Node: Variable Selection



Sans:




Avec:

Node

: Filter Outlier



Sans:




Avec

ModèleS


Arbres de Décisions



Régressions Logistiques



Réseau de Neurone

Exemple

: le Neural Network


Comparaison des modèle



Tree


Régression



NN

Variables Significatives

Oversampling


Tree


Régression



NN

Conclusion


Meilleur modèle = NN



Oversampling < Donnée brute ?



Doute

Bibliographie


TUFFERY (S.),
Data Mining et statistique
décisionnel
, Paris, Technip, 2007, 366 p.


http://www.stat.ucl.ac.be/cours/stat2350/SA
S_EM_4_3.pdf


http://www.stat.ucl.ac.be/cours/stat2350/SA
S_EM_case_study_approach.pdf


http://eric.univ
-
lyon2.fr/publications/files/TheseSimonMarce
llin.pdf