Presentation Data Mining - Taliste à l'Ucl

cuttinglettersAI and Robotics

Oct 20, 2013 (3 years and 11 months ago)

103 views

Sujet

: Étude de Data Mining en utilisant SAS:EM



Plan

:


Nous allons commencer cette présentation en définissant nos objectif et en expliquant notre
méthodologie. Nous survolerons ensuite les différents nodes qui compose notre diagramme
SAS. Nous parler
ons ensuite des différends modèles en prenant comme exemple le réseau de
neurone, et nous conclurons cet exposé par les résultats que nous avons obtenus.



Objectif:


Notre objectif est de prédire si des entreprises vont acheter un produit financier. Pour
ce faire
nous disposons d’une base de donnée constitué d’informations sur un grand nombre
d’entreprise (coût, revenu…). Nous avons utiliser ces informations pour construire un modèle
prédictif à l’aide du logiciel SAS

: Entreprise Miner et dégager les vari
ables les plus
pertinentes pour prédire le comportement de l’entreprise.



Méthodologie

:


Tout d’abord nous avons fait subir au données qui nous ont été fourni un série de modification
afin qu’ils construisent au mieux les différends modèles que nous avon
s étudié.

Nous les avons ensuite comparé entre eux à l’aide de lift curve dans le node Assesment, ce
qui nous a également permis de noter les variables que les modèles jugeaient les plus
pertinentes.



Node

: Input Data


Pour créer nos modèles nous avons u
tiliser plusieurs jeux de données. En effet il est très
important de ne pas construire un modèle sur une seule base de donnée afin d’éviter son
surentrainement.


Nous avons donc utiliser la règle classique de l’entrainement, validation et test en utilisant

deux dataset

: Train (70% train, 30% validation) et Test.


Notons qu’une cross
-
validation aurait également pu être utiliser et aurait présenter l’avantage
de ne pas jongler avec plusieurs fichier de données.



Node

: Transformation des données


Dans ce n
ode nous avons tenté de rendre les variables les plus normales possible afin de
facilité la construction des modèles. Lorsque cela était possible nous avons laissé SAS choisir
automatiquement la meilleur solution, et lorsqu’elle ne nous convenait pas nous
les agrégions
en décile.




Node

: Replacement


Que faire lorsqu’une donnée est manquante

? Nous avons utilisé plusieurs méthodes

:

-

si la variable est binaire ou représente un degré, nous marquions 0.

-

si la variable ne concerne pas la finance, nous utilis
ions la moyenne.

-

dans les autres cas nous utilision la méthode de tree imputation.




Node

: Sélection des variables


Toutes les variables ne sont pas pertinente, et il est même certains qu’une partie ne doit pas
être utilisé par le modèle. Par exemple si
un modèle tente d’établir une corrélation entre l’ID
d’une entreprise et le fait qu’elle possède la target ou non, il va clairement se créer un biais.

C’est pour cela que nous avons écarté d’emblée certaines variables et c’est à cela que sert ce
node.



No
de

: Filter Outlier


Ici nous avons tenté de traiter les valeurs extremes. Mais, bien qu’habituellement elles
constituent des erreurs de calculs ou de mauvaises mesures, dans notre cas, du fait de la nature
même de nos individus, il n’était pas rare qu’une

valeur extreme soit tout à fait possible.

Et même en mettant des conditions drastiques et en minimisant le pourcentage d’individu
écarté il nous semblait que nous perdions de l’information.

Cette intuition a été confirmé lorsque nous avons testé la régres
sion logistique (modèle très
sensible aux valeurs extrème) avec ou sans ce node, et que le modèle sans se révéla plus
performant.



ModèleS


Nous avons comparer plusieurs modeles

: arbre de décision, régression logistique et réseau de
neurone. Mais nous av
ons aussi tester plusieurs famille du même modèle. Non pas dans le but
de tester tout les parmètres, cela aurait été beaucoup trop long.

En fait nous réfléchissions au paramètres à choisir selon nos données, nos lectures et les tp
que nous avions effectuer
, s’il arrivait qu’un paramètre n’ait pas vraiment de raison d’être
changé nous n’y touchions pas, et si un paramètre avait autant de raisons d’être à deux
positions à la fois alors nous créions deux modèles avec juste ce paramètre de différend afin
d’en t
ester les conséquence.



Exemple

: le Neural Network


Par exemple pour le réseau de neuronne

: nos tp nous encourageait à choisir le Perceptron
Multi Couche (et nous n’avions pas de bonne raison de faire autrement), nos lecture nous
indiquait qu’utilisait
comme algorithme d’apprentissage «

Gradient
-
Conjugate

» était un bon
compromis entre performance et vitesse d’execution mais nous hésitions sur le nombre de
neurone caché.

Nous avions donc fait 3 modèle, un avec 1, l’autre avec deux, et le dernier avec 3
neurones
cachés et nous avions comparé les résultats

: le deuxième était le meilleur donc nous l’avons
gardé.



Comparaison des modèle


Une fois que nous eume construit selon nous les meilleurs modèle nous utilisions la courbe de
lift pour déterminer leque
l
obtenait

le meilleur score. Le Neural Network l’a emporté, avec
environ 57% de target capturé au premier 10% de la population mais ne battait la régression
que de quelques pourcent.



Variables pertinentes


A partir de ces modèles nous sommes arrivés à d
éterminer les variables qui permettent le plus
de prédire le comportement d’une entreprise sur notre target. Dans ce tableau nous avons les
noms des variables après transformation, nous pouvons donc retranscrire

:

-

Le
current_wealth_type2

;

-

Le
current_weal
th_type3

;

-

Le
Expense_Type_1_AV

;

-

Le
Ration_Type1_Current_Wealth

;

-

Le
Sector_group1

;



Sur
-
Echantillonage


Nous avons par la suite utilisé les données sur
-
échantillonnées, mais nous avons obtenue un
résultat contre intuitif puisque les performances des mo
dèles se dégradaient


Conclusion


Nous pouvons donc dire pour conclure que notre étude nous a permis de construire un modèle
qui nous a montrer les variables permettant le mieux de prédire le comportement d’une
entreprise vis
-
à
-
vis de la target.


Malheureu
sement le suréchantillonage donnant de moins bon résultat, nous doutons de la
réelle pertinence de ces variables.


Question

?