1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24

50

Chapitre 2

IMAGE imgs/Chapitre201.gif

2.1.1 La robustesse statistique

L'étude statistique d'une base d'exemples vise à produire un résumé d'un fichier de centaines exemples décrits par des dizaines de variables. Ce résumé prend la forme d'un arbre dont chaque noeud correspond à une partie des exemples ayant les mêmes valeurs pour certaines variables. De même qu'un histogramme est une image qui résume un fichier uni-colonne, un arbre est avant tout une image résumée d'un fichier multi-colonnes correspondant à des variables n'ayant qu'un petit nombre de valeurs [Crémilleux, 1991]. Le processus par lequel on synthétise les exemples est appelé induction.

Pour résumer l'information, les systèmes d'apprentissage inductif recherchent des régularités dans les données d'observation initiales en utilisant des critères numériques issus des statistiques (c2, critère de Gini, entropie de Shannon, etc.), ce qui permet de prendre des choix décisifs pour partitionner les exemples. La séparation est censée avoir une signification statistique, c'est-à-dire qu'elle ne découle pas simplement du hasard [Gascuel & Carraux,1992]. Le principe de construction des arbres de décision est expliqué au chapitre 7.

L'objectif des statisticiens est d'utiliser ces arbres comme un moyen efficace de prédire le classement de nouvelles observations avec un taux minimal d'erreurs. C'est le pouvoir prédictif de l'arbre qui détermine sa robustesse statistique dans ce contexte [Breiman et al., 1984]. Une recherche de Mingers sur des données empiriques [Mingers, 1989] aboutit à la conclusion que ce n'est pas tant le choix de la mesure qui importe mais plutôt celui de l'élagage de l'arbre final. Ainsi, le programme CART extrait le meilleur sous-arbre en utilisant soit un critère d'élagage pour les grosses bases d'exemples, soit une validation croisée lorsqu'il y a peu d'exemples [Gomes, 1992].

La robustesse statistique suppose néanmoins certaines hypothèses probabilistes posées a prioride manière à pouvoir estimer la reproductibilité des résultats de classement des nouvelles observations :

[!]

la représentativité de la base d'exemples nécessite de considérer la fréquence d'apparition des exemples dans la population, les cas rares n'ayant pas le même poids statistique que les cas "typiques"1,

[!]

l'échantillonnage se fait de manière distribution de la population étudiée.

aléatoire

en

suivant

un

modèle

de

IMAGE imgs/Chapitre202.gif
1Pour une explication des différents sens du terme "typique", on peut se référer à [Lebbe, 1991].