2.1.1 La robustesse statistique
L'étude statistique d'une base d'exemples vise à produire un résumé d'un fichier
de centaines exemples décrits par des dizaines de variables. Ce résumé prend la
forme d'un arbre dont chaque noeud correspond à une partie des exemples ayant
les mêmes valeurs pour certaines variables. De même qu'un histogramme est une
image qui résume un fichier uni-colonne, un arbre est avant tout une image
résumée d'un fichier multi-colonnes correspondant à des variables n'ayant qu'un
petit nombre de valeurs [Crémilleux, 1991]. Le processus par lequel on
synthétise les exemples est appelé induction.
Pour résumer l'information, les systèmes d'apprentissage inductif recherchent
des régularités dans les données d'observation initiales en utilisant des critères
numériques issus des statistiques (c2, critère de Gini, entropie de Shannon,
etc.), ce qui permet de prendre des choix décisifs pour partitionner les exemples.
La séparation est censée avoir une signification statistique, c'est-à-dire qu'elle ne
découle pas simplement du hasard [Gascuel & Carraux,1992]. Le principe de
construction des arbres de décision est expliqué au chapitre 7.
L'objectif des statisticiens est d'utiliser ces arbres comme un moyen efficace de
prédire le classement de nouvelles observations avec un taux minimal d'erreurs.
C'est le pouvoir prédictif de l'arbre qui détermine sa robustesse statistique dans
ce contexte [Breiman et al., 1984]. Une recherche de Mingers sur des données
empiriques [Mingers, 1989] aboutit à la conclusion que ce n'est pas tant le choix
de la mesure qui importe mais plutôt celui de l'élagage de l'arbre final. Ainsi, le
programme CART extrait le meilleur sous-arbre en utilisant soit un critère
d'élagage pour les grosses bases d'exemples, soit une validation croisée
lorsqu'il y a peu d'exemples [Gomes, 1992].
La robustesse statistique suppose néanmoins certaines hypothèses probabilistes
posées a prioride manière à pouvoir estimer la reproductibilité des résultats de
classement des nouvelles observations :
|