1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24

216

Chapitre 7

Tout noeud diautre que d0est relié par un arc à un autre noeud di'appelé le fils de di. Si di'est filsde dialors diest appelé pèrede di'. Cet arc est une branche avec un sommet di' et une extrémité di. Elle contient la valeur vi à observer pour déterminer l'individu (cf. figure 7.1).

Dt= {dt} est l'ensemble des noeuds terminaux ou feuilles de l'arbre T, une feuilleest un noeud dk= dtqui n'a pas de fils.

Soit la relation ">" ("père de").

Supposons que d1, d2, ..., dk soit une séquence de noeuds de T telle que d1 > d2 > ... > dk-1> dk.Cette séquence est appelée un chemindepuis d1 jusqu'à dkdans T. La longueur du chemin est k - 1.

La profondeur de l'arbre Test la longueur du chemin maximal menant de d0à dt.

6)Tester si toutes les variables candidates à un noeud de l'arbre sont jugées "indépendantes" de la variable décision. Pour ce faire, on calcule le test du c2 pour chaque variable à partir du tableau de contingence défini par celle-ci et la variable décision. Puis on compare ce calcul avec le gain d'information. Ce dernier tend vers un c2 lorsque le nombre de cas au noeud courant est élevé.

Remarque: ce dernier point n'est souvent pas vérifié dans nos application pour la significativité du test, ce qui est un inconvénient pour arrêter la construction de l'arbre de manière fiable. Ce test est à considérer pour les noeuds terminaux dont le nombre d'exemples est élevé ainsi que le nombre de modalités de la variable décision [Crémilleux, 1991].

7)Il ne reste plus aucune variable candidate pour segmenter le noeud. En effet, à chaque fois qu'une variable est choisie comme test pour l'arbre de décision, elle est éliminée de la liste des variables candidates pour les noeuds suivants. Cette règle ne s'applique pas pour les variables numériques qui peuvent être réutilisées plusieurs fois (voir § 7.1.4.4). De même, les variables classifiées présentent des valeurs différentes si elles ont déjà été utilisées une fois pour la segmentation : il faut pour cela exploiter l'ordre introduit par les noeuds intermédiaires de la taxonomie des valeurs possibles : la variable est examinée paliers par paliers jusqu'aux feuilles terminales avant d'être éliminée de la liste des variables candidates.