|
|
Tout noeud diautre que d0est relié par un arc à un autre noeud di'appelé le fils
de di. Si di'est filsde dialors diest appelé pèrede di'. Cet arc est une branche
avec un sommet di' et une extrémité di. Elle contient la valeur vi à observer pour
déterminer l'individu (cf. figure 7.1).
Dt= {dt} est l'ensemble des noeuds terminaux ou feuilles de l'arbre T, une
feuilleest un noeud dk= dtqui n'a pas de fils.
Soit la relation ">" ("père de").
Supposons que d1, d2, ..., dk soit une séquence de noeuds de T telle que
d1 > d2 > ... > dk-1> dk.Cette séquence est appelée un chemindepuis d1
jusqu'à dkdans T. La longueur du chemin est k - 1.
La profondeur de l'arbre Test la longueur du chemin maximal menant de d0à
dt.
6)Tester si toutes les variables candidates à un noeud de l'arbre sont jugées
"indépendantes" de la variable décision. Pour ce faire, on calcule le test du c2
pour chaque variable à partir du tableau de contingence défini par celle-ci et la
variable décision. Puis on compare ce calcul avec le gain d'information. Ce
dernier tend vers un c2 lorsque le nombre de cas au noeud courant est élevé.
Remarque: ce dernier point n'est souvent pas vérifié dans nos application pour
la significativité du test, ce qui est un inconvénient pour arrêter la construction de
l'arbre de manière fiable. Ce test est à considérer pour les noeuds terminaux dont
le nombre d'exemples est élevé ainsi que le nombre de modalités de la variable
décision [Crémilleux, 1991].
7)Il ne reste plus aucune variable candidate pour segmenter le noeud. En effet, à
chaque fois qu'une variable est choisie comme test pour l'arbre de décision, elle
est éliminée de la liste des variables candidates pour les noeuds suivants. Cette
règle ne s'applique pas pour les variables numériques qui peuvent être réutilisées
plusieurs fois (voir § 7.1.4.4). De même, les variables classifiées présentent des
valeurs différentes si elles ont déjà été utilisées une fois pour la segmentation : il
faut pour cela exploiter l'ordre introduit par les noeuds intermédiaires de la
taxonomie des valeurs possibles : la variable est examinée paliers par paliers
jusqu'aux feuilles terminales avant d'être éliminée de la liste des variables
candidates.
|
|