1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24

217

Le traitement des descriptions biologiques: KATE et CaseWork

7.1.4.4 ConstruireFeuille (E)

IMAGE imgs/Chapitre709.gif

A chaque libellé de classe étiquetant le noeud terminal est associé la probabilité calculée Pd. Cette configuration correspond à une ambiguïté ou un "clash" (voir § 1.6.1.3).

7.1.4.5 CalculerSeuil (A,E)

Cette fonction ne s'applique qu'aux attributs numériques (à valeurs ordonnées). Tout d'abord, l'ensemble des exemples E est trié selon les valeurs croissantes prises pour l'attribut A considéré :

IMAGE imgs/Chapitre710.gif

L'ensemble des valeurs de A prises par E est fini et noté {v1,...,vn}. Chaque point entre deux paires d'exemples dans la liste triée est alors calculé pour former un seuil potentiel de discrimination. Etant données n valeurs distinctes de A prises par E, il y a (n - 1) évaluations possibles, ce qui donne un ensemble de Tn-1seuils potentiels avec

Ti= IMAGE imgs/Chapitre711.gif 2.

A chaque évaluation de Ti, les exemples E sont séparés en deuxparties E1et E2 (binarisation de l'attribut) et on calcule comme avant le gain d'information de chaque seuil potentiel Ti, le test étant alors booléen : A(E1) <= Tiet A(E2) > Ti.

Après les (n - 1) évaluations, on choisit le seuil T qui possède le meilleur gain d'information.

S'il existe des intervalles dans l'ensemble des valeurs prises par A, on applique le même principe d'ordonnancement des exemples selon l'axe des entiers ou des réels. Les seuils potentiels sont les bornes des intervalles de chaque exemple. S'il y a n valeurs (intervalles) pour tous les exemples, cela donne 2n - 2 seuils potentiels à calculer (en ôtant les bornes les plus extrèmes) :