1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24

229

Le traitement des descriptions biologiques: KATE et CaseWork

La comparaison basée sur le choix d'un seul critère à un moment donné est analytique. Elle est aussi qualifiée de monothétique [Pankhurst, 1991] ou mono dimensionnelle [Fenelon, 1981]. La mesure d'entropie utilise la liste des attributs disponibles à chaque étape pour évaluer leurs différents pouvoirs de séparation des exemples conditionnellement aux différentes classes présentes. De ce fait, on peut qualifier le gain d'information comme une mesure de discrimination inter-classe. Dans cette méthode, on s'intéresse à la distribution relative des exemples par rapport aux valeurs possibles de chaque attribut, c'est- à-dire que l'on compte les exemples par rapport aux attributs. Ici, ce sont les attributs qui sont comparés entre eux, ce qui revient à travailler sur la définition en intension des concepts.

D'autres procédures de détermination comparent les exemples entre eux, c'est-à- dire à partir de la représentation en extension des classes. Ces méthodes sont polythétiquescar elles étudient toutes les configurations possibles d'appariement des exemples à chaque étape de la division. Ce sont des méthodes synthétiques d'analyse multi-dimensionnelle des données [Bertier & Bouroche, 1981]. Elles se basent sur une mesure de proximité entre les exemples appartenant à une même classe comme par exemple pour la recherche des k plus proches voisinen analyse discriminante [Celeux et al., 1989]. Ces mesures de ressemblance tenant compte de l'homogénéité des descriptions à l'intérieur d'une même classe sont des mesures intra-classe. Une distance est calculée pour évaluer la similarité entre les exemples qui sont appariés deux à deux. Cette approche tient compte de tous les attributs à la fois parce qu'elle compte les identités et les différences au niveau des valeurs prises par les attributs par rapport aux exemples : il s'agit d'un comptage des attributs par rapport aux exemples.

L'avantage d'une procédure de raisonnement par cas par rapport à une procédure de détermination déductive (ou associative) est son incrémentalité. Casework prend en compte tous les cas qui sont actuellement dans la base. Contrairement à KATE, il n'est plus nécessaire de passer par une phase de mise à jour et d'engendrer un nouvel arbre lorsqu'on rajoute un nouvel exemple.

Sa difficulté est que justement, elle contraint à travailler sur la quasi-totalité de l'information disponible, ce qui peut s'avérer d'une lourdeur insurmontable pour les méthodes polythétiques. En ce qui concerne notre méthode monothétique, nous n'avons jusqu'à présent pas rencontré de problèmes d'efficacité même pour des applications volumineuses dans d'autres domaines que la biologie. Le nombre de cas considérés se réduit très rapidement au fur et à mesure des questions et le temps de calcul du meilleur critère, compte tenu de l'efficacité de la méthode, n'est pas une contrainte d'utilisation.

Donc, le raisonnement par cas peut se substituer avantageusement à l'induction pour la phase de consultation interactive. En revanche, il ne permet pas