Introduction

Introduction

Ensuite, dans notre méthode opérationnelle, nous avons choisi deux modes de traitement des descriptions en fonction desobjectifs poursuivis que nous formalisons au chapitre 7. Nous sommes partis de l'algorithme KATE [Manago, 1991] qui construit une classification à partir des connaissances structurées du modèle observable et des descriptions observées. En voulant utiliser cette classification comme une clé de détermination, on s'est aperçu que le résultat de la consultation était moins fiable face à de nouvelles observations incomplètes. Ceci est du au fait que l'on raisonne de manière déductive à partir d'un arbre de décision (une caractérisation des descriptions) dans un contexte empirique, et que les descriptions initiales ne sont plus intégralement accessibles par ce raisonnement.
Nous avons donc développé un processus particulier de raisonnement analogique basé sur la comparaison de toutes les descriptions entre elles et que nous avons baptisé CaseWork. Mais au lieu de comparer les exemples entre euxen utilisant une mesure de similitude globale et polythétique⁵coûteuse pour le traitement (comptage des attributs par rapport aux exemples), nous préférons comparer les attributs entre euxen reprenant la même mesure de calcul d'entropie que pour l'induction avec KATE (c'est-à-dire compter les exemples par rapport aux attributs). Cette dernière méthode est monothétique⁶. Elle est plus facile à justifier et à expliquer à l'utilisateur, qui peut connaître les attributs ordonnés en fonction de leur pouvoir de séparation des exemples. CaseWork produit des résultats de détermination par comparaison meilleurs que KATE en appliquant le principe du raisonnement à partir des cas, c'est-à-dire à partir de la base d'expériences passées. En effet, CaseWork tient compte de toute la base d'exemples, contrairement à la détermination déductive avec KATE qui utilise un arbre de décision extrait à partir de la base de cas. Notons que ce "savoir raisonner" n'est pas nouveau dans les systèmes de détermination en biologie. On les trouve dans la littérature sous forme de clés à accès multiple ou encore sous forme de programmes de détermination polyclaves [Pankhurst, 1991]. De même, en analyse des données, des mesures de proximité expriment par un nombre les ressemblances ou les dissemblances existant entre toutes les variables qui caractérisent les exemples pris deux à deux [Chandon & Pinson, 1981]. Ces indices sont utilisés pour des problèmes de classification ou de catégorisation (voir § 3.3.2).
Inversement, le raisonnement par cas (ou encore à partir de cas) utilise la mesure de similarité en phase de détermination : c'est aussi un processus de remémoration et d'adaptation en fonction du contexte de la nouvelle observation [Lieber, 1993]. L'intérêt que nous lui portons tient à son aspect complémentaire

5_{Evaluant les ressemblances et différences entre exemples sur l'ensemble des attributs (méthode}d'appariement).
6_{Basée sur la distribution relative des exemples par rapport aux valeurs possibles de chaque}attribut pris séparément (avec élimination des exemples non conformes à la valeur choisie).

1 2 3 4 5 6 7 8 9 10