|
|
Ensuite, dans notre méthode opérationnelle, nous avons choisi deux modes de
traitement des descriptions en fonction desobjectifs poursuivis que nous
formalisons au chapitre 7. Nous sommes partis de l'algorithme KATE
[Manago, 1991] qui construit une classification à partir des connaissances
structurées du modèle observable et des descriptions observées. En voulant
utiliser cette classification comme une clé de détermination, on s'est aperçu que
le résultat de la consultation était moins fiable face à de nouvelles observations
incomplètes. Ceci est du au fait que l'on raisonne de manière déductive à partir
d'un arbre de décision (une caractérisation des descriptions) dans un contexte
empirique, et que les descriptions initiales ne sont plus intégralement accessibles
par ce raisonnement.
Nous avons donc développé un processus particulier de raisonnement
analogique basé sur la comparaison de toutes les descriptions entre elles et que
nous avons baptisé CaseWork. Mais au lieu de comparer les exemples entre
euxen utilisant une mesure de similitude globale et polythétique5coûteuse pour
le traitement (comptage des attributs par rapport aux exemples), nous préférons
comparer les attributs entre euxen reprenant la même mesure de calcul
d'entropie que pour l'induction avec KATE (c'est-à-dire compter les exemples
par rapport aux attributs). Cette dernière méthode est monothétique6. Elle est
plus facile à justifier et à expliquer à l'utilisateur, qui peut connaître les attributs
ordonnés en fonction de leur pouvoir de séparation des exemples. CaseWork
produit des résultats de détermination par comparaison meilleurs que KATE en
appliquant le principe du raisonnement à partir des cas, c'est-à-dire à partir de la
base d'expériences passées. En effet, CaseWork tient compte de toute la base
d'exemples, contrairement à la détermination déductive avec KATE qui utilise un
arbre de décision extrait à partir de la base de cas. Notons que ce "savoir
raisonner" n'est pas nouveau dans les systèmes de détermination en biologie. On
les trouve dans la littérature sous forme de clés à accès multiple ou encore sous
forme de programmes de détermination polyclaves [Pankhurst, 1991]. De
même, en analyse des données, des mesures de proximité expriment par un
nombre les ressemblances ou les dissemblances existant entre toutes les variables
qui caractérisent les exemples pris deux à deux [Chandon & Pinson, 1981]. Ces
indices sont utilisés pour des problèmes de classification ou de catégorisation
(voir § 3.3.2).
Inversement, le raisonnement par cas (ou encore à partir de cas) utilise la mesure
de similarité en phase de détermination : c'est aussi un processus de
remémoration et d'adaptation en fonction du contexte de la nouvelle observation
[Lieber, 1993]. L'intérêt que nous lui portons tient à son aspect complémentaire
5Evaluant les ressemblances et différences entre exemples sur l'ensemble des attributs (méthode
d'appariement).
6Basée sur la distribution relative des exemples par rapport aux valeurs possibles de chaque
attribut pris séparément (avec élimination des exemples non conformes à la valeur choisie).
|
|