1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24

225

Le traitement des descriptions biologiques: KATE et CaseWork

1987], la détermination des structures secondaires de protéines [Zhang et al., (à paraître)], etc..

7.3.2 Notre procédure de raisonnement par cas : CaseWork

En nous plaçant dans le cadre de la définition sous forme de tâches du raisonnement par cas [Aamodt & Plaza, 1994], CaseWork effectue les deux premiers traitements, c'est-à-dire Rechercher et Réutiliser. Les deux autres tâches (Réviser et Retenir) font partie de la procédure de validation qui est assurée par l'expert dans notre méthodologie d'acquisition des connaissances (voir § 2.4). Notons aussi que la réutilisation n'est qu'une copiedu résultat (le nom du concept associé à l'attribut Classe du cas similaire) et qu'il n'y a pas d'adaptationde la solution proposée par transformation ou dérivation, telle qu'elle est expliquée dans [Carbonell, 1986].

Pour notre exemple, au lieu de raisonner sur le cas courant avec un arbre de décision, le système part directement de la base de cas de références. Nous utilisons une technique de base analogue àcelle utilisée dans le système d'induction KATE (optimisation du gain d'information) mais, au lieu d'engendrer complètement une structure statique d'arbre de décision puis d'oublier les exemples d'apprentissage, nous raisonnons directement sur les exemples pour engendrer dynamiquement un chemin dans un arbre (fictif et implicite) qui correspond au cas courant. Les autres branches de l'arbre, qui n'ont pas d'intérêt pour le cas courant, ne sont pas développées.

Ce module de raisonnement par cas permet de mieux traiter le problème des réponses inconnues en phase de consultation et d'avoir un outil flexible totalement guidé par l'utilisateur. En effet, en phase de construction de l'arbre de décision, les critères sont ordonnés à chaque noeud en fonction de leur pouvoir discriminant comme on peut le voir sur la figure 7.7.

En phase d'induction, à chaque noeud de l'arbre, seul le premier critère (celui qui a le meilleur gain) est utilisé pour construire l'arbre globalement optimal en terme d'efficacité (cet arbre cache la forêt des autres arbres possibles !). Pour la figure ci-dessous, c'est la forme du corps qui est choisie à la racine pour générer l'arbre de décision (le gain d'information est égal à 1). La forme homogène de l'arbre (bien équilibré) traduit cette efficacité.

Pour le raisonnement par cas, aucune structure d'arbre n'est générée. Il suffit que l'utilisateur réponde «inconnu» à un noeud correspondant à la question associée au premier critère pour que le système remplace ce critère non renseigné par son successeur ayant un pouvoir de discrimination juste inférieur, et ainsi de suite jusqu'à épuisement de la liste des critères si l'utilisateur n'a aucune information à apporter en réponse aux questions posées (ce qui n'est pas réaliste