1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24

221

Le traitement des descriptions biologiques: KATE et CaseWork

7.2.2.1 Apprentissage automatique = perte d'information

Toutes les techniques issues de l'apprentissage, qu'elles soient empiriques ou analytiques, présentent un certain nombre de limites inhérentes à l'approche. Pour l'induction à partir d'exemples, c'est-à-dire à partir de la représentation en extensiondes classes à apprendre (des descriptions de spécimens), l'algorithme va dériver une représentation en intension (une caractérisation) des classes par des concepts. Il en résulte des définitions différentielles (ou diagnoses) permettant de délimiter les concepts les uns des autres.

Cette représentation en intension s'accompagne d'une généralisation des exemples, de façon à prendre en compte des individus autres que les exemples eux-mêmes. Les généralisations peuvent être obtenues à l'aide de diverses techniques mais quelle que soit celle choisie, on va perdre de l'information contenue dans les exemples. C'est à la fois l'avantage de l'approche et son inconvénient car on risque d'éliminer une information utile. Tout l'art consiste à déterminer quelles sont les informations utiles qui doivent apparaître dans la définition en intension des concepts. Malheureusement, pour certaines applications (dont celles en biologie), il est impossible de prédire à l'avance quelles sont les informations importantes qu'il faut conserver.

7.2.2.2 Gestion de l'inconnu en phase de consultation

Considérons l'arbre d'identification de la figure 7.3. En phase de consultation, le système expert de reconnaissance d'éponges va d'abord demander à l'utilisateur comment est l' "extrémité des dents". Supposons que ce dernier ne soit pas en mesure de répondre (la réponse est «inconnu»). L'inférence suit les deux branches "en-lancette" et "élargies" puis combine les réponses aux feuilles de l'arbre. Dans la branche "élargies", nous obtenons un diagnostic partiel (Paradisconema avec 1 exemple). Dans la branche "en-lancette", le système expert demande ensuite quelle est la forme du corps. L'utilisateur répond "conique". Le système expert conclut alors qu'il s'agit de Coscinonema (0.5) ou de Paradisconema (0.5), ce qui dénote que ces deux conclusions sont également possibles. Ce diagnostic incertain est obtenu en combinant les exemples aux deux feuilles de l'arbre que nous avons atteint au cours de la consultation comme indiqué dans la figure 7.4 :