|
|
2.2.1.9 Tolérance aux bruits
Enfin, nous mentionnerons le facteur de robustesse qui nous parait le plus
important : la tolérance aux bruits. Dans INSTIL, il y avait deux problèmes
attachés au bruit : la détectionet le traitement. Pour le premier aspect, les
différentes sortes de bruit ont été identifiées et répertoriées au niveau des trois
phases de l'acquisition des connaissances : collecte et observation, description,
diagnostic. La classification de la figure 2.2 en donne un résumé (voir plus loin).
Pour le second aspect, une bonne partie des bruits des différents maillons de la
chaîne a pu être traitée avant la phase d'apprentissage afin d'obtenir des
exemples de qualité. Les moyens à mettre en oeuvre pour minimiser ces bruits
«de terrain» sont décrits dans [Conruyt & Piaton, 1987].
Néanmoins, d'autres bruits plus «abstraits» sont par exemple la difficulté
d'observation d'un caractère, son polymorphisme, son coût, la fiabilité du
diagnostic, la tolérance d'une coupure autour d'un seuil d'une variable
numérique, l'importance d'un caractère comme critère de classification. Ils
nécessitent une représentation symbolique explicite dans les exemples pour leur
traitement [Manago & Kodratoff, 1987]. Ce travail a été réalisé en introduisant
des propriétés supplémentaires dans la définition des attributs [Manago, 1988],
[Conruyt & Lesaffre, 1988] :
|
|
|
|
|
[!]
|
|
Confiance
Ce paramètre définit simplement le coefficient de vraisemblance d'une
information. Sa valeur sera "faible" si l'attribut est difficile à observer. Les
attributs ayant un faible degré de confiance sont utilisés le plus tard
possible durant la construction de l'arbre de décision.
Recouvrement
Lorsque des valeurs se recouvrent, comme par exemple, [couleur tache
(recouvrement (brun beige) (brun noir))], la sélection des exemples à un
noeud de l'arbre de décision pour le test "couleur(tache)" tiendra compte de
la polymorphie des couleurs : pour la valeur "noir", on retiendra pour
construire le sous-arbre tous les exemples dont la couleur de la tache est
aussi "brun".
Coût
Ce paramètre indique le prix à payer (financier, temps d'attente, etc.) pour
obtenir la réponse au test demandé. Par exemple, faire un test de
laboratoire (isolement bactérien, viral) possède un coût élevé. On essayera
donc d'abord les tests bon marché pour construire les règles de décision.
Fiabilité
Il s'agit ici de la confiance que l'expert accorde au diagnostic d'un
exemple. C'est une mesure de la qualité d'un exemple en terme de
|
|