1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24

57

Qu'est-ce que la robustesse ?

2.2.1.9 Tolérance aux bruits

Enfin, nous mentionnerons le facteur de robustesse qui nous parait le plus important : la tolérance aux bruits. Dans INSTIL, il y avait deux problèmes attachés au bruit : la détectionet le traitement. Pour le premier aspect, les différentes sortes de bruit ont été identifiées et répertoriées au niveau des trois phases de l'acquisition des connaissances : collecte et observation, description, diagnostic. La classification de la figure 2.2 en donne un résumé (voir plus loin). Pour le second aspect, une bonne partie des bruits des différents maillons de la chaîne a pu être traitée avant la phase d'apprentissage afin d'obtenir des exemples de qualité. Les moyens à mettre en oeuvre pour minimiser ces bruits «de terrain» sont décrits dans [Conruyt & Piaton, 1987].

Néanmoins, d'autres bruits plus «abstraits» sont par exemple la difficulté d'observation d'un caractère, son polymorphisme, son coût, la fiabilité du diagnostic, la tolérance d'une coupure autour d'un seuil d'une variable numérique, l'importance d'un caractère comme critère de classification. Ils nécessitent une représentation symbolique explicite dans les exemples pour leur traitement [Manago & Kodratoff, 1987]. Ce travail a été réalisé en introduisant des propriétés supplémentaires dans la définition des attributs [Manago, 1988], [Conruyt & Lesaffre, 1988] :

[!]

Confiance
Ce paramètre définit simplement le coefficient de vraisemblance d'une information. Sa valeur sera "faible" si l'attribut est difficile à observer. Les attributs ayant un faible degré de confiance sont utilisés le plus tard possible durant la construction de l'arbre de décision.

Recouvrement
Lorsque des valeurs se recouvrent, comme par exemple, [couleur tache (recouvrement (brun beige) (brun noir))], la sélection des exemples à un noeud de l'arbre de décision pour le test "couleur(tache)" tiendra compte de la polymorphie des couleurs : pour la valeur "noir", on retiendra pour construire le sous-arbre tous les exemples dont la couleur de la tache est aussi "brun".

Coût
Ce paramètre indique le prix à payer (financier, temps d'attente, etc.) pour obtenir la réponse au test demandé. Par exemple, faire un test de laboratoire (isolement bactérien, viral) possède un coût élevé. On essayera donc d'abord les tests bon marché pour construire les règles de décision.

Fiabilité
Il s'agit ici de la confiance que l'expert accorde au diagnostic d'un exemple. C'est une mesure de la qualité d'un exemple en terme de

[!]

[!]

[!]