1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38

33

Le cheminement conceptuel

[!]

la cardinalité de l'attribut qui indique le nombre de valeurs tolérées pour fournir une réponse plus ou moins précise à la question (cf. § 4.6.4.3).

L'intérêt d'utiliser cette approche se situe à deux niveaux :

Au niveau de la description, il est possible de concevoir un modèle d'organisation des connaissances selon différents points de vue détaillés au chapitre 4. L'idée principale est de proposer à un utilisateur quelconque du système un questionnaire sous la forme d'un guide d'observation (comment observer ?) avec le principe de pouvoir décrire du niveau le plus général au niveau le plus particulier (en partant de la racine !) selon différentes directions (dépendances et spécialisations). Ce guide est l'ossature du questionnaire, il n'est pour autant pas contraignant : si l'utilisateur désire directement décrire un objet à un niveau donné de la structure proposée, le questionnaire va inférer l'existence des objets dont il dépend avant de permettre la description de l'objet.

Au niveau de la classification, une procédure de filtrage des objets et des attributs pertinents dans le contexte d'un noeud de l'arbre de décision permet de contraindre l'espace des tests possibles pour le calcul du gain d'information. Pour ID3, le gain d'information est calculé pour tous les attributs qui n'apparaissent pas déjà dans le chemin courant de l'arbre (menant de la racine au noeud courant). Pour KATE, seuls les descripteurs applicables au noeud courant sont pris en compte pour le calcul du gain d'information de chacun d'eux (voir plus bas).

KATE n'est donc pas une nouvelle technique d'induction àpart entière, elle représente une extension des algorithmes ID3 et Neddie pour le traitement de données complexes. Pour comprendre sur un exemple simple le principe de la discrimination par arbre selon ID3, on peut se référer à [Quinlan, 1983] et [Manago, 1988]. En analyse des données, il s'agit d'un processus analogue de segmentation [Diday, 1982].

Pour sa part, KATE teste systématiquement le gain d'information d'un attribut associé à un objet. Il exploite la structure des schémas pour engendrer dynamiquement les tests dont le gain d'information va être calculé [Manago et al., 1991].

Considérons une base d'exemples pathologie végétale (figure 1.2) :

pour

une

application

de

diagnostic

en