1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28

91

Terminologie et concepts mis en oeuvre

Fig. 3.6 : Schéma de comparaison des termes employés en systématique

La classification s'accompagne de la caractérisationdes classes (obtenues de manière expérimentale ou artificielle) : elle recherche les critères représentatifs (ou caractéristiques) de la classe (par confirmation des ressemblances intra- classe) et les critères de différenciation (ou de discrimination) des classes (par élimination des différences inter-classe). Elle permet d'expliciter les classesà partir des descriptions d'individus (explicitant elles-mêmes les individus des classes). La classification procède par généralisation inductivedes descriptions, elle est une démarche synthétique. Cette synthèse permet de créer des connaissances nouvelles que l'opérateur espère meilleures pour comprendre son domaine.

Deux sortes de classification "artificielle" sont évoquées parmi les méthodes d'apprentissage des descriptions qui nous intéressent :

1)La première sorte procède à partir de descriptions d'un échantillon du domaine étudié sans connaissance préalable du nom associé à chacune d'elles. Ces descriptions sont appelées observationsen apprentissage automatique car elles ne possèdent pas d'identification associée (on parle aussi d'apprentissage sans professeur). Le but consiste ici à découvrir les classes et/ou les concepts cachés dans les observations.

Ce type de démarche classificatoire, classique en analyse des données (méthodes factorielles [Benzecri, 1973], nuées dynamiques [Diday, 1971]), et en taxonomie numérique [Sneath & Sokal, 1973], est aussi appelé catégorisation [Napoli, 1992] ou classification conceptuelle [Fisher, 1985]. Il procède par agrégation des observations selon leurs ressemblancesavec certaines mesures de similarité puis caractérisationen interprétant les classes obtenues par un ensemble de caractères propres permettant de définir les concepts associés.

Le regroupement conceptuel est le même type de classification dans le secteur de l'intelligence artificielle et qui tient compte en plus de connaissances sur le domaine [Stepp & Michalski, 1986].

2)La seconde sorte de classification opère à partir d'exemplesou de casqui sont des descriptions d'individus observés auxquelles l'expert a attribué un nom (une étiquette ou bien encore une identification associée après classement) : là, on connaît le concept à apprendre (la maladie, l'espèce, etc.). Ce type de classification avec professeur (ou supervisé) est encore divisé en deux sortes :

Le premier, qualifié de "descendant", est appelé discriminationà partir d'exemples et procède par segmentationdes cas selon leurs différencesen fonction de certainscritères: fonction coût [Hunt, 1966], gain d'information [Quinlan, 1979], réduction d'impureté [Breiman et al., 1984], etc..