7.2.2.1 Apprentissage automatique = perte d'information
Toutes les techniques issues de l'apprentissage, qu'elles soient empiriques ou
analytiques, présentent un certain nombre de limites inhérentes à l'approche.
Pour l'induction à partir d'exemples, c'est-à-dire à partir de la représentation en
extensiondes classes à apprendre (des descriptions de spécimens), l'algorithme
va dériver une représentation en intension (une caractérisation) des classes par
des concepts. Il en résulte des définitions différentielles (ou diagnoses)
permettant de délimiter les concepts les uns des autres.
Cette représentation en intension s'accompagne d'une généralisation des
exemples, de façon à prendre en compte des individus autres que les exemples
eux-mêmes. Les généralisations peuvent être obtenues à l'aide de diverses
techniques mais quelle que soit celle choisie, on va perdre de l'information
contenue dans les exemples. C'est à la fois l'avantage de l'approche et son
inconvénient car on risque d'éliminer une information utile. Tout l'art consiste à
déterminer quelles sont les informations utiles qui doivent apparaître dans la
définition en intension des concepts. Malheureusement, pour certaines
applications (dont celles en biologie), il est impossible de prédire à l'avance
quelles sont les informations importantes qu'il faut conserver.
|