|
|
Alors que les recherches en informatique se sont surtout axées sur la robustesse
statistique des deux aspects du traitement (classification et détermination), peu de
travaux ont été réalisés sur la robustesse des descriptionselles mêmes en
amont du traitement. Et pourtant,les bonnes descriptions conditionnent la
pertinence des règles apprises. Nous souhaitons dans cette thèse rétablir
l'équilibre en faveur de l'acquisition de bonnes descriptions à apprendre, ce qui
correspond de plus à une aspiration essentielle de la part des systématiciens.
L'acquisition des connaissances passe donc par des descriptions robustes avant
d'appliquer des méthodes de traitement adaptées pour la classification et la
détermination.
Pour notre domaine d'expérimentation en biologie, nous avons choisi de bien
dissocier le terme de détermination de celui de classification dont les
significations seront précisées au chapitre 3. Ici, la détermination concerne un
individu dont on cherche le nom de sa classe d'appartenance ce que certains
appellent une identification4(voir § 3.4). La classification concerne plutôt un
concept dont on cherche à expliciter les caractères distinctifs à l'aide à la fois des
descriptions des individus qui appartiennent au concept et des descriptions des
individus qui, au contraire, n'y appartiennent pas. Dans ce sens, la classification
est le processus qui permet de déterminer un concept, c'est-à-dire d'expliciter les
caractères compréhensifs du concept [Petit-Robert]. La détermination possède
donc un double sens en fonction de l'objet sur lequel il porte (concept ou
individu). Nous emploierons la détermination dans le sens de détermination d'un
individu et la classification dans le sens de détermination d'un concept.
Dans ce contexte, la robustessen'est pas statistique mais plutôt empirique,
c'est-à-dire liée aux objectifs (description, classification et détermination) et aux
conditions d'utilisation des outils (nature des utilisateurs et contexte des
données). Nous développerons cette notion de robustesse dans le chapitre 2du
point de vue théorique et pratique et nous confronterons notre vision avec celle
des différents utilisateurs.
Définition : la robustesse des systèmes d'aide à la description, à la classification
et à la détermination en biologie est l'ensemble des facteurs qualitatifs qui
améliore l'acquisition et le traitement des connaissances sur le domaine
(compréhension, précision, cohérence, exhaustivité, redondance, fiabilité,
facilité de mise à jour, ergonomie, tolérance aux bruits). Elle donne la possibilité
de :
1) valoriser le travail de l'expert (l'aider à mieux maîtriser son domaine),
2) transmettre et utiliser ses connaissances,
4Au sens anglo-saxon du terme.
|
|