Ingénierie des connaissances en Sciences de la vie : application à la systématique des coraux des Mascareignes

Conf.
	Actes des journées Ingénierie des connaissances, JICAA'97 pp. 513-525, Roscoff, mai 1997
Auteurs
	N.Conruyt, D.Grosser, G.Faure
Résumé
	Depuis quelques années, certaines méthodes d'ingénierie des connaissances se développent autour des outils d'apprentissage automatique. Dans les Sciences de la vie, ces méthodes mettent en oeuvre une approche expérimentale permettant de modéliser, décrire, classifier, identifier et valider les connaissances. En systématique, les connaissances pour décrire, nommer et reconnaître les différentes sortes d'espèces sont réparties entre quelques experts dans le monde. De même, les collections de spécimens sont disséminées dans les différents muséums nationaux, ainsi que les types (modèles d'identification). Nous proposons une méthodologie expérimentale basée sur un processus itératif de gestion des connaissances : acquérir, traiter, valider, dans le but de constituer une base de connaissance centrée sur des descriptions d'objets biologiques, au sein d'un environnement multimédia. Concrètement pour les coraux, chaque expert dispose d'un environnement applicatif pour modéliser son domaine (c'est-à-dire définir les caractères à observer) et décrire les spécimens. Chacun constitue ainsi une base de cas à l'aide d'un questionnaire hypermédia. Ensuite, il peut appliquer la méthode scientifique : expérimenter (apprendre des règles de classification à partir des descriptions à l'aide d'arbres de décision) et tester (comparer et identifier de nouvelles observations à l'aide du raisonnement par cas). La pratique du questionnaire, ainsi que les résultats de classification et d'identification lui permettent alors d'évaluer la base de connaissances. Il lui est alors possible de détecter certaines incohérences dans les connaissances observables et observées qu'il a introduites au préalable, c'est-à-dire d'évaluer la qualité du modèle descriptif et des descriptions. L'originalité de ce travail réside dans la mise en place d'une base de connaissances à distance entre plusieurs experts : ils partagent leurs expériences de modélisation et de description sur une même famille de coraux (les Pocilloporidae) ayant pour origine l'archipel des Mascareignes (Maurice, Réunion, Rodrigues). Ils mettent en commun leurs interprétations de l'observation, choisissent les meilleurs caractères et illustrations afin d'améliorer la robustesse globale de la base de connaissances multi-experte. Cet article a pour but de mettre en place la télésystématique : il s'agit de combiner l'étude assistée par ordinateur de la diversité des êtres vivants avec la mise en commun de ces connaissances entre différents experts, dans le cadre d'une recherche collaborative à distance en temps réel.
Mots-clefs
	gestion des connaissances, modèle descriptif, raisonnement par cas, induction, télésystématique, coraux
Downloads
	JICAA97.pdf.gz JICAA97.ps.gz
Article :

Ingénierie des connaissances en Sciences de la Vie

Application à la télésystématique des coraux des Mascareignes

N. Conruyt1, D. Grosser1, G. Faure2

1Institut de Recherche en Mathématiques et Informatique Appliquées
IREMIA, Université de la Réunion, BP 7151, 97715 Saint-Denis, La Réunion, France.

2Institut des Sciences de l'Ingénieur de Montpellier
ISIM, Université de Montpellier II, Pl. E. Bataillon, 34095 Montpellier, France.

Résumé - Introduction - La démarche expérimentale du naturaliste - méthodologie - discussion - Télésystématique - conclusion - Références

Résumé

Depuis quelques années, certaines méthodes d'ingénierie des connaissances se développent autour des outils d'apprentissage automatique. Dans les Sciences de la vie, ces méthodes mettent en oeuvre une approche expérimentale permettant de modéliser, décrire, classifier, identifier et valider les connaissances.

En systématique, les connaissances pour décrire, nommer et reconnaître les différentes sortes d'espèces sont réparties entre quelques experts dans le monde. De même, les collections de spécimens sont disséminées dans les différents muséums nationaux, ainsi que les types (modèles d'identification).

Nous proposons une méthodologie expérimentale basée sur un processus itératif de gestion des connaissances : acquérir, traiter, valider, dans le but de constituer une base de connaissance centrée sur des descriptions d'objets biologiques, au sein d'un environnement multimédia.

Concrètement pour les coraux, chaque expert dispose d'un environnement applicatif pour modéliser son domaine (c'est-à-dire définir les caractères à observer) et décrire les spécimens. Chacun constitue ainsi une base de cas à l'aide d'un questionnaire hypermédia. Ensuite, il peut appliquer la méthode scientifique : expérimenter (apprendre des règles de classification à partir des descriptions à l'aide d'arbres de décision) et tester (comparer et identifier de nouvelles observations à l'aide du raisonnement par cas). La pratique du questionnaire, ainsi que les résultats de classification et d'identification lui permettent alors d'évaluer la base de connaissances. Il lui est alors possible de détecter certaines incohérences dans les connaissances observables et observées qu'il a introduites au préalable, c'est-à-dire d'évaluer la qualité du modèle descriptif et des descriptions.

L'originalité de ce travail réside dans la mise en place d'une base de connaissances à distance entre plusieurs experts : ils partagent leurs expériences de modélisation et de description sur une même famille de coraux (les Pocilloporidae) ayant pour origine l'archipel des Mascareignes (Maurice, Réunion, Rodrigues). Ils mettent en commun leurs interprétations de l'observation, choisissent les meilleurs caractères et illustrations afin d'améliorer la robustesse globale de la base de connaissances multi-experte. Cet article a pour but de mettre en place la télésystématique : il s'agit de combiner l'étude assistée par ordinateur de la diversité des êtres vivants avec la mise en commun de ces connaissances entre différents experts, dans le cadre d'une recherche collaborative à distance en temps réel.

Mots-clés : gestion des connaissances, modèle descriptif, raisonnement par cas, induction, télésystématique, coraux.

Introduction

Dans le processus de gestion des connaissances de toute entreprise, certains utilisateurs ont acquis un savoir-faire unique pour prendre des décisions, ce sont les experts. Un expert n'est pas simplement une encyclopédie vivante qui connaît par coeur un ensemble d'informations, c'est aussi une personne qui sait raisonner sur un domaine particulier pour prendre les bonnes décisions (par exemple identifier une panne, une maladie, une espèce, etc.).

Afin de constituer une mémoire collective pour l'entreprise, l'informatique apporte une aide importante pour modéliser, traiter et transmettre les connaissances. C'est le rôle essentiel de l'informaticien-cogniticien que d'épauler les experts dans le processus de transfert des connaissances.

En intelligence artificielle, la constitution d'une base de connaissances fondées sur l'expérience touche à plusieurs activités qui sont la représentation des connaissances, les bases de données, l'apprentissage automatique, l'analyse des données, les systèmes experts.

Dans les domaines industriels, il se développe actuellement des bases de données (relationnelles ou à objets) associées à des outils de traitement pour l'aide à la décision (raisonnement par cas, data mining). Comme ces techniques l'indiquent, l'accent est mis sur le traitement efficace de grandes quantités de données représentées le plus souvent sous forme de lignes d'un tableau. En outre, les connaissances sont avant tout des "constructions humaines" qui s'établissent à partir d'un modèle conceptuel et qui sont fondées sur la déduction.

Inversement, les experts en Sciences de la vie doivent appliquer une méthode expérimentale de nature inductive fondée sur l'observation des faits, la constitution d'hypothèses, et des tests expérimentaux pour les mettre à l'épreuve. De plus, pour la constitution d'une base de connaissances, on va plus généralement mettre l'accent sur la nature des données à représenter.

Afin d'obtenir des résultats d'identification robustes, nous attachons la plus grande importance à la qualité des descriptions de ces données, ainsi qu'à leur définition et leur facilité d'interprétation par d'autres utilisateurs que l'expert. N'oublions pas en effet le rôle très important de la transmission des connaissances à des personnes plus ou moins "naïves".

En systématique, les connaissances sont constituées par un ensemble d'informations et d'expertises de nature intuitive. On retrouve facilement les informations dans les bases de données bibliographiques, biogéographiques, photographiques, etc.. Au contraire, les savoir-faire sont plus rarement formalisés et accessibles dans les bases de connaissances. De fait, les connaissances sont plus complexes à représenter car plus générales que les données. Elles sont constituées par les faits observables (qui donnent le modèle descriptif), les faits observés (c'est-à-dire les données, les descriptions, les cas, les exemples) et les faits produits (l'arbre de décision, les règles, l'identification).

De plus, les connaissances des experts en biologie évoluent avec le temps. Elles peuvent être remises en question du jour au lendemain. On ne peut donc considérer le travail de reproduction du savoir-faire de ces experts dans l'ordinateur comme un processus linéaire allant de l'acquisition des connaissances à leur traitement et s'arrêtant à leur validation. La nature nous offre un terrain de jeu tellement varié et contradictoire qu'il devient très difficile d'énoncer des règles qui soient toujours valides.

1 - La démarche expérimentale du naturaliste

Tout au long de sa recherche, le systématicien apprend à reconnaître les espèces à partir d'un travail de bibliographie, de missions sur le terrain, dans les muséums, d'observations effectuées en laboratoire et d'échanges d'informations avec d'autres chercheurs. Il construit progressivement un modèle de description de son domaine qu'il applique à de nouvelles observations. Les erreurs d'identification l'amènent à remettre en cause son propre modèle. Il acquiert ainsi petit à petit une intuition du domaine, qui l'élève progressivement au rang d'expert reconnu par la communauté scientifique.

Ce cheminement procède par un aller-retour entre les informations reçues et son savoir-faire : en effet, l'expérience se nourrit de l'apport des nouvelles informations qui évoluent au fur et à mesure de l'amélioration des techniques d'observation (observations morphologiques au microscope, caractères biochimiques, génome, etc.). Néanmoins, avant de pouvoir obtenir de l'information sur un individu, il faut d'abord l'identifier par un nom. Ceci justifie le travail de classification préalable des échantillons à partir de leurs descriptions.

Or, pour les coraux, les descriptions sont fondées principalement sur un nombre insuffisant de caractères. La taxonomie de ces animaux s'effectue à partir des traits morphologiques du squelette, celui-ci présentant par ailleurs une très grande plasticité induite par les caractères environnementaux (hydrodynamisme, éclairement, etc.) [Veron, 1976]. Ceci explique les différences d'appréciation sur le nombre d'espèces reconnues au niveau mondial par les différents spécialistes (de 500 à 900) [comm. perso, Faure, Veron], du fait même du concept incertain de l'Espèce pour certains groupes. Les classifications évoluent donc au cours du temps en fonction des informations accessibles au systématicien. Par ailleurs, dans le cas des coraux, la plupart des individus sont regroupés au sein d'une colonie, qui résulte elle-même du bourgeonnement d'un individu souche. Ceci pose des problèmes de représentation et de traitement des connaissances.

Une première étude a été menée sur le genre Pocillopora [Conruyt et al, 1996]. Il possède 5 espèces dans les Mascareignes dont l'une d'elle (P. damicornis) est représentée par 5 écomorphes (variétés adaptées à un certain type de milieu) [Faure, 1982].

L'objectif du système de gestion de la base de connaissances est d'apporter une aide à la description, à la classification et à l'identification des coraux des Mascareignes. Nous souhaitons aussi plus généralement contribuer à une recherche méthodologique sur l'informatique appliquée à la systématique afin de développer les relations entre chercheurs de ces deux disciplines [Lebbe, 1996].

2 - Méthodologie de transfert des connaissances

Nous avons distingué deux types de connaissances, les informations contextuelles et le savoir-faire de l'expert. La base de connaissances que nous construisons est constituée par un noyau d'expertise en relation avec un ensemble d'informations de différentes natures, relatives au domaine (Fig. 1).

Fig.1 : Nous illustrons la gestion des connaissances par un processus itératif de transfert d'expertise. A chaque étape du cycle, l'expert acquiert un modèle descriptif qui sert de guide pour renseigner une base de descriptions. Celle-ci est ensuite traitée, puis validée avant de recourir à des modifications dans le modèle descriptif initial.

2.1 Les informations contextuelles

L'expert dispose d'un ensemble d'éléments, qui peuvent être des références à des travaux et ouvrages existants, des données photographiques, géographiques, etc.. Même si ces connaissances n'interviennent pas directement dans le processus de description, de classification et d'identification, elles alimentent la réflexion de l'expert en apportant une quantité de renseignements sur les spécimens. Nous considérons donc qu'elles sont partie intégrante de la base de connaissances.

Les nouvelles technologies hypermédias offrent un support idéal pour organiser ces différents types d'information, sous forme de liens hypertextes notamment [Van Soest et al., 1996].

Le système d'identification peut faire référence à ces informations pour aider l'utilisateur à interpréter correctement les questions posées. Par le biais de commentaires, d'illustrations ou de définitions de termes spécifiques au domaine (lexique), certaines ambiguïtés et imprécisions peuvent être levées.

2.2 - L'expertise

Dans le but de mettre en oeuvre la méthode scientifique en biologie (conjecturer et tester), notre méthodologie suit le processus naturel d'apprentissage des connaissances par un expert. Celle-ci est divisée en trois étapes :

Acquisition des connaissances,
Traitement des connaissances,
Validation

Lors de la phase d'acquisition des connaissances, nous distinguons l'étape d'acquisition du modèle descriptif (l'observable), de l'étape d'acquisition des descriptions (l'observé).

Acquisition du modèle descriptif

Le modèle descriptif représente tout ce qui est observable pour notre domaine d'étude. Sa définition est représentée sous forme d'un schéma structuré de tous les objets, attributs et valeurs possibles du domaine, ce dernier constituant la racine de ce que l'on nomme l'arbre de description. (Fig.2). Pour construire cet arbre, nous suivons certaines logiques descriptives en Sciences de la vie [Le Renard et al., 1996].

Les noeuds de l'arbre correspondent aux objets (appelés également parties ou encore composants observables). Chaque objet est décrit à l'aide de caractères ou attributs typés, pouvant admettre des valeurs symboliques, numériques, uniques, multiples, ordonnées, structurées ou imprécises.

Ces objets peuvent être réels (encadrés). Les calices, les épines, les branches des coraux du genre Pocillopora sont autant d'objets physiques bien réels, que l'expert décrit avec précision. Ils peuvent également être abstraits (non-encadrés) et correspondent alors à des points de vue de la description (par exemple les objets identification, contexte, description microscopique, macroscopique, etc.).

Certains objets peuvent être absents (signalé par un signe négatif devant l'objet) comme par exemple l'objet "calices sur verrues" (Fig. 2). La présence d'autres objets comme les septes, la muraille dépend de la présence du premier : cette connaissance de fond doit être explicitement représentée afin d'assurer la cohérence de la phase de description.

Dans un modèle descriptif, il existe des règles logiques pour décrire une espèce (par exemple P. damicornis) : composition, point de vue, spécialisation, itération, conditions contextuelles, etc. [Le Renard et Conruyt, 1994]. La structuration est un moyen efficace de prendre en compte des connaissances de fond de bon sens qui peuvent être utiles pour stocker, gérer et traiter les descriptions [Allkin, 1984].

Tous les composants observables des espèces de Pocillopora et des écomorphes de P. damicornis ont été défini, ainsi que la liste de leurs caractères (attributs). Il existe 37 objets et 87 attributs pour 9 descriptions. Par exemple, les calices de l'apex (partie sommitale des branches) ont trois attributs : forme, distribution et disposition. Pour chaque attribut, l'expert énumère les valeurs observables de façon à couvrir l'ensemble des descriptions possibles.

Fig. 2: Le modèle descriptif des Pocillopora définit la structure de toutes les descriptions observables de ce genre dans l'archipel des Mascareignes : 5 espèces et 5 écomorphes de damicornis. Les objets sont les noeuds de cet arbre de description et les attributs se réfèrent à chaque composant. La figure montre seulement les valeurs possibles de l'attribut classe de l'objet identification.

En fait, un des rôles du modèle descriptif est de proposer un guide d'observation à l'utilisateur final : les objets sont liés entre eux par des relations qui vont du plus général au plus spécifique (de gauche à droite), ce qui facilite le processus suivant d'acquisition des descriptions pour le non-spécialiste.

Dans [Conruyt 1994], nous avons montré que l'acquisition du modèle descriptif est la phase la plus importante de la méthode : la robustesse des résultats de classification et d'identification résulte de la qualité des descriptions traitées, et donc d'un modèle descriptif bien conçu.

Acquisition des exemples (cas)

Partant du modèle descriptif, un programme construit automatiquement un questionnaire. Il permet à l'expert et aux autres biologistes d'acquérir des descriptions d'individus afin de constituer une base de cas. Une identification est associée à chaque description pour former un cas. Chaque cas ainsi renseigné constitue une instance de l'arbre de description (Fig. 3).

Fig. 3 : une présentation structurée d'une description de P. damicornis acuta. Ici, l'expert a effectué une synthèse de la description de cet écomorphe, fondée sur des spécimens et la littérature (l'attribut "label" de l'objet "contexte" est inconnu et la profondeur est un intervalle). Les objets absents sont marqués d'une croix (calices des verrues) et les objets dépendants sont déduits absents automatiquement (septes, muraille, etc.). La plupart des attributs sont nominaux, quelques uns sont numériques. Quelques attributs nominaux sont classifiés (forme générale de la colonie) de manière à préciser certains états. D'autres sont multivalués (forme des calices de l'apex) : l'objet représente en fait un ensemble de composants qui partagent plusieurs états simultanément. Cette remarque reste valide pour les attributs numériques : la taille des calices peut varier entre 0,7 et 1 mm.

Le questionnaire suit la structure de l'arbre de description : il y a autant de cartes qu'il y a d'objets et d'attributs. Les descriptions observées sont des sous-arbres du modèle descriptif (Fig. 2 et Fig. 3). Ainsi, elles peuvent être directement comparées en faisant circuler les cartes de chaque description, ce qui est plus facile que de comparer des listes de couples attribut-valeur.

Chaque carte est une vue locale d'un objet (Fig. 4). L'utilisateur peut naviguer entre les cartes en suivant le chemin des descendants et des parents étape par étape. Il peut également sauter de la description d'un objet à un autre en passant par la vue globale de l'arbre de description (Fig. 3).

Les cartes des attributs sont les feuilles de l'arbre de description. Comme pour les objets, des commentaires et illustrations peuvent être associés par l'expert aux différentes valeurs afin d'aider l'utilisateur à interpréter correctement les questions posées (Fig. 5)

Fig. 4 : une vue locale de l'objet Òcalices de l'apexÓ chez P. damicornis acuta. Les caractéristiques de l'objet sont à gauche et les composants à droite. L'utilisateur peut passer d'une description locale à l'autre et naviguer de cet objet à un autre avec lequel il est en relation.

Fig. 5 : un exemple d'attribut commenté et illustré : la disposition des calices à l'apex. La première icône en haut à droite permet d'ouvrir un commentaire pour les valeurs et celle de l'appareil photo permet d'ouvrir une fenêtre pour les illustrations.

Traitement des connaissances

En fonction du but à atteindre, deux type de méthodes sont utilisées : induction pour la classification, raisonnement à partir de cas (CBR) pour l'identification.

Pour la classification, un arbre de décision est construit. A partir des descriptions (représentation en extension) une méthode inductive fondée sur la mesure du gain d'information et d'entropie [Shannon, 1949 ; Quinlan, 1986] établie une caractérisation de ces classes par un ensemble de règles. Chaque chemin depuis la racine vers les feuilles de l'arbre de description est une règle de classification (également appelée diagnose en biologie).

Pour les Pocillopora , nous avons obtenu l'arbre de décision suivant (Fig. 6) qui classifie les 9 descriptions (espèces et écomorphes). Cet arbre de classification peut être utilisé en mode consultation pour déterminer une nouvelle observation. Néanmoins, lorsque l'utilisateur ne connaît pas la réponse à une question, la consultation de cet arbre est inadaptée [Manago et al, 1993].

Fig. 6 : un arbre de décision pour classifier le genre Pocillopora

Fig. 7 : la liste des tests ordonnés à un noeud (ici la racine) est choisie par l'intermédiaire d'une mesure de discrimination inter-classes (le gain d'information).

Pour l'identification, le raisonnement à partir de cas est utilisé [Bareiss, 1989]. Etant donné un ensemble d'exemples, elle extrait dynamiquement le critère le plus efficace à partir d'une liste ordonnée de tests, après chaque réponses de l'utilisateur (Fig. 7). Les cas sont sélectionnés en fonction de cette réponse. Si la réponse est inconnue, le second test le plus discriminant est proposé à l'utilisateur, et ainsi de suite.

Néanmoins, cette méthode d'identification ne permet pas de faire face aux erreurs de description. Ceci est du à l'approche monothétique de cette stratégie [Pankhurst, 1991]. D'autres méthodes de CBR sont polythétiques (utilisent une combinaison de critères) et sont plus robustes aux erreurs de description. Elles sont dérivées de la méthode des k-plus-proches-voisins en analyse de données. Il s'agit d'une procédure de comparaison qui implique l'ensemble des attributs. Un score entre 0 et 1 donne un pourcentage de ressemblance entre deux cas.

Pour la consultation, il existe un intérêt de combiner ces deux méthodes (induction et CBR). Différents niveaux d'intégration permettent d'obtenir de meilleurs résultats [Auriol et al, 1994]. Ces outils de traitement sont des modules du logiciel Kate^TM(Acknosoft, Paris).

Validation

Avec l'aide de ces outils, l'expert peut évaluer les résultats de la classification et de l'identification, en fonction de la qualité de ces propres descriptions et de celle du modèle descriptif. L'apprentissage inductif, tout comme l'utilisation répétée du questionnaire lui permettent de détecter certaines incohérences dans la base de cas et donc d'améliorer la base de connaissances.

Par cette expérimentation, le cogniticien peut aussi être amené à améliorer les algorithmes d'apprentissage pour ajuster le système aux besoins des utilisateurs.

Par exemple, dans l'arbre de décision de la figure 6, deux espèces très proches (P. verrucosa et P. meandrina) ne sont pas discriminées. Ceci peut être interprété par l'expert comme un résultat de classification intéressant car les auteurs ne s'accordent pas pour savoir si ces deux espèces n'en forment en fait qu'une. Néanmoins, les descriptions de ces espèces font ressortir quelques différences au niveau de deux attributs multi-valués (distribution et nombre de septes). Or, la présence d'états multiples a été interprétée par le cogniticien dans son algorithme comme une disjonction de valeurs due à l'imprécision et non pas à une conjonction de valeurs due à la variation intra-spécifique. Donc, un objet représentant un ensemble peut partager différents états simultanément (voir fig. 2 la forme des calices de l'apex : circulaire et subcirculaire). Cette connaissance de fond doit être traitée différemment : en cas de doute, nous devons nous retenir de discriminer, alors qu'en cas de variation, nous devons poursuivre la séparation des cas (c'est-à-dire trouver un autre critère après l'aspect hirsute du coenosteum).

Il est donc important que l'expert ait une certaine maîtrise du traitement que l'informaticien lui propose pour pouvoir interpréter correctement un résultat.

Ainsi, l'expert souhaitera représenter la différence entre disjonction d'imprécision et conjonction de variation dans le modèle descriptif, ou encore paramétrer la mesure de ressemblance pour qu'elle tienne compte de la structure des descriptions (dépendance entre objets).

3 - Discussion

Nous proposons ainsi une méthodologie et des outils qui accompagnent la démarche naturelle de l'expert. Ils permettent de rendre explicite son savoir à l'aide de descriptions codées, de matérialiser l'acquisition inconsciente de ses connaissances, de retracer son cheminement conceptuel tout en gardant une mémoire de son travail passé. Parallèlement, l'expert évalue l'état de ses connaissances en les confrontant à celles produites par le système.

Ils permettent ainsi aux biologistes de stocker, gérer et transmettre le savoir faire des experts :

3.1 stocker : représenter et conserver les connaissances

L'étude de la diversité des êtres vivants est une source de difficultés à la fois au niveau de la représentation et du traitement de ces connaissances. L'informaticien est confronté à la complexité des individus à représenter et à leur nature. Une description synthétise-t-elle un ensemble d'individus (description d'espèce) ou bien est-elle le codage d'un spécimen ? Dans le premier cas, les valeurs multiples d'un caractère peuvent exprimer une disjonction de variation (l'espèce se trouve dans tel biotope ou tel biotope), ceci n'étant pas possible pour les valeurs multiples du deuxième cas qui expriment des états présents simultanément.

Dans le cas des coraux, les variations intra-coloniales possibles nous obligent à multiplier les sous-arbres descriptifs des calices en fonction de leur localisation dans la colonie (apex, base des branches, verrues, etc., voir fig 2). Après le traitement de ces descriptions, nous mettons en évidence par des mesures de ressemblance les possibles variations intra-spécifiques (au sein des espèces) plus importantes que les variations inter-spécifiques (entre espèces). Par exemple, deux échantillons appartenant à deux espèces différentes présentent une convergence de forme induite par un facteur écologique ou environnemental dominant (adaptation morphologique). Inversement, une même espèce peut développer des formes différentes en réponse aux facteurs du milieu (écomorphes).

3.2 gérer : manipuler, comparer, traiter les connaissances

Un comptage précis des égalités et des différences de valeurs sur la centaine de caractères macro et microscopiques des descriptions du genre Pocillopora a permis de révéler un certain niveau d'affinité entre deux spécimens appartenant à deux espèces différentes (favosa et eydouxi). Bien que ces spécimens ne se trouvaient pas dans les mêmes milieux biotiques (par exemple en mode calme et battu) et donc extériorisaient des faciès très différents, ils montrent néanmoins une similitude importante au niveau des caractères microscopiques. Cette information nouvelle induite par la mesure de ressemblance utilisée pour comparer les exemples interpelle l'expert sur la possibilité des deux spécimens d'appartenir en fait à la même espèce.

3.3 transmettre : faire "passer"l'expertise et la distribuer.

L'un des soucis majeur des systématiciens est à la fois de transmettre ses connaissances et de former de nouveaux systématiciens [Durrieu G, 1996]. Dans ce sens, nous essayons de proposer des outils conviviaux d'aide à la formation à l'expertise en utilisant des interfaces qui correspondent aux besoins et aux habitudes des biologistes.

Par exemple, ceux-ci travaillent couramment sur des structures arborescentes (arbres phylogénétiques, clés d'identification). Ils n'ont donc pas de difficultés à appréhender un arbre de description ou de décision, ce qui ne serait certainement pas le cas avec d'autres méthodes de représentation (graphes, treillis, etc.). Le modèle descriptif est un guide d'observation pour les non-spécialistes. Nous sommes en train de l'expérimenter auprès d'un panel d'utilisateurs et nous voyons se poser des problèmes d'interprétation de l'observation des caractères : que dire de l'aspect peu hirsute, hirsute, ou très hirsute du coenosteum de la colonie, sinon que les illustrations n'apportent aucune aide pour interpréter ce caractère très relatif.

De plus, nous nous sommes aperçus du problème de la construction d'un modèle descriptif par un expert isolé. Nous nous heurtons à une approche personnelle et parfois subjective du traitement des échantillons. La manière de décrire de l'intervenant est influencée par la littérature utilisée (qui est parfois contradictoire) et par l'interprétation personnelle des spécimens rencontrés. C'est pourquoi nous voulons introduire une dimension nouvelle : la télésystématique.

4 - Télésystématique

La télésystématique (démarche multi-experte) est une réponse en terme de recherche collaborative à distance pour faire face à la dispersion des connaissances dans le monde et à leur raréfaction. Par exemple, les experts qui décrivent, nomment et distinguent les différentes sortes de coraux se comptent sur les doigts de la main et sont proches de la retraite. De même les collections sont réparties dans les différents muséums nationaux. A moins de laisser les compétences en systématique des coraux disparaître, les outils informatiques que nous proposons ont pour but de valoriser à la fois ces savoir-faire et ces collections de spécimens. De plus, nous mettons en place des outils pédagogiques et multimédia de formation à l'expertise pour les non-spécialistes. Sur ce dernier point, un consensus au niveau du choix du vocabulaire (thesaurus) et des illustrations (../Images, dessins) doivent être trouvés entre ces experts pour diffuser leur savoir-faire et le rendre opérationnel pour des non-initiés.

Le travail collaboratif à distance permet donc la concertation et une définition plus objective des caractères descriptifs des espèces. Ceci peut se faire de manière synchrone (en direct) ou asynchrone.

Lors du Milia'97, l'opérateur France-télécom a relié le site de Cannes (Palais des Festival) avec celui de la Réunion (Iremia) par l'intermédiaire d'une liaison spécialisée par satellite à 2 Mbits/s. Une caméra montée sur une loupe binoculaire sur chaque site a permis un dialogue entre deux experts français (les producteurs) autour du choix du vocabulaire et des illustrations à proposer pour les non-spécialistes. L'éditeur informaticien était chargé de la numérisation, de la retouche et du stockage des ../Images sélectionnées. Plus globalement, l'éditeur doit réfléchir à une intégration des logiciels de visioconférence au sein de l'atelier de gestion des connaissances, afin que le groupe d'experts puisse définir à distance un même modèle descriptif des coraux.

Conclusions - perspectives

Nous sommes en phase de généralisation du modèle Pocillopora (1 genre) à celui de la famille des Pocilloporidæ (4 genres). Il s'agit d'une phase itérative généralisante sur le modèle descriptif où nous introduisons des nouvelles valeurs, de nouveaux attributs et objets ainsi qu'une modification de la structure de description. Par exemple, pour certains genres voisins de Pocillopora, il n'est pas nécessaire de décrire différentes sortes de calices (ceux sur les verrues, à l'apex, les autres, voir fig. 2). Cela nous oblige à refondre le modèle initial pour rester cohérent avec les nouvelles observations. Nous allons donc introduire la multi-instanciation d'objets dans ce nouveau modèle.

L'étude en cours de genres appartenant à d'autres familles (Poritidæ, Fungiidæ, Agariciidæ) permet d'entrevoir l'extrême complexité du domaine à représenter. Nous essayons d'y répondre par notre approche ascendante de la modélisation en partant des spécimens (démarche d'apprentissage). Ceci justifie la nécessité d'une collaboration pluridisciplinaire et la création d'un groupe d'experts au niveau international, reliés entre eux par des moyens de communication à haut débit.

Références

Allkin R (1984) Handling taxonomic descriptions by computer. In; Allkin R and Bisby FA (eds.), Databases in systematics. Systematics Association London, Academic Press, (26) pp 263-278

Auriol E, Manago M, Althoff KD, Wess S, Dittrich S (1994) Integrating induction and case-based reasoning: methodological approach and first evaluations. EWCBR-94 - Second European workshop on case-based reasoning. M Keane, JP Haton & M Manago (Eds.), AcknoSoft Press, pp 145-155

Bareiss R (1989) Exemplar-based knowledge acquisition: a unified approach to concept representation, classi-fication and learning, London, Academic Press inc

Conruyt N (1994) Amélioration de la robustesse des systèmes d'aide à la description, à la classification et à la détermination des objets biologiques. Thèse de doctorat, Univ Paris-IX Dauphine, pp 1-281

Conruyt N, Faure G, Ancel G., Le Renard J, Guillaume M, Naim O, Gravier-Bonner N (1996) A Knowledge Base for corals of the Mascarene Archipelago: Genus Pocillopora. Proc 8^th Int Coral Reef Symp Panama (à paraître).

Durrieu G (1996), L'informatique, un outil pédagogique pour enseigner la systématique ? Biosystema 14, Informatique et Systematique, pp. 109-116.

Faure G (1982) Recherche sur les peuplements de scléractiniaires des récifs coralliens des Mascareignes. Thèse es sciences, Univ Aix-Marseille II, (2) pp 1-206

Lebbe J (1996) Quelques réflexions sur l'informatique appliquée à la systématique en france. Biosystema 14, Informatique et Systematique, pp. 5-10.

Le Renard J, Conruyt N (1994) On the representation of observational data used for classification and identification of natural objects, IFCS'93, Lecture Notes in Artificial Intelligence, Springer Verlag, pp 308-315

Le Renard J, Lévi C, Conruyt N, Manago M (1996) Sur la représentation et le traitement des connaissances descriptives : une application au domaine des éponges du genre Hyalonema, vol. 66 suppl., Biologie, Recent advances in sponge biodiversity and documentation, P. Willenz (Ed), Bulletin de l'Institut Royal des Sciences Naturelles de Belgique.

Manago M, Althoff KD, Auriol E, Traphöner R, Wess S, Conruyt N, Maurer F (1993) Induction and reasoning from cases. First European workshop on case-based reasoning (EWCBR-93), MM Richter, S Wess, KD Althoff and F Maurer (Eds.), Springer Verlag, (2)

Pankhurst RJ (1991) Practical taxonomic computing. Cambridge University Press, Cambridge, pp 1-202

Quinlan JR (1986) Induction of decision trees. Machine Learning 1 : 81-106

Shannon CE (1949) The mathematical theory of communication. University of Illinois Press, Urbana

Van Soest RWM, Schalk PH, Smith K, Picton BE, Brugman M, Diaz M, Sanders ML, De Weerdt WH, Rützler K (1996) PORLINNAEUS: The application of interactive multimedia software for species data storage and computer assisted identification of Porifera, vol. 66 suppl., Biologie, Recent advances in sponge biodiversity and documentation, P. Willenz (Ed), Bulletin de l'Institut Royal des Sciences Naturelles de Belgique.

Veron JEN, Pichon M (1976) Scleractinia of eastern australia, vol. I, Part I, Australian Institute of Marine Science Monograph Series

[ Page d' Accueil | Publications | Bienvenue | Top ]