1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24

214

Chapitre 7

ou n est le nombre de valeurs possibles de A.

Par exemple, pour l'attribut A = C (la classe) au noeud courant, on peut calculer la proportion d'exemples de E qui sont de la classe ci et l'entropie de C sera alors la quantité d'information nécessaire pour déterminer les classes dans le sous-ensemble E.

7.1.4.2 Meilleure_division (E, s)

Par principe, l'entropie est mesurée sur un attribut que l'on désire apprendre (C par exemple), en fabriquant une caractérisation de cet attribut à l'aide d'autres attributs. C'est alors que se justifie la mesure du gain d'information :

Le Gain d'informationest la mesure de l'accroissement d'ordre sur C qu'introduit le choix d'un autre attribut A : plus ce gain est élevé, plus la répartition des exemples pour chaque classe est homogène (le meilleur gain est celui qui représente l'équi-répartition des exemples). C'est le gain calculé le plus élevé qui permet de choisir le meilleur attribut permettant d'apprendre C, qui permet donc la meilleure division au noeud courant.

La formule du gain d'information est la suivante :

Gain(A,E)=Ent(E)-Ent(A,E)
n
avec Ent(A,E)=[!]Pi[!]Ent(Ei/C)étant l'entropie moyenne
i=1
informations conditionnelles des n valeurs possibles de A.

pondérée

des

[!]n
En effet,Ent(Ei/C)=-pi[!]log2piest l'entropie conditionnelle calculée
i =1
pour chaque valeur de A avec pi= IMAGE imgs/Chapitre707.gif Card(E)est la probabilité

conditionnelle associée à A (probabilité de choisir un objet ayant l'état i de A et l'état j de C).

Remarque: On a pu constater dans différentes applications médicales [Kononenko et al, 1984] que la mesure du gain d'information favorise les attributs ayant un domaine de définition avec beaucoup de valeurs. Quinlan (1986) a introduit la notion de gain d'information relatifpour compenser ce biais en divisant le gain d'information précédent par l'information contenue dans le choix de l'attribut A : IV(A)

n
IV(A)=-[!]Pi[!]log2Pi
i
=1

Gain[!](A,E)= IMAGE imgs/Chapitre708.gif IV(A)