E.M.P.I.: une méthode pour
l’Evaluation du Multimédia Pédagogique Interactif

Olivier HU
Philippe TRIGANO
Stéphane CROZAT

UMR CNRS 6599 HEUDIASYC
Université de Technologie de Compiègne BP 20529
60206 COMPIEGNE Cedex - FRANCE
Tel (33) 03 44 23 45 02 Fax (33) 03 44 23 45 02
E-mail : Olivier.Hu@utc.fr, Philippe.Trigano@utc.fr, Stephane.Crozat@utc.fr
 

 Résumé
Devant la prolifération des logiciels éducatifs en grande distribution ou parmi les productions universitaires, il convient de posséder un outil permettant de faire un choix. Quel est le logiciel le mieux adapté à tel cas ? L’interface est-elle intuitive ? Exploite-t-elle les possibilités du multimédia ?
Dans cette optique, nous proposons une méthode d’aide à l’évaluation de l’Interface Homme/Machine des logiciels multimédia éducatifs. Issue des travaux en ergonomie du logiciel et en informatique, notre méthode est accessible via un questionnaire. Les diverses évaluations de ce questionnaire au cours de sa conception, nous ont permis de mettre en évidence plusieurs points : les limites des critères d’évaluation actuels, inadaptés au contexte du multimédia pédagogique qui nous préoccupe, et l’intérêt d’un indice de divergence pour mesurer la stabilité de plusieurs évaluations sur un même logiciel. Cet indice, ainsi que la dernière version de notre questionnaire, ont fait l’objet d’une expérimentation sur une cinquantaine d’évaluateurs différents. Pour finir nous comparerons notre questionnaire à MEDA97, une méthode achevée.
 

1 - Introduction
La prolifération des logiciels éducatifs pose de plus en plus le problème du choix face à un grand nombre de produits, pas toujours de bonne qualité. Ces logiciels sont-ils bien conçus ? Quels sont ceux qui réellement peuvent être intégrés dans un processus éducatif ? Comment évaluer leur facilité d'utilisation ? Des méthodes d’évaluation des interfaces existent, mais peu correspondent à notre approche : nous cherchons une méthode accessible à des enseignants ou des responsables de formations, fournissant des résultats quantifiés qui s’applique à des produits finis. Nous nous sommes donc intéressés aux méthodes empiriques (Dieng 1990)(Ericsson et Simon 1984), aux méthodes centrées sur une expertise humaine (Molich et Nielsen 1990)(Ravden et Johnson 1989) et aux techniques d’évaluation automatique (Jiang et al. 1992)(Lowgren et Nordqvist 1992). Les recueils d’expertises s’appuient souvent sur des grilles (Valentin, Vallery et Lucongsang 1993), qui une fois les questions trop subjectives revues, sont quantifiables. C’est de cette approche que nous nous sommes inspirée.
Ces méthodes, issues principalement de la recherche en milieu industriel, n’ont été que très peu appliquées au domaine des logiciels éducatifs. Néanmoins le CD-CINTE (CD Cinte 1995) qui correspond plutôt à un recueil d’information et le CD-MEDA97 (CD MEDA97 1997) qui propose une évaluation à l’aide de questionnaires sur une très grande gamme de critères, ont servi de base à notre réflexion. Même les sciences de l’éducation proposent peu d’outils d’évaluation. Notons quand même les travaux de Dessus et Marquet (Dessus et Marquet 1991) sur les grilles de Berbaum (Berbaum 1988), dont la méthodologie est proche de la nôtre.
 

2 - Présentation du Questionnaire

2.1 - Les Critères
Le questionnaire que nous avons mis en place s’appuie sur des critères recensés dans de nombreuses listes (Bastien et Scapin 1993)(Smith et Mosier 1986) : des recommandations générales, comme les sept règles d’or de J. Coutaz, jusqu’au guide de Vanderdonckt (Vanderdonckt 1994) qui contient plus de 3000 règles ! Les travaux de l’INRIA (Scapin 1986)(Bastien et Scapin 1994)(Senach 1990), fournissent une liste de dix-huit critères élémentaires. Dans le contexte des logiciels multimédia pédagogiques, nous avons dû adapter ces critères pour mieux répondre aux attentes des évaluateurs. En effet certains aspects, comme la qualité des différents médias, sont peu ou pas pris en compte. La liste des critères que nous utilisons est la suivante (Hû et Trigano 1998) : Guidage (Incitation, Groupement par localisation, Groupement par format, Retour informatif, Navigation) ; Charge de travail (Actions minimales, Charge perceptive); Contrôle par l’utilisateur ; Gestion des erreurs ; Compatibilité (Format, Flexibilité, Expérience utilisateur) ; Homogénéité ; Aspects graphiques ; Texte (Lisibilité, Codes et dénomination) ; Média (Images, Son, Vidéo).
2.2 - Le Questionnaire
Ces critères nous ont permis de développer une grille d’une centaine de questions. Le questionnaire ainsi formé est utilisable par des non-spécialistes et fournit des résultats chiffrés sur la qualité de l’interface des logiciels évalués. Il présente un certain nombre de caractéristiques :
? Un choix est possible quant à l’importance de chaque critère : essentiel ou secondaire.
? Une aide est proposée pour chaque question afin de sécuriser au maximum l’évaluateur.
? Une pondération des questions est appliquée afin de relativiser l'importance des questions au sein d'un même critère.
? Pour la majorité des questions, une notation « exponentielle » est utilisée (Figure 1). En effet, il n’est pas acceptable que la présence d’un défaut majeur, même rare, soit créditée d’une note positive. La présence exceptionnelle d’un tel défaut n’est pas pénalisée, mais son absence est la preuve que le problème est bien traité.
Exemple : Vous est-il arrivé de ne pas savoir quoi faire, ou comment faire pour continuer dans votre consultation du logiciel ?
Toujours :  -10
Souvent :  -  6
Parfois :     0
Jamais :  +10
 

? Une note globale de l’interface est calculée, prenant en compte l'importance de chaque critère.

Ce questionnaire est pour l’instant disponible sous la forme d’une grille Excel (Figure 2). La version finale de notre méthode sera implémentée à l’aide d’un langage de programmation. Cela permettra d’automatiser la saisie et d’optimiser la présentation (gestion des questions imbriquées, détections des réponses contradictoires, ...).
 

 
 
 

 3 - Construction du questionnaire

3.1 - Mise au point
Plusieurs versions de notre questionnaire ont été itérativement mises au point (Reithmuller 1996) (HÛ 1997)(Caillat et al.1997). Une trentaine de logiciels évalués par une dizaine d’évaluateurs différents (Figure 3), ont permis d’une part de révéler certains manques (comme la non prise en compte des médias dans le questionnaire d’origine) et d’autre part de mettre au point les caractéristiques de la méthode EMPI (aide, pondérations des questions, ...). Ces résultats ont aussi mis en évidence le manque de stabilité des évaluations issues du questionnaire initial.
 
 

Notre questionnaire nous permet d’obtenir des résultats chiffrés pour chaque critère évalué (Figure 3). Cependant, avant de conclure qu’une évaluation est pertinente, un gage de qualité primordial est que le questionnaire fournisse les résultats les plus stables possibles quels que soient les évaluateurs. Une méthode d’évaluation s'avérera inutilisable si les résultats changent d'un évaluateur à un autre.
Une première série de modifications du questionnaire nous a permis d’améliorer de manière significative la stabilité d’évaluation. Nous présentons un exemple d’évaluations illustrant cette amélioration (Figure 4) : à gauche sont présentés les résultats de deux évaluations d’un même logiciel effectuées avec le questionnaire initial (Reithmuller 1996), et à droite ceux issus du questionnaire avec modifications (HÛ 1997). Pour chaque graphique, on trouvera en abscisse, les critères d’évaluation, et en ordonnée les résultats de l’évaluation (entre -10 et +10). Les résultats entourés indiquent les divergences supérieures à deux points. On constate que le nombre de points de divergence a diminué de façon importante (il passe de 10 à 3).
 
 
 

 
 
Figure 4 : Différences d’évaluation après modifications du questionnaire
 3.2 - Indice de Divergence
Afin de pouvoir effectuer des comparaisons sur un plus grand nombre d’évaluations, nous avons mis au point une mesure de divergence. Pour cela les statistiques nous fournissent un certain nombre d’outils. La mesure de l’écart type, par exemple, nous procure un indice de dispersion autour de la moyenne. Cependant cette valeur ne donne que peu d’indications sur le type de divergence constaté. En effet l’écart-type ne tient pas compte des oppositions. Par exemple, il ne fait pas la différence entre les deux cas suivants :
Eval.1 = -3 Eval.2 = +3 Ecart-type = 3
Eval.1 = +2 Eval.2 = +8 Ecart-type = 3
Nous avons donc rejeté cette mesure et étudié la formule de divergence souvent utilisée en statistique :
 , avec
avec  En : évaluation par un évaluateur n
 Ii,j : indice de divergence entre l’évaluation i et l’évaluation j

Ce qui se généralise comme suit :
  pour n évaluations
Cependant, comme le montre le tableau de la Figure 5 (quatrième colonne) cette formule présente certains aspects inadaptés à notre cas. Par exemple, elle révèle les opposés sans prendre en compte la distance qui les sépare (deuxième ligne) : le résultat est le même que les résultats soient (+1,-1) ou (+10,-10).
A ce niveau, plusieurs solutions étaient envisageables (Caillat et al.1997).
Elles sont toutes de la forme
La Figure 5 présente un tableau résumant pour quelques couples d’évaluations caractéristiques, les indices obtenus en fonction des formules choisies : une fonction avec constante, notre formule initiale, et la fonction que nous avons finalement choisie. La mesure de différents indices de divergence lors l’évaluation de cinq CD-ROM représentatifs par neuf évaluateurs différents, nous a permis de valider cette formule, d’améliorer le questionnaire et sa stabilité d’évaluation.
Ainsi cet indice   nous semble pour l’instant, correspondre à nos attentes.

 Évaluation Valeur de l’Indice avec les formules : Remarque
Ei Ej
x x 0 0 0 Différence nulle pour résultats identiques
x -x x/10 1 2x/(10+x) Prise en compte de la valeur de x pour des résultats opposés
-10 10 1 1 1 Illustration de
-5 5 0.5 1 0.67 la prise en compte de
-1 1 0.1 1 0.18 la position des opposés
0 5 0.25 0.5 0.33 Résultats
0 -5 0.25 0.5 0.33 symétriques
5 10 0.25 0.25 0.25 Prise en compte de la
2.5 -2.5 0.25 1 0.40 position de l’écart
Figure 5 : Exemples de calcul de l’indice de  divergence

 4 - Validation de la Méthode
La méthode EMPI a été récemment utilisée pour l’évaluation d’un CD-ROM par quarante-cinq évaluateurs différents, lors d’un enseignement de second cycle. Ces évaluateurs ont utilisé le logiciel pendant environ une heure avant d’effectuer une évaluation en trois étapes. Tout d’abord une évaluation intuitive de l’interface a été réalisée. Les étudiants devaient définir eux même les critères à évaluer et estimer la qualité ergonomique du produit. La deuxième étape a consisté en une évaluation sans aucune méthode, avec la seule connaissance des critères de l’INRIA. Enfin, la méthode EMPI a été appliquée dans une troisième phase. Trois objectifs étaient visés : valider les caractéristiques de la grille, vérifier la pertinence des résultats et celle de l’indice de divergence.
Les évaluations intuitives ont permis de dresser une liste d’une vingtaine de remarques sur la qualité ergonomique de l’interface. Ces évaluations se recouvrent peu, et un tiers des remarques portent sur des notions graphiques et sur la qualité des médias, ce qui justifie l’emploi de critères propres à ces aspects.
L’évaluation avec les critères de l’INRIA a largement étendu le champ d’investigation. Le nombre de remarques a doublé et la liste issue de l’évaluation avec critère recouvre bien celle issue de l’évaluation intuitive. D’une manière générale les remarques issues de l’ensemble des évaluations intuitives sont comprises dans n’importe quelle évaluation avec critères. En revanche, certains problèmes de divergence apparaissent (Exemple : 21% des évaluateurs estiment bonnes les possibilités de navigation, contre 29% qui les trouvent mauvaises).
Enfin, les résultats des évaluations effectuées avec la méthode EMPI sont résumés dans les tableaux des Figures 6 et 7. Le premier tableau présente un extrait des évaluations fournies par la méthode EMPI selon les caractéristiques du questionnaire (avec ou sans pondérations des questions, avec ou sans notation exponentielle). Pour plusieurs critères (Grp. localisation, Contrôle, Aspects graphiques, ...) l’utilisation de la notation exponentielle diminue de façon significative les résultats. Ces derniers sont plus proches de la réalité car ils accentuent la présence de défauts graves effectivement constatés dans l’interface. En revanche la pondération des questions semble peu modifier les résultats.
RESULTATS Linéaire Exponentielle
 Pondérée Non pond. Pondérée Non pond.
Grp. local. 0.7 0.6 -1.6 -1.7
Actions mini. -1.6 -2.4 -3.7 -4.3
Contrôle 1.2 1.2 -0.6 -0.6
Homogénéité 5.1 5.1 3.3 3.3
A. Graph. 2.4 2.7 0.9 0.8
Lisibilité 4.1 4.2 2 2.2
Vidéo 2.2 2.3 0.2 2

Le second tableau (Figure 7) fournit les indices de divergence selon les caractéristiques du questionnaire. Le minimum pour chaque critère est écrit en gras. La dernière colonne indique les critères où des divergences ont été constatées avec les autres évaluations. Une première remarque est que l’indice moyen est d’environ 0.2, ce qui indique une stabilité correcte. Par exemple deux évaluations ayant pour résultat -1 et +1 ont un indice de 0.18.
D’une manière générale, l’indice de divergence est plus faible lorsque la notation exponentielle est utilisée. Mais l’utilisation de la pondération des questions ne semble pas influencer les indices de divergence de façon satisfaisante. Dans certains cas l’indice plutôt élevé de divergence provient d’une mauvaise interprétation des questions, c’est donc le questionnaire qu’il faut retoucher. Pour d’autres critères, tels que la Charge de travail, la Navigation et les Aspects Graphiques, il est nécessaire d’apporter des modifications à notre liste de critères. Ainsi la Charge de travail est trop liée au contexte pour figurer dans la partie ergonomie de notre méthode, de même que le critère Navigation directement lié à la scénarisation et aux choix pédagogiques.
En résumé, l’utilisation du questionnaire permet de passer en revue tous les aspects de l’interface. La vision globale de l’évaluateur est donc plus objective. L’utilisation de la notation exponentielle améliore la pertinence des résultats et la stabilité d’évaluation, ce qui ne semble pas être le cas de la pondération des questions. Enfin certains critères devront être revus pour y introduire les notions de pédagogie propre à notre contexte.
INDICES Linéaire Exponentielle
Incitation 0.18 0.16
Grp. local. 0.26 0.26
Grp. Format 0.30 0.17 x
Retour 0.24 0.21
Navigation 0.28 0.23 x
Actions mini. 0.23 0.19
Charge 0.32 0.31 x
Contrôle 0.22 0.24
Gestions erreurs 0.26 0.25
Format 0.27 0.23
Flexibilité 0.17 0.15
Expérience 0.22 0.21
Homogénéité 0.19 0.24
Aspects graph. 0.25 0.29 x
Lisibilité 0.21 0.26
Dénomination 0.23 0.24
Images 0.17 0.19
Sons 0.19 0.21
Vidéo 0.21 0.03
 

Une seconde forme de validation a été de comparer notre méthode une approche existante.

5 - Meda VERSUS EMPI
Le collectif européen Joanna MEDA a proposé en 1990 une méthodologie permettant d’évaluer des logiciels de formation en entreprise, à partir d’un questionnaire basé sur des critères pédagogiques, ergonomiques, commerciaux, techniques, … (CD MEDA97 1997)(MEDA 1990). Une étude comparative entre MEDA et EMPI nous a permis de mettre en évidence les points communs et les divergences entre les deux méthodes. Nous avons utilisé MEDA 1997 sur CD-ROM, ne prenant en compte que la partie concernant l’ergonomie pour notre étude, puisqu’actuellement EMPI ne maîtrise que cet aspect. La comparaison s’est effectuée grâce à l’évaluation de trois logiciels éducatifs multimédia, deux pour enfant et un pour adulte.
Rappelons que l’évaluation par la méthode MEDA se compose de deux étapes distinctes :
Une phase de personnalisation de la grille propose de créer un questionnaire en fonction de son propre contexte d’évaluation. Ceci s’effectue à l’aide d’un filtrage lié à ses pôles d’intérêt et ses préoccupations, puis en choisissant parmi les questions présélectionnées de la composition finale de la grille. L’évaluation est effectuée en répondant aux questions successives déterminées lors de la phase précédente. La qualification utilise une notation « -- », « - », « + », « + + ». Les résultats sont présentés sous formes de pourcentages de chaque réponse, qui laissent le choix de l’interprétation à l’évaluateur.
Une première analyse comparative nous a permis de mettre en valeur trois points essentiels.
Le mode de réponse : alors que MEDA propose une notation en amplitude ( en qualifiant directement le critère par une appréciation « mauvais », « bon », « très bon », … ) EMPI propose une notation en fréquence, c’est à dire qu’elle qualifie indirectement les critères en fonction de la fréquence des problèmes relevés. En pratique, on est amené à vouloir répondre par des formulations du type « souvent bien ET exceptionnellement très mauvais », par exemple pour exprimer qu’au sein de l’homogénéité globalement bonne de telle interface, le fait d’avoir inversé sur un écran le bouton « quitter » et le bouton « aide » s’est avéré lourd de conséquences. Ceci nous conduit à penser que sur ce point les deux méthodes sont complémentaires.
La personnalisation des grilles : on distingue l’approche asynchrone de MEDA qui sépare en deux phases la sélection des questions puis la réponse effective, de l’approche synchrone de EMPI qui offre de répondre ou non au fur et à mesure des questions. L’avantage de la première approche est qu’elle permet de contextualiser le questionnaire, et d’avoir une vision globale sur ses objectifs d’évaluation. La seconde, quant à elle, est plus applicable pratiquement, dans la mesure où c’est souvent en répondant effectivement qu’on se rend le mieux compte de la pertinence des questions par rapport au logiciel à évaluer. Cette fois encore les deux approches se complètent, et nous travaillons actuellement sur une solution fondée sur une personnalisation guidée dans un premier temps, permettant de proposer un questionnaire type modifiable a priori, puis de laisser à l’utilisateur la possibilité d’ignorer les questions et les aspects en fin de compte inutiles ou inapplicables.
La présentation des résultats : Nos travaux ont permis de mettre en valeur l’utilité de la notation exponentielle proposée par EMPI. On retient également la pondération des critères, et la réutilisation de certaines questions dans plusieurs critères, proposées dans MEDA. Enfin nous suggérons la représentation des critères sous forme d’histogramme pareto, associée à une mise en valeur des disparités à  l’intérieur d’un critère.
Ensuite, afin d’étudier les résultats obtenus avec l’application de la méthode EMPI et de la méthode MEDA, nous avons été contraints d’utiliser une même échelle de comparaison. Cela repose sur l’adoption d’un système de notation similaire (exponentielle en l’occurrence) et sur le regroupement des critères de chaque méthode dans des méta-critères communs.
Le constat principal à la suite de cette expérience est la bonne cohérence entre les méthodes MEDA et EMPI, qui avec chacune leurs propres questions parviennent à des résultats proches. Indépendamment de la validation relative qui en ressort, l’étude comparative des résultats nous a permis de mettre en valeurs la légitimité de la notation exponentielle, la division plus expressive du guidage dans EMPI, la difficulté pour la notation en fréquence à faire ressortir les défauts ponctuels, la difficulté pour EMPI de traiter la charge cognitive sans éléments pédagogiques, le mélange dans MEDA d’aspects pédagogiques et ergonomiques qui rendent l’interprétation difficile, la nécessité d’une pondération et d’une contextualisation, …

6 - Conclusion
L'expérience réalisée avec une cinquantaine d'évaluateurs et les conclusions positives issues de la comparaison avec MEDA ont permis une première validation de notre approche. La notation exponentielle améliore la pertinence des résultats et l’évaluation est d’une stabilité satisfaisante. Elle peut néanmoins être améliorée : la pondération des questions ne stabilise pas les résultats de façon significative, les divergences portent donc sur des questions clés, qu’il faudra revoir.
De plus, de nouvelles perspectives pour l'aspect ergonomique sont apparues. On retiendra par exemple la combinaison de notation en fréquence et en amplitude, la prise en compte du contexte afin de guider l'utilisateur dans la personnalisation de son évaluation, l'utilisation d'un système de notation adaptable, l'intégration de capacités explicatives hiérarchisées afin d'impliquer l'évaluateur.
Néanmoins, dans l'état actuel de la méthode, seuls les aspects liés à l'utilisabilité (ergonomie des interfaces) ont été présentés. Nous avons conscience des limites de cette approche : si un logiciel possède une interface attrayante alors que son fond est médiocre, un rejet sera constaté même s'il n'est pas immédiat. Nos travaux actuels consistent donc à intégrer les aspects pédagogiques d'une part, mais également les problèmes de qualité informatique (fiabilité, documentation, installation, ...), les aspects fortement subjectifs (esthétique, plaisir d'utilisation, ...), ou la nature de la scénarisation. A terme, nous obtiendrons alors un outil ergo-pédagogique propre à aider une personne dans l'évaluation d'un logiciel multimédia éducatif.
  Références

Bastien, C., et Scapin, D., 1993, Ergonomic Criteria for the Evaluation of Human-Computer Interfaces, Rapport INRIA n°156.
Bastien, C., et Scapin, D., 1994, Evaluating a user interface with ergonomic criteria, Rapport de recherche INRIA n°2326.
Berbaum, J., 1988, Un programme d’aide au développement de la capacité d’apprentissage. Multigraphié, 1988.
Caillat, et al., 1997, Analyse des méthodes d’évaluation de logiciels multimédia educatifs. Rapport interne Université de Technologie de Compiègne GI.
CD Cinte, 1995, Evaluation des titres multimédia. CURA.
Dessus, P., et Marquet, P., 1991, Outils d'évaluation de logiciels éducatifs, Bulletin EPI.
Dieng, R., 1990, Méthodes et outils d'acquisition des connaissances, ERGO-IA'90, Biarritz.
Ericsson, A.K.,et Simon, H.A., 1984, Protocol analysis : verbal reports as data, MA:MIT Press.
Hû, O., 1997, Méthodologie d’évaluation du multimédia pédagogique, Rapport de DEA CDS, Université de Technologie de Compiègne.
Hû, O., et Trigano P., 1998, Proposition de critères d’aide à l’évaluation de l'Interface Homme/Machine des logiciels multimédia pédagogiques, IHM’98, à paraître.
Jiang, J. et al., 1992, Autimating a human factors evaluation of graphical user interfaces for NASA applications : an update on CHIMES, SpaceOps 92.
Lowgren, J., et Nordqvist, T., 1992, Knowledge based evaluation as design support for graphical user interfaces, CHI'92.
MEDA, 1990, Evaluer les logiciels de formation, Les Editions d’Organisation.
CD MEDA97, 1997, 61 critères d'évaluation de logiciels de formation-Education. MédiaScreen, université de Liège.
Molich, R., et Nielsen, J., 1990, Improving a human-computer dialogue, ACM.
Ravden, S.J., et Johnson, G.I., 1989, Evaluating usability of Human-Computer Interfaces : a practical method, Ellis Horwood.
Reithmuller, V., 1996, Méthodologie d’évaluation de l’interface Homme/Machine, Rapport de DEA CDS, Université de Technologie de Compiègne.
Scapin, D., 1986, Guide ergonomique de conception des interfaces Homme/Machine, Rapport technique INRIA Rocquencourt n°77.
Senach, B., 1990, Evaluation ergonomique des interfaces Homme/Machine : une revue de la littérature. Rapport INRIA n°1180.
Smith, S.L., et Mosier, J.N., 1986, Guidelines for designing user interface software. MITRE Corp..
Valentin, A., Vallery, G., et Lucongsang, R., 1993, L’évaluation ergonomique des logiciels : une démarche itérative de conception. Montrouge : ANACT.
Vanderdonckt, J., 1994, Guide ergonomique de la présentation des applications hautement inetractives, Presses Universitaires Namur.