Olivier HU
Philippe TRIGANO
Stéphane CROZAT
UMR CNRS 6599 HEUDIASYC
Université de Technologie de Compiègne BP 20529
60206 COMPIEGNE Cedex - FRANCE
Tel (33) 03 44 23 45 02 Fax (33) 03 44 23 45 02
E-mail : Olivier.Hu@utc.fr, Philippe.Trigano@utc.fr, Stephane.Crozat@utc.fr
Résumé
Devant la prolifération des logiciels éducatifs en grande
distribution ou parmi les productions universitaires, il convient de posséder
un outil permettant de faire un choix. Quel est le logiciel le mieux adapté
à tel cas ? L’interface est-elle intuitive ? Exploite-t-elle les
possibilités du multimédia ?
Dans cette optique, nous proposons une méthode d’aide à
l’évaluation de l’Interface Homme/Machine des logiciels multimédia
éducatifs. Issue des travaux en ergonomie du logiciel et en informatique,
notre méthode est accessible via un questionnaire. Les diverses
évaluations de ce questionnaire au cours de sa conception, nous
ont permis de mettre en évidence plusieurs points : les limites
des critères d’évaluation actuels, inadaptés au contexte
du multimédia pédagogique qui nous préoccupe, et l’intérêt
d’un indice de divergence pour mesurer la stabilité de plusieurs
évaluations sur un même logiciel. Cet indice, ainsi que la
dernière version de notre questionnaire, ont fait l’objet d’une
expérimentation sur une cinquantaine d’évaluateurs différents.
Pour finir nous comparerons notre questionnaire à MEDA97, une méthode
achevée.
1 - Introduction
La prolifération des logiciels éducatifs pose de plus
en plus le problème du choix face à un grand nombre de produits,
pas toujours de bonne qualité. Ces logiciels sont-ils bien conçus
? Quels sont ceux qui réellement peuvent être intégrés
dans un processus éducatif ? Comment évaluer leur facilité
d'utilisation ? Des méthodes d’évaluation des interfaces
existent, mais peu correspondent à notre approche : nous cherchons
une méthode accessible à des enseignants ou des responsables
de formations, fournissant des résultats quantifiés qui s’applique
à des produits finis. Nous nous sommes donc intéressés
aux méthodes empiriques (Dieng 1990)(Ericsson et Simon 1984), aux
méthodes centrées sur une expertise humaine (Molich et Nielsen
1990)(Ravden et Johnson 1989) et aux techniques d’évaluation automatique
(Jiang et al. 1992)(Lowgren et Nordqvist 1992). Les recueils d’expertises
s’appuient souvent sur des grilles (Valentin, Vallery et Lucongsang 1993),
qui une fois les questions trop subjectives revues, sont quantifiables.
C’est de cette approche que nous nous sommes inspirée.
Ces méthodes, issues principalement de la recherche en milieu
industriel, n’ont été que très peu appliquées
au domaine des logiciels éducatifs. Néanmoins le CD-CINTE
(CD Cinte 1995) qui correspond plutôt à un recueil d’information
et le CD-MEDA97 (CD MEDA97 1997) qui propose une évaluation à
l’aide de questionnaires sur une très grande gamme de critères,
ont servi de base à notre réflexion. Même les sciences
de l’éducation proposent peu d’outils d’évaluation. Notons
quand même les travaux de Dessus et Marquet (Dessus et Marquet 1991)
sur les grilles de Berbaum (Berbaum 1988), dont la méthodologie
est proche de la nôtre.
2 - Présentation du Questionnaire
2.1 - Les Critères
Le questionnaire que nous avons mis en place s’appuie sur des critères
recensés dans de nombreuses listes (Bastien et Scapin 1993)(Smith
et Mosier 1986) : des recommandations générales, comme les
sept règles d’or de J. Coutaz, jusqu’au guide de Vanderdonckt (Vanderdonckt
1994) qui contient plus de 3000 règles ! Les travaux de l’INRIA
(Scapin 1986)(Bastien et Scapin 1994)(Senach 1990), fournissent une liste
de dix-huit critères élémentaires. Dans le contexte
des logiciels multimédia pédagogiques, nous avons dû
adapter ces critères pour mieux répondre aux attentes des
évaluateurs. En effet certains aspects, comme la qualité
des différents médias, sont peu ou pas pris en compte. La
liste des critères que nous utilisons est la suivante (Hû
et Trigano 1998) : Guidage (Incitation, Groupement par localisation, Groupement
par format, Retour informatif, Navigation) ; Charge de travail (Actions
minimales, Charge perceptive); Contrôle par l’utilisateur ; Gestion
des erreurs ; Compatibilité (Format, Flexibilité, Expérience
utilisateur) ; Homogénéité ; Aspects graphiques ;
Texte (Lisibilité, Codes et dénomination) ; Média
(Images, Son, Vidéo).
2.2 - Le Questionnaire
Ces critères nous ont permis de développer une grille
d’une centaine de questions. Le questionnaire ainsi formé est utilisable
par des non-spécialistes et fournit des résultats chiffrés
sur la qualité de l’interface des logiciels évalués.
Il présente un certain nombre de caractéristiques :
? Un choix est possible quant à l’importance de chaque critère
: essentiel ou secondaire.
? Une aide est proposée pour chaque question afin de sécuriser
au maximum l’évaluateur.
? Une pondération des questions est appliquée afin de
relativiser l'importance des questions au sein d'un même critère.
? Pour la majorité des questions, une notation « exponentielle
» est utilisée (Figure 1). En effet, il n’est pas acceptable
que la présence d’un défaut majeur, même rare, soit
créditée d’une note positive. La présence exceptionnelle
d’un tel défaut n’est pas pénalisée, mais son absence
est la preuve que le problème est bien traité.
Exemple : Vous est-il arrivé de ne pas savoir quoi faire, ou
comment faire pour continuer dans votre consultation du logiciel ?
Toujours : -10
Souvent : - 6
Parfois : 0
Jamais : +10
? Une note globale de l’interface est calculée, prenant en compte l'importance de chaque critère.
Ce questionnaire est pour l’instant disponible sous la forme d’une grille
Excel (Figure 2). La version finale de notre méthode sera implémentée
à l’aide d’un langage de programmation. Cela permettra d’automatiser
la saisie et d’optimiser la présentation (gestion des questions
imbriquées, détections des réponses contradictoires,
...).
3 - Construction du questionnaire
3.1 - Mise au point
Plusieurs versions de notre questionnaire ont été itérativement
mises au point (Reithmuller 1996) (HÛ 1997)(Caillat et al.1997).
Une trentaine de logiciels évalués par une dizaine d’évaluateurs
différents (Figure 3), ont permis d’une part de révéler
certains manques (comme la non prise en compte des médias dans le
questionnaire d’origine) et d’autre part de mettre au point les caractéristiques
de la méthode EMPI (aide, pondérations des questions, ...).
Ces résultats ont aussi mis en évidence le manque de stabilité
des évaluations issues du questionnaire initial.
Notre questionnaire nous permet d’obtenir des résultats chiffrés
pour chaque critère évalué (Figure 3). Cependant,
avant de conclure qu’une évaluation est pertinente, un gage de qualité
primordial est que le questionnaire fournisse les résultats les
plus stables possibles quels que soient les évaluateurs. Une méthode
d’évaluation s'avérera inutilisable si les résultats
changent d'un évaluateur à un autre.
Une première série de modifications du questionnaire
nous a permis d’améliorer de manière significative la stabilité
d’évaluation. Nous présentons un exemple d’évaluations
illustrant cette amélioration (Figure 4) : à gauche sont
présentés les résultats de deux évaluations
d’un même logiciel effectuées avec le questionnaire initial
(Reithmuller 1996), et à droite ceux issus du questionnaire avec
modifications (HÛ 1997). Pour chaque graphique, on trouvera en abscisse,
les critères d’évaluation, et en ordonnée les résultats
de l’évaluation (entre -10 et +10). Les résultats entourés
indiquent les divergences supérieures à deux points. On constate
que le nombre de points de divergence a diminué de façon
importante (il passe de 10 à 3).
Figure 4 : Différences d’évaluation après modifications
du questionnaire
3.2 - Indice de Divergence
Afin de pouvoir effectuer des comparaisons sur un plus grand nombre
d’évaluations, nous avons mis au point une mesure de divergence.
Pour cela les statistiques nous fournissent un certain nombre d’outils.
La mesure de l’écart type, par exemple, nous procure un indice de
dispersion autour de la moyenne. Cependant cette valeur ne donne que peu
d’indications sur le type de divergence constaté. En effet l’écart-type
ne tient pas compte des oppositions. Par exemple, il ne fait pas la différence
entre les deux cas suivants :
Eval.1 = -3 Eval.2 = +3 Ecart-type = 3
Eval.1 = +2 Eval.2 = +8 Ecart-type = 3
Nous avons donc rejeté cette mesure et étudié
la formule de divergence souvent utilisée en statistique :
, avec
avec En : évaluation par un évaluateur n
Ii,j : indice de divergence entre l’évaluation i et l’évaluation
j
Ce qui se généralise comme suit :
pour n évaluations
Cependant, comme le montre le tableau de la Figure 5 (quatrième
colonne) cette formule présente certains aspects inadaptés
à notre cas. Par exemple, elle révèle les opposés
sans prendre en compte la distance qui les sépare (deuxième
ligne) : le résultat est le même que les résultats
soient (+1,-1) ou (+10,-10).
A ce niveau, plusieurs solutions étaient envisageables (Caillat
et al.1997).
Elles sont toutes de la forme
La Figure 5 présente un tableau résumant pour quelques
couples d’évaluations caractéristiques, les indices obtenus
en fonction des formules choisies : une fonction avec constante, notre
formule initiale, et la fonction que nous avons finalement choisie. La
mesure de différents indices de divergence lors l’évaluation
de cinq CD-ROM représentatifs par neuf évaluateurs différents,
nous a permis de valider cette formule, d’améliorer le questionnaire
et sa stabilité d’évaluation.
Ainsi cet indice nous semble pour l’instant, correspondre
à nos attentes.
Évaluation Valeur de l’Indice avec les formules : Remarque
Ei Ej
x x 0 0 0 Différence nulle pour résultats identiques
x -x x/10 1 2x/(10+x) Prise en compte de la valeur de x pour des résultats
opposés
-10 10 1 1 1 Illustration de
-5 5 0.5 1 0.67 la prise en compte de
-1 1 0.1 1 0.18 la position des opposés
0 5 0.25 0.5 0.33 Résultats
0 -5 0.25 0.5 0.33 symétriques
5 10 0.25 0.25 0.25 Prise en compte de la
2.5 -2.5 0.25 1 0.40 position de l’écart
Figure 5 : Exemples de calcul de l’indice de divergence
4 - Validation de la Méthode
La méthode EMPI a été récemment utilisée
pour l’évaluation d’un CD-ROM par quarante-cinq évaluateurs
différents, lors d’un enseignement de second cycle. Ces évaluateurs
ont utilisé le logiciel pendant environ une heure avant d’effectuer
une évaluation en trois étapes. Tout d’abord une évaluation
intuitive de l’interface a été réalisée. Les
étudiants devaient définir eux même les critères
à évaluer et estimer la qualité ergonomique du produit.
La deuxième étape a consisté en une évaluation
sans aucune méthode, avec la seule connaissance des critères
de l’INRIA. Enfin, la méthode EMPI a été appliquée
dans une troisième phase. Trois objectifs étaient visés
: valider les caractéristiques de la grille, vérifier la
pertinence des résultats et celle de l’indice de divergence.
Les évaluations intuitives ont permis de dresser une liste d’une
vingtaine de remarques sur la qualité ergonomique de l’interface.
Ces évaluations se recouvrent peu, et un tiers des remarques portent
sur des notions graphiques et sur la qualité des médias,
ce qui justifie l’emploi de critères propres à ces aspects.
L’évaluation avec les critères de l’INRIA a largement
étendu le champ d’investigation. Le nombre de remarques a doublé
et la liste issue de l’évaluation avec critère recouvre bien
celle issue de l’évaluation intuitive. D’une manière générale
les remarques issues de l’ensemble des évaluations intuitives sont
comprises dans n’importe quelle évaluation avec critères.
En revanche, certains problèmes de divergence apparaissent (Exemple
: 21% des évaluateurs estiment bonnes les possibilités de
navigation, contre 29% qui les trouvent mauvaises).
Enfin, les résultats des évaluations effectuées
avec la méthode EMPI sont résumés dans les tableaux
des Figures 6 et 7. Le premier tableau présente un extrait des évaluations
fournies par la méthode EMPI selon les caractéristiques du
questionnaire (avec ou sans pondérations des questions, avec ou
sans notation exponentielle). Pour plusieurs critères (Grp. localisation,
Contrôle, Aspects graphiques, ...) l’utilisation de la notation exponentielle
diminue de façon significative les résultats. Ces derniers
sont plus proches de la réalité car ils accentuent la présence
de défauts graves effectivement constatés dans l’interface.
En revanche la pondération des questions semble peu modifier les
résultats.
RESULTATS Linéaire Exponentielle
Pondérée Non pond. Pondérée Non pond.
Grp. local. 0.7 0.6 -1.6 -1.7
Actions mini. -1.6 -2.4 -3.7 -4.3
Contrôle 1.2 1.2 -0.6 -0.6
Homogénéité 5.1 5.1 3.3 3.3
A. Graph. 2.4 2.7 0.9 0.8
Lisibilité 4.1 4.2 2 2.2
Vidéo 2.2 2.3 0.2 2
Le second tableau (Figure 7) fournit les indices de divergence selon
les caractéristiques du questionnaire. Le minimum pour chaque critère
est écrit en gras. La dernière colonne indique les critères
où des divergences ont été constatées avec
les autres évaluations. Une première remarque est que l’indice
moyen est d’environ 0.2, ce qui indique une stabilité correcte.
Par exemple deux évaluations ayant pour résultat -1 et +1
ont un indice de 0.18.
D’une manière générale, l’indice de divergence
est plus faible lorsque la notation exponentielle est utilisée.
Mais l’utilisation de la pondération des questions ne semble pas
influencer les indices de divergence de façon satisfaisante. Dans
certains cas l’indice plutôt élevé de divergence provient
d’une mauvaise interprétation des questions, c’est donc le questionnaire
qu’il faut retoucher. Pour d’autres critères, tels que la Charge
de travail, la Navigation et les Aspects Graphiques, il est nécessaire
d’apporter des modifications à notre liste de critères. Ainsi
la Charge de travail est trop liée au contexte pour figurer dans
la partie ergonomie de notre méthode, de même que le critère
Navigation directement lié à la scénarisation et aux
choix pédagogiques.
En résumé, l’utilisation du questionnaire permet de passer
en revue tous les aspects de l’interface. La vision globale de l’évaluateur
est donc plus objective. L’utilisation de la notation exponentielle améliore
la pertinence des résultats et la stabilité d’évaluation,
ce qui ne semble pas être le cas de la pondération des questions.
Enfin certains critères devront être revus pour y introduire
les notions de pédagogie propre à notre contexte.
INDICES Linéaire Exponentielle
Incitation 0.18 0.16
Grp. local. 0.26 0.26
Grp. Format 0.30 0.17 x
Retour 0.24 0.21
Navigation 0.28 0.23 x
Actions mini. 0.23 0.19
Charge 0.32 0.31 x
Contrôle 0.22 0.24
Gestions erreurs 0.26 0.25
Format 0.27 0.23
Flexibilité 0.17 0.15
Expérience 0.22 0.21
Homogénéité 0.19 0.24
Aspects graph. 0.25 0.29 x
Lisibilité 0.21 0.26
Dénomination 0.23 0.24
Images 0.17 0.19
Sons 0.19 0.21
Vidéo 0.21 0.03
Une seconde forme de validation a été de comparer notre méthode une approche existante.
5 - Meda VERSUS EMPI
Le collectif européen Joanna MEDA a proposé en 1990 une
méthodologie permettant d’évaluer des logiciels de formation
en entreprise, à partir d’un questionnaire basé sur des critères
pédagogiques, ergonomiques, commerciaux, techniques, … (CD MEDA97
1997)(MEDA 1990). Une étude comparative entre MEDA et EMPI nous
a permis de mettre en évidence les points communs et les divergences
entre les deux méthodes. Nous avons utilisé MEDA 1997 sur
CD-ROM, ne prenant en compte que la partie concernant l’ergonomie pour
notre étude, puisqu’actuellement EMPI ne maîtrise que cet
aspect. La comparaison s’est effectuée grâce à l’évaluation
de trois logiciels éducatifs multimédia, deux pour enfant
et un pour adulte.
Rappelons que l’évaluation par la méthode MEDA se compose
de deux étapes distinctes :
Une phase de personnalisation de la grille propose de créer
un questionnaire en fonction de son propre contexte d’évaluation.
Ceci s’effectue à l’aide d’un filtrage lié à ses pôles
d’intérêt et ses préoccupations, puis en choisissant
parmi les questions présélectionnées de la composition
finale de la grille. L’évaluation est effectuée en répondant
aux questions successives déterminées lors de la phase précédente.
La qualification utilise une notation « -- », « - »,
« + », « + + ». Les résultats sont présentés
sous formes de pourcentages de chaque réponse, qui laissent le choix
de l’interprétation à l’évaluateur.
Une première analyse comparative nous a permis de mettre en
valeur trois points essentiels.
Le mode de réponse : alors que MEDA propose une notation en
amplitude ( en qualifiant directement le critère par une appréciation
« mauvais », « bon », « très bon »,
… ) EMPI propose une notation en fréquence, c’est à dire
qu’elle qualifie indirectement les critères en fonction de la fréquence
des problèmes relevés. En pratique, on est amené à
vouloir répondre par des formulations du type « souvent bien
ET exceptionnellement très mauvais », par exemple pour exprimer
qu’au sein de l’homogénéité globalement bonne de telle
interface, le fait d’avoir inversé sur un écran le bouton
« quitter » et le bouton « aide » s’est avéré
lourd de conséquences. Ceci nous conduit à penser que sur
ce point les deux méthodes sont complémentaires.
La personnalisation des grilles : on distingue l’approche asynchrone
de MEDA qui sépare en deux phases la sélection des questions
puis la réponse effective, de l’approche synchrone de EMPI qui offre
de répondre ou non au fur et à mesure des questions. L’avantage
de la première approche est qu’elle permet de contextualiser le
questionnaire, et d’avoir une vision globale sur ses objectifs d’évaluation.
La seconde, quant à elle, est plus applicable pratiquement, dans
la mesure où c’est souvent en répondant effectivement qu’on
se rend le mieux compte de la pertinence des questions par rapport au logiciel
à évaluer. Cette fois encore les deux approches se complètent,
et nous travaillons actuellement sur une solution fondée sur une
personnalisation guidée dans un premier temps, permettant de proposer
un questionnaire type modifiable a priori, puis de laisser à l’utilisateur
la possibilité d’ignorer les questions et les aspects en fin de
compte inutiles ou inapplicables.
La présentation des résultats : Nos travaux ont permis
de mettre en valeur l’utilité de la notation exponentielle proposée
par EMPI. On retient également la pondération des critères,
et la réutilisation de certaines questions dans plusieurs critères,
proposées dans MEDA. Enfin nous suggérons la représentation
des critères sous forme d’histogramme pareto, associée à
une mise en valeur des disparités à l’intérieur
d’un critère.
Ensuite, afin d’étudier les résultats obtenus avec l’application
de la méthode EMPI et de la méthode MEDA, nous avons été
contraints d’utiliser une même échelle de comparaison. Cela
repose sur l’adoption d’un système de notation similaire (exponentielle
en l’occurrence) et sur le regroupement des critères de chaque méthode
dans des méta-critères communs.
Le constat principal à la suite de cette expérience est
la bonne cohérence entre les méthodes MEDA et EMPI, qui avec
chacune leurs propres questions parviennent à des résultats
proches. Indépendamment de la validation relative qui en ressort,
l’étude comparative des résultats nous a permis de mettre
en valeurs la légitimité de la notation exponentielle, la
division plus expressive du guidage dans EMPI, la difficulté pour
la notation en fréquence à faire ressortir les défauts
ponctuels, la difficulté pour EMPI de traiter la charge cognitive
sans éléments pédagogiques, le mélange dans
MEDA d’aspects pédagogiques et ergonomiques qui rendent l’interprétation
difficile, la nécessité d’une pondération et d’une
contextualisation, …
6 - Conclusion
L'expérience réalisée avec une cinquantaine d'évaluateurs
et les conclusions positives issues de la comparaison avec MEDA ont permis
une première validation de notre approche. La notation exponentielle
améliore la pertinence des résultats et l’évaluation
est d’une stabilité satisfaisante. Elle peut néanmoins être
améliorée : la pondération des questions ne stabilise
pas les résultats de façon significative, les divergences
portent donc sur des questions clés, qu’il faudra revoir.
De plus, de nouvelles perspectives pour l'aspect ergonomique sont apparues.
On retiendra par exemple la combinaison de notation en fréquence
et en amplitude, la prise en compte du contexte afin de guider l'utilisateur
dans la personnalisation de son évaluation, l'utilisation d'un système
de notation adaptable, l'intégration de capacités explicatives
hiérarchisées afin d'impliquer l'évaluateur.
Néanmoins, dans l'état actuel de la méthode, seuls
les aspects liés à l'utilisabilité (ergonomie des
interfaces) ont été présentés. Nous avons conscience
des limites de cette approche : si un logiciel possède une interface
attrayante alors que son fond est médiocre, un rejet sera constaté
même s'il n'est pas immédiat. Nos travaux actuels consistent
donc à intégrer les aspects pédagogiques d'une part,
mais également les problèmes de qualité informatique
(fiabilité, documentation, installation, ...), les aspects fortement
subjectifs (esthétique, plaisir d'utilisation, ...), ou la nature
de la scénarisation. A terme, nous obtiendrons alors un outil ergo-pédagogique
propre à aider une personne dans l'évaluation d'un logiciel
multimédia éducatif.
Références
Bastien, C., et Scapin, D., 1993, Ergonomic Criteria for the Evaluation
of Human-Computer Interfaces, Rapport INRIA n°156.
Bastien, C., et Scapin, D., 1994, Evaluating a user interface with
ergonomic criteria, Rapport de recherche INRIA n°2326.
Berbaum, J., 1988, Un programme d’aide au développement de la
capacité d’apprentissage. Multigraphié, 1988.
Caillat, et al., 1997, Analyse des méthodes d’évaluation
de logiciels multimédia educatifs. Rapport interne Université
de Technologie de Compiègne GI.
CD Cinte, 1995, Evaluation des titres multimédia. CURA.
Dessus, P., et Marquet, P., 1991, Outils d'évaluation de logiciels
éducatifs, Bulletin EPI.
Dieng, R., 1990, Méthodes et outils d'acquisition des connaissances,
ERGO-IA'90, Biarritz.
Ericsson, A.K.,et Simon, H.A., 1984, Protocol analysis : verbal reports
as data, MA:MIT Press.
Hû, O., 1997, Méthodologie d’évaluation du multimédia
pédagogique, Rapport de DEA CDS, Université de Technologie
de Compiègne.
Hû, O., et Trigano P., 1998, Proposition de critères d’aide
à l’évaluation de l'Interface Homme/Machine des logiciels
multimédia pédagogiques, IHM’98, à paraître.
Jiang, J. et al., 1992, Autimating a human factors evaluation of graphical
user interfaces for NASA applications : an update on CHIMES, SpaceOps 92.
Lowgren, J., et Nordqvist, T., 1992, Knowledge based evaluation as
design support for graphical user interfaces, CHI'92.
MEDA, 1990, Evaluer les logiciels de formation, Les Editions d’Organisation.
CD MEDA97, 1997, 61 critères d'évaluation de logiciels
de formation-Education. MédiaScreen, université de Liège.
Molich, R., et Nielsen, J., 1990, Improving a human-computer dialogue,
ACM.
Ravden, S.J., et Johnson, G.I., 1989, Evaluating usability of Human-Computer
Interfaces : a practical method, Ellis Horwood.
Reithmuller, V., 1996, Méthodologie d’évaluation de l’interface
Homme/Machine, Rapport de DEA CDS, Université de Technologie de
Compiègne.
Scapin, D., 1986, Guide ergonomique de conception des interfaces Homme/Machine,
Rapport technique INRIA Rocquencourt n°77.
Senach, B., 1990, Evaluation ergonomique des interfaces Homme/Machine
: une revue de la littérature. Rapport INRIA n°1180.
Smith, S.L., et Mosier, J.N., 1986, Guidelines for designing user interface
software. MITRE Corp..
Valentin, A., Vallery, G., et Lucongsang, R., 1993, L’évaluation
ergonomique des logiciels : une démarche itérative de conception.
Montrouge : ANACT.
Vanderdonckt, J., 1994, Guide ergonomique de la présentation
des applications hautement inetractives, Presses Universitaires Namur.