Olivier HU
Philippe TRIGANO
UMR CNRS 6599 HEUDIASYC
Université de Technologie de Compiègne BP 20529
60206 COMPIEGNE Cedex - FRANCE
Tel (33) 03 44 23 45 02 Fax (33) 03 44 23 45 02
E-mail : Olivier.Hu@utc.fr, Philippe.Trigano@utc.fr
MOTS CLES : IHM, Critères ergonomiques, Évaluation, Multimédia, Questionnaire, Pédagogie
RESUME :
Aujourd'hui, de nombreux logiciels éducatifs sont mis sur le
marché, à grand renfort de publicités sur leurs aspects
multimédia. Dans la problématique du choix, il convient d'avoir
des outils permettant de mesurer la qualité et l'utilisabilité
des logiciels proposés. Nous proposons une méthode d'aide
à l'évaluation de l'interface des logiciels pédagogiques
multimédia. Cette méthode, présentée sous la
forme de questionnaires, s'articule autours d'un certain nombre de critères
adaptés à notre contexte. En effet ceux issus de la littérature,
et notamment de l'INRIA, doivent être modifiés pour répondre
aux particularités de ces logiciels. Enfin, la stabilité
des résultats entre évaluateurs nous apparaissant comme primordiale,
une mesure de divergence entre évaluation d'un même produit,
est proposée. A terme, notre projet vise à intégrer
les aspects pédagogiques. Nous obtiendrons alors un outil ergo-pédagogique
propre à aider une personne dans l'évaluation d'un logiciel
multimédia éducatif.
Proposition de critères d'aide à l'évaluation
de l'Interface Homme/Machine des logiciels multimédia pédagogiques
Olivier HU
Philippe TRIGANO
UMR CNRS 6599 HEUDIASYC
Université de Technologie de Compiègne BP 20529
60206 COMPIEGNE Cedex - FRANCE
Tel (33) 03 44 23 45 02 Fax (33) 03 44 23 45 02
E-mail : Olivier.Hu@utc.fr, Philippe.Trigano@utc.fr
RESUME :
Nous proposons une méthode d'aide à l'évaluation
de l'Interface Homme/Machine des logiciels pédagogiques qui utilisent
les possibilités actuelles du multimédia. Aujourd'hui les
interfaces intègrent sons, photos, vidéos et éléments
graphiques, qu'il faut assembler selon certaines règles ou principes
ergonomiques. Des méthodes d'évaluation existent. Issues
de l 'ergonomie du logiciel, de l'informatique et de la communication Homme/Machine,
elles restent souvent peu adaptées à ce nouveau contexte
des logiciels multimédia éducatifs. De ce fait, nous proposons
un ensemble de critères adaptés au contexte pédagogique
et prenant en compte les aspects graphiques et multimédia. Ces critères
servent ensuite de base à un questionnaire, permettant ainsi une
évaluation de « l'utilisabilité » des IHM des
logiciels éducatifs.
MOTS CLÉS : IHM, Critère ergonomique, Évaluation, Multimédia, Questionnaire, Pédagogie
INTRODUCTION
Aujourd'hui, de plus en plus de logiciels éducatifs sont mis
sur le marché, à grand renfort de publicités louant
les aspects multimédia de tel produit ou les possibilités
de connexion à Internet de tel autre. Ces logiciels sont-ils bien
conçus ? Quels sont ceux qui réellement peuvent être
intégrés dans un processus éducatif, en complément
du cours traditionnel ? Comment évaluer leur facilité d'utilisation
et leur adéquation au public visé ? Dans une problématique
du choix, telle que pourrait se la poser un enseignant, il convient d'avoir
des outils permettant de mesurer la qualité et l'utilisabilité
des logiciels proposés.
Dans un premier temps, l'étude des méthodes d'évaluation issues de l'ergonomie du logiciel, nous a permis de dégager un ensemble de critères adaptés au contexte du multimédia éducatif. Nous présentons ensuite une méthode basée sur un questionnaire et accessible à un public de non-spécialistes. Articulées autours des critères précédents, les questions sont aussi simples et précises que possibles, tout en restant quantifiables. Enfin, la stabilité des résultats d'un évaluateur à l'autre étant primordiale, une mesure de divergence est proposée.
A terme, il conviendra d'utiliser ces critères dans un système informatique permettant d'aider l'évaluateur dans le processus d'analyse du logiciel testé. Le programme ainsi développé sera constitué d'une grille d'analyse des produits multimédia éducatifs, grille comprenant les critères et le questionnaire évoqués précédemment.
ANALYSE ERGONOMIQUE ET CONTEXTE PEDAGOGIQUE
L'ergonomie a pour objet d'adapter aux capacités de l'homme,
les machines, les dispositifs et autres outils qu'ils soient physiques
ou mentaux, en vue d'améliorer les performances, la sécurité
et le confort d'utilisation. Il n'est donc pas impropre de parler d'ergonomie
lorsque l'on mesure la qualité d'une interface.
Les méthodes d'évaluation des interfaces sont suffisamment
nombreuses pour que plusieurs classifications de ces méthodes soient
proposées. Grislin et Kolski [9] nous proposent de classer les méthodes
selon trois approches (Grislin et Kolski recensent, dans leur article,
plus de 40 méthodes selon ces approches. Le lecteur trouvera dans
cette excellente revue de synthèse les références
des méthodes citées) :
- les approches centrées sur les utilisateurs : elles regroupent
les méthodes empiriques, comme le « recueil de l'expertise
», ou le « mouchard électronique », les méthodes
d'estimation de la charge de travail, comme la « mesure de performance
»[20], et les méthodes de tests de conception avec les utilisateurs,
comme le « prototypage ».
- les approches centrées sur une expertise humaine ou «
papier » comme celles qui font appel à un expert du domaine
ou les « grilles d'évaluation » de Ravden [13].
- et enfin les approches centrées sur une modélisation
de l'interface et/ou de l'interaction homme/machine : les méthodes
de descriptions graphiques de tâches comme MAD [17], GOMS [4] ou
SADT-Petri [1], les techniques d'évaluation automatique SYNOP [11]
ou ERGOVAL [8].
Avant de discuter de l'intéret de telle ou telle méthode,
présentons rapidement les principales caractéristiques de
notre approche :
i - Nous ne voulons pas de l'intervention d'un spécialiste de
la méthode ou d'un expert en ergonomie des logiciels. La méthode
se veut accessible au plus grand nombre, et l'on ne peut pas demander aux
utilisateurs des pré-requis en ergonomie des logiciels.
ii - Dans le même ordre d'idée, nous ne voulons pas nous
astreindre à un environnement ou à une norme graphique particuliere.
iii - L'évaluation devra donc être effectuée par
des futurs utilisateurs ou tout du moins des évaluateurs connaissants
le public visé. Les questions sont donc tournées vers l'utilisateur.
iv - Notre évaluation se situe dans une problématique
de choix ou de caractérisation du logiciel, d'où une évaluation
sur des produits finis. Néanmoins, on peut sans peine « retourner
» le questionnaire pour obtenir une série de « recommandations
» utilisables lors de la conception.
v - Enfin, le contexte des logiciels multimédias pédagogiques
impliquent la prise en compte de nouveaux aspects (médias, navigation,
graphisme, influence du milieu pédagogique dans l'interface, etc.).
Si nous confrontons les diverses méthodes présentées
précédemment à nos hypothèses, nous arrivons
aux conclusions suivantes :
? Les méthodes empiriques et d'estimation de la charge
de travail nécessitent toutes l'intervention d'un expert ce qui
est incompatible avec notre hypothèse (i) « pas de spécialistes
».
? Les tests de conception, les prototypages sont appliqués
lors de la conception et donc inutilisables de par notre hypothèse
(iv) « produits finis ».
? Les expertises humaines demandent-elles aussi l'analyse d'un
spécialiste ((i) « pas de spécialistes »). Même
les questionnaires utilisés par les experts pour leur analyse [22]
ainsi que les grilles d'évaluation de Ravden doivent de préférence
être étudiées par un expert de la méthode. Ces
questionnaires nous fournissent néanmoins des pistes d'investigation.
? Les méthodes de descriptions et de développements
graphiques s'appliquent lors de la mise au point et de la correction des
interfaces et donc en contradiction avec notre hypothèse (iv) «
produits finis ».
? Les techniques d'évaluation automatique sont pour l'instant
liés à des environnements particuliers ce qui contredit notre
hypothèse (iii) « multi-environnement » (ERGOVAL [8]
par exemple ne s'occupe que des interfaces de type Windows).
? Une remarque plus générale sur le contexte de
développement de toutes ces méthodes s'impose. En effet la
majorité de ces méthodes sont issues de recherche en milieu
industriel : contrôle de processus, aide à la surveillance
etc., elles n'ont donc que peu intégré les notions comprises
dans notre hypothèse (v) « multimédia pédagogique
». Deux méthodes existantes nous ont quand même servi
de base de réflexion : le CD-CINTE [5] qui correspond plus à
un recueil d'information qu'à une évaluation quantitative
et le CD-MEDA97 [6] qui propose une très grande gamme de critères
d'évaluation : de la qualité du marketing à la situation
de l'apprenant, en passant par l'interface elle-même. Cependant,
le nombre trop élevé de critères et leur présentation
rend l'utilisation de ce logiciel relativement malaisée.
? Même les sciences de l'éducation proposent peu
d'outils d'évaluation sur ce nouveau produit qu'est le logiciel
éducatif. Notons quand même les travaux de Dessus et Marquet
[7] sur les grilles de Berbaum [3], dont la méthodologie est proche
de la nôtre. Ils proposent une méthode d'évaluation
des processus d'apprentissage et des performances pédagogiques sous
la forme d'un questionnaire. Une petite partie concerne l'évaluation
de l'utilisabilité de l'interface.
En conclusion, seuls les questionnaires semblent correspondrent à notre approche : applicables sur produits finis, accessibles à un large public et non liés à un environnement. Nous avons donc retravaillé ceux existant pour les orienter vers l'utilisateur, pour y intégrer les notions de multimédias, et pour les adapter au contexte pédagogique.
LE QUESTIONNAIRE
A partir de cette réflexion et d'un premier état de l'art
[14], nous avons développé un questionnaire d'évaluation
susceptible d'être utilisé par des non-spécialistes
et fournissant des résultats chiffrés sur la qualité
de l'interface des logiciels évalués. Le questionnaire s'articule
autour de critères que nous expliciterons dans le chapitre suivant.
Il présente un certain nombre de caractéristiques générales
:
? Un choix est possible quant à l'importance des critères
: essentiels ou secondaires.
? Une pondération des questions est appliquée. Elle permet
de relativiser l'importance des questions au sein d'un même critère.
? Pour les questions qui concernent des points clés de l'interface,
une notation « exponentielle » est souvent utilisée.
Elle prend en compte plusieurs choix possibles tout en pénalisant
la présence d'un défaut plus que sa fréquence.
Exemple pour 4 choix possibles :
Vous est-il arrivé de ne pas savoir quoi faire, ou comment faire
pour continuer dans votre consultation du logiciel ?
Toujours : -10
Souvent : - 6
Parfois : 0
Jamais : +10
En effet, nous estimons que, dès lors qu'un défaut est
détecté, la note ne peut pas être positive, surtout
pour les questions portant sur des points clés de l'interface. Il
n'est pas acceptable que la présence d'un défaut majeur,
même rare, soit créditée d'une note positive. Ainsi
la présence exceptionnelle d'un tel défaut n'est pas pénalisée
(la note associée à la réponse « Parfois »
est 0), mais son absence est la seule preuve que le problème est
bien traité, d'où le +10 (réponse « Jamais »).
? Une proposition d'aide pour chaque question afin de sécuriser
au maximum l'évaluateur.
? Une séparation en 2 questionnaires :
Un questionnaire réduit pour une détection rapide (il
faut environ dix minutes pour répondre à ce questionnaire)
des principaux défauts et qualités des interfaces évaluées.
Seuls 9 critères principaux sont mesurés ici.
Un questionnaire complet (environ 10 pages) avec un résultat
chiffré pour les 19 critères évalués et une
représentation globale de tous les résultats.
Exemple de développement du questionnaire réduit au questionnaire
complet :
Questionnaire réduit :
L'utilisation du son vous a-t-elle semblé hors de propos ?
Questionnaire complet :
Si le canal sonore est utilisé :
- pour des informations spécifiques, cela vous a-t-il paru suffisant
?
- en renforcement d'une information déjà transmise, pensez-vous
que cela soit judicieux ?
- comme fond d'ambiance, cela vous a-t-il paru agréable ?
? Le calcul d'une note globale de l'interface qui prend en compte l'importance
de chaque critère.
LES CRITERES D'EVALUATION DE L'INTERFACE
Il existe de nombreuses listes de critères d'évaluation
de l'interface [18][19], des recommandations relativement générales,
comme les sept règles d'or de J. Coutaz ou les critères de
Ravden et Johnson (figure 1), jusqu'au guide de Vanderdonckt [23] qui contient
plus de 3000 règles !
Les 7 règles d'or de Joëlle Coutaz :
- Lutter pour la cohérence
- Lutter pour la concision
- Réduire la charge cognitive
- Mettre le contrôle entre les mains de l'utilisateur
- Souplesse d'utilisation
- Structurer le dialogue
- Prédire les erreurs
Les 8 critères de Ravden et Johnson :
- La clarté visuelle
- La cohérence
- La compatibilité
- Le retour d'information
- La représentativité
- La flexibilité et le contrôle
- La prévention et la correction des erreurs
- Le guidage
Figure 1 : Recommandations générales
Les travaux de l'INRIA [2] [16] [18], fournissent une liste de dix-huit critères élémentaires, qui servent de base à bon nombre de méthodes d'évaluation. Ces critères sont : le Guidage (Incitation, Groupement et distinction par la localisation, par le format, Retour informatif, Clarté), la Charge de travail (Concision, Actions minimales, Densité d'information), le Contrôle explicite (Actions explicites, Contrôle utilisateur), l'Adaptibilité (Flexibilité, Expérience utilisateur), la Gestion des erreurs (Protection, Qualité des messages, Correction des erreurs), l'Homogénéité, la Signifiance des codes et dénominations, et la Compatibilité.
Dans le contexte des logiciels multimédia pédagogiques,
nous avons dû adapter les critères cités précédemment
pour mieux répondre aux attentes des évaluateurs devant ces
produits. La principale modification concerne l'ajout des critères
Navigation, Aspects graphiques et d'un critère par catégorie
de média (Images, Son et Vidéo), mais presque tous les autres
critères ont vu leur définition adaptée.
Un résumé des critères que nous avons mis au point
est présenté dans la figure 2.
GUIDAGE : 1 - Incitation
2 - Groupement par localisation
3 - Groupement par format
4 - Retour informatif
5 - Navigation
CHARGE DE TRAVAIL :
6 - Actions minimales
7 - Charge perceptive
8 - CONTROLE PAR UTILISATEUR
9 - GESTION DES ERREURS
COMPATIBILITE
10 - Format
11 - Flexibilité
12 - Expérience utilisateur
13 - HOMOGENEITE
14 - ASPECTS GRAPHIQUES
TEXTE : 15 - Lisibilité
16 - Codes et dénomination
MEDIA : 17 - Images :
18 - Son
19 - Vidéo
Figure 2 : Liste de critères ergonomiques liés au contexte
du multimédia pédagogique
Plusieurs évaluations de notre premier questionnaire, qui s'articulait
directement autours des critères de l'INRIA (une trentaine de logiciels
multimédia éducatifs par une dizaine d'évaluateurs
différents), ont permis de révéler certains manques,
notamment sur la qualité des médias, et de remettre en cause
certains critères comme le Contrôle explicite et la Gestion
des erreurs.
Nous présentons ci-dessous nos nouveaux critères influencés par notre contexte du multimédia pédagogique. Nous donnerons pour chaque critère : sa définition, des illustrations de son impact sur l'interface, les raisons ayant entraîné des modifications vis-à-vis des critères initiaux et enfin des exemples de questions issues de notre questionnaire. A noter qu'il n'y a pas dans la liste présentée ici, d'ordre d'importance des critères ou sous-critères.
Les modifications apportées aux critères de l'INRIA concernent le Guidage (ajout d'un sous-critère Navigation), la Charge de travail (regroupement des sous-critères Concision et Densité d'information), le Contrôle explicite et la Gestion des erreurs (suppression des découpages en sous-critères), et enfin la Compatibilité (qui est regroupée avec l'Adaptabilité).
Nous avons également ajouté les critères suivants : la Navigation (comme sous-critère de Guidage), les Aspects graphiques et la qualité des Médias.
Les critères d'origine conservés intégralement restent donc : certains sous-critères du Guidage (Groupement et distinction par la localisation, par le format, Retour informatif), le sous-critère Actions minimales de la Charge de travail, les sous-critères de l'Adaptabilité (Flexibilité, Expérience de l'utilisateur), et l'Homogénéité. Nous recommandons au lecteur désireux d'approfondir sa connaissance de ces critères de se référer aux articles de Scapin et de Bastien correspondants [2][16][18].
? GUIDAGE : Navigation
La définition du critère principal Guidage est la suivante
: ensemble des moyens mis en oeuvre pour conseiller, orienter, informer
et conduire l'utilisateur lors de ses interactions avec l'ordinateur.
Le contexte du multimédia entraînant une scénarisation de la présentation, les actions de l'utilisateur peuvent être générales ou liées à la navigation au sein du scénario. Une bonne navigation implique que la position et les possibilités de déplacement au sein du scénario doivent être clairement indiquées. L'utilisateur doit toujours visualiser ce qu'il a déjà accompli et ce qu'il lui reste à faire. La navigation doit être adaptée au type d'exploration mais d'une manière générale, il faut avoir accès aux commandes « Suite », « Retour », « Sommaire » et « Quitter ».
De ce fait il y deux critères distincts : l'Incitation qui concerne le guidage de l'utilisateur dans ces actions générales, telles que l'aide, la sortie, les actions spécifiques...,et la Navigation qui concerne les informations fournies et les moyens mis en oeuvre dans l'exploration du scénario du logiciel.
Exemples de questions :
La position au sein du scénario ou de l'arborescence du logiciel
est-elle clairement indiquée ?
Si oui : ces informations sont-elles persistantes ?
Les possibilités de navigation vous semblent-elles suffisantes
?
? CHARGE DE TRAVAIL : Charge perceptive
La Charge de travail concerne les éléments ayant un rôle
dans la réduction de la charge perceptive ou mémorielle des
utilisateurs et dans l'augmentation de l'efficacité du dialogue.
Le but des logiciels multimédia éducatifs étant de transmettre une connaissance, il faut relativiser la notion d'information pertinente (souvent liée à la notion de décision que nous n'avons pas dans nos applications) et celle de charge de travail perceptive et mnésique. De plus, les informations sont, le plus souvent, à caractère pédagogique, et il ne faut pas interférer avec la volonté pédagogique sous-jacente. Les problèmes de concision et de surcharge des écrans mesurés dans le critère Charge perceptive, concerneront donc les informations liées à l'utilisation et à la navigation au sein du système et non celles du contenu transmis. A noter que les charges textuelles, graphiques, sonores etc., seront vues dans les critères propres à chaque média.
Les aspects liés à la concision des informations et à la densité d'informations affichées sont donc regroupés dans un seul sous-critère Charge perceptive, alors qu'ils étaient séparés dans la liste de l'INRIA.
Les informations pertinentes doivent être présentes et
mises en évidence. Les affichages secondaires (heure, date etc.)
ne doivent pas encombrer l'interface. Le nombre de possibilités
d'action doit être limité. Par exemple, le nombre de commandes
dans un menu déroulant doit être limité à sept
[12] pour une bonne mémorisation. De la même manière,
les icônes utilisées ne doivent pas nécessiter un effort
de mémoire ou de compréhension trop important.
Exemples de questions :
Trouvez-vous que l'écran soit surchargé du point de vue
des informations et des possibilités d'actions ?
Trouvez-vous que l'iconographie, la présentation ou l'organisation
des informations vous demande un effort de concentration ou de mémoire
anormal ?
? CONTROLE PAR L'UTILISATEUR :
Ce critère concerne la prise en compte par le système
à la fois des actions explicites des utilisateurs et du contrôle
qu'ils ont sur le traitement de leurs actions.
Là encore, c'est la spécificité des logiciels éducatifs qui motive ce regroupement. En effet, ces logiciels ont peu d'actions autonomes à effectuer, leur rôle étant principalement d'afficher un certain nombre d'informations, de graphiques ou de médias et d'attendre une intervention de la part de l'utilisateur. La puissance du système est dédiée aux aspects graphiques et sonores, et en dehors du traitement plus ou moins poussé de l'interaction avec l'utilisateur, il ne reste guère d'actions autonomes importantes. Tout cela sera donc mesuré par un critère unique.
Sur l'interface, il en résulte que le contrôle du système doit être entre les mains de l'utilisateur.
Exemples de questions :
Est-il arrivé que le logiciel entreprenne une action que vous
ne vouliez pas qu'il entreprenne (que vous n'aviez pas explicitement demandé)
?
L'utilisateur a-t-il la possibilité d'interrompre un traitement
parce qu'il est trop long par exemple ?
? GESTION DES ERREURS :
Ce critère mesure la qualité des moyens permettant d'éviter,
de réduire et de corriger les erreurs.
Notre suppression des sous-critères (Protection, Qualité des messages, Correction des erreurs) de l'INRIA, s'explique par le fait que les logiciels que nous considérons laissent peu de place aux erreurs. De plus en plus de logiciels ne se contrôlent qu'avec la souris par exemple, ce qui limite considérablement les possibilités d'erreurs de manipulation. Les actions des utilisateurs sont limitées, elles correspondent principalement à des problèmes de navigation : choix d'un sujet, arrêt, retour etc., et les saisies sont rares.
Les erreurs constatées sont donc surtout issues d'une mauvaise protection contre les entrées accidentelles (prises en compte inopportunes des clics de souris et du clavier) ou d'une mauvaise gestion des erreurs de manipulations : mauvaises qualités des messages, absence d'explications sur les causes des problèmes... Ces aspects seront donc mesurés par un critère unique.
La bonne gestion des erreurs implique que le système doit prendre en compte les éventuelles erreurs de manipulation de l'utilisateur. Par exemple, toutes les fenêtres doivent avoir un bouton ou une commande « Annuler ». Les manipulations dangereuses (sortie, sauvegarde...) doivent être protégées. Les messages d'erreur doivent être clairs, ils doivent fournir des explications et des conseils et non pas afficher « Erreur type 4, secteur 43008CJ00, cliquez sur -Quitter- pour quitter l'application».
Exemples de questions :
Le logiciel est-il protégé contre les saisies, ou les
clics de souris, accidentelles ?
Lorsqu'une erreur est commise, donne-t-on l'occasion à l'utilisateur
de la corriger ?
? COMPATIBILITE :
Elle mesure la corrélation entre l'interface et les caractéristiques
des utilisateurs (perception, habitude, expérience...) ; Nous prenons
en compte aussi bien les attributs de l'interface (format de données,
présentation...) que de leur évolution au cours de l'utilisation
(modification possible de l'interface, prise en compte de l'expérience...).
Dans les critères de l'INRIA, la Compatibilité se limite à l'organisation statique de l'interface. Nous intégrons l'Adaptabilité dans ce critère. En effet les aspects liés à la Flexibilité sont regroupés avec la prise en compte des habitudes des utilisateurs. Il s'agit en fait, d'adapter l'interface aux habitudes spécifiques et aux caractéristiques individuelles de tel ou tel utilisateur. Pour l'Expérience utilisateur, nous considérons que la compatibilité de l'interface ne doit pas être mesurée simplement lors de la découverte du logiciel. La compatibilité entre le logiciel et l'utilisateur après un certain temps d'utilisation, prend nécessairement en compte la notion d'expérience. Celle-ci est considérée comme une caractéristique de l'utilisateur.
La Compatibilité telle que l'envisage l'INRIA devient donc le sous-critère appelé Format. Il implique que les formats de données (heure, date, monnaie...) doivent être ceux utilisés par l'utilisateur. La présentation des informations doit faire appel à des standards connus ou intuitifs. On pourra, par exemple, présenter les informations dans les fenêtres sur le modèle d'un ancien format papier connu.
Exemples de questions :
L'organisation de l'interface semble-t-elle correspondre aux habitudes
et aux caractéristiques de l'utilisateur ?
? ASPECTS GRAPHIQUES :
Ce critère quantifie les qualités graphiques globales
de l'interface facilitant ou gênant sa bonne utilisation.
En effet dans les logiciels qui nous préoccupent, l'aspect graphique revêt une importance toute particulière. Le choix des couleurs, les contrastes, les décors, sont autant de particularités qui facilitent ou entravent le plaisir d'utilisation et l'adhésion de l'utilisateur.
L'interface ne doit pas être surchargée, agressive ou gêner l'utilisateur. Les caractéristiques graphiques doivent servir la bonne utilisation de l'interface. Ainsi l'usage de couleurs fluos, de clignotements, d'animations rapides doit être adapté au contexte (les logiciels pour enfants en maternelles par exemple).
Exemples de questions :
Est-ce que les décors et autres éléments graphiques,
surchargent l'interface ?
Si la souris est utilisée, est-elle facilement repérable?
? TEXTE :
Ensemble des caractéristiques lexicales et graphiques permettant
la bonne assimilation des informations écrites.
Dans notre contexte, les publics visés peuvent être relativement différents : enfants, lycéens, étudiants, adultes etc.. De ce fait, la qualité du texte, média à part entière, est primordiale. Le vocabulaire doit être adapté à l'utilisateur (technique, enfantin...) et le langage doit être clair et concis : pas de phrases trop longues ni de langage alambiqué. Les caractéristiques graphiques du texte (police, taille, style, couleur...) doivent le mettre en valeur sans en gêner la lecture. Par exemple, il vaut mieux éviter les phrases en Gothique, taille 6 et vert sur fond bleu.
Ce critère est décliné en deux sous-critères. D'une part les Codes et Dénominations, existant dans la liste de l'INRIA, et d'autre part la Lisibilité (langage, vocabulaire, caractéristiques lexicales et typographiques entravant ou facilitant la lecture des textes).
Exemples de questions :
Le vocabulaire employé est-il celui de l'utilisateur ?
Les attributs graphiques du texte (police, gras, souligné, surbrillance...)
gênent-ils la lecture ?
? MEDIA :
Mesure de la qualité et de la bonne utilisation des médias.
La qualité des médias est un point primordial puisque c'est justement un des aspects souvent mis en avant dans les CD-ROM éducatifs. Il convient donc de quantifier la qualité et la bonne utilisation de chaque média : le son, l'image et la vidéo (que nous considérerons comme un média particulier).
Images : Qualité et utilisation des images, photos et graphiques.
Les images doivent être nettes, et adaptées au contexte d'utilisation
: information spécifique, en complément, décoration.
Son : Qualité et utilisation du canal sonore. Le son doit être
clair et compréhensible. Le canal sonore doit être réglable
par logiciel et son utilisation, comme pour les images, doit être
judicieuse (pas de bip d'alarme pour une action courante, par exemple).
Vidéo : Qualité et utilisation de la vidéo et des animations. Les animations et vidéos doivent être fluide, les images nettes, pas de compression abusive... Un contrôle du défilement doit être proposé : Arrêt, Pause...
Exemples de questions :
Si les images sont utilisées pour des informations spécifiques,
est-ce suffisant ?
Est-il possible de régler le volume ou de couper les effets
sonores ?
L'utilisateur a-t-il un contrôle sur les animations ou les séquences
vidéo ?
TAUX DE DIVERGENCE
Tous ces critères ont été réunis dans notre
questionnaire. Nous obtenons ainsi des résultats chiffrés
pour chaque critère évalué. Cependant, il n'est pas
possible de conclure qu'une évaluation est pertinente, tant qu'un
"étalon" n'a pas été établi. Ce n'est que sur
la base d'une évaluation ergonomique approfondie que nous pourrons
définir un profil de la qualité de l'interface concernée
et ainsi, pouvoir classer et comparer nos résultats suivant ce profil.
Néanmoins un premier gage de qualité serait que le questionnaire
fournisse des résultats les plus stables possibles quels que soient
les évaluateurs. L'obtention de cette stabilité nous apparaît
comme primordiale. Améliorer l'évaluation d'un aspect de
l'interface, s'avérera impossible si les résultats changent
d'un évaluateur à un autre.
Pour cela les statistiques, entre autres, nous fournissent des outils
permettant de mesurer la divergence des résultats. La mesure de
l'écart type, par exemple, nous procure un indice de dispersion
autour de la moyenne. Cependant cette valeur ne donne que peu d'indications
sur le type de divergence constaté. En effet l'écart-type
ne tient pas compte des oppositions. Par exemple, il ne fait pas la différence
entre les deux cas suivants :
Réponse A = -3 Réponse B = +3 Ecart-type = 3
Réponse A = +2 Réponse B = +8 Ecart-type = 3
Nous avons donc rejeté cette mesure et étudié la
formule de divergence souvent utilisée en statistique :
avec
En évaluation par un évaluateur n
Ti,j : taux de divergence entre l'évaluation i et l'évaluation
j
ce qui se généralise comme suit :
pour n évaluations
Cependant, comme le montre le tableau de la figure 3 (deuxième
colonne des taux de divergence) cette formule présente certains
aspects inadaptés à notre cas. Par exemple, elle révèle
les opposés sans prendre en compte la distance qui les sépare
(deuxième ligne) : le résultat est le même que les
résultats soient (+1,-1) ou (+10,-10).
A ce niveau, plusieurs solutions étaient envisageables. La figure
3 (page suivante) présente un tableau résumant pour quelques
couples d'évaluations caractéristiques, les pourcentages
obtenus en fonction des formules choisies : la première colonne
utilise une fonction avec constante, la seconde présente notre formule
initiale. Nous avons finalement opté pour la solution présentée
dans la troisième colonne.
Cette formule semble pour l'instant, correspondre à
nos attentes.
Évaluation Valeur du Taux avec les formules : Remarque
Ei Ej
x x 0 0 0 Différence nulle pour résultats identiques
x -x x/10 1 2x/(10+x) Prise en compte de la valeur de x pour des résultats
opposés
-10 10 1 1 1 Illustration de
-5 5 0.5 1 0.67 la prise en compte de
-1 1 0.1 1 0.18 la position des opposés
0 5 0.25 0.5 0.33 Résultats
0 -5 0.25 0.5 0.33 symétriques
5 10 0.25 0.25 0.25 Prise en compte de la
2.5 -2.5 0.25 1 0.40 position de l'écart
Figure 3 : Exemples de calcul du taux de divergence
L'évaluation de cinq CD-ROM représentatifs par cinq évaluateurs différents, et d'un CD-ROM particulier par neuf évaluateurs, nous a permis de valider cette formule, et d'améliorer le questionnaire, ou tout du moins sa stabilité d'évaluation.
CONCLUSION
L'objectif en construisant le questionnaire était de fournir
une aide pour une évaluation synthétique de logiciels éducatifs
du point de vue de leur Interface Homme/Machine. Ainsi, seuls les aspects
liés à l'utilisabilité des logiciels ont été
traités dans ce questionnaire.
Le problème du contenu des logiciels n'est pas abordé, or l'attrait d'un logiciel aura probablement une influence sur son succès auprès des utilisateurs. Si un logiciel a une interface attrayante mais que son contenu est médiocre, un rejet sera constaté même s'il n'est pas immédiat. Le problème inverse est tout aussi réel. Un logiciel dont l'interface est médiocre aura peu de chance de capter l'attention des utilisateurs suffisamment longtemps pour qu'ils se rendent compte de la réelle valeur du contenu. Il conviendra donc de développer un questionnaire permettant de caractériser au mieux les aspects pédagogiques liés au logiciel.
Ainsi le contexte pédagogique influence directement les aspects
ergonomiques, par exemple :
- Le Guidage et la Gestion des erreurs, ne peuvent pas être considérés
comme des critères comme les autres dans un contexte ou il faut
que l'utilisateur apprenne le contenu et non comment se servir du contenant.
- La Charge de travail doit être couplée avec celle nécessaire
à l'exploration et à l'assimilation des connaissances transmises.
- Les caractéristiques graphiques et esthétiques de l'interface
ont une importance capitale dans la phase de découverte par l'apprenant.
- La Navigation depends directement de la stratégie pédagogique
employée.
- La Flexibilité et l'Experience utilisateur ne doivent plus
être considérés comme des « gadgets » mais
comme des moyens d'impliquer encore un peu plus l'apprenant dans un processus
ou il a une grande part de travail.
Le projet est donc loin d'être terminé, il reste à exploiter l'évaluation du questionnaire portant sur la partie ergonomique, valider l'approche pédagogique et regrouper les deux dans une même structure. Néanmoins, et dans un premier temps, le test de ce questionnaire sur un échantillon d'une trentaine de logiciels et un panel d'une dizaine d'évaluateurs, nous a fourni des résultats encourageants sur la pertinence de notre approche. Il va maintenant être testé sur un plus grand nombre d'évaluateurs (une cinquantaine d'étudiants de second cycle) pour en tirer des résultats statistiques acceptables.
Nous nous intéressons aussi à la Qualité informatique
(fiabilité du logiciel, documentation, installation...) et aux aspects
subjectifs, comme l'esthétique de l'interface ou le plaisir d'utilisation.
Bien que ces aspects soient par définition non-quantifiables, leur
exploitation statistique (étude de la tendance sur les évaluations
passées) pourrait être riche d'enseignements pour un nouvel
évaluateur. Nous obtiendrons alors un outil ergo-pédagogique
intéressant et propre à aider une personne dans l'évaluation
d'un logiciel multimédia éducatif.
REFERENCES
[1] ABED M., Contribution à la modélisation de la tâche
par outils de spécification exploitant les mouvements occulaires
: Application à la conception et à l'évaluation des
interfaces homme-machine. Thèse de doctorat, Université de
Valenciennes, septembre 1990.
[2] BASTIEN C., SCAPIN D., Evaluating a user interface with ergonomic
criteria. Rapport de recherche INRIA n°2326 Rocquencourt, aout 1994.
[3] BERBAUM J., Un programme d'aide au développement de la capacité
d'apprentissage. Université de Grenoble II, Multigraphié,
1988, 128p
[4] CARD S. et al., The psychology of human-computer interaction. Hillsdale,
NJ Erlbaum, 1983.
[5] CD CINTE Evaluation des titres multimédia. Production Région
Rhône-Alpes et CURA, producteur délégué F. Peccoud,
CD-RAMA n°11, novembre 1995
[6] CD MEDA97 61 critères d'évaluation de logiciels de
formation-Education. MédiaScreen, université de Liège.
[7] DESSUS P., MARQUET P., Outils d'évaluation de logiciels
éducatifs. Université de Grenoble. Bulletin de l'EPI. 1991.
[8] FARENC C., Ergoval : une méthode de structuration des règles
ergonomiques permettant l'évaluation automatique d'interfaces graphiques.
Thèse Université de Toulouse I, 1997
[9] GRISLIN M., KOLSKI C., Evaluation des interfaces Homme/Machine
lors du développement des systèmes interactifs. Technique
et Sciences informatique, 1996, vol15, n°3
[10] HU O., Méthodologie d'évaluation du multimédia
pédagogique. Rapport de DEA CDS, Université de Technologie
de Compiègne, septembre 1997
[11] KOLSKI C., Contribution à l'ergonomie de conception des
interfaces graphiques homme-machine dans les procédés industriels
: application au système expert SYNOP. Doctorat, janvier 1989.
[12] MILLER G.A. The psychology of communication. Basic Books, N.Y.,
1975
[13] RAVDEN S.J., JOHNSON G.I., Evaluating usability of Human-Computer
Interfaces : a practical method. Ellis Horwood, Chichester, 1989
[14] RIETHMULLER V., Méthodologie d'évaluation de l'interface
Homme/Machine. Rapport de DEA CDS, Université de Technologie de
Compiègne, septembre 1996
[15] SALESSE O., Méthodologie d'évaluation pour le multimédia
pédagogique. Rapport de DEA SHT, Université de Technologie
de Compiègne, novembre 1997
[16] SCAPIN D., Guide ergonomique de conception des interfaces Homme/Machine.
Rapport technique INRIA Rocquencourt, n°77, octobre 1986
[17] SCAPIN D. et al. ,MAD : une méthode analytique des descriptions
des tâches. Colloque sur l'ingénierie des IHM, p131-148, Sofia-Antipolis,
24-26 mai 1989.
[18] SENACH B., Evaluation ergonomique des interfaces Homme/Machine
: une revue de la littérature. Rapport INRIA, Sophia-Antipolis,
n°1180, Rocquencourt, mars 1990
[19] SMITH S.L., MOSIER J.N., Guidelines for designing user interface
software. EDS-TR-86-278, the MITRE Corporation, Bedfort, MA, 1986.
[20] SPERANDIO J.C., L'ergonomie du travail mental. Masson, 1988.
[21] TRIGANO P., Evaluation de l'IHM des logiciels éducatifs.
ITC'97 « Le multimédia et la formation » Paris-Palais
des congrès, 8-10 janvier 1997
[22] VALENTIN A. et al. L'évaluation ergonomique des logiciels
: une démarche itérative de conception. Montrouge : ANACT,
1993.
[23] VANDERDONCKT J., Guide ergonomique de la présentation des
applications hautement inetractives, Presses Universitaires Namur, 1994.