Proposition de critères d'aide à l'évaluation de l'Interface Homme/Machine des logiciels multimédia pédagogiques
 

Olivier HU
Philippe TRIGANO
UMR CNRS 6599 HEUDIASYC
Université de Technologie de Compiègne BP 20529
60206 COMPIEGNE Cedex - FRANCE
Tel (33) 03 44 23 45 02 Fax (33) 03 44 23 45 02
E-mail : Olivier.Hu@utc.fr,  Philippe.Trigano@utc.fr
 

MOTS CLES : IHM, Critères ergonomiques, Évaluation, Multimédia, Questionnaire, Pédagogie

RESUME :
Aujourd'hui, de nombreux logiciels éducatifs sont mis sur le marché, à grand renfort de publicités sur leurs aspects multimédia. Dans la problématique du choix, il convient d'avoir des outils permettant de mesurer la qualité et l'utilisabilité des logiciels proposés. Nous proposons une méthode d'aide à l'évaluation de l'interface des logiciels pédagogiques multimédia. Cette méthode, présentée sous la forme de questionnaires, s'articule autours d'un certain nombre de critères adaptés à notre contexte. En effet ceux issus de la littérature, et notamment de l'INRIA, doivent être modifiés pour répondre aux particularités de ces logiciels. Enfin, la stabilité des résultats entre évaluateurs nous apparaissant comme primordiale, une mesure de divergence entre évaluation d'un même produit, est proposée. A terme, notre projet vise à intégrer les aspects pédagogiques. Nous obtiendrons alors un outil ergo-pédagogique propre à aider une personne dans l'évaluation d'un logiciel multimédia éducatif.
 Proposition de critères d'aide à l'évaluation de l'Interface Homme/Machine des logiciels multimédia pédagogiques
 

Olivier HU
Philippe TRIGANO
UMR CNRS 6599 HEUDIASYC
Université de Technologie de Compiègne BP 20529
60206 COMPIEGNE Cedex - FRANCE
Tel (33) 03 44 23 45 02 Fax (33) 03 44 23 45 02
E-mail : Olivier.Hu@utc.fr, Philippe.Trigano@utc.fr
 

 RESUME :
Nous proposons une méthode d'aide à l'évaluation de l'Interface Homme/Machine des logiciels pédagogiques qui utilisent les possibilités actuelles du multimédia. Aujourd'hui les interfaces intègrent sons, photos, vidéos et éléments graphiques, qu'il faut assembler selon certaines règles ou principes ergonomiques. Des méthodes d'évaluation existent. Issues de l 'ergonomie du logiciel, de l'informatique et de la communication Homme/Machine, elles restent souvent peu adaptées à ce nouveau contexte des logiciels multimédia éducatifs. De ce fait, nous proposons un ensemble de critères adaptés au contexte pédagogique et prenant en compte les aspects graphiques et multimédia. Ces critères servent ensuite de base à un questionnaire, permettant ainsi une évaluation de « l'utilisabilité » des IHM des logiciels éducatifs.

MOTS CLÉS : IHM, Critère ergonomique, Évaluation, Multimédia, Questionnaire, Pédagogie

INTRODUCTION
Aujourd'hui, de plus en plus de logiciels éducatifs sont mis sur le marché, à grand renfort de publicités louant les aspects multimédia de tel produit ou les possibilités de connexion à Internet de tel autre. Ces logiciels sont-ils bien conçus ? Quels sont ceux qui réellement peuvent être intégrés dans un processus éducatif, en complément du cours traditionnel ? Comment évaluer leur facilité d'utilisation et leur adéquation au public visé ? Dans une problématique du choix, telle que pourrait se la poser un enseignant, il convient d'avoir des outils permettant de mesurer la qualité et l'utilisabilité des logiciels proposés.

Dans un premier temps, l'étude des méthodes d'évaluation issues de l'ergonomie du logiciel, nous a permis de dégager un ensemble de critères adaptés au contexte du multimédia éducatif. Nous présentons ensuite une méthode basée sur un questionnaire et accessible à un public de non-spécialistes. Articulées autours des critères précédents, les questions sont aussi simples et précises que possibles, tout en restant quantifiables. Enfin, la stabilité des résultats d'un évaluateur à l'autre étant primordiale, une mesure de divergence est proposée.

A terme, il conviendra d'utiliser ces critères dans un système informatique permettant d'aider l'évaluateur dans le processus d'analyse du logiciel testé. Le programme ainsi développé sera constitué d'une grille d'analyse des produits multimédia éducatifs, grille comprenant les critères et le questionnaire évoqués précédemment.

ANALYSE ERGONOMIQUE ET CONTEXTE PEDAGOGIQUE
L'ergonomie a pour objet d'adapter aux capacités de l'homme, les machines, les dispositifs et autres outils qu'ils soient physiques ou mentaux, en vue d'améliorer les performances, la sécurité et le confort d'utilisation. Il n'est donc pas impropre de parler d'ergonomie lorsque l'on mesure la qualité d'une interface.

Les méthodes d'évaluation des interfaces sont suffisamment nombreuses pour que plusieurs classifications de ces méthodes soient proposées. Grislin et Kolski [9] nous proposent de classer les méthodes selon trois approches (Grislin et Kolski recensent, dans leur article, plus de 40 méthodes selon ces approches. Le lecteur trouvera dans cette excellente revue de synthèse les références des méthodes citées) :
- les approches centrées sur les utilisateurs : elles regroupent les méthodes empiriques, comme le « recueil de l'expertise », ou le « mouchard électronique », les méthodes d'estimation de la charge de travail, comme la « mesure de performance »[20], et les méthodes de tests de conception avec les utilisateurs, comme le « prototypage ».
- les approches centrées sur une expertise humaine ou « papier » comme celles qui font appel à un expert du domaine ou les « grilles d'évaluation » de Ravden [13].
- et enfin les approches centrées sur une modélisation de l'interface et/ou de l'interaction homme/machine : les méthodes de descriptions graphiques de tâches comme MAD [17], GOMS [4] ou SADT-Petri [1], les techniques d'évaluation automatique SYNOP [11] ou ERGOVAL [8].

Avant de discuter de l'intéret de telle ou telle méthode, présentons rapidement les principales caractéristiques de notre approche :
i - Nous ne voulons pas de l'intervention d'un spécialiste de la méthode ou d'un expert en ergonomie des logiciels. La méthode se veut accessible au plus grand nombre, et l'on ne peut pas demander aux utilisateurs des pré-requis en ergonomie des logiciels.
ii - Dans le même ordre d'idée, nous ne voulons pas nous astreindre à un environnement ou à une norme graphique particuliere.
iii - L'évaluation devra donc être effectuée par des futurs utilisateurs ou tout du moins des évaluateurs connaissants le public visé. Les questions sont donc tournées vers l'utilisateur.
iv - Notre évaluation se situe dans une problématique de choix ou de caractérisation du logiciel, d'où une évaluation sur des produits finis. Néanmoins, on peut sans peine « retourner » le questionnaire pour obtenir une série de « recommandations » utilisables lors de la conception.
v - Enfin, le contexte des logiciels multimédias pédagogiques impliquent la prise en compte de nouveaux aspects (médias, navigation, graphisme, influence du milieu pédagogique dans l'interface, etc.).

Si nous confrontons les diverses méthodes présentées précédemment à nos hypothèses, nous arrivons aux conclusions suivantes :
?  Les méthodes empiriques et d'estimation de la charge de travail nécessitent toutes l'intervention d'un expert ce qui est incompatible avec notre hypothèse (i) « pas de spécialistes ».
?  Les tests de conception, les prototypages sont appliqués lors de la conception et donc inutilisables de par notre hypothèse (iv) « produits finis ».
?  Les expertises humaines demandent-elles aussi l'analyse d'un spécialiste ((i) « pas de spécialistes »). Même les questionnaires utilisés par les experts pour leur analyse [22] ainsi que les grilles d'évaluation de Ravden doivent de préférence être étudiées par un expert de la méthode. Ces questionnaires nous fournissent néanmoins des pistes d'investigation.
?  Les méthodes de descriptions et de développements graphiques s'appliquent lors de la mise au point et de la correction des interfaces et donc en contradiction avec notre hypothèse (iv) « produits finis ».
?  Les techniques d'évaluation automatique sont pour l'instant liés à des environnements particuliers ce qui contredit notre hypothèse (iii) « multi-environnement » (ERGOVAL [8] par exemple ne s'occupe que des interfaces de type Windows).
?  Une remarque plus générale sur le contexte de développement de toutes ces méthodes s'impose. En effet la majorité de ces méthodes sont issues de recherche en milieu industriel : contrôle de processus, aide à la surveillance etc., elles n'ont donc que peu intégré les notions comprises dans notre hypothèse (v)  « multimédia pédagogique ». Deux méthodes existantes nous ont quand même servi de base de réflexion : le CD-CINTE [5] qui correspond plus à un recueil d'information qu'à une évaluation quantitative et le CD-MEDA97 [6] qui propose une très grande gamme de critères d'évaluation : de la qualité du marketing à la situation de l'apprenant, en passant par l'interface elle-même. Cependant, le nombre trop élevé de critères et leur présentation rend l'utilisation de ce logiciel relativement malaisée.
?  Même les sciences de l'éducation proposent peu d'outils d'évaluation sur ce nouveau produit qu'est le logiciel éducatif. Notons quand même les travaux de Dessus et Marquet [7] sur les grilles de Berbaum [3], dont la méthodologie est proche de la nôtre. Ils proposent une méthode d'évaluation des processus d'apprentissage et des performances pédagogiques sous la forme d'un questionnaire. Une petite partie concerne l'évaluation de l'utilisabilité de l'interface.

En conclusion, seuls les questionnaires semblent correspondrent à notre approche : applicables sur produits finis, accessibles à un large public et non liés à un environnement. Nous avons donc retravaillé ceux existant pour les orienter vers l'utilisateur, pour y intégrer les notions de multimédias, et pour les adapter au contexte pédagogique.

LE QUESTIONNAIRE
A partir de cette réflexion et d'un premier état de l'art [14], nous avons développé un questionnaire d'évaluation susceptible d'être utilisé par des non-spécialistes et fournissant des résultats chiffrés sur la qualité de l'interface des logiciels évalués. Le questionnaire s'articule autour de critères que nous expliciterons dans le chapitre suivant. Il présente un certain nombre de caractéristiques générales :

? Un choix est possible quant à l'importance des critères : essentiels ou secondaires.
? Une pondération des questions est appliquée. Elle permet de relativiser l'importance des questions au sein d'un même critère.
? Pour les questions qui concernent des points clés de l'interface, une notation « exponentielle » est souvent utilisée. Elle prend en compte plusieurs choix possibles tout en pénalisant la présence d'un défaut plus que sa fréquence.
Exemple pour 4 choix possibles :
Vous est-il arrivé de ne pas savoir quoi faire, ou comment faire pour continuer dans votre consultation du logiciel ?
 Toujours :  -10
 Souvent :  -  6
 Parfois :     0
 Jamais :  +10
En effet, nous estimons que, dès lors qu'un défaut est détecté, la note ne peut pas être positive, surtout pour les questions portant sur des points clés de l'interface. Il n'est pas acceptable que la présence d'un défaut majeur, même rare, soit créditée d'une note positive. Ainsi la présence exceptionnelle d'un tel défaut n'est pas pénalisée (la note associée à la réponse « Parfois » est 0), mais son absence est la seule preuve que le problème est bien traité, d'où le +10 (réponse « Jamais »).
? Une proposition d'aide pour chaque question afin de sécuriser au maximum l'évaluateur.
? Une séparation en 2 questionnaires :
Un questionnaire réduit pour une détection rapide (il faut environ dix minutes pour répondre à ce questionnaire) des principaux défauts et qualités des interfaces évaluées. Seuls 9 critères principaux sont mesurés ici.
Un questionnaire complet (environ 10 pages) avec un résultat chiffré pour les 19 critères évalués et une représentation globale de tous les résultats.
Exemple de développement du questionnaire réduit au questionnaire complet :
Questionnaire réduit :
L'utilisation du son vous a-t-elle semblé hors de propos ?
Questionnaire complet :
Si le canal sonore est utilisé :
- pour des informations spécifiques, cela vous a-t-il paru suffisant ?
- en renforcement d'une information déjà transmise, pensez-vous que cela soit judicieux ?
- comme fond d'ambiance, cela vous a-t-il paru agréable ?
? Le calcul d'une note globale de l'interface qui prend en compte l'importance de chaque critère.

LES CRITERES D'EVALUATION DE L'INTERFACE
Il existe de nombreuses listes de critères d'évaluation de l'interface [18][19], des recommandations relativement générales, comme les sept règles d'or de J. Coutaz ou les critères de Ravden et Johnson (figure 1), jusqu'au guide de Vanderdonckt [23] qui contient plus de 3000 règles !
Les 7 règles d'or de Joëlle Coutaz :
- Lutter pour la cohérence
- Lutter pour la concision
- Réduire la charge cognitive
- Mettre le contrôle entre les mains de l'utilisateur
- Souplesse d'utilisation
- Structurer le dialogue
- Prédire les erreurs

Les 8 critères de Ravden et Johnson :
- La clarté visuelle
- La cohérence
- La compatibilité
- Le retour d'information
- La représentativité
- La flexibilité et le contrôle
- La prévention et la correction des erreurs
- Le guidage

Figure 1 : Recommandations générales

Les travaux de l'INRIA [2] [16] [18], fournissent une liste de dix-huit critères élémentaires, qui servent de base à bon nombre de méthodes d'évaluation. Ces critères sont : le Guidage (Incitation, Groupement et distinction par la localisation, par le format, Retour informatif, Clarté), la Charge de travail (Concision, Actions minimales, Densité d'information), le Contrôle explicite (Actions explicites, Contrôle utilisateur), l'Adaptibilité (Flexibilité, Expérience utilisateur), la Gestion des erreurs (Protection, Qualité des messages, Correction des erreurs), l'Homogénéité, la Signifiance des codes et dénominations, et la Compatibilité.

Dans le contexte des logiciels multimédia pédagogiques, nous avons dû adapter les critères cités précédemment pour mieux répondre aux attentes des évaluateurs devant ces produits. La principale modification concerne l'ajout des critères Navigation, Aspects graphiques et d'un critère par catégorie de média (Images, Son et Vidéo), mais presque tous les autres critères ont vu leur définition adaptée.
Un résumé des critères que nous avons mis au point est présenté dans la figure 2.

GUIDAGE : 1 - Incitation
  2 - Groupement par localisation
  3 - Groupement par format
  4 - Retour informatif
  5 - Navigation
CHARGE DE TRAVAIL :
  6 - Actions minimales
  7 - Charge perceptive
8 - CONTROLE PAR UTILISATEUR
9 - GESTION DES ERREURS
COMPATIBILITE
  10 - Format
  11 - Flexibilité
  12 - Expérience utilisateur
13 - HOMOGENEITE
14 - ASPECTS GRAPHIQUES
TEXTE : 15 - Lisibilité
  16 - Codes et dénomination
MEDIA : 17 - Images :
  18 - Son
  19 - Vidéo

Figure 2 : Liste de critères ergonomiques liés au contexte du multimédia pédagogique
Plusieurs évaluations de notre premier questionnaire, qui s'articulait directement autours des critères de l'INRIA (une trentaine de logiciels multimédia éducatifs par une dizaine d'évaluateurs différents), ont permis de révéler certains manques, notamment sur la qualité des médias, et de remettre en cause certains critères comme le Contrôle explicite et la Gestion des erreurs.

Nous présentons ci-dessous nos nouveaux critères influencés par notre contexte du multimédia pédagogique. Nous donnerons pour chaque critère : sa définition, des illustrations de son impact sur l'interface, les raisons ayant entraîné des modifications vis-à-vis des critères initiaux et enfin des exemples de questions issues de notre questionnaire. A noter qu'il n'y a pas dans la liste présentée ici, d'ordre d'importance des critères ou sous-critères.

Les modifications apportées aux critères de l'INRIA concernent le Guidage (ajout d'un sous-critère Navigation), la Charge de travail (regroupement des sous-critères Concision et Densité d'information), le Contrôle explicite et la Gestion des erreurs (suppression des découpages en sous-critères), et enfin la Compatibilité (qui est regroupée avec l'Adaptabilité).

Nous avons également ajouté les critères suivants : la Navigation (comme sous-critère de Guidage), les Aspects graphiques et la qualité des Médias.

Les critères d'origine conservés intégralement restent donc : certains sous-critères du Guidage (Groupement et distinction par la localisation, par le format, Retour informatif), le sous-critère Actions minimales de la Charge de travail, les sous-critères de l'Adaptabilité (Flexibilité, Expérience de l'utilisateur), et l'Homogénéité. Nous recommandons au lecteur désireux d'approfondir sa connaissance de ces critères de se référer aux articles de Scapin et de Bastien correspondants [2][16][18].

? GUIDAGE : Navigation
La définition du critère principal Guidage est la suivante : ensemble des moyens mis en oeuvre pour conseiller, orienter, informer et conduire l'utilisateur lors de ses interactions avec l'ordinateur.

Le contexte du multimédia entraînant une scénarisation de la présentation, les actions de l'utilisateur peuvent être générales ou liées à la navigation au sein du scénario. Une bonne navigation implique que la position et les possibilités de déplacement au sein du scénario doivent être clairement indiquées. L'utilisateur doit toujours visualiser ce qu'il a déjà accompli et ce qu'il lui reste à faire. La navigation doit être adaptée au type d'exploration mais d'une manière générale, il faut avoir accès aux commandes « Suite », « Retour », « Sommaire » et « Quitter ».

De ce fait il y deux critères distincts : l'Incitation qui concerne le guidage de l'utilisateur dans ces actions générales, telles que l'aide, la sortie, les actions spécifiques...,et la Navigation qui concerne les informations fournies et les moyens mis en oeuvre dans l'exploration du scénario du logiciel.

Exemples de questions :
La position au sein du scénario ou de l'arborescence du logiciel est-elle clairement indiquée ?
Si oui : ces informations sont-elles persistantes ?
Les possibilités de navigation vous semblent-elles suffisantes ?

? CHARGE DE TRAVAIL : Charge perceptive
La Charge de travail concerne les éléments ayant un rôle dans la réduction de la charge perceptive ou mémorielle des utilisateurs et dans l'augmentation de l'efficacité du dialogue.

Le but des logiciels multimédia éducatifs étant de transmettre une connaissance, il faut relativiser la notion d'information pertinente (souvent liée à la notion de décision que nous n'avons pas dans nos applications) et celle de charge de travail perceptive et mnésique. De plus, les informations sont, le plus souvent, à caractère pédagogique, et il ne faut pas interférer avec la volonté pédagogique sous-jacente. Les problèmes de concision et de surcharge des écrans mesurés dans le critère Charge perceptive, concerneront donc les informations liées à l'utilisation et à la navigation au sein du système et non celles du contenu transmis. A noter que les charges textuelles, graphiques, sonores etc., seront vues dans les critères propres à chaque média.

Les aspects liés à la concision des informations et à la densité d'informations affichées sont donc regroupés dans un seul sous-critère Charge perceptive, alors qu'ils étaient séparés dans la liste de l'INRIA.

Les informations pertinentes doivent être présentes et mises en évidence. Les affichages secondaires (heure, date etc.) ne doivent pas encombrer l'interface. Le nombre de possibilités d'action doit être limité. Par exemple, le nombre de commandes dans un menu déroulant doit être limité à sept [12] pour une bonne mémorisation. De la même manière, les icônes utilisées ne doivent pas nécessiter un effort de mémoire ou de compréhension trop important.
Exemples de questions :
Trouvez-vous que l'écran soit surchargé du point de vue des informations et des possibilités d'actions ?
Trouvez-vous que l'iconographie, la présentation ou l'organisation des informations vous demande un effort de concentration ou de mémoire anormal ?

? CONTROLE PAR L'UTILISATEUR :
Ce critère concerne la prise en compte par le système à la fois des actions explicites des utilisateurs et du contrôle qu'ils ont sur le traitement de leurs actions.

Là encore, c'est la spécificité des logiciels éducatifs qui motive ce regroupement. En effet, ces logiciels ont peu d'actions autonomes à effectuer, leur rôle étant principalement d'afficher un certain nombre d'informations, de graphiques ou de médias et d'attendre une intervention de la part de l'utilisateur. La puissance du système est dédiée aux aspects graphiques et sonores, et en dehors du traitement plus ou moins poussé de l'interaction avec l'utilisateur, il ne reste guère d'actions autonomes importantes. Tout cela sera donc mesuré par un critère unique.

Sur l'interface, il en résulte que le contrôle du système doit être entre les mains de l'utilisateur.

Exemples de questions :
Est-il arrivé que le logiciel entreprenne une action que vous ne vouliez pas qu'il entreprenne (que vous n'aviez pas explicitement demandé) ?
L'utilisateur a-t-il la possibilité d'interrompre un traitement parce qu'il est trop long par exemple ?

? GESTION DES ERREURS :
Ce critère mesure la qualité des moyens permettant d'éviter, de réduire et de corriger les erreurs.

Notre suppression des sous-critères (Protection, Qualité des messages, Correction des erreurs) de l'INRIA, s'explique par le fait que les logiciels que nous considérons laissent peu de place aux erreurs. De plus en plus de logiciels ne se contrôlent qu'avec la souris par exemple, ce qui limite considérablement les possibilités d'erreurs de manipulation. Les actions des utilisateurs sont limitées, elles correspondent principalement à des problèmes de navigation : choix d'un sujet, arrêt, retour etc., et les saisies sont rares.

Les erreurs constatées sont donc surtout issues d'une mauvaise protection contre les entrées accidentelles (prises en compte inopportunes des clics de souris et du clavier) ou d'une mauvaise gestion des erreurs de manipulations : mauvaises qualités des messages, absence d'explications sur les causes des problèmes... Ces aspects seront donc mesurés par un critère unique.

La bonne gestion des erreurs implique que le système doit prendre en compte les éventuelles erreurs de manipulation de l'utilisateur. Par exemple, toutes les fenêtres doivent avoir un bouton ou une commande « Annuler ». Les manipulations dangereuses (sortie, sauvegarde...) doivent être protégées. Les messages d'erreur doivent être clairs, ils doivent fournir des explications et des conseils et non pas afficher « Erreur type 4, secteur 43008CJ00, cliquez sur -Quitter- pour quitter l'application».

Exemples de questions :
Le logiciel est-il protégé contre les saisies, ou les clics de souris, accidentelles ?
Lorsqu'une erreur est commise, donne-t-on l'occasion à l'utilisateur de la corriger ?

? COMPATIBILITE :
Elle mesure la corrélation entre l'interface et les caractéristiques des utilisateurs (perception, habitude, expérience...) ; Nous prenons en compte aussi bien les attributs de l'interface (format de données, présentation...) que de leur évolution au cours de l'utilisation (modification possible de l'interface, prise en compte de l'expérience...).

Dans les critères de l'INRIA, la Compatibilité se limite à l'organisation statique de l'interface. Nous intégrons l'Adaptabilité dans ce critère. En effet les aspects liés à la Flexibilité sont regroupés avec la prise en compte des habitudes des utilisateurs. Il s'agit en fait, d'adapter l'interface aux habitudes spécifiques et aux caractéristiques individuelles de tel ou tel utilisateur. Pour l'Expérience utilisateur, nous considérons que la compatibilité de l'interface ne doit pas être mesurée simplement lors de la découverte du logiciel. La compatibilité entre le logiciel et l'utilisateur après un certain temps d'utilisation, prend nécessairement en compte la notion d'expérience. Celle-ci est considérée comme une caractéristique de l'utilisateur.

La Compatibilité telle que l'envisage l'INRIA devient donc le sous-critère appelé Format. Il implique que les formats de données (heure, date, monnaie...) doivent être ceux utilisés par l'utilisateur. La présentation des informations doit faire appel à des standards connus ou intuitifs. On pourra, par exemple, présenter les informations dans les fenêtres sur le modèle d'un ancien format papier connu.

Exemples de questions :
L'organisation de l'interface semble-t-elle correspondre aux habitudes et aux caractéristiques de l'utilisateur ?

? ASPECTS GRAPHIQUES :
Ce critère quantifie les qualités graphiques globales de l'interface facilitant ou gênant sa bonne utilisation.

En effet dans les logiciels qui nous préoccupent, l'aspect graphique revêt une importance toute particulière. Le choix des couleurs, les contrastes, les décors, sont autant de particularités qui facilitent ou entravent le plaisir d'utilisation et l'adhésion de l'utilisateur.

L'interface ne doit pas être surchargée, agressive ou gêner l'utilisateur. Les caractéristiques graphiques doivent servir la bonne utilisation de l'interface. Ainsi l'usage de couleurs fluos, de clignotements, d'animations rapides doit être adapté au contexte (les logiciels pour enfants en maternelles par exemple).

Exemples de questions :
Est-ce que les décors et autres éléments graphiques, surchargent l'interface ?
Si la souris est utilisée, est-elle facilement repérable?

? TEXTE :
Ensemble des caractéristiques lexicales et graphiques permettant la bonne assimilation des informations écrites.

Dans notre contexte, les publics visés peuvent être relativement différents : enfants, lycéens, étudiants, adultes etc.. De ce fait, la qualité du texte, média à part entière, est primordiale. Le vocabulaire doit être adapté à l'utilisateur (technique, enfantin...) et le langage doit être clair et concis : pas de phrases trop longues ni de langage alambiqué. Les caractéristiques graphiques du texte (police, taille, style, couleur...) doivent le mettre en valeur sans en gêner la lecture. Par exemple, il vaut mieux éviter les phrases en Gothique, taille 6 et vert sur fond bleu.

Ce critère est décliné en deux sous-critères. D'une part les Codes et Dénominations, existant dans la liste de l'INRIA, et d'autre part la Lisibilité (langage, vocabulaire, caractéristiques lexicales et typographiques entravant ou facilitant la lecture des textes).

Exemples de questions :
Le vocabulaire employé est-il celui de l'utilisateur ?
Les attributs graphiques du texte (police, gras, souligné, surbrillance...) gênent-ils la lecture ?

? MEDIA :
Mesure de la qualité et de la bonne utilisation des médias.

La qualité des médias est un point primordial puisque c'est justement un des aspects souvent mis en avant dans les CD-ROM éducatifs. Il convient donc de quantifier la qualité et la bonne utilisation de chaque média : le son, l'image et la vidéo (que nous considérerons comme un média particulier).

Images : Qualité et utilisation des images, photos et graphiques. Les images doivent être nettes, et adaptées au contexte d'utilisation : information spécifique, en complément, décoration.
Son : Qualité et utilisation du canal sonore. Le son doit être clair et compréhensible. Le canal sonore doit être réglable par logiciel et son utilisation, comme pour les images, doit être judicieuse (pas de bip d'alarme pour une action courante, par exemple).

Vidéo : Qualité et utilisation de la vidéo et des animations. Les animations et vidéos doivent être fluide, les images nettes, pas de compression abusive... Un contrôle du défilement doit être proposé : Arrêt, Pause...

Exemples de questions :
Si les images sont utilisées pour des informations spécifiques, est-ce suffisant ?
Est-il possible de régler le volume ou de couper les effets sonores ?
L'utilisateur a-t-il un contrôle sur les animations ou les séquences vidéo ?

TAUX DE DIVERGENCE
Tous ces critères ont été réunis dans notre questionnaire. Nous obtenons ainsi des résultats chiffrés pour chaque critère évalué. Cependant, il n'est pas possible de conclure qu'une évaluation est pertinente, tant qu'un "étalon" n'a pas été établi. Ce n'est que sur la base d'une évaluation ergonomique approfondie que nous pourrons définir un profil de la qualité de l'interface concernée et ainsi, pouvoir classer et comparer nos résultats suivant ce profil. Néanmoins un premier gage de qualité serait que le questionnaire fournisse des résultats les plus stables possibles quels que soient les évaluateurs. L'obtention de cette stabilité nous apparaît comme primordiale. Améliorer l'évaluation d'un aspect de l'interface, s'avérera impossible si les résultats changent d'un évaluateur à un autre.

Pour cela les statistiques, entre autres, nous fournissent des outils permettant de mesurer la divergence des résultats. La mesure de l'écart type, par exemple, nous procure un indice de dispersion autour de la moyenne. Cependant cette valeur ne donne que peu d'indications sur le type de divergence constaté. En effet l'écart-type ne tient pas compte des oppositions. Par exemple, il ne fait pas la différence entre les deux cas suivants :
Réponse A = -3 Réponse B = +3 Ecart-type = 3
Réponse A = +2 Réponse B = +8 Ecart-type = 3

Nous avons donc rejeté cette mesure et étudié la formule de divergence souvent utilisée en statistique :
 
avec
En évaluation par un évaluateur n
Ti,j : taux de divergence entre l'évaluation i et l'évaluation j
ce qui se généralise comme suit :
  pour n évaluations
Cependant, comme le montre le tableau de la figure 3 (deuxième colonne des taux de divergence) cette formule présente certains aspects inadaptés à notre cas. Par exemple, elle révèle les opposés sans prendre en compte la distance qui les sépare (deuxième ligne) : le résultat est le même que les résultats soient (+1,-1) ou (+10,-10).

A ce niveau, plusieurs solutions étaient envisageables. La figure 3 (page suivante) présente un tableau résumant pour quelques couples d'évaluations caractéristiques, les pourcentages obtenus en fonction des formules choisies : la première colonne utilise une fonction avec constante, la seconde présente notre formule initiale. Nous avons finalement opté pour la solution présentée dans la troisième colonne.
Cette formule   semble pour l'instant, correspondre à nos attentes.
 
Évaluation Valeur du Taux avec les formules : Remarque
Ei Ej
x x 0 0 0 Différence nulle pour résultats identiques
x -x x/10 1 2x/(10+x) Prise en compte de la valeur de x pour des résultats opposés
-10 10 1 1 1 Illustration de
-5 5 0.5 1 0.67 la prise en compte de
-1 1 0.1 1 0.18 la position des opposés
0 5 0.25 0.5 0.33 Résultats
0 -5 0.25 0.5 0.33 symétriques
5 10 0.25 0.25 0.25 Prise en compte de la
2.5 -2.5 0.25 1 0.40 position de l'écart
Figure 3 : Exemples de calcul du taux de divergence

 L'évaluation de cinq CD-ROM représentatifs par cinq évaluateurs différents, et d'un CD-ROM particulier par neuf évaluateurs, nous a permis de valider cette formule, et d'améliorer le questionnaire, ou tout du moins sa stabilité d'évaluation.

CONCLUSION
L'objectif en construisant le questionnaire était de fournir une aide pour une évaluation synthétique de logiciels éducatifs du point de vue de leur Interface Homme/Machine. Ainsi, seuls les aspects liés à l'utilisabilité des logiciels ont été traités dans ce questionnaire.

Le problème du contenu des logiciels n'est pas abordé, or l'attrait d'un logiciel aura probablement une influence sur son succès auprès des utilisateurs. Si un logiciel a une interface attrayante mais que son contenu est médiocre, un rejet sera constaté même s'il n'est pas immédiat. Le problème inverse est tout aussi réel. Un logiciel dont l'interface est médiocre aura peu de chance de capter l'attention des utilisateurs suffisamment longtemps pour qu'ils se rendent compte de la réelle valeur du contenu. Il conviendra donc de développer un questionnaire permettant de caractériser au mieux les aspects pédagogiques liés au logiciel.

Ainsi le contexte pédagogique influence directement les aspects ergonomiques, par exemple :
- Le Guidage et la Gestion des erreurs, ne peuvent pas être considérés comme des critères comme les autres dans un contexte ou il faut que l'utilisateur apprenne le contenu et non comment se servir du contenant.
- La Charge de travail doit être couplée avec celle nécessaire à l'exploration et à l'assimilation des connaissances transmises.
- Les caractéristiques graphiques et esthétiques de l'interface ont une importance capitale dans la phase de découverte par l'apprenant.
- La Navigation depends directement de la stratégie pédagogique employée.
- La Flexibilité et l'Experience utilisateur ne doivent plus être considérés comme des « gadgets » mais comme des moyens d'impliquer encore un peu plus l'apprenant dans un processus ou il a une grande part de travail.

Le projet est donc loin d'être terminé, il reste à exploiter l'évaluation du questionnaire portant sur la partie ergonomique, valider l'approche pédagogique et regrouper les deux dans une même structure. Néanmoins, et dans un premier temps, le test de ce questionnaire sur un échantillon d'une trentaine de logiciels et un panel d'une dizaine d'évaluateurs, nous a fourni des résultats encourageants sur la pertinence de notre approche. Il va maintenant être testé sur un plus grand nombre d'évaluateurs (une cinquantaine d'étudiants de second cycle) pour en tirer des résultats statistiques acceptables.

Nous nous intéressons aussi à la Qualité informatique (fiabilité du logiciel, documentation, installation...) et aux aspects subjectifs, comme l'esthétique de l'interface ou le plaisir d'utilisation. Bien que ces aspects soient par définition non-quantifiables, leur exploitation statistique (étude de la tendance sur les évaluations passées) pourrait être riche d'enseignements pour un nouvel évaluateur. Nous obtiendrons alors un outil ergo-pédagogique intéressant et propre à aider une personne dans l'évaluation d'un logiciel multimédia éducatif.
 
 REFERENCES

[1] ABED M., Contribution à la modélisation de la tâche par outils de spécification exploitant les mouvements occulaires : Application à la conception et à l'évaluation des interfaces homme-machine. Thèse de doctorat, Université de Valenciennes, septembre 1990.
[2] BASTIEN C., SCAPIN D., Evaluating a user interface with ergonomic criteria. Rapport de recherche INRIA n°2326 Rocquencourt, aout 1994.
[3] BERBAUM J., Un programme d'aide au développement de la capacité d'apprentissage. Université de Grenoble II, Multigraphié, 1988, 128p
[4] CARD S. et al., The psychology of human-computer interaction. Hillsdale, NJ Erlbaum, 1983.
[5] CD CINTE Evaluation des titres multimédia. Production Région Rhône-Alpes et CURA, producteur délégué F. Peccoud, CD-RAMA n°11, novembre 1995
[6] CD MEDA97 61 critères d'évaluation de logiciels de formation-Education. MédiaScreen, université de Liège.
[7] DESSUS P., MARQUET P., Outils d'évaluation de logiciels éducatifs. Université de Grenoble. Bulletin de l'EPI. 1991.
[8] FARENC C., Ergoval : une méthode de structuration des règles ergonomiques permettant l'évaluation automatique d'interfaces graphiques. Thèse Université de Toulouse I, 1997
[9] GRISLIN M., KOLSKI C., Evaluation des interfaces Homme/Machine lors du développement des systèmes interactifs. Technique et Sciences informatique, 1996, vol15, n°3
[10] HU O., Méthodologie d'évaluation du multimédia pédagogique. Rapport de DEA CDS, Université de Technologie de Compiègne, septembre 1997
[11] KOLSKI C., Contribution à l'ergonomie de conception des interfaces graphiques homme-machine dans les procédés industriels : application au système expert SYNOP. Doctorat, janvier 1989.
[12] MILLER G.A. The psychology of communication. Basic Books, N.Y., 1975
[13] RAVDEN S.J., JOHNSON G.I., Evaluating usability of Human-Computer Interfaces : a practical method. Ellis Horwood, Chichester, 1989
[14] RIETHMULLER V., Méthodologie d'évaluation de l'interface Homme/Machine. Rapport de DEA CDS, Université de Technologie de Compiègne, septembre 1996
[15] SALESSE O., Méthodologie d'évaluation pour le multimédia pédagogique. Rapport de DEA SHT, Université de Technologie de Compiègne, novembre 1997
[16] SCAPIN D., Guide ergonomique de conception des interfaces Homme/Machine. Rapport technique INRIA Rocquencourt, n°77, octobre 1986
[17] SCAPIN D. et al. ,MAD : une méthode analytique des descriptions des tâches. Colloque sur l'ingénierie des IHM, p131-148, Sofia-Antipolis, 24-26 mai 1989.
[18] SENACH B., Evaluation ergonomique des interfaces Homme/Machine : une revue de la littérature. Rapport INRIA, Sophia-Antipolis, n°1180, Rocquencourt, mars 1990
[19] SMITH S.L., MOSIER J.N., Guidelines for designing user interface software. EDS-TR-86-278, the MITRE Corporation, Bedfort, MA, 1986.
[20] SPERANDIO J.C., L'ergonomie du travail mental. Masson, 1988.
[21] TRIGANO P., Evaluation de l'IHM des logiciels éducatifs. ITC'97 « Le multimédia et la formation » Paris-Palais des congrès, 8-10 janvier 1997
[22] VALENTIN A. et al. L'évaluation ergonomique des logiciels : une démarche itérative de conception. Montrouge : ANACT, 1993.
[23] VANDERDONCKT J., Guide ergonomique de la présentation des applications hautement inetractives, Presses Universitaires Namur, 1994.