MOTS CLES : Langage Naturel, Sémantique Lexicale, Acquisition de concepts.
ABSTRACT : Natural language comprehension systems generally come up against the problem of developing a knowledge base. Now, the development of a base is essential for a comprehension system to function well. From now on there are electronic dictionaries, replacing "paper" dictionaries, available on magnetic tapes. However, their use in the form of a given lexical base requires compilations .We have prefered to tackle a more modest task, which is nevertheless within the domain of extracting semantic information from definitions.The aim of our system is, on finding an unkown word, to offer the user the possibility of entering his definition in natural language (a dictionary type definition). Our aim is two-fold : on the one hand to allow the semantic knowledge base of the system to grow; on the other hand to accept the fact that this growth can not be carried out by an 'expert' of the system. For this, we use a language known perfectly by the user ans which offers him great freedom : the definition.
KEYWORDS : Natural Language processing, Lexical semantics, Computational Lexicography.
INTRODUCTION
Un enfant qui vient de naître ne possède que peu de connaissances du monde qui l'environne, si ce n'est les contacts sensitifs privilégiés qu'il a pu avoir avec sa mère et les quelques réflexes génétiques qu'il lui permettront de survivre. Cette simple base d'acquis lui permettra d'évoluer, grâce à un apprentissage à long terme , vers un être indépendant capable d'agir sur son environnement .
La machine ignorante et hermétique au monde extérieur, ne peut produire elle-même cette évolution. L'homme qui construit sa "compréhension" lui greffe un ensemble de procédures ad hoc permettant de réaliser des tâches précises dans l'environnement qui a été prévu. Cette machine se trouve dotée en l'espace de quelques mois de mécanismes de travail. Il est bien évident qu'une machine ne peut travailler, dans l'état actuel de nos connaissances, que sur l'ensemble des informations qui lui ont été fournies par son concepteur. Même si l'on tente de la doter de mécanismes d'apprentissage [BLAKE 88], l'acquisition des connaissances nécessaires à son fonctionnement n'est pas encore un phénomène qu'elle peut maîtriser de manière totalement autonome.
Les systèmes de compréhension du langage naturel se heurtent en général au problème épineux qu'est l'évolution d'une base de connaissances. Or, l'évolution d'une base est indispensable au bon fonctionnement du système de compréhension. En effet, un utilisateur potentiel peut toujours se retrouver face à un mot non connu du système [BYRD 86], il faudra alors fournir les informations autorisant sa manipulation.
Dans cet état de fait, nous nous sommes penchés vers cette idée d'accroissement de ses connaissances dites "du monde", en nous restreignant ici à la maîtrise des concepts qu'elle doit traiter. Il ne s'agit pas à proprement parler d'un mécanisme d'apprentissage qui consisterait à la doter d'outils lui permettant de déduire du contexte les informations utiles. Nous parlerons d'un mécanisme d'acquisition, exercice plus modeste mais plus efficace à court terme, lui permettant d'acquérir le sens de nouveaux concepts à traiter. L'objectif de ce système est double : d'une part permettre l'accroissement de la base de connaissances sémantique de notre système [TALON & al 91] [TRIGANO et al 91], d'autre part tolérer le fait que cet accroissement ne soit pas réalisé par un "averti" du système. Pour cela, nous utiliserons un langage parfaitement connu de l'utilisateur et qui lui offre une grande liberté : la définition.
Cet article aura pour objectif de présenter plus en détail ce que nous venons d'aborder. Nous expliquerons en premier lieu ce qu'est une définition, au sens des lexicographes, et présenterons l'ensemble des familles définitoires pour préciser celles que nous pourrons traiter. Ensuite, nous justifierons l'utilisation d'un tel mécanisme. Nous verrons en particulier l'apport d'une telle méthode. Nous verrons enfin comment et dans quel contexte nous exploitons les définitions pour enrichir notre lexique .
1 META-DEFINITION (ou Définition d'une Définition)
Définition : énonciation des caractères essentiels, des qualités propres à un être ou une chose; signification du mot qui les désigne [Petit Larousse]
Définition : énonciation des attributs qui distinguent une chose, des qualités qui lui appartiennent en propre " [Flammarion]
La définition est un mécanisme permettant de situer la signification d'un mot en le rattachant à un concept connu ou sensé connu. La première activité consiste en ce rattachement, ce que les lexicographes nomment genus . La deuxième activité consiste à énoncer ce qui distingue le sens de ce mot du concept plus général auquel il a été attaché, ce que l'on nomme à juste titre la differentiae. Il est intéressant de constater que malgré les définitions situées ci-dessus, la nécessité s'est faite ressentir de redéfinir à nouveau le sens du mot définition. Il s'agit là d'un point sur lequel nous reviendrons et qui tend à faire penser que chaque personne construit sa propre représentation du sens en fonction de son expérience, du message qu'il tient à faire passer et de l'utilisation propre qu'il veut en faire.
D'un point de vue purement lexicographique, nous nous contenterons de parler, pour l'instant de la forme des définitions.
Les formes définitoires sont variées. Un classement réalisée par [MARTIN 83] en distingue une grande variété. Cette classification sera reprise comme objet de notre travail, puisqu'elle impliquera un maniement différent selon l'emplacement dans la typologie.
Martin distingue en premier lieu les définitions métalinguistiques des définitions paraphrastiques. Nous reprenons ici les descriptions qu'il réalise de chacune :
Une définition d de D est paraphrastique si la substitution de d à D dans p, sans autre modification, conduit à une phrase q, paraphrase de p.
aguicher : "exciter par diverses agaceries et manières provoquantes"
p : "Marie cherche à aguicher Paul".
q : "Marie cherche à exciter Paul par diverses agaceries..."
Ce type de définitions constitue la majeure partie des définitions que l'on trouve dans les dictionnaire de la langue française.
Les définitions non paraphrastiques ou définitions métalinguistiques, au lieu de décrire le contenu en termes de contenu, informent sur le signe, de telle sorte que la définition ne parle plus de l'univers mais de la langue... Dès lors l'insertion de la formule définitoire dans la phrase devient impossible.
miauler : "se dit du chat (et de certains félins) quand il fait entendre son cri".
Dans le cadre de notre travail nous ne traiterons pas ce deuxième type de définitions. Notre objectif en effet est d'acquérir une hiérarchie des concepts, ainsi qu'une formule que l'on puisse insérer dans le texte, ce qui n'est guère possible avec un tel modèle.
Parmi les définitions paraphrastiques, on découvre les définitions hypéronymiques, métonymiques, dérivationnelles et approximatives.
On appelle hyperonyme d'un mot D un mot d tel que la substitution de d à D dans p, sans autre modification, conduit à une phrase q telle que (p => q).
Dans la définition de aguicher, provoquer est un hyperonyme.
Marie aguiche Paul => Marie provoque Paul
Une telle définition peut être positive (exemple précédent), antonymique (céder "ne plus résister à la pression" ) ou conjonctionnelle (voler : "se soutenir et se déplacer dans l'air au moyen d'ailes")..
Le sens peut également être défini par un rapport de métonymie.
- au moyen de vocable comme partie, morceau, pièce : le sens est défini comme fragment d'un tout mieux connu.
- par l'énumération des parties (membre : "main et pied de l'homme..."). Ce type de définitions mène à une circularité très restreinte (membre défini par main et pied, main et pied défini par membre).
- au moyen du vocable ensemble (armée : "ensemble de soldats").
- au moyen d'un vocable au pluriel (barbe : "poils qui poussent sur la joue...).
- au moyen de privatifs (tronc : "corps de l'homme sans la tête ni les bras").
La définition dérivationnelle utilise des procédures morphologiques simples (jovialité : "caractère jovial" ; justification : "action de justifier").
La définition par approximation est une commodité où le lexicographe fait usage d'indicateurs de type "sorte de", "espèce de".
Notons que les vocables utilisés par les lexicographes pour les définitions approximatives, métonymiques et dérivationnelles sont variés. Il sera nécessaire, avant de les utiliser, de recenser les diverse formes possibles et de les regrouper dans le cadre définitoire qui les intéresse. [FARGUES & al 90] a établi une collection des diverses formes de vocables qu'il a pu répertorier dans le "Dictionnaire du vocabulaire essentiel - les 5000 mots fondamentaux" édité chez Larousse. Mais on peut remarquer dans le Petit Larousse et dans le "dictionnaire de la langue française" de chez Flammarion des formes différentes bien que synonymes. Le travail consistera à faire entrer chacune de ces formes dans une classe selon leur rôle sémantique précise .
2 APPORT D'UNE DEFINITION DANS L'ENRICHISSEMENT D'UNE BASE
DE CONNAISSANCES
Le problème qui se pose à tout concepteur d'une base de connaissances est celui de son contenu. Une fois les problèmes d'organisation de l'information résolus[1], la question de l'évolution de la base se pose. On peut bien sûr munir le système d'une base de connaissances tout à fait acceptable, en particulier grâce à une étude approfondie de corpus de textes [BYRD 86]. Néanmoins, il peut toujours intervenir un moment où un terme inconnu sera soumis au système. Il faut alors le doter d'un mécanisme d'acquisition par l'utilisateur final.
L'objectif du traitement des définitions est d'obtenir une structure, utilisable par notre système, décrivant le sens d'un mot nouveau. Si nous employons la définition comme modèle d'enrichissement, c'est également parce qu'elle s'intègre au mieux dans un tel système. Le principe de la définition s'accorde parfaitement avec un des modèles de représentation sémantique parmi les plus répandus en Intelligence Artificielle : le réseau sémantique. Nous parlerons plus précisément ici de graphes conceptuels [SOWA 84], modèle dérivé des réseaux sémantiques dont notre mode de représentation est plus proche.
En effet, si nous revenons quelque peu sur la notion de graphe conceptuel, nous trouvons plusieurs points d'entente. La définition d'un concept, dans ce mode de représentation, se réalise en premier lieu par un attachement hiérarchique de celui-ci à un concept de plus haut niveau (ou sa généralisation) et que J. Sowa nomme à juste titre le genus du concept, il s'agit de l'hyperonyme de notre définition.
Par exemple, sous le format repris de J. Sowa, "chien" s'insère dans un treillis de concepts :
CHIEN < ANIMAL < ETRE-ANIME < T
Le concept peut également être défini en fonction des relations sémantiques qu'il entretient avec d'autres concepts de la base, sous la forme d'un graphe conceptuel.
type SKIEUR (*x) is
[PERSONNE : *x] <- (AGENT) <- [SKIER] -> (LIEU) -> [MONTAGNE]
L'idée consiste à profiter d'une structure naturelle chez l'homme : l'art de la définition pour construire une structure exploitable par la machine : le graphe conceptuel. Nous n'aborderons pas encore ici en détail les problèmes liés au traitement automatique de la définition, certes limités par rapport aux problèmes plus généraux du traitement automatisé de la langue, qui seront traités dans les paragraphes qui vont suivre.
2.1 Acquisition de Définitions par l'Utilisateur : Justification
Le travail qui est présenté ici n'a pas l'envergure des divers travaux réalisés en lexicographie computationnelle aux Etats Unis [CHODOROW & al 85] [BYRD & al 87] [MARKOWITZ 86] etc... depuis une dizaine d'années, et en France plus récemment [VERONIS & al 90] [PIGAMO 90]. Il ne s'agit pas de construire une vaste base de connaissances à partir de l'analyse complète d'un dictionnaire électronique, mais de construire une base de connaissances limitée au domaine de travail de l'utilisateur. C'est à dire que la base de connaissances associée au système de compréhension sur lequel il travaille contiendra les concepts dont il a besoin et sous une forme appropriée.
Certes les travaux sur les dictionnaires électronique ouvrent des voies intéressantes à la conception de larges bases de données lexicales, cependant ce travail risque de souffrir de la trop forte généralisation de la définition tendant à satisfaire un public large dans un espace minimum. En effet, l'ouvrage est destiné à des utilisateurs de multiples horizons. Le lexicographe choisit parmi les définitions possibles une définition universelle : "Le stéréotype définitoire est un sous-ensemble des composants que le lexicographe sélectionne en raison de leur caractère typique". Il a ainsi la tâche d'écarter les virtuèmes[2] et de ne conserver que les composants[3] valides dans toute condition.
Or, un utilisateur du système possède sa propre représentation des concepts. Ce n'est pas que le concept qu'il utilise soit différent , mais la représentation qu'il en a à un instant donné est guidé par le contexte dans lequel il l'utilise. Les traits spécifiques qui émergent de l'esprit varient selon la personne [LE NY 89] [STOCKINGER 91] [MARTIN 83]. Ainsi, une définition introduite par l'utilisateur lui-même a de plus grande chance de répondre efficacement aux exigences du système de compréhension, en éliminant des sens qu'il ne conçoit pas dans le cadre de son travail ou au contraire en élaborant des distinctions de sens non perceptibles dans un dictionnaire général.
Une des limitation principale des systèmes actuels de compréhension de la langue proviendrait de leur faible couverture lexicale et sémantique, la taille actuelle des lexiques utilisés dans les système n'étant en moyenne que de quelques dizaines de mots [VERONIS & al 90]. Un des objectifs primordial des travaux de la linguistique computationnelle est donc l'élargissement de la couverture lexicale et sémantique, d'où semble exclue une création manuelle pour des raisons pratiques et théoriques. Or, des quantités considérables de connaissances sont contenues dans des dictionnaires courants, dont un certain nombre sont disponibles sur bandes magnétiques. Les travaux en cours des équipes de recherche en lexicographie computationnelle [VERONIS & al 90] visent à extraire l'information contenue dans ces dictionnaires afin de fournir des bases de connaissances exploitables par les systèmes de traitement de la langue naturelle. Cependant, bien que sur bande magnétique, la récupération de ces informations n'est pas immédiate et nécessite un ensemble de traitements préalables pour arriver à un lexique computationnel, véritable banque de données.
2.2 Automatisation du processus d'acquisition
L'objectif de nombreuses équipes est d'automatiser le processus d'extraction et de disambiguation des termes "genus" pour construire une hiérarchie de concepts à partir de dictionnaires de grande envergure tel que le "Webster's seventh New Collegiate Dictionary" [CHODOROW & al 85] [BYRD & al 87].
Ce travail consiste en un isolement de la "tête" du groupe nominal principal de la définition . Dans la définition de 'car' (voiture) : "a vehicle moving on wheels", le mot "vehicle" est isolé comme le genus, tandis que "moving on wheels" différentie "car" des autres type de "vehicles". L'approche automatisée pour trouver le terme genus est basée sur l'observation que souvent, le terme genus des définitions des noms et verbes est la tête syntaxique de la proposition définitoire.
La syntaxe de la proposition définitoire du verbe permet d'isoler la tête avec une heuristique simple : la tête est le verbe qui suit le "to"[4]. L'heuristique qui est appliquée pour isoler l'hyperonyme d'une proposition définitoire nominale est aussi simple. On isole une sous-chaîne délimitée à gauche par un mot apparaissant en position prénominale : 'a', 'an', 'the', 'its', etc... et qui doit être délimitée à droite par une séquence apparaissant en position post-nominale telle qu'une préposition, un pronom relatif, un participe présent, etc... Une fois cette sous-chaîne isolée, le nom le plus à droite est choisi comme tête de définition[5]. Malheureusement, comme le constate [VERONIS & al 90], les taxonomies ainsi extraites sont entachées d'un certain nombre d'erreurs et deviennent difficilement exploitables par des systèmes automatisés. Le problème provient du fait que la méthode heuristique systématiquement appliquée pour isoler le genus ne prend pas en compte les tournures particulières de certaines définitions telles que "whale : any of a large cetacean mammals...", "elder : any of various church officers", en anglais, et "agami : genre de gruiforme de l'Amérique méridionale", ou "accordoir : sorte de clé pour accorder les instruments de musique ", en français. Le traitement heuristique appliqué choisit "any" ou "genre" ou "sorte" pour hyperonyme au lieu de "mammals", hyperonyme réel dans le premier cas par exemple. Il convient de recenser les diverses formes de procédés de marquages hypéronymiques.
Le deuxième axe de travail en lexicographie computationnelle vise à extraire l'information contenue dans la seconde partie de la définition : la "differentiae". Cette extraction peut prendre la forme des vecteurs que nous venons de présenter rapidement. L'objectif principal est d'offrir une information sémantique complète qui permet de gérer la polysémie par une connaissance sémantique plus profonde. Le lexique est alors vu comme un large réseau de noeuds cohérent, autorisant les techniques de stockage et de traitement propre au réseaux sémantiques, représentant tous les sens des mots et contenant toute l'information liée à chacun de ces sens.
2.3 Recherche d'autres informations sémantiques :
En dehors d'une organisation hiérarchique des concepts, le dictionnaire de la langue permet de découvrir un ensemble d'informations sémantiques contenues dans les définitions. Il s'agit ici de travailler sur la partie annexe de la définition que nous n'avons jusqu'à présent que citée : la differentiae. L'exploitation de cette partie annexe de la définition devrait permettre l'obtention d'une base de connaissances complète où chaque concept est identifié de façon précise, muni d'un ensemble d'informations permettant une identification précise en contexte.
Le contexte d'utilisation des lexiques que l'on désire ainsi construire se veut indépendant de tout domaine d'utilisation. Ainsi, le problème de désambiguisation de sens, tâche critique pour une approche large du langage naturelle, va requérir une structure différente des lexiques dépendant du domaine, où des procédures ad-hoc ont été mises au point. Le problème se pose en termes d'identification de l'information adéquate dans les définitions et de l'usage qu'il est possible d'en faire.
Les différents travaux qui ont été effectués jusqu'à présent s'orientent vers la construction d'une large base de connaissances que les chercheurs souhaitent rendre disponibles aux différentes équipes travaillant dans le domaine du langage naturel. Ceci en réponse au problème fréquemment soulevé de la faible teneur en mots des différents systèmes et qui les relègue aux "cas d'école". Il est bien évident que la construction manuelle d'une base de connaissances complète est une tâche très lourde, voir impossible. D'une part, il faut repérer l'ensemble des mots du langage, d'autre part, fournir une entrée pour chaque mot qui soit complète. Il n'est pas sûr que cette construction gagne quelque information par rapport à un travail de longues années de la part de lexicographes. De plus si l'on considère les définitions d'un dictionnaire de la langue, on peut se rendre compte qu'elles contiennent tout un ensemble d'informations riches d'un point de vue sémantique, qu'il faut savoir décoder.
Lorsque un mot engendre plusieurs sens de mot, le choix du sens se réalise par la connaissance que nous avons du contexte qui l'environne. Le principe de travail consiste à repérer le maximum d'information dans une définition, éventuellement complétée d'autres formes d'analyse, pour constituer des entrées de lexique permettant le choix correct.
Beaucoup de mots imposent des restrictions sur le type d'arguments qu'ils acceptent en contexte. Les arguments généralement les plus contraints sont le sujet et l'objet des verbes, ainsi que les modificateurs (adjectifs) des noms [MARKOWITZ 86]. De plus, des positions telles que instrument, but, source, lieu etc... peuvent aussi restreindre le type d'éléments permis. Les dictionnaires explicitent souvent de telles contraintes dans leurs entrées. La Fig 1 montrent des arguments typiques fournis dans le Webster's seventh en tant que valeurs entre parenthèses. On peut voir qu'il est relativement aisé d'extraire par exemple l'objet typique d'un verbe à partir des expressions parenthésées.
accredit (an educational institution)
accredit (an envoy)
adopt (a child of other parents)
amputate (a limb or projecting part)
anodize (a metal)
appeal (a case)
arrange (a musical composition)
Fig 1 : objets typiques
- L'isolement du sujet typique d'un verbe consiste à repérer une expression parenthésée située avant le verbe tête de la définition et à en extraire le nom qui est la tête de l'expression.
- L'isolement de l'objet typique d'un verbe consiste à repérer l'expression parenthésée située après le verbe de tête et à en extraire le nom qui est la tête de l'expression.
Ici se pose encore le problème de choix du sens de mot dans le cas d'un terme polysémique. Apparemment, aucun travail n'a encore été réalisé dans le sens de ce choix.
Ces relations d'arguments typiques seront très intéressantes à considérer dans le cadre d'une application utilisant un tel lexique. Le sens de 'arrange' qui prend pour objet typique une 'musical composition' sera préparé à accepter les mots tels que 'symphony', 'song', 'capriccio', 'sonanta', etc..., hyponymes de cet objet typique. L'objet typique est alors une classe d'objet permettant une association avec le prédicat en question. Une taxonomie bien constituée dont nous avons parlée dans le précédent paragraphe s'avère donc nécessaire
Pour les verbes, des informations supplémentaires sur les sujets et objets peuvent être obtenues grâce à une analyse des phrases exemples. Certaines équipes traitent les sujets et objets de ces phrases comme des sujets ou objets typiques [BRADEN-HARDER & al 90]. Les synonymes et taxonymes des sens ainsi rencontrés dans l'exemple peuvent être utilisés dans le contexte du verbe. Une utilisation possible de ces exemples se justifie selon L. Braden-Harder par le fait que le lexicographe n'inclut pas de sens rare d'un mot comme objet ou sujet typique.
Cependant, les arguments typiques ne se trouvent pas uniquement dans les expression parenthèsées. Il peut être intéressant d'obtenir des relations lexicales qui ne sont pas présentes de façon exhaustive dans toutes les entrées du dictionnaire. Par exemple des objets typiques peuvent être obtenus par exploration du texte de la differentiae. On peut découvrir des arguments typiques en étudiant les exemples fournis en annexe des définitions, ou encore au sein même de la définition comme dans l'exemple suivant :
défier : "provoquer quelqu'un en combat singulier"
défiger : "ramener à l'état liquide un corps figé"
Repérer des objets typiques, dans le cadre des deux exemples précédents, consiste à isoler l'objet du verbe hypéronyme. Nous verrons par la suite qu'une transformation de la définition sous forme de graphe conceptuel, ainsi que les opérations permises sur ces graphes, facilitent grandement ces manipulations.
Byrd cite l'exemple des "goods sold by merchants" . L'analyse réalisée a porté sur un ensemble de définitions contenant une forme du verbe "sell". Les définitions ainsi constitué ont été soumises à un certain nombre d'analyses qui ont mené au résultat de la Fig 2.
antiquarian : a person who studies, collects or sells objects that are very old.
apothecary : one who prepares and sells drugs or compounds for medicinal purpose.
blockbuster : a person who gets white people to sell their house to him cheaply by telling them
that black people are going to move into the aera.
confectioner : a person who makes or sells sweets, ice cream, cakes etc
estate-agent : a person whose business is to bring together people who want to sell and people
who want to buy houses, property, or land, and to look after the property of others.
florist : one who sells flowers and ornemental plants
newsboy : a boy or man who sells or delivers newspapers.
pardoner : a person who went about the country selling official religious indulgences.
pork-butcher : a dealer in meat who sells pork or products made from it, such as sausages.
pusher : a person who sells narcotics illegally.
Fig 2 : concordances de "who sells".
Les articles vendus ont été portés en italique sur le schéma. Plusieurs faits ont été constatés. En premier lieu, les noms des vendeurs sont fournis dans le groupe nominal tête de la définition. En deuxième lieu, les objets typiquement vendus apparaissent comme complément d'objet direct du verbe. Cependant la tâche n'est pas toujours aussi simple. Les définitions de "blockbuster", "confectioner" et de "estate agent" démontrent que les propositions peuvent prendre des formes syntaxiques complexes. La conclusion de [BYRD & al 87] est que la procédure d'analyse devra être capable de gérer de telles structures syntaxiques, et qu'une technique basée sur les mot-clés est insuffisante.
Notre conclusion est que pour entreprendre une recherche d'information dans la differentiae, il faut se munir d'un véritable outil syntaxico-sémantique capable de ramener la forme définitoire à une forme exploitable. Le traitement doit être généralisé et non traiter le cas par cas comme dans l'exemple des "goods sold by merchants". La définition devient alors une véritable proposition à analyser qui a beaucoup à voir avec les propositions classiquement étudiées en langage naturelle. Elle s'en écarte cependant s'il on considère leur relative normalisation. Nous reviendrons sur ce point ultérieurement.
Dans le cadre de notre système de compréhension de la langue, nous nous sommes tournés vers une exploitation des définitions pour enrichir notre base de connaissances. Cependant, à la différence de la majeure partie des travaux dans ce domaine, nous avons préféré nous en tenir à une exploitation plus limitée de ces dernières. L'introduction des définitions ne se réalise pas à partir de dictionnaires électroniques mais exige une participation de l'administrateur du système (ou de l'utilisateur) qui se charge d'introduire les définitions lorsqu'un mot du texte est inconnu du système. Il s'agit donc d'une définition monosémique propre à l'utilisateur, qu'il aura bien sûr pu aller consulter auparavant dans un dictionnaire. Ce procédé présente le double avantage de constituer une base de connaissances dédiée à l'utilisateur tout en limitant les problèmes de polysémie liées au multiples définitions d'un mot. Malgré tout, ce traitement des définitions reste lié à l'exploitation des dictionnaires électroniques dans le sens où les problèmes de décodage sémantique et de représentation restent identiques.
3 - REALISATION
L'analyseur utilisé est celui de la plateforme de développement appelée DOCAL (Développement d'Outils pour la Compréhension Automatique de la Langue). Les outils utilisés au niveau syntaxique et sémantique ont déjà été décrits plus en détails dans [TRIGANO & al 91], [TALON & al 91], et [TALON 91].
Sur la base de ce système, qui partage une représentation des connaissances commune que ce soit au niveau du lexique sémantique ou au niveau représentation interne de la phrase, il nous est rapidement apparu qu'un enrichissement du lexique à partir de l'analyseur de propositions était possible. Notre travail a consisté en une réalisation d'un analyseur de définitions, très proche en réalité d'un analyseur de propositions puisqu'il en reprend pour une grande majorité les outils développés.
Cet enrichissement est intéressant selon plusieurs points de vue. Il permet en premier lieu d'obtenir une évolution du lexique au fur et à mesure des besoins de l'utilisateur et ce sans une connaissance précise du fonctionnement du système. De plus, nous obtenons une base plus riche en information, puisque nous ne nous contentons plus d'y introduire des attachements conceptuels simples (relation isa, set-of, etc..) mais également le contenu annexe de la définition (differentiae). Ceci est intéressant dans le cadre de la paraphrase (remplacement du mot par sa définition) ou dans le cadre d'un calcul de proximité entre deux mots (notamment pour régler les problèmes de références pronominales ou de polysémie).
Comme nous l'avons précisé précédemment, la définition est un outil qui se prête bien à l'enrichissement du lexique :
- d'un point de vue ergonomique car l'utilisateur y retrouve une utilisation naturelle de la langue, et une liberté d'expression non offerte par les interfaces à base de menus.
- d'un point de vue pratique : beaucoup de chercheurs commencent à s'orienter vers une traduction sémantique des définitions issues des dictionnaires de la langue courante. Il s'agit à l'heure actuelle de la source la plus riche d'information sur les mots. Or l'objectif est de construire des bases de connaissances complètes de la langue et on en n'envisage guère leur construction manuelle.
D'un point de vue fonctionnel, que la définition soit tirée d'un dictionnaire ou au contraire entrée par l'utilisateur, la méthodologie employée sera identique et les objectifs à atteindre similaires.
Les définitions ont une syntaxe relativement simple à formaliser. Les références pronominales sont rares, et de simples heuristiques liées à la faible longueur des phrases permettent leur résolution. Dans le cadre de notre travail, nous nous sommes limités à l'analyse des définitions de noms, laissant de côté les définitions tout aussi riches des verbes, adjectifs et adverbes.
Précisons un certains nombre de caractéristiques de notre système :
- Nous pouvons réutiliser le même système syntaxique pour l'analyse de définitions celle de texte.
- L'analyse que nous désirons réaliser ne se contente pas de récupérer quelques fragments de la définition, ce qui aurait été permis par une simple détection de mots clés. Il s'agit de construire une structure sémantique complète grâce à un système d'analyse de la langue naturelle.
- Les définitions de type dictionnaire comprennent de multiples attachements de groupes prépositionnels, relatifs ou participiaux. Seule une grammaire précise permet de repérer les divers attachements possibles.
La première action à réaliser lorsque l'on désire insérer un nouveau concept dans la base de connaissances de notre système est de lui donner une position dans la hiérarchie sémantique. Nous avons pu constater que les dictionnaires de la langue étaient régis par le même mécanisme, en reliant le mot à définir à un mot plus "large" sémantiquement . Chaque terme est défini par un "archisémème" qui est son genre prochain et par des différences spécifiques. Nous nous restreindrons ici à l'étude de l'archisémème.
La grammaire définitoire pourrait être ramenée à la simple vision : DEF ::= N + X où N représente l'hyperonyme (archisémème) du mot défini et X une forme annexe telle que GV ou GR etc... Cependant, il est clair d'après la classification de Martin que l'archisémème peut se cacher sous des formes plus complexes [VERONIS & al 90]. Il faut affiner la relation sémantique existant entre un mot et son archisémème. Ce raffinement provient d'une étude approfondie des types de relations que l'on peut trouver au coeur des définitions. [FARGUES & al 90] offre un éventail de formes, extraites manuellement du "dictionnaire du vocabulaire essentiel - Larousse". Cette liste isole les formes diverses du NP de la production DEF ::= NP + X :
1 - N ADJ
2 - N PREP N
3 - Absence de N, etc...
Les définitions 1 et 2 entrent dans le cadre d'un traitement hypéronymique simple. Nous ne porterons notre attention que sur les formations autres, qui font apparaître des méta-préfixes sémantiques.
Auparavant, il semble nécessaire d'ajouter quelques formes que l'on peut isoler de l'étude statistique menée par [PIGAMO 90] sur les définitions du dictionnaire Larousse. Il ressort de l'extraction automatique du premier nom de la définition, un ensemble de formules sémantiques qui entre dans le cadre de l'étude de J.Fargues. Cependant, d'autres formules apparaissent. Un ensemble de formes découvertes dans le Petit Larousse et le Flammarion sont décrites dans [TALON 91]. Ces diverses formes vont réagir différemment au traitement de l'attachement hiérarchique :
- Certaines vont subir un traitement similaire au modèle N + X classique (définitions hyperonymiques, dérivationnelles, approximatives).
- D'autres vont subir un attachement sémantique différent du lien hiérarchique ISA qui n'est pas inclus dans la définition (définition métonymique).
Nous ajoutons une classe supplémentaire, la classe des définitions antonymes, citée par Martin et dont nous n'avons pas parlé jusqu'à présent, qui permet de regrouper les définitions telles que "absence de", "manque de". La plupart des mots ainsi définis commencent par le préfixe "a" ("acéphalie"). Le mot est alors défini par non présence d'un élément. Nous représenterons cette information sémantique par un lien HAS de valeur négative. Exemple : "aphasie : perte de la parole"
Une fois la définition analysée syntaxiquement, on repère à quelle forme le "mot tête" appartient (hyperonyme...). On peut alors établir le lien sémantique entre le concept défini et le concept trouvé dans la descente. Ensuite, s'il s'agit d'une définition où l'hyperonyme n'est pas en tête de définition , on élague la structure afin de faire disparaître le méta-préfixe. La liaison sémantique établie est introduite dans le lexique sémantique. La définition hyperonymique de type "celui ou celle qui" est pré-traitée au niveau de l'analyse syntaxique. On remplace l'occurrence de cette expression par l'objet nom "personne". De même, l'expression "ce qui" sera remplacé par l'objet nom très général "entité".
4 BILAN ET PERSPECTIVES
Notre système est actuellement testé dans un domaine restreint, sur le thème des activités en montagne l'hiver. Notre travail se restreint actuellement aux définitions des noms.
Nous avons relevée un certain nombre de raisons, aussi nombreuses que variées, qui justifient et encouragent l'utilisation de la differentiae d'une définition. On peut trouver dans les divers travaux, notamment aux USA [BYRD & al 87] [BRADEN-HARDER & al 90] des justifications à l'analyse de cette differentiae. Si l'on se réfère aux manipulations de graphes conceptuels [SOWA 84] [FARGUES 89], il est possible, lorsque l'on dispose des graphes ainsi obtenus, d'opérer des opérations de restrictions ou d'expansions. Un système de manipulation de tels graphes vient juste d'être développé, mais n'a pas encore été complètement testé [DELACRUZ 91]. Nous retiendrons pour notre part les idées suivantes :
- Levée de l'ambiguïté sémantique :
Un simple lien hiérarchique n'est pas toujours suffisant pour élaborer un choix entre plusieurs concepts candidats. Il faut alors avoir recours à des techniques plus précises, consistant à étudier d'un peu plus près le contexte du concept, soit son environnement proche dans le réseau sémantique.
Par exemple, soit la phrase "le peintre termine le bâtiment", et les diverses définitions concernées :
"peintre (1) : artisan qui recouvre de peinture les diverses surfaces d'une habitation"
"peintre (2) : artiste qui exerce l'art de peindre"
"artiste : celui ou celle qui pratique un art"
"artisan : celui ou celle qui exerce un métier manuel"
"bâtiment : construction ... souvent destinée à l'habitation"
L'attachement hiérarchique entre "peintre (1)" et "personne" d'une part, et "peintre (2)" et "personne" d'autre part, ne nous permet pas de décider du concept décrit dans chaque phrase. Il nous faut alors nous référer au contexte plus précis de la differentiae et essayer d'y déceler des éléments d'information sémantique déterminants.
- Découvrir des hyponymes :
La définition peut renfermer un certain nombre d'exemples de la catégorie du concept décrit. Les formes généralement rencontrées sont "tels que ..." ou "comprenant". Ce sont des éléments sémantiques que l'on peut accrocher sous le concept, qui devient alors leur hyperonyme.Exemple : "antilope : groupe de ruminants à cornes... comprenant les gazelles, chamois, saîgas".
- Découvrir des exceptions :
Au contraire, la differentiae d'une définition peut renfermer des exceptions à inclure dans un réseau sémantique. Exemple [VERONIS & al 89] : "whale : any of the large cetacean mammals excluding dolphins, porpoises and narwhals"
CONCLUSION
Nous avons pu découvrir dans le cadre de cet article que la syntaxe définitoire s'adapte très bien à l'enrichissement d'une base de connaissances sémantique. Nous avons à cet effet présenté les différentes formes de définitions que l'on peut découvrir dans les dictionnaires de la langue. Nous avons classés les attachements sémantiques en fonction de ces diverses classes. Enfin, nous avons présenté les aspects intéressants que peut présenter la differentiae d'une définition dans l'exploitation d'un système de compréhension de la langue. Nous avons entre temps mis l'accent sur l'avantage de la mise au point d'un mécanisme d'enrichissement de la base en langage naturel par rapport à un système à base de menus.
BIBLIOGRAPHIE
[AMSLER 81] AMSLER R.A., "A taxonomy for english nouns and verbs", ACL conf, p 133-138, 1981.
[BLAKE 88] W.J. BLAKE, "Les systèmes intelligents basés sur la connaissance", Ed Masson, IA, 1988.
[BRADEN-HARDER & al 90] L. Braden-Harder et W. Zadrozny, "Lexicons for broad coverage semantics", Rapport IBM, 5/03/90.
[BYRD 86] R.J. BYRD, "Dictionary systems for office pratice", Rapport RC 11872, IBM, New York, 1986.
[BYRD & al 87] R.J. BYRD, N. CALSOLARI, M.S. CHODOROW, J.L. KLAVANS, M.S. NEFF, O.A. RIZK, "Tools and Methods for computational lexicology", Rapport RC 12642, 4/1/87, Computer Science, IBM research, Thomas J. Watson research center, Yorktown Heights New York.
[CHODOROW & al 85] M. Chodorow, R. Byrd, G. Herdorn, "Extracting semantic hierarchies from a large on-line dictionary", Association for computational linguistics, pp 299-304, 1985.
[DELACRUZ 91] M. DELACRUZ, "Un système de manipulation de Graphes Conceptuels", Mémoire de DEA 'Contrôle des Systèmes', UTC, Septembre 1991.
[FARGUES 89] J. FARGUES : "Graphes conceptuels" 2nde école d'été : "traitement des langues naturelles", LANNION, juillet 89.
[FARGUES & al 90] J. FARGUES, A. PERRIN : "Synthetising a large concept hierarchy from french hyperonyms" in Coling '90, vol 2, p112-117, 1990.
[FLAMMARION 89] "dictionnaire actuel de la langue française", ed Flammarion, juillet 89.
[KLAVANS 88] J.L. KLAVANS : "building a computational lexicon using machine readable dictionaries", proceedings of the third international congress of the european association for lexicography, 1988, budapest, hongrie.
[LE NY 89] J.F. LE NY, "Sciences Cognitives et compréhension du langage", PUF, 1989.
[MARKOWITZ 86] J. MARKOWITZ : "Semantically significant patterns in dictionnary definitions", Annual meeting of the association for computationnal linguistics, p112-119, 1986.
[MARTIN 83] R. MARTIN : "Pour une logique du sens", linguistique nouvelle, Presses Universitaires de France, 1983.
[NEFF 89] NEFF M.S. et BOGURAEV K. : "Dictionaries, dictionary grammars, and dictionary entry parsing", proceedings of the 27th annual meeting of the association for computational linguistics, p 91-101.
[PERENNOU 90] G. PERENNOU : "BDLEX Base de Données LEXicales du français écrit et parlé", GRECO-PRC CHM, pôle Parole.
[PIGAMO 90] F. PIGAMO, "Outils de traitement sémantique du langage naturel", thèse de docteur d'ENST, Déc 1990.
[SOWA 84] J.F. SOWA "Conceptual Structures. Information processing in mind and machine". Addison Wesley Publishing Compagny, Reading, MA,1984.
[STOCKINGER 91] P. STOCKINGER, "Niveaux de représentation et types de connaissance", Ingéniérie du langage naturel : cadres théoriques et perspectives technologiques, 21-25 Janvier 1991, Centre de recherche de royallieu, Compiègne.
[TALON & al 91] B. TALON - P. TRIGANO : " Enrichissement Automatique à partir de définitions entrées en Langage Naturel" , 10èmes journées internationales sur les systèmes experts et leurs applications, Conférence sur le Langage Naturel et ses applications, Avignon, mai 1991.
[TALON 91] B. TALON, Thèse de Doctorat de l'Université de Technologie de Compiègne, UTC, Juillet 1991.
[TRIGANO et al 91] P.TRIGANO, B. TALON, D. BALTAZART, C. DEMKO , "LCS : a natural language comprehension system", SPIE's OE, Orlando'91, Florida, 1991.
[VERONIS & al 89] VERONIS J, IDE N., WURBEL N. : "Extraction d'informations sémantiques dans les dictionnaires courants", RdF et IA AFCET, Paris, 1989.
[VERONIS & al 90] VERONIS J., WURBEL N., HARIE S., IDE N. M. : "construction et exploitation d'une base de données lexicale multi-dictionnaire", Pôle langage naturel, Avignon 1990.