UMR CNRS 7253

Outils du site


fr:docal

DOCAL

Développement d'Outils pour la Compréhension et l'Analyse du Langage

Intéressés

Philippe Trigano, Jean-Philippe Deloison, Frédéric Bourcier, Bénédicte Talon, Christophe Demko, Didier Baltazart

Objectif du projet

Ce projet permet l'étude et la réalisation de diverses techniques pour l'analyse du langage naturel, selon des modèles sémantiques plutôt issus de la psycholinguistique. Contexte

Après avoir étudié la compréhension de phrases isolées, nous nous sommes intéressés à la compréhension de textes courts. La compréhension de récits est plus complexe que la simple juxtaposition de phrases isolées. En effet, on peut rencontrer de nombreux problèmes tels que l'utilisation de connaissances présupposées, de mots ambigus…

Caractéristiques

Différents outils ont été implantés dans le cadre du projet DOCAL. Un module permet d'effectuer une analyse morphologique, afin de prendre en compte les différentes formes des adjectifs, noms et verbes conjugués. Ce module a été enrichi d'un algorithme de reconnaissance de mots mal orthographiés, ce qui permet une certaine tolérance aux fautes de frappe Un système d'aide à l'enrichissement du lexique morphologique a été développé pour le système. Il permet d'insérer de nouveaux mots dans le lexique, de générer automatiquement les diverses formes de ce mot à partir d'une classe type de mots (ou de conjugaisons) déjà entrée, et de coder le tout par une technique de “hash code”. Ces connaissances sont directement utilisables par le module d'analyse morphologique.

Des travaux sur le formalisme ATN et ses méthodes d'implantation ont permis de rendre l'analyseur plus déterministe, en le dotant d'un regard en avant, débouchant sur un nouveau mode de représentation des connaissances syntaxiques, que nous avons baptisé FLATN, pour Forward Looking ATN. L'analyseur syntaxique a été modifié de manière à utiliser cette représentation, et à tolérer des fautes d'accords en nombre, en genre, ou en temps, et à permettre l'utilisation de styles télégraphiques malgré une grammaire 'classique' du français.

La base de connaissances sémantiques se divise en deux lexiques que nous nommerons “lexique sémantique” (mise en mémoire des concepts) et “lexique des cadres” (connaissances structurelles). Le premier décrit le sens des différents concepts de la base. Il inclut les propriétés inhérentes aux concepts, classifiés par groupes sémantiques, selon une hiérarchie de propriétés. Le second lexique indique les cadres de cas des verbes et prépositions. Ils permettent une détermination casuelle des attachements et une désambiguiation sémantique lorsqu'elle est nécessaire. Ce lexique donne aux verbes à formation sémantique particulière le format de l'attachement prépositionnel et le cas ainsi défini, ainsi qu'un cadre de fonctionnement sémantique réglementaire, dénotant leur environnement possible et autorisé. Un cadre plus général réservé aux prépositions décrit les diverses juxtapositions sémantiques permises et leur valeur casuelle.

Tout ce matériel nous a permis d'élaborer une analyse de propositions qui donne lieu à l'élaboration d'un réseau sémantique au format strictement équivalent à celui du lexique sémantique (premier lexique). Ce réseau obtenu offre une représentation proche de celle des graphes conceptuels de Sowa et permet d'envisager les opérations de manipulation proposées par ce dernier.

Cette harmonisation dans la représentation des informations que ce soit au niveau lexique ou au niveau analyse de propositions nous a permis de nous orienter vers une activité particulière de l'analyseur : l'analyse de définitions associées à des mots nouveaux (inconnus du système). Il est ainsi possible, moyennant une grammaire adaptée à la syntaxe des définitions, d'analyser ces dernières et de les intégrer définitivement dans le lexique sémantique, permettant ainsi une introduction automatisée de nouveaux concepts.

Les projets constituants

Les problèmes liés à l'ambiguïté et à la gestion du contexte ont donné lieu à des projets plus spécifiques. Cette partie reste actuellement un axe de recherche largement ouvert, que nous comptons développer.

ALPHA (Didier Baltazart) : L'idée de base a été d'utiliser les mêmes méthodes pour la polysémie et pour les références pronominales. Des approches connexionistes ont également été testées, ainsi que d'autres méthodes à base de réseaux sémantiques valués.

CCP (Christophe Demko) : D'autres approches ont été utilisées pour la gestion du contexte. Elles sont basées sur les graphes conceptuels et la notion d'intersection d'hypergraphes.

HIRON (Jean-Christophe Planès) est une application industrielle en collaboration avec la Banque de France, pour l'analyse automatique d'enquêtes mensuelles de conjoncture. Ce projet valide un certain nombre de résultats théoriques issus de DOCAL.

Références

Baltazart D. : “Contribution au traitement des ambiguïtés polysémiques et anaphoriques”, Thèse de Doctorat de l'Université de Technologie de Compiègne, Compiègne, le 7 juin 1993.

Demko C. : “Contribution à la gestion du contexte pour un système de compréhension automatique de la langue”, Thèse de doctorat de l'Université de Technologie de Compiègne, Décembre 1992.

Planès JC., P. Trigano : “Semantic Analysis of Economic Surveys”, publié dans la revue Applied Artificial Intelligence, Vol 7, issue 3, septembre 1993.

Planès JC. : “Un système d'anamyse et de génération automatique de textes de synthèse pour les enquêtes de conjonctures de la Banque de France”, Thèse de doctorat de l'Université de Technologie de Compiègne, décembre 1993.

Talon B. “Un système d'Aide à l'Acquisition de Concepts nouveaux pour un Outil d'Analyse du Langage Naturel”, Thèse de Doctorat de l'Université de Technologie de Compiègne, Compiègne le 12 juillet 1991.

Talon B., P.Trigano : Enrichissement du lexique : vers une acquisition humaine des entrées, ERGO IA 90, Biarritz, Septembre 1990.

Talon B., P.Trigano : “ Enrichissement Automatique à partir de définitions entrées en Langage Naturel” , 10èmes journées internationales sur les systèmes experts et leurs applications, Avignon, mai 1991.

Trigano P. : Qui a peur des fotes d'orthografe (ou de frappe) ? , MARI - COGNITIVA 87, Paris, Mai.

Trigano P., B.Talon, D.Baltazart, C.Demko : “LCS : a Natural Language Comprehension System”, “Applications of Artificial Intelligence IX”, SPIEE/IEEE Orlando Floride USA, Avril 1991.


Outils pour utilisateurs