UMR CNRS 7253

Outils du site


fr:tal

Traitement automatique de la langue (T.A.L.)

Equipe

Philippe Trigano, Sid Lamrous, M.C. Villain, J.P. Deloison, F. Bourcier, A. Fougères

(ont également collaboré au projet, dans le cadre de leur thèse, à présent terminée, les personnes suivantes : Bénédicte Talon, Chantal Enguehard, Christophe Demko, François de Bertrand de Beuvron, Didier Baltazart, Jean-Christophe Planès, Susan Parker, Kevin Stone, Darren Millward).

Objectif du projet

Le projet concerne le traitement automatique de sous-langages (langages professionnels), aussi bien pour l'analyse de textes ou de requêtes rédigés en langue naturelle, que pour la génération d'informations en langage naturel.

Contexte

Cette recherche a été menée au sein de l'équipe LCS (Langage Compréhension et Synthèse), créée spécialement pour le sujet. Nous avons choisi de nous limiter aux langages professionnels (sous-langages fonctionnant dans des micro-mondes), afin de réduire la combinatoire. Différents aspects du problème sont traités dans des projets séparés Ces projets sont organisés autour d'une approche commune s'appuyant sur un traitement sémantique des connaissances (plutôt qu'une approche syntaxique). Trois environnements ont été développés, chacun sur des bases différentes, mais complémentaires : DOCAL (environnement casuelle et primitives sémantiques), CLOSUP (environnement logique) et ITI (indexation automatique et extraction automatique de connaissances). L'environnement DOCAL est utilisé dans le cas de compréhension profonde de textes. Il nécessite une étude préalable du corpus de textes à analyser, ainsi qu'une modélisation rigoureuse des connaissances du domaine. CLOSUP est plus utilisé dans le cas d'interfaces pour bases de données et systèmes experts. Enfin, ITI est un environnement particulièrement bien adapté aux gros corpus de textes, permettant une compréhension moins profonde qu'avec DOCAL, mais avec l'avantage d'une modélisation plus simple des connaissances linguistiques. En effet, un certain nombre d'outils d'acquisition automatique des connaissances permettent de gagner un temps considérable lors de la modélisation du domaine.

Les projets constituants

  • FQUEL (Philippe Trigano, Jean-Paul Barthès) concerne l'interrogation en langage libre de bases de données et systèmes experts, en tolérant des erreurs potentielles de l'utilisateur. 1986-1989.
  • DOCAL (Philippe Trigano, Bénédicte Talon) est un projet permettant l'étude et la réalisation de diverses techniques pour l'analyse du langage naturel, selon des modèles sémantiques plutôt issus de la psycholinguistique. 1988-1993.
  • CCP (Christophe Demko) est un travail qui s'inscrit dans un courant actuel des graphes conceptuels. Le but de cette recherche était de représenter des connaissances sémantiques associées aux énoncées afin de pouvoir lever des ambiguïtés liées au lexique. 1989-1992.
  • CLOSUP (François de Bertrand de Beuvron) a permis de montrer que la programmation logique étendue aux objets est un outil performant pour le traitement du langage naturel, dans le cadre d'interfaces homme-machine pour des bases de données. 1989-1992.
  • ALPHA (Didier Baltazart) est une étude du point de vue de la linguistique, de la psychologie et de l'informatique du problème des ambiguïtés polysémiques, homonymiques et anaphoriques et de leur traitement automatique. 1989-1993.
  • HIRON (Jean-Christophe Planès) est un projet concernant la réalisation d'un système d'analyse et de génération automatique de textes de synthèse pour les enquêtes de conjonctures mensuelles de la Banque de France. 1990-1993.
  • SBCT (Marie-Christine Villain) est un projet sur l'interrogation en langage naturel d'un système expert dont la base de connaissance est textuelle (encyclopédie thématique). 1992-1996.
  • ITI (Philippe Trigano, Jean-Philippe Deloison, Marie-Christine Villain, Sid Lamrous) est un projet sur l'extraction automatique d'information dans les bases de données textuelles (indexation automatique). Depuis 1992.

Références

Baltazart D., P. Trigano : “Solution of pronominal reference in the DOCAL environment”, “Applications of Artificial Intelligence X”, SPIE Intelligent Information Systems, Orlando Floride USA, 1992.

Bourcier F., M.H.Gréboval, G.Kassel - P.Trigano : “Construction d'une explication et génération en langue naturelle : une étude de cas”, Actes de RFIA'94.

de Bertrand de Beuvron F., P. Trigano : “Hierarchically Coded Lexicon with variants”, publié dans la revue International Journal of Pattern Recognition and Artificial Intelligence, à paraître en 1994.

Demko C., P. Trigano : “Le plus grand sous-graphe commun de deux graphes : un algorithme pour l'acquisition”, Atelier d'ingénierie des connaissances et des données (A.I.C.D.), Strasbourg, janvier 1993.

Enguehard C., P. Trigano, P.Malvache: “ANA Automatic Natural Acquisition” , publié dans la revue International Journal of Pattern Recognition and Artificial Intelligence, Vol 7 Ndeg.2, Avril 93.

Planès JC., P. Trigano : “Semantic Analysis of Economic Surveys”, publié dans la revue Applied Artificial Intelligence, Vol 7, issue 3, septembre 1993.

Talon B., P.Trigano : “ Enrichissement Automatique à partir de définitions entrées en Langage Naturel” , 10èmes journées internationales sur les systèmes experts et leurs applications, Avignon, conférence spécialisée sur le traitement du langage naturel et ses applications (volume 8), 1991.

Trigano P., P. Morizet, P.Le Beux : “DIALPHIL, a man-machine interface in natural language. Application to an expert system”, 2nd International Expert Systems Conference and Exhibition, Londres, 1986.

Trigano P. : “Qui a peur des fotes d'orthografe (ou de frappe) ? ” , MARI - COGNITIVA , Paris, 1987.

Trigano P., J.P.Barthès, F.Vallernaud, C.Gréboval : “Querying an Object Oriented DataBase using Free Language”, publié dans la revue International Journal of Pattern Recognition and Artificial Intelligence 3 (4), USA, 1990. Et aussi publié dans le livre “Advances in AI”, J.Bezdek, Wold Scientific series in Computer Sc, vol 27, Ed Wold Scientific, Singapore 1990.


Outils pour utilisateurs