UMR CNRS 7253

Outils du site


fr:iti

I.T.I.

Indexation de Textes Informatisés

Intéressés

Philippe Trigano, Jean-Philippe Deloison, Marie-Christine Villain, Sid Lamrous

Objectif du projet

Dans les bases de données textuelles, les connaissances sont stockées de manière brute, non structurée. On enregistre non pas une modélisation (ou représentation) de la connaissance, mais directement les informations textuelles (rapports techniques, mémos, notes techniques, etc…). Les grandes bases de connaissances rassemblant des textes sont apparues vers les années 50 comme des applications privilégiées de la puissance des ordinateurs. La recherche d'information doit être efficace en réponse à une simple question : les informations recherchées sont des textes (ou des parties de textes), les requêtes de l'utilisateur peuvent être des questions ou des petits textes descriptifs. Il faut donc pouvoir analyser ces informations, de manière à effectuer une mise en correspondance (matching) entre la question (un texte) et les réponses (des textes) possibles.

Contexte

L'intérêt des bases de connaissances textuelles est généralement de collecter un savoir périssable et précieux issu de l'expérience, de le conserver et de le mettre à disposition de toute personne à qui cette expérience pourrait être profitable. Dans le cadre d'une partie de ce projet, nous avons mené notre recherche en collaboration avec le CEA/CEN de Cadarache, pour une partie du projet REX de Retour d'EXpérience : rassembler dans une même base, des connaissances issues d'interviews de spécialistes et de notes techniques, etc… afin de les rendre accessibles.

Caractéristiques

La somme des documents rassemblés, rapidement très importante, est complexe à organiser. La base est construite à l'aide d'un SGBD Orienté Objet, ce qui permet de définir des classes d'objets reliés par des liens typés. Le vocabulaire technique du domaine est implanté sous forme de réseau sémantique. Les objets de ce réseau sont des mots ou des groupes de mots.

Il peut être difficile au consultant d'une telle base d'accéder, sans utiliser un langage particulier, aux textes concernant précisément le sujet qui l'intéresse : le langage naturel est alors idéal. Une première collaboration avec le CEA a permis de réaliser un système de recherche, par interrogation en langue naturelle, des textes contenus dans la base de connaissances. L'utilisateur décrit son problème, sans formalisme spécial, en utilisant une ou plusieurs phrases. En analysant ces phrases (par la technique à base de mots clés plus réseau sémantique de FQUEL), le système détermine les textes qui s'y rapportent et les lui fournit. Pour cette première collaboration, les connaissances linguistiques devaient être saisies manuellement : un expert du domaine analysait ces textes et en déduisait une série de concepts clés.

Une telle approche (indexation manuelle) présentait l'inconvénient d'être très rigide et très contraignante. Cependant, dans le cas de domaines techniques, ou de langages professionnels (dits langages opératifs), il souvent difficile de disposer d'un thésaurus (ou d'ontologies du domaine), ou d'en faire réaliser un. Se pose alors le problème du choix des concepts. Il est intéresseant de se tourner vers l'acquisition automatique de tels concepts.

En effet, dans le cadre du Traitement Automatique du Langage Naturel, tout système doit s'appuyer sur un lexique. Une fois le modèle défini, reste le problème de l'acquisition des mots et de leur insertion. Cette tâche est fastidieuse pour un opérateur humain, car d'une part il ne faut oublier aucun mot, et d'autre part l'acquisition d'un concept nouveau nécessite l'entrée d'un certain nombre de paramètres. Nous avons donc cherché à pallier ces problèmes en automatisant l'enrichissement d'un lexique déjà intégré.

ANA (Acquisition Naturelle Automatisée) est un module annexe à la base textuelle, développé dans le cadre de la thèse de Chantal Enguehard. Il intervient pour soulager l'expert dans l'enrichissement du réseau des concepts. Sa tâche peut se décomposer en deux objectifs : écouvrir de nouveaux concepts et établir de nouveaux liens entre les concepts. Ce système lit ces documents, les analyse, et en déduit une connaissance nouvelle, permettant d'une part d'enrichir le lexique, et d'autre part d'indexer automatiquement le texte analysé, ce qui permet de retrouver automatiquement des textes à partir d'une description en langage naturel.

Nous avons essayé de pousser la logique d'un système 'sans connaissance' initiale le plus loin possible, en supprimant certaines des connaissances préalables. Une première étape consiste à créer automatiquement, à partir de méthodes essentiellement statistiques, un bootstrap composant un noyau initial de concepts. L'examen du contexte local des concepts de ce bootstrap, permet au système l'établissement automatique de règles à la base de la découverte de nouveaux concepts. Celles-ci peuvent ensuite évoluer au cours du temps avec l'accroissement de “l'expérience” du système.

Références

Abel Y. : “Indexation automatique de données textuelles”, Rapport de DEA 'Contrôle des Systèmes', Université de Technologie de Compiègne, Dépt Génie Informatique, Septembre 1993.

Enguehard C. : “Acquisition naturelle automatique d'un réseau sémantique”, Thèse de doctorat de l'Université de Technologie de Compiègne, décembre 1992.

Enguehard C., P. Malvache, P. Trigano : “Indexation de textes : l'apprentissage des concepts” , COLING-92, 14 ième conférence internationale en linguistique informatique, Nantes, 1992.

Enguehard C., P. Trigano, P. Malvache : “ANA Automatic Natural Acquisition” , publié dans la revue International Journal of Pattern Recognition and Artificial Intelligence, Vol 7 Ndeg.2, Avril 93.

Enguehard C., P. Trigano, P. Malvache : “ANA, Automatic Natural Acquisition”, IDCAR, 1rst International Conference on Document Analysis and Recognition, Saint-Malo, Octobre 1991.

Ramaux N. : “Acquisition automatique et polysémie en langage naturel”, Rapport de DEA 'Contrôle des Systèmes', Université de Technologie de Compiègne, Dépt Génie Informatique, Septembre 1993.

Wysocki J-E. : “Langage Naturel et Systèmes d'Information”,. Rapport de DEA 'Contrôle des Systèmes', Université de Technologie de Compiègne, Dépt Génie Informatique, juillet 1989.


Outils pour utilisateurs