Dans la situation économique actuelle, de nombreuses entreprises s'interrogent sur une meilleure utilisation de leur capital de connaissances. Elles disposent de dizaines d'années d'activités durant lesquelles se sont accumulées de nombreuses connaissances (expérience et savoir-faire ), en général sous la forme de rapports, notes techniques... archivées et mal exploitées, d'où le besoin actuel de capitaliser les connaissances et l'expérience acquise, et un intérêt prononcé pour la gestion des connaissances et du savoir-faire de l'entreprise.
D'un point de vue technique, on peut envisager de stocker ces diverses connaissances dans des bases de données hypertextes et multimédia (étant donnée la diversité des objets manipulés : textes, photos, dessins/schémas, plans, sons et parole, et parfois même séquences vidéo pour présenter un produit, un procédé ou l'activité d'un expert).
Nous construisons actuellement un logiciel destiné à la gestion de documents techniques ou administratifs, permettant d'une part l'archivage de textes rédigés en langage naturel (et de schémas, cartes, plans et séquences vidéo) et d'autre part l'interrogation et la consultation en langage naturel de la base de connaissances ainsi constituée.
A l'issue d'un tel projet, l'utilisateur pourra ainsi consulter ce réservoir de connaissances, en décrivant, en français, son problème ou l'objet de sa consultation. Le système devra analyser la requête de l'utilisateur, et rechercher dans sa base de connaissances les textes, images ou séquences vidéo les plus appropriées, en indiquant éventuellement les parties les plus importantes, ainsi que les références et le cheminement effectué.
Il sera ainsi possible de mettre à la disposition d'un très grand nombre de personnes des encyclopédies techniques (sur des domaines bien ciblées) `intelligentes', pouvant comprendre les besoins des utilisateurs et y répondre dans des temps acceptables, par le biais d'un dialogue en langage naturel (le français courant), et non à travers une série de langages formels de requêtes.
Les avantages comparatifs d'un tel système sont les suivants :
- Disponibilité sur Micro-ordinateur (Macintosh portable ou compatible PC)
- Faible coût, donc accessible au PMI/PME et administrations
- Facilité d'utilisation et grande convivialité, du fait de l'emploi du langage naturel et de l'interface homme/Machine graphique adaptée. Le système sera donc utilisable par un grand nombre de personnes, non spécialistes.
Un tel projet est intéressant à plusieurs titres, et concerne :
- Les sociétés soucieuses de la sauvegarde et la gestion des connaissances de l'entreprise.
- Les services techniques désireux de sauvegarder et mettre à la disposition de ses employés des connaissances techniques (ou expertes) provenant de spécialistes du domaine.
- Les administrations ayant le souhait de faciliter la recherche d'informations administratives ou commerciales.
- Les éditeurs d'encyclopédies techniques désirant mettre à la disposition de PME/PMI des savoir-faire bien identifiés.
- Les éditeurs d'encyclopédies thématiques voulant proposer au grand public des encyclopédies interactives par le biais de l'informatique.
Dans une première partie, nous effectuerons une description globale du projet, en insistant sur les développements restant à réaliser. Le chapitre deux se focalisera plus sur la partie traitement automatique des textes (langage naturel, indexation automatique...), actuellement opérationnelle et déjà validée. Une troisième partie montrera un exemple de traitement automatique de connaissances textuelles, réalisé dans le cadre d'une collaboration avec la banque de france.
I DESCRIPTION GéNéRALE DU PROJET
Aujourd'hui, la plupart des systèmes interrogeables en langage naturel fonctionnent sur des machines très coûteuses et nécessitant de gros logiciels. En effet, tout système de Traitement Automatique du Langage Naturel doit s'appuyer sur un lexique, souvent très volumineux. Des études ont été entreprises afin d'intégrer des dictionnaires 'papier' pré-existants. Toutefois, ces derniers ne sont pas exempts de défauts, et restent bien souvent très incomplets lorsqu'il s'agit de traiter un domaine technique, très spécialisé. De plus, ils nécessitent énormément de place mémoire et des moyens informatiques très coûteux pour des PME/PMI.
Nous avons déjà réalisé un logiciel permettant de pallier ces problèmes en automatisant l'acquisition et l'enrichissement d'un lexique informatique pour le traitement de la langue, dans des applications techniques et industrielles (projet I.T.I., [ENGUEHARD & al 93] [ABEL 93] [DELOISON 94] [TRIGANO 94]). Ce système fonctionne correctement et donne de bons résultats. Nous avons lancé l'an passé un projet de recherche (projet S.B.C.T., thèse de Marie-Christine VILLAIN) pour l'utilisation de ce logiciel dans le cadre de l'indexation automatique de textes, et commençons à avoir des résultats pertinents pour la gestion et l'interrogation en langue naturelle de textes techniques (nucléaire), scientifiques (médecine) ou administratifs (droit des travailleurs dans la communauté européenne).
Cette démarche s'insère tout naturellement dans le plan de développement de notre équipe de recherche, puisque nous travaillons depuis dis ans sur ce domaine [TRIGANO 94] et avons constitué un groupe de recherche, appelé LCS (pour Langage, Compréhension et Synthèse) au sein du pôle IA du Laboratoire HEUDIASYC (URA CNRS 817). Nous avons eu plusieurs contrats de recherches avec des groupes industriels (CEA, DCAN), administratifs (Banque de France) ou même des PME/PMI (SAVEGA informatique), sur des projets relatifs à l'analyse et la compréhension automatique de documents écrits en langage naturel.
Diverses parties restent à réaliser pour terminer le projet. Dans un premier temps, nous utiliserons une architecture de bases de données et de connaissances textuelles déjà développée par notre équipe. Puis nous adapterons cette structure à la gestion de données multimédia, ce qui a déjà été partiellement testé. Il sera ainsi possible d'archiver sons, images et vidéos dans un même et unique environnement de travail, convivial et interactif. Enfin, la grosse partie du travail consistera à intégrer les modules de traitement du langage naturel déjà réalisé par l'équipe. Là encore, différentes étapes peuvent être identifiées.
Dans un premier temps, la grande quantité de textes stockés dans la base sert à une acquisition automatique des concepts utilisés dans le domaine concerné, grâce au logiciel d'acquisition de mots nouveaux déjà réalisé. Nous nous sommes déjà intéressés aux problèmes de lemmatisation pour 'normaliser' l'acquisition de concepts aux formes morphologiques différentes (singulier/pluriel, masculin/féminin etc...). Dans le cadre d'une collaboration avec le CEA, nous avons déjà réalisé ce type de logiciel. Nous avons travaillé dans un domaine technique sur lequel étaient stockés des textes de toutes natures : interviews d'experts, notes techniques... Notre système, appelé ANA, lit ces documents, les analyse, et en déduit une connaissance nouvelle, permettant d'une part d'enrichir le lexique, et d'autre part d'indexer automatiquement le texte analysé, ce qui permet de retrouver automatiquement des textes à partir d'une description en langage naturel. Un avantage majeur de cet apprentissage automatique de concepts est d'être très proche du langage utilisé naturellement par les experts. En effet, le système connaît les mots employés couramment par les techniciens et ingénieurs du domaine, même s'il ne s'agit pas de langage académique.
Dans une seconde étape, nous utilisons des techniques issues de l'analyse de données (projet ALCESTE de Max Reinert [REINERT 90]) ou de cooccurrence de mots (projets CANDIDE [TEIL 91] et LEXIMAPPE [MICHELET 88]). Ces méthodes ont été testées par [RAMAUX 93] et implantées par [DELOISON 94], ce qui permet une classification sémantique (micro-contextes et taxinomies) des concepts utilisés, ainsi qu'une détection de cas de polysémies.
Une fois ces connaissances lexico-sémantiques acquises, des outils d'aide à l'acquisition de connaissances pragmatiques peuvent être utilisés pour faciliter à l'utilisateur la description de situations typiques et de cas représentatifs du domaine d'expertise concerné. Une fois toutes ces connaissances acquises, on obtient une base de connaissances fondée non pas sur des représentations à base de règles de productions, mais sur des représentations à base de 'patterns' ou de cas (structurés sous forme d'objets). De telles bases peuvent également être très utiles, associées aux techniques de raisonnement à base de cas, permettant ainsi la consultation en langage naturel d'un système expert textuel.
Lors d'une consultation d'un tel système, l'utilisateur pourra décrire son problème (ou sa requête) en langue naturelle. Une analyse sémantique de ce texte descriptif, et un raisonnement à base de cas (ou par analogie), permettront une mise en correspondance du texte avec les formes (pattern matching) contenues dans la base. La réponse sera obtenue à partir de portions de textes (de la base de connaissances) sélectionnées et affichées à l'écran, avec possibilité d'hyper-navigation dans la base.
Nous collaborons à ce propos avec la société Savega (PME) : il s'agit de pouvoir décrire un problème à un système expert textuel, en utilisant le langage naturel (thèse de Marie-Christine Villain), ce qui permet une Utilisation en Langue Naturelle d'un Système Intelligent de Documentation". Le projet a pour principal objectif la réalisation d'un outil permettant l'archivage de documents textuels rédigés en langage naturel, pour un domaine ciblé (la diététique, droit des automobilistes, droit des contraventions,...) et leur interrogation en langage naturel. L'usager pourra donc consulter cette encyclopédie intelligente directement à partir d'une requête en langage naturel. Il sera ainsi possible de mettre à la disposition d'un très grand nombre de personnes (les usagers du minitel) des encyclopédies techniques facilement accessibles à un utilisateur novice.
Tous ces outils ont déjà été développés dans notre laboratoire, mais existent sous des systèmes différents (Vax, stations Sun, macintosh...) et ont été développés avec des langages de programmation différents (Lisp, C, 4D...). Une grosse partie du travail consistera donc à homogénéiser ces divers logiciels et à les intégrer en un seul et même système, sur micro-ordinateur portable et compatible avec la plupart des ordinateurs actuels (d'où l'idée d'un power Mac, compatible PC).
II INDEXATION AUTOMATIQUE DANS LE SYSTEME TEXTUEL
Dans les bases de données textuelles, les connaissances sont stockées de manière brute, non structurée. On enregistre non pas une modélisation (ou représentation) de la connaissance, mais directement les informations textuelles (rapports techniques, mémos, notes techniques, etc...). On trouve même des applications de type système expert textuel (ou mini-encyclopédie sous forme de textes numérisés), raisonnant à base de cas [RIESBECK et SCHANK 89], dont la base de connaissances est constituée uniquement de textes stockés dans une base de données.
Les informations recherchées étant essentiellement des textes (ou des parties de textes), les requêtes de l'utilisateur peuvent être des questions ou des petits textes descriptifs. Il faut donc pouvoir analyser ces informations, de manière à effectuer une mise en correspondance (matching) entre la question (un texte) et les réponses (des textes) possibles.
On trouvera dans [KAYSER 85] ou [TRIGANO 94] une présentation générale des recherches dans la domaine du traitement des langues naturelles. Une description plus détaillée est disponible dans [SABAH 88] [SABAH 89]. [GROSZ et al 86] et [LEHNERT et RINGLE 82] présentent une synthèse de divers articles marquants dans le domaine.
Les systèmes documentaires peuvent prendre la forme de bases de connaissances renfermant de grandes quantités de textes, dépositaires de la connaissance sur un système industriel et son évolution. [VAN SLYPE 73] nous indique que dans de tels systèmes textuels, il n'est pas utile de consacrer de gros efforts (en particulier en personnel) pour l'analyse du corpus et la modélisation des connaissances, dans la mesure où il n'est jamais certain qu'un texte donné ressortira un jour en réponse aux questions des utilisateurs. En effet, vue la masse importante de textes stockés, une acquisition puis modélisation des connaissances représenterait un travail considérable, d'où le choix d'une approche plus simple que l'analyse syntaxico-sémantique/pragmatique. L'indexation automatique consiste alors à détecter automatiquement les termes jugés les plus représentatifs du contenu du document, ce qui peut être considéré comme une certaine forme d'acquisition de connaissances. Lors de l'interrogation du système, le principe consiste à indexer la requête (texte ou question) et à effectuer une mise en correspondance avec les index des textes stockés. On trouvera un état de l'art dans [DACHELET 90].
Cette acquisition automatique des connaissances peut alors revêtir diverses formes, souvent à base d'algorithmes "statistiques", reposant sur l'idée que plus un mot apparaît souvent, plus il est significatif. [LUHN 57] suggère dès 1957 de se baser sur l'analyse de la fréquence des mots pour indexer les textes. [MARON et KUHNS 60] introduisent, à travers le système KWIC, la notion d'indexation probabiliste. [STILES 61] s'intéresse à l'acquisition des connaissances pour la construction de thésaurus, en étudiant les fréquences conjointes de paires de termes linguistiques relativement à leurs fréquences individuelles. Il introduit une composante linguistique en lemmatisant les mots des textes à analyser. [SALTON et al 75] [SALTON et al 76] utilise le calcul du pouvoir discriminant d'un terme, afin de faire ressortir l'importance de ce terme dans certains documents par rapport à d'autres (certains termes sont très rares dans un ensemble de documents et fréquents dans un texte particulier). [FLUHR 77] propose divers algorithmes pour l'apprentissage de connaissances utilisées pour les interfaces textuelles à des systèmes documentaires. D'autres méthodes reposent sur l'étude de la distribution statistique des mots. Un mot porteur de sens sera distribué de manière non uniforme dans un petit nombre de documents, alors qu'un mot vide sera distribué au hasard sur l'ensemble des documents [BOOKSTEIN et SWANSON 75]. Le système AQUEDUC [ANTON et al 88] propose une indexation uniquement à partir des mots contenus dans le titre de chaque document stocké. [LELU 93] utilise des modèles neuronaux, destinés au traitement de grands corpus, pour l'analyse de données documentaires et textuelles. Le logiciel CANDIDE [TEIL 91] fabrique des réseaux de mots associés. Ces derniers sont ensuite analysés en utilisant les principes de calculs de réseau et la procédure LEXIMAPPE de classification automatique définis dans [MICHELET 88]. Ceci fait alors apparaître des agrégats (ou sous-réseaux) indiquant les différents thèmes évoqués dans le texte. De même, le logiciel ALCESTE (Analyse Lexicale par Contexte d'un Ensemble de Segments de Texte) de [REINERT 90] implémente une classification hiérarchique dont le but est d'extraire les différents thèmes d'un texte ainsi que les phrases types de chaque thème.
Selon [FLUHR 84] l'approche qui semble donner satisfaction est une méthode mixte linguistique et statistique, où un modèle statistique simple s'appuie sur une analyse linguistique plus poussée. Le système SPIRIT [ANDREEWSKY et al 83a] [ANDREEWSKY et al 83b], système probabiliste d'indexation et de recherche d'information textuelle de la société SYSTEX, fonctionne sur ce principe. Il a pour but de calculer une proximité sémantique entre une question rédigée en langue naturelle (ou l'exposé d'un problème) et les textes stockés dans la base. [EVANS et al 91] utilise divers traitements linguistiques pour l'indexation automatique de textes : prise en compte de la variation des formes lexicales, connaissance des structures syntaxiques, équivalences sémantiques... La méthode de l'analyse de la sémantique latente [FURNAS 88] [DUMAIS et al 88] [DEERWESTER et al 90] prend en compte certains phénomènes indésirables souvent rencontrés dans les méthodes statistiques. Parfois, un document n'est pas trouvé, alors qu'il répond à la demande, car les mots de l'interrogation ne sont pas identiques à ceux du texte, car synonymes (au contraire, les homonymes provoquent le rappel de textes non pertinents). Les auteurs de cette méthode supposent que les textes sont porteurs d'une structure sémantique implicite dont ils tentent d'extraire les concepts en tant qu'unité de sens. Le système 'Who knows' [STREETER et LOCHBAUM 88] construit un espace sémantique en utilisant cette technique et représente automatiquement des classes de synonymes. [LANDAUER et LITTMAN 91] utilisent cette technique dans le cadre d'une base contenant des textes de langues différentes, et parviennent à mettre en correspondance des mots, des groupes de mots, des segments de textes, participant ainsi à un certain type de traduction automatique. Le système JAKS (Julls Automated Keywording system) [DRISCOLL et al 88] utilise une base de règles appliquées aux expressions trouvées dans les textes. Les règles d'insertion utilisent l'exploitation de la synonymie, tandis que les règles d'éliminations suppriment les expressions ambiguës. Les expressions résultantes servent de base à l'indexation. Le système FASIT [DILLON et GRAY 83] utilise l'approche des patrons catégoriels, où le texte est analysé afin de donner à chaque mot une étiquette spécifiant sa catégorie lexicale. Des configurations sont alors retenues par instanciation de patrons prédéfinis comme 'nom de nom.'. LEXTER, développé par [BOURIGAULT 92], recherche des unités terminologiques assimilées à des groupes nominaux composés figés, dont la structure grammaticale est particulière. Une analyse morphologique établit les catégories grammaticales des termes. Un module d'analyse syntaxique détecte les frontières des groupes nominaux en se basant sur la catégorie grammaticale des termes. Les expressions candidates sont filtrées en fonction de leur fréquence. Sont éliminées les expressions apparaissant trop rarement ou trop souvent. Les éléments terminologiques ainsi sélectionnés sont ensuite validés par un expert.
Il peut être difficile au consultant de telles bases textuelles d'accéder, sans utiliser un langage particulier, aux textes concernant précisément le sujet qui l'intéresse : le langage naturel est alors idéal. Une première collaboration avec le CEA nous a permis de réaliser, en utilisant le principe de l'interface FQUEL, un système de recherche, par interrogation en langue naturelle, des textes contenus dans la base de connaissances [WYSOCKI 89]. Dans le but de traiter de grandes quantités de textes, il nous a fallu privilégier des solutions simples. La complexité des traitements classiques de Langage Naturel s'oppose au volume de textes à intégrer. Des considérations de taille mémoire et de temps de calcul nous ont amenés à chercher des méthodes particulières privilégiant la simplicité et mieux ciblées sur nos objectifs.
La somme des documents rassemblés, rapidement très importante, est complexe à organiser. La base est construite à l'aide d'un SGBD Orienté Objet, ce qui permet de définir des classes d'objets reliés par des liens typés. Le vocabulaire technique du domaine est implanté sous forme de réseau sémantique. Les objets de ce réseau sont des mots ou des groupes de mots. Les concepts sont donc structurés en un réseau. Ils sont reliés les uns aux autres par des liens de natures sémantique et technique. De la même façon, les textes sont des objets liés de façon spécifique aux concepts. L'utilisateur décrit son problème, sans formalisme spécial, en utilisant une ou plusieurs phrases. En analysant ces phrases (par la technique à base de mots clés plus réseau sémantique de FQUEL), le système détermine les textes qui s'y rapportent et les lui fournit. Pour cette première collaboration, les textes devaient être indexés manuellement : un expert du domaine analysait ces textes et en déduisait une série de concepts clés.
Une telle approche (indexation manuelle) présentait l'inconvénient d'être très rigide et très contraignante. [SALTON 66] [SALTON 86] a démontré les inconvénients de l'indexation manuelle. Par exemple, deux sujets différents ne choisissent qu'à 70 % des mots clés identiques pour indexer un même document à l'aide du même thésaurus. Le problème du choix des concepts est contourné lorsque l'on utilise l'ensemble du thésaurus comme critère d'indexation.
Cependant, dans le cas de domaines techniques, ou de langages professionnels (dits langages opératifs [FALZON 89]), il n'est pas toujours possible de disposer d'un thésaurus (ou d'ontologies du domaine, comme dans le projet américain KSE [NECHES et al 91]), ou d'en faire réaliser un. Se pose alors le problème du choix des concepts. Il est intéresseant de se tourner vers l'acquisition automatique de tels concepts.
ANA est un module annexe à la base textuelle [ENGUEHARD 92] [ENGUEHARD et al 92] [ENGUEHARD et al 93]. Il intervient pour soulager l'expert dans l'enrichissement du réseau des concepts. Sa tâche peut se décomposer en deux objectifs :
- Découvrir de nouveaux concepts,
- Etablir de nouveaux liens entre les concepts.
Notre hypothèse de départ est que les mots souvent proches dans le texte sont liés sémantiquement. Cette idée n'est pas nouvelle. On peut la retrouver dans un certain nombre d'applications pour la compréhension du langage naturel, telles que les dictionnaires électroniques [VERONIS et al 90 b], l'analyse de la polysémie [FOREST 90], ou l'interrogation de bases de données textuelles [BONNET et PIGAMO 91]. Il sera alors intéressant de pouvoir détecter automatiquement une telle relation entre concepts, de manière à construire des "expressions" (groupes de mots) représentant des objets proches des "collocational expression" de [CHOUECA 88].
Deux postulats, se référant à des aspects statistiques ou surfaciques du langage, ont été utilisés :
1) Fréquence : Si des mots sont souvent proches (associés) dans un texte, ils forment une unité significative (exemple : "système expert", "centrale nucléaire", "réseaux neuronaux"...).
2) Configuration : Certaines prépositions (appelées "schémas" pour 'termes caractéristiques de schémas syntaxiques') lient des concepts entre eux de façon privilégiée. Si l'on détecte une telle configuration avec un concept connu et un mot inconnu, ce dernier est alors susceptible de devenir un concept. Ces configurations sont du type "mot inconnu - schéma - concept connu" ou "concept connu - schéma - mot inconnu".
Dans une première approche, le traitement débutait après que l'expert ait amorcé le processus de transfert du vocabulaire du domaine vers le réseau. En effet, l'analyse des textes sources tient compte du réseau de concepts existant, afin de l'enrichir. Dans la version actuelle, l'intervention préalable de l'expert n'est plus nécessaire. Le système détermine automatiquement le bootstrap (noyau de concepts) autrefois défini par l'expert. Ce dernier n'intervient alors qu'en fin de processus pour vérifier et valider les concepts choisis par le logiciel.
Il faut cependant préciser que l'efficacité du système dépend du nombre de textes pris en compte. Pour la détermination du bootstrap, il faut considérer utiliser au minimum 60 000 mots , contenus dans des textes relatifs à un même domaine (le domaine à expertiser). Pour pouvoir obtenir des résultats satisfaisants, au niveau des listes de mots vides et de mots de schémas, il est indispensable de disposer d'un échantillon de textes d'environ 100 000 mots, issus de l'examen de différents corpus, associés à des domaines distincts. En effet, si l'on étudie des textes d'un même domaine, certains mots-clés (ou concepts) risqueront d'être interprétés comme des mots vides, à cause de leur grande fréquence d'apparition dans le texte.
Après la définition de ce noyau initiateur (bootstrap), extrait de l'ensemble des concepts intégrés au réseau, le module d'apprentissage va ensuite 'découvrir' de nouveaux concepts en lisant les textes desquels il tirera sa connaissance. Le résultat de son travail est l'augmentation du nombre de concepts connus, la confirmation des concepts du démarrage et une augmentation de la densité du réseau de concepts par l'établissement de nouveaux liens.
Le processus est itératif : la découverte de nouveaux concepts entraîne la création de nouvelles expressions et de nouveaux candidats qui peuvent alors engendrer de nouveaux concepts, etc...
III APPLICATION A LA GESTION DE CONNAISSANCES ECONOMIQUES
Une application industrielle nous a permis de valider un certain nombre d'idées développées dans le cadre de la plateforme DOCAL (Développement d'Outils pour la Compréhension du Langage) évoquée dans [TRIGANO 94]. Ce travail s'est inscrit dans le cadre du projet HIRON-DELLE du CIA (Centre d'Intelligence Artificielle) de la Banque de France. Le but était d'analyser automatiquement des formulaires sur l'activité économique des entreprises sur le court terme, dans les secteurs du bâtiment, de l'industrie, du commerce et des services. Ces formulaires sont envoyés régulièrement par des services régionaux à la direction de la conjoncture.
Notre collaboration a concerné l'analyseur des textes, et la représentation du contenu sémantique de ces derniers. Les textes sont stockés dans une base de connaissances textuelles. Là encore, nous sommes en présence d'un sous-langage, associé à domaine ciblé. Ainsi, une phrase telle que "Forte demande des ajourés mais baisse des lacets" signifie que 'les chaussures d'été, de type sandalettes, ont été beaucoup vendues, alors qu'il y a eu moins de ventes de chaussures à lacets'.
Une présentation détaillée de ce travail pourra être trouvée dans [PLANES et TRIGANO 93] [PLANES 93].
Les entités représentent tous les acteurs et objets du commerce de détail. Elles sont structurées selon des propriétés (traits sémantiques) du type concret/abstrait, animé/inanimé, lieu, matériaux, etc... Elles peuvent comporter des attributs, devenant ainsi des objets (ou frames) représentés sous une forme (objet attribut valeur). Par exemple, le concept 'chaussure' aura comme trait 'concret', et comme attributs (bénéficiaire : humain), (partie : semelle, lacets, etc...), (couleur : une couleur), (matière : cuir, plastique...), (utilisation : sport, ville, plage...) etc... Cette description structurelle est très utile pour les problèmes de métonymie. Ainsi, l'expression "gros succès des lacets" pourra être interprétée comme "gros succès des chaussures à lacets", grâce au lien entre chaussure et lacets (attribut 'partie'). De plus, certains concepts peuvent appartenir à plusieurs domaines du commerce de détails : c'est le cas par exemple de 'article'. Cependant, dans le domaine spécifique du commerce de la chaussure, ce mot se réfère au concept 'chaussure'. Ainsi, 'article sport' sera interprété comme ('chaussure de sport'), en utilisant l'attribut 'utilisation' liant 'chaussure' à 'sport' (de même pour 'article de plage').
Les prédicats quant à eux sont divisés en trois catégories : états statiques (être, valoir,...), mouvement (bouger) ou changement d'état (augmenter, diminuer...), et action. Les actions peuvent être de type échange (livrer, commander, acheter, vendre...), ou porter sur des évènements (stopper, annuler, relancer...). Des primitives prédicatives [DEVILLE et al 87] [MOUSEL 90], telles que celles présentées dans le projet DOCAL [TALON 91] [TRIGANO 94] ont été associées aux prédicats. Des relations casuelles [FILLMORE 68] ont également été utilisées (agent, bénéficiaire, instrument, objet...) permettant d'introduire des contraintes au niveau des prédicats et de leurs relations avec les autres concepts de la base. Par exemple, dans le domaine du commerce de détail, 'vendre' nécessite un agent humain ('vendeur'), un bénéficiaire humain ('client') et un objet concret ('article'). Ainsi, le fait de savoir qu'un article peut être objet du verbe vendre permet d'interpréter une phrase telle que "bon comportement des articles d'été" comme "les articles d'été ont été bien vendus".
Un processus d'inférence est utilisé dans les cas d'information implicite ou de métonymie. Chaque entité 'évaluable' du domaine est en relation (par un trait) avec une 'fonction de satisfaction' du locuteur, ce qui permet de réduire l'engagement de celui-ci lors de la perception des évolutions. Ainsi, la phrase "les ventes se sont améliorées" pourra être transformée en "les ventes ont augmenté". De la même façon, l'engagement du locuteur dans la relation des situations d'influence permet de déduire la situation résultante : "les soldes ont eu une heureuse influence sur les ventes" sera alors interprété de la même façon que "en raison des soldes, les ventes ont augmenté". Pour la compréhension des métonymies, les relations entre concepts sont alors utilisées. Ainsi, la phrase "hausse des cuirs" sera dans un premier temps transformée en "hausse des chaussures en cuir" (du fait de l'attribut 'matière' de l'objet chaussure pouvant contenir la valeur 'cuir'), puis en "hausse des ventes de chaussures en cuir".
Des règles simples telles que 'si un article plaît aux clients alors il est acheté' permettent d'interpréter la phrase "les chaussures de mode ont été très appréciées par les jeunes clients" en "les jeunes clients ont achetés beaucoup de chaussures de mode"). De même, après la première phase d'analyse, la phrase "l'augmentation des soldes a eu un bon impact sur les stocks" sera représentée par : (Impact (qualité bonne) (source (augmentation soldes)) (objet stocks)). Des connaissances pragmatiques associées au concept "impact" permettront de déduire : (Impact (source (augmentation soldes)) (but (amélioration stocks)). Enfin, d'autres règles telles que "plus les stocks sont bas, meilleure est la situation" entaîneront la réduction suivante, qui pourra être interprétée comme "l'augmentation des soldes a entraîné une diminution des stocks" : (Impact (source (augmentation soldes)) (but (diminution stocks)).
La forme finale de l'interprétation du texte devient alors un réseau d'évènements économiques reliés par des relations causales (influence, résultat, explication, but...). Toutes les paraphrases ayant été réduites, le réseau contient uniquement l'information nécessaire pour la génération d'un résumé de synthèse.
Dans l'avenir, de telles analyses automatiques des textes pourraient très bien alimenter une base de données documentaire, constituant ainsi une base de connaissances textuelles. Cela permettrait de conserver les enquêtes de conjoncture économique, et de retrouver les cas les plus pertinents, lors d'une consultation en langue naturelle d'un tel système expert textuel.
CONCLUSION
Nous espérons voir aboutir dce projet dans une perspective de deux à trois ans. D'ores et déjà, un certain nombre d'aspects sont opérationnels, et permettent d'apporter une aide non négligeable au problème de la conservation et de la gestion des connaissances de l'entreprise. Il reste cependant à valider le système en grandeur réelle, en essayant de stocker toutes les connaissances d'un service ou d'une équipe donnés. L'avenir nous permettra de tirer des conclusions quant à la pertinence d'une telle approche.
REFERENCES BIBLIOGRAPHIQUES
[ABEL 93] Y. ABEL : "Indexation nautomatique et traitement du langage naturel", Rapport de DEA 'Contrôle des Systèmes', Université de Technologie de Compiègne, Septembre 1993.
[ANDREEWSKY et al 83a] A.ANDREEWSKY, BINQUET, F.DEBILI, C.FLUHR, PONDEROUX : "L'interrogation en langage naturel dans le système SPIRIT", Journées internationales de l'informatique et de l'automatisme, pp 322-332, 1983.
[ANDREEWSKY et al 83b] A.ANDREEWSKY, F.DEBILI, C.FLUHR : "Apprentissage - syntaxe - sémantique lexicale", Revue du palais de la découverte, Vol 9, ndeg.83, Décembre 1983.
[ANTON et al 88] JP.ANTON, F.DAGORRET, F.LARRIEU : "The AQUEDUCT system", RIAO'88 Recherche d'Information Assistée par Ordinateur, pp 51-64, MIT, Cambridge, Massachussetts, USA, Mars 1988.
[BONNET et PIGAMO 91] A. BONNET, F. PIGAMO : "Recherche de références cataloguées à partir de requêtes en langage libre", Génie Linguistique 91, EC2, Versailles, Jan1991.
[BOOKSTEIN et SWANSON 75] A.BOOKSTEIN, D.R.SWANSON : "A decision theoretic foundation for indexing", journal of the american society for information science, vol 26, pp 45-50, 1975.
[BOURIGAULT 92] D.BOURIGAULT : "Lexter, vers un outil linguistique d'aide à l'acquisition des connaissances", 3èmes journées d'acquisition des connaissances (JAC) du PRC-IA, Dourdan, France, Avril 1992.
[CHOUECA 88] Y.CHOUECA : "Looking for needles in a haystack or locating interesting collocational expressions in large textual databases", User-oriented context-based text and image handling, RIAO 1988, pp : 609 - 623, 1988.
[DACHELET 90] R.DACHELET : "Etat de l'art de la recherche en informatique documentaire : la représentation des documents et l'accès à l'information", rapport ndeg.1201, programme 8 - communication homme-machine, INRIA Rocquencourt, 1990.
[DEERWESTER et al 90] S.DEERWESTER , S.T.DUMAIS, G.FURNAS, T.K.LANDAUER, R.HARSHMAN : "Indexing by latent semantic analysis", journal of the american society for information science, pp 391-407, ndeg.41, 1990.
[DELOISON 94] J.P.DELOISON : "Acquisition automatique de connaissances linguistiques pour l'indexation automatique", Rapport de DEA 'Contrôle des Systèmes', Université de Technologie de Compiègne, Juillet 1994.
[DEVILLE et al 87] G. DEVILLE, H. PAULUSSEN, J.M. PIERREL : "Une grammaire de cas comme modèle de représentation sémantique d'énoncés de dialogue oraux homme-machine finalisés", 6ème congrés RdF et IA, Antibes, Novembre 1987, ed DUNOD, 1987.
[DILLON et GRAY 83] M.DILLON, A.S.GRAY : "FASIT : A fully fonctional (syntactically) based indexing system", journal of the amerisan society for information science, vol 34, ndeg.2, pp 99-108, 1983.
[DRISCOLL et al 88] R.DRISCOLL, D.A.RAJALA, W.H.SCHEFFER, W.THOMAS : "An application of artificial intelligence techniques to automated keywording", RIAO'88 Recherche d'Informations Assistée par Ordinateur, pp 500-511, MIT, Cambridge, Massachussetts, USA, Mars 1988.
[DUMAIS et al 88] S.T.DUMAIS, G.FURNAS, T.K.LANDAUER, S.DEERWESTER, R.HARSHMAN : "Using latent semantic analysis to improve access to textual information", CHI'88, pp 281-286, 1988.
[ENGUEHARD 92] C.ENGUEHARD : "Acquisition naturelle automatique d'un réseau sémantique", Thèse de doctorat de l'Université de Technologie de Compiègne, décembre 1992.
[ENGUEHARD et al 92] C. ENGUEHARD - P. MALVACHE - P. TRIGANO : "Indexation de textes : l'apprentissage des concepts" , COLING-92, 14 ième conférence internationale en linguistique informatique, Nantes, juillet 1992.
[ENGUEHARD et al 93] C. ENGUEHARD - P. TRIGANO - P.MALVACHE : "ANA Automatic Natural Acquisition" , publié dans la revue International Journal of Pattern Recognition and Artificial Intelligence, Vol 7 Ndeg.2, Avril 93.
[EVANS et al 91] D.A.EVANS, K.GINTHER-WEBSTER, M.HART, R.G.LEFFERTS, I.A.MONARCH : "Automatic indexing using NLP and first order thesauri", RIAO'88 Recherche d'Informations Assistée par Ordinateur, pp 500-511, MIT, Cambridge, Massachussetts, USA, Mars 1988.
[FALZON 89] P.FALZON : "Ergonomie cognitive du dialogue", Presses Universitaires de Grenoble, Sciences et Technologies de la Connaissance, Grenoble 1989.
[FILLMORE 68] C.J. FILLMORE : "The case for case", in Universalis in linguistic Theory, E Bach et R Harms eds, pp 1-88, New York 1968.
[FLUHR 77] C.FLUHR : "Algorithmes à apprentissages et traitement automatique des langues", Thèse de l'université de Paris XI, Orsay, 1977.
[FLUHR 84] C.FLUHR : "Problèmes d'optimisation de l'accès à l'information dans les bases de données textuelles", dans les actes des journées 'Applications informatiques conversationnelles et le langage naturel', Volume 2, Juin 1984.
[FOREST 90] F. FOREST : "Le sens d'un énoncé est fondamentalement lié à l'expérience de l'individu qui le perçoit", 4 ème colloque de l'ARC, progrès de la recherche cognitive, Paris.
[FURNAS 88] G.W.FURNAS : "Information retrieval using a singular value decomposition model of latent semantic analysis", 11th ACM international conference on research and development in information retrieval, pp 465-480, 1988.
[GROSZ et al 86] B.J.GROSZ, K.S.JONES, B.L.WEBBER : "Readings in Natural Language Processing", Morgan Kaufmann Publishers, Inc., Los Altos, Californie, USA, 1986.
[KAYSER 85] D. KAYSER : "Des machines qui comprennent notre langue", dans La Recherche ndeg.170 spécial Intelligence Artificielle, pp 1198-1212, Octobre 1985.
[LANDAUER et LITTMAN 91] T.K.LANDAUER, M.LITTMAN : "A statistical method for language-independant representation of the topical content of text segments", 10èmes journées internationales sur les systèmes experts et leurs applications, Avignon, conférence spécialisée sur le traitement du langage naturel et ses applications (volume 8), pp 77-85, mai 1991.
[LEHNERT et RINGLE 82] W.G.LEHNERT, M.H.RINGLE : "Strategies for Natural language Processing", Lawrence Erlbaum Associates Publishers (LEA), Hillsdale, New Jersey, USA, 1982.
[LELU 93] A.LELU : "Modèles neuronaux pour l'analyse de données documentaires et textuelles, organiser de très grands tableaux de données qualitatives e pôles et zones d'influence", Thèse de doctorat de l'université de Paris VI, spécialité mathématiques statistiques, mars 1993.
[LUHN 57] H.P.LUHN : "A statistical approach to mechanized encoding and searching of literary information", IBM journal of research and development, vol 1, ndeg.4, octobre 1957.
[MARON et KUHNS 60] M.E.MARON, J.L.KUHNS : "On relevance, probabilistic indexing and information retrieval", journal of the ACM, vol 7, pp 216-244, 1960.
[MICHELET 88] B.MICHELET : "L'analyse des associations", Thèse de Doctorat de l'Université de Jussieu, Paris VII, 1988.
[MOUSEL 90] P. MOUSEL : "Syntaxe et sémantique dans un système oral homme-machine finalisé en langage naturel", Thèse de doctorat d'université, Université de Nancy I, Avril 90.
[NECHES et al 91] R.NECHES, R.FIKES, T.FININ, T.GRUBER, R.PATIL, T.SENATOR, W.R.SWARTOUT : "Enabling Technology for knowledge sharing", dans AI magazine, 12 (3), pp 16-36, 1991.
[PLANES et TRIGANO 93] JC. PLANES - P. TRIGANO : "Semantic Analysis of Economic Surveys", publié dans la revue Applied Artificial Intelligence, Vol 7, issue 3, septembre 1993.
[PLANES 93] JC.PLANES : "Un système d'anamyse et de génération automatique de textes de synthèse pour les enquêtes de conjonctures de la Banque de France", Thèse de doctorat de l'Université de Technologie de Compiègne, décembre 1993.
[RAMAUX 93] N.RAMAUX : "Acquisition automatique et polysémie en langage naturel" Rapport de DEA 'Contrôle des Systèmes', Université de Technologie de Compiègne, Dépt Génie Informatique, Septembre 1993.
[REINERT 90] M.REINERT : "Alceste, une méthodologie d'analyse des données textuelles et une application : Aurélia de Gérard de Nerval", bulletion de méthodologie sociologique, ndeg.26, pp 24-54, 1990.
[RIESBECK et SCHANK 89] C.K.RIESBECK, R.C.SCHANK : "Inside Case-Based reasoning", LEA Lawrence Erlbaum Associates publishers, Hillsdale, New jersey, USA, 1989.
[SABAH 88] G. SABAH : "L'intelligence artificielle et le langage - Tome 1 : représentation des connaissances", éditions Hermes, 1988.
[SABAH 89] G. SABAH : "L'intelligence artificielle et le langage - Tome 2 : processus de raisonnement", éditions Hermes, 1989.
[SALTON 66] G.SALTON : "Information dissemination and automatic information systems", proc. IEEE 54, 12, decembre 1966.
[SALTON et al 75] G.SALTON, C.S.YANG, C.T.TU : "A theory of terme importance in automatic text analysis", journal of the american society for information science, vol 26, pp 33-34, 1975.
[SALTON et al 76] G.SALTON, C.S.YANG, C.T.TU : "Automatic indexing using term discrimination and term precision measurements", Information processing & management, vol 12, pp 43-51, 1976.
[SALTON 86] G.SALTON : "Another look at automatic text retrieval systems", Communications of the ACM, 29 (7), p 648-656, 1986.
[STILES 61] H.F.STILES : "The association factor in information retrieval", journal of the ACM, vol 8, pp 271-279, 1961.
[STREETER et LOCHBAUM 88] L.A.STEETER, K.E.LOCHBAUM :"Who knows : a system based on automatic representation od semantic structure", RIAO'88 Recherche d'Information Assistée par Ordinateur, pp 380-388, MIT, Cambridge, Massachussetts, USA, mars 1988.
[TALON 91] B.TALON : "Un système d'aide à l'acquisition de concepts nouveaux, pour un outil d'analyse du langage naturel", Thèse de doctorat de l'Université de Technologie de Compiègne, juillet 1991.
[TEIL 91] G.TEIL : "Candide, un outil de sociologie assistée par ordinateur pour l'analyse quali-quantitative de gros corpus de textes", Thèse de doctorat de l'école des mines de Paris, septembre 1991.
[TRIGANO 94] P.TRIGANO : "Des Bases de Données et de Connaissances aux Interfaces en Langue Naturelle : un Enrichissement Réciproque", Habilitation à diriger des Recherches, Université Paris XIII (Paris-Nord, Villetaneuse), janvier 94.
[VAN SLYPE et al 73] G.VAN SLYPE, M.VAN DYKE, M.GUILLOT : "Systèmes documentaires et ordinateurs", les éditions d'organisation, pp 111-121, Paris, 1973.
[VERONIS et al 90 b] J. VERONIS, S. HARIE, N. IDE : "Construction automatique de grands réseaux de neurones pour la désambiguisation du langage naturel", Le traitement du langage naturel et ses applications, conférence spécialisée des dixièmes journées internationales d'Avignon sur les systèmes experts et leurs applications, Avignon, Mai 1990.
[WYSOCKI 89] JE. WYSOCKI : "Langage Naturel et Systèmes d'Information",. Rapport de DEA 'Contrôle des Systèmes', Université de Technologie de Compiègne, Dépt Génie Informatique, juillet 1989.