Fonctions de croyance

La théorie des fonctions de croyance (ou théorie de Dempster-Shafer) généralise à la fois la théorie des probabilités et les approches basées sur une représentation ensembliste des informations (telles que le calcul par intervalle par exemple). En effet, une fonction de croyance peut, à la fois, être considérée comme une mesure non additive (plus précisément, une capacité de Choquet complètement monotone), et comme un ensemble généralisé. Nos contributions dans ce domaine ont porté, notamment, sur :

  • la définition et l’étude de nouvelles règles de combinaison d’information et de nouveaux opérateurs d’affaiblissement ;
  • l’étude de principes permettant de construire de manière rigoureuse des fonctions de croyance à partir d’observations statistiques (fonctions de croyances « prédictives ») ou d’informations qualitatives (grâce notamment à l’extension de la notion d’ordre stochastique) ;
  • l’extension des fonctions de croyance à des treillis quelconques, l’une des applications étant la représentation d’informations partielles sur des variables conjonctives (c’est-à-dire pouvant prendre simultanément plusieurs valeurs) ou sur des relations.

En ce qui concerne les opérateurs de combinaison, la règle de Dempster, qui joue un rôle central dans la théorie des fonctions de croyance, suppose que les sources d’information sont indépendantes, une hypothèse qui n’est pas toujours réaliste. Nous avons proposé un nouvel opérateur de combinaison conjonctive, appelé « règle prudente », adapté à la fusion de sources fiables mais potentiellement redondantes. À l’inverse, une « règle hardie » disjonctive permet la fusion de sources non fiables redondantes. Nous avons montré que ces différentes règles occupent des positions singulières au sein d’ensembles d’opérateurs conjonctifs et disjonctifs basés sur des normes triangulaires ou des uninormes.

L’opérateur d’affaiblissement, un autre outil majeur de la théorie des fonctions de croyance, a pour rôle de pondérer chaque source d’information en fonction de sa fiabilité. Nous avons généralisé cet opérateur en permettant la prise en compte, pour chaque source, de différents degrés de fiabilité dans des contextes différents. Ce nouvel opérateur, dit « d’affaiblissement contextuel » offre donc davantage de flexibilité pour l’intégration dans le processus de fusion de méta-connaissances sur la fiabilité des sources.

La formalisation du processus de représentation d’informations de différentes natures dans le langage des fonctions de croyance revêt une importance particulière, tant du point de vue théorique que de celui des applications. Nous avons introduit la notion de fonction de croyance prédictive, représentant l’incertitude sur une variable aléatoire, ayant observé une réalisation d’un échantillon indépendant et identiquement distribué de même loi. Nous avons proposé différentes méthodes permettant de construire de telles fonctions de croyance à partir de régions de confiance sur les paramètres d’une loi.

En complément d’informations statistiques, on dispose souvent d’informations qualitatives de la forme : « la variable X tend à prendre des valeurs plus grandes que la variable Y ». Pour représenter des connaissances de ce type, nous avons introduit la notion d’ordre crédal, qui généralise la notion d’ordre stochastique en permettant de comparer des fonctions de croyance relatives à des variables réelles. En utilisant le principe d’engagement minimal, il est ainsi possible de construire la fonction de croyance la moins informative sous une contrainte d’ordre crédal. Le problème qui a motivé ces travaux est la détection de nouveauté, dans laquelle on dispose, d’une part, d’informations statistiques sur un seul mode de fonctionnement d’un système, et d’autre part, de connaissances qualitatives sur le comportement du système dans des modes défaillants.

Bien que les fonctions de croyance soient généralement définies sur le treillis booléen des parties d’un ensemble, il est possible de les définir sur n’importe quel treillis, non nécessairement booléen. Partant d’un ensemble partiellement ordonné ayant une structure de treillis, il est possible de définir des fonctions de croyance ayant comme éléments focaux des intervalles de ce treillis. Nous avons appliqué ce principe, entre autres, à la représentation d’informations incertaines sur des variables conjonctives, c’est-à-dire pouvant prendre simultanément plusieurs valeurs. Une application intéressante concerne la discrimination avec étiquettes multiples dans laquelle les individus peuvent appartenir simultanément à plusieurs classes.

Fusion, estimation d’état

Nous avons développé des méthodes crédibilistes d’estimation de l’état d’un système dynamique, dans lesquelles les incertitudes sont représentées par des fonctions de masse ayant comme éléments focaux un nombre fini de pavés dans l’espace des états. Cette approche généralise l’estimation ensembliste dont elle conserve les propriétés de garantie, tout en permettant une estimation plus précise de l’état, comparable à celle obtenue par les méthodes bayésiennes.

Nous avons étudié le cas multi-modèles, dans lequel le modèle du système dynamique étudié est supposé varier au cours du temps parmi un ensemble de modèles candidats. Notre approche modélise les incertitudes sur le modèle courant, ainsi que sur la commutation entre modèles. Elle a été appliquée à la localisation routière, avec des performances supérieures à celles de la méthode de référence Interactive Multiple Models.

Nous avons également abordé le problème de localisation routière couplée à la cartographie en développant une nouvelle approche de positionnement sur carte (Map Matching) basée sur une représentation rectangulaire des routes et sur l’utilisation de la théorie des fonctions de croyance. La méthode proposée combine le pavé calculé par une approche à erreurs bornées avec la représentation rectangulaire des routes. La théorie des fonctions de croyance est utilisée pour fusionner plusieurs critères, afin de caractériser de manière robuste la croyance accordée à chaque route sélectionnée.

Sélection de modèles et de paramètres

Les problématiques de sélection de paramètres et de modèles se confondent de manière naturelle pour les modèles linéaires. Dans ce cadre, les techniques de pénalisation convexes basées sur des normes non-différentiables (norme l1 et normes mixtes) ont connu un essor considérable depuis leur introduction en statistique en 1996. Nous en avons proposé des prolongements, en régression et en discrimination, que ce soit pour faciliter la procédure de sélection de modèle (modèles additifs parcimonieux), ou pour adapter le choix de l’espace de représentation des données, via l’apprentissage du noyau des séparateurs à vaste marge (Support Vector Machines). Enfin, nous avons proposé un schéma de régularisation pour des variables structurées sous forme arborescente, représentant des groupes emboîtés, de manière à faciliter l’analyse de données de biopuces ou celle des signaux mesurés par les interfaces cerveau-machine (brain-computer interface).

Pour les modèles de mélange, le critère BIC (Bayesian Information Criterion) est l’un des outils de sélection de modèle les plus utilisés, avec sa version classificatoire ICL (Integrated Classification Likelihood). Ces deux critères sont respectivement dérivés d’une approximation asymptotique de la vraisemblance intégrée des données observées et de la vraisemblance intégrée des données complètes. Nous avons proposé une version non-asymptotique de ces critères pour le modèle des classes latentes (modèle de mélange de lois multinomiales). Nous exploitons ici une particularité du modèle, qui permet de dériver une expression exacte de la vraisemblance intégrée des données complètes. De façon analogue, une approximation de Monte Carlo de la vraisemblance intégrée des données observées a été développée en utilisant une stratégie d’échantillonage préférentiel (importance sampling). Les critères obtenus améliorent sensiblement le choix du nombre de composants du mélange par rapport aux critères asymptotiques BIC et ICL.

Discrimination par méthodes d’ensemble

La combinaison de règles de décision (ensemble methods) est un moyen reconnu pour son efficacité dans les problèmes complexes de discrimination. Nous avons tout d’abord étudié le problème de la combinaison de classifieurs binaires obtenus par décomposition d’un problème multi-classes en un ensemble de problèmes binaires. Le problème multi-classes est alors résolu en combinant des classifieurs opérant sur chaque paire de classes. Dans le cadre crédibiliste, en interprétant la sortie de chaque classifieur comme une fonction de croyance conditionnelle, nous avons proposé un mode de combinaison qui recherche la fonction de croyance non conditionnelle la plus consistante avec les fonctions de croyance conditionnelles.Les expériences menées sur des jeux de données classiques ont mis en évidence de bonnes performances par rapport aux méthodes probabilistes.

Pour les ensembles de classifieurs opérant directement sur le problème multi-classes, nous avons observé que la règle prudente conduit parfois à de meilleurs résultats que la règle de Dempster, qui suppose l’indépendance des classifieurs. Nous avons alors proposé une règle paramétrée, intermédiaire entre la règle prudente et celle de Dempster, qui s’adapte automatiquement au degré de dépendance des classifieurs.

Pages 1 | 2 | 3 | 4


Actualités
Vidéothèque
Téléchargements
Annuaire



FR SHIC 3272

Collegium UTC/CNRS