UMR CNRS 7253

Site Tools


en:a_massih

Seminar -- December 14th 2010, 14h00, Master Room


Apprentissage multi-vues de fonctions de classification dans un environnement multi-langues

by MASSIH-REZA Amini, Centre de Recherche National du Canada (CRNC/NRC) à Gatineau


Abstract:

Nous avons formalisé le problème de la classification dans un corpus comparable (où chaque document du corpus est au préalable traduit dans toutes les autres langues présentes dans la collection) comme l’apprentissage multi-vues de fonctions de classification. Dans ce cas, une observation est considérée comme une séquence de vues où la vue observée correspond à un document initial du corpus, écrit dans une langue donnée, et où les autres vues correspondent aux traductions de ce document dans toutes les autres langues disponibles dans le corpus.

La comparaison d'une borne de l'erreur en généralisation d'un classifieur multi-vues, appris en utilisant les vues (documents) initiales ainsi que celles générées par la traduction, avec une borne de l'erreur en généralisation d'un classifieur appris uniquement avec les vues initiales, révèle un compromis entre la taille de la base d'entraînement, le nombre de vues ainsi que la qualité des traductions. Ce compris permet d'identifier les situations où il serait plus intéressant d'utiliser le cadre multi-vues pour apprendre au lieu du cadre classique d'apprentissage avec des données mono-vues. Une extension naturelle de ce cadre permet d'inclure des données multi-vues non-étiquetées dans le processus de l'apprentissage (apprentissage semi-supervisé).

Des résultats expérimentaux sur un sous-ensemble de la base de Reuters RCV1/RCV2 confirment nos résultats précédents, plus information voir:

http://multilingreuters.iit.nrc.ca/ReutersMultiLingualMultiView.htm




User Tools