Présentation au séminaire ADEST du 13/11/2001 www.upmf-grenoble.fr/adest/seminaires

 

 

 

Vers un environnement complet de synthèse statistique de contenus textuels

 

Neuronav version 2

 

 

Alain Lelu* Sylvain Aubin**

 

*GRELIS / LASELDI, Université de Franche-Comté

30-32 rue Mégevand 25030 Besançon Cedex

alain.lelu@univ-fcomte.fr

**Diatopie

27 Bd. St. Martin, 75003 Paris

sylvain.aubin@diatopie.com

 

RÉSUMÉ. D'après l'expérience que nous avons de la synthèse d'information textuelle, les principes suivants sont à mettre en œuvre : 1) opération à effectuer en back-office, non par l'utilisateur final, 2) indexation de bonne qualité et assistée humainement, 3) accès lexical flou au vocabulaire d'indexation, 4) calcul des mots et documents proches de tout mot(s) ou doc(s), 5) classification floue des docs et mots associés, représentée sur une carte globale, 6) dériver et comparer plusieurs environnements de travail, 7) importer/exporter des listes de mots. La dernière version de notre logiciel Neuronav intègre un travail théorique pour fonder mathématiquement une approche homogène des points 4 et 5, à une approche de simplification ergonomique validée empiriquement pour l'ensemble des points.

ABSTRACT. Several "golden thought" were issued from our experience of statistical knowledge extraction from texts: 1) It is a back-office process, not an end-user one, 2) Good quality, man-controlled indexing is essential; 3) A  lexically-tolerant access to the indexing vocabulary must be provided;  4) A generalized statistical query expansion process must be implemented; 5) Fuzzy, overlapping clusters of both text units and words must be displayed as a global mapping; 6) "Corpus worksheets" are akin to be derived from each other and displayed altogether for comparison; 7) Export/import for word lists is useful. The last version of our Neuronav environment is intended to integrate both a theoretically funded approach to points 4 and 5, and a design effort for simplifying the ergonomics of all the above points.

MOTS-CLÉS : extraction de connaissances ; synthèse d’information; visualisation des connaissances ; réseaux neuromimétiques ; analyse des données ; très grandes bases de données ; statistique textuelle.

KEY WORDS: knowledge extraction; information synthesis; knowledge mapping; neural models; numerical data analysis; very large databases; statistical processing for textual data;.


1. Introduction : back-office et front-office

 

Le besoin d'extraire les connaissances, c'est-à-dire de synthétiser, d'abstraire, à partir de masses importantes de textes, se fait de plus en plus ressentir au fur et à mesure que les contenus se multiplient sur support électronique. Si ce phénomène d'accumulation se produit de façon exponentielle et spectaculaire sur Internet, il alimente aussi de façon régulière et depuis de nombreuses années les "réservoirs de connaissance" publics que constituent les grandes bases de données scientifiques, techniques, juridiques, économiques et de presse, ainsi que les "réservoirs" privés dans les grandes entreprises : bases de courrier et courriel, de notes, rapports, revues de presse ou dépêches, forums intranet, documentation technique, juridique, sociale, … De plus en plus d'activités de veille technique, stratégique ou d'image d'entreprise s'appuient sur ces nouvelles ressources.

 

Un autre besoin consiste à mettre à la disposition d'utilisateurs internes ou externes les connaissances issues de telles activités ; nous y avons consacré une partie de nos travaux, par exemple [LEL 00] décrit notre prototype sur internet.

 

Ces deux besoins doivent être nettement distingués :

-          Le travail de synthèse d’informations relève typiquement d’une activité de back-office menée par des experts, spécialistes du contenu. Elle consiste à localiser et assimiler un maximum de documents pertinents pour en extraire la "substantifique moelle", en fonction de différents points de vue et différents objectifs (suivi de concurrence, veille d'image, constitution de "mémoire d'entreprise", …)

-          La mise à disposition des connaissances relève de la communication interne ou externe et passe par un front-office documentaire - souvent un portail sur un intranet d’entreprise. On va délivrer aux utilisateurs une information personnalisée en fonction de leur profil

 

 

2. Présentation de notre environnement de back-office

 

Le travail que nous présentons ici, issu d'une collaboration entre les laboratoires Paragraphe de l'université Paris 8, puis Grelis/Laseldi de l’université de Franche-Comté, et la société Diatopie, n'a pas pour objet de faire jaillir automatiquement, de façon presse-bouton, une synthèse "prête à l'emploi pour les décideurs" à partir d'une masse de textes, comme une vision naïve pourrait ou voudrait le faire croire. C'est au contraire un outil pour lequel la présence de l'homme dans la boucle d'utilisation est essentielle : comme tout instrument d'observation il s'intègre dans une démarche itérative, ici entre choix des textes à synthétiser, choix du point de vue adopté pour leur description, choix de la finesse d'analyse. Le processus est comparable en cela aux classiques allers-retours entre choix des objets à observer, des filtres et des grossissements pour un bon vieux microscope. Il n'y a pas de miracle : des outils fonctionnant "à la vitesse de l'internet" ne dispensent pas de penser ! Ils peuvent par contre accélérer et étendre le processus de synthèse, et décharger l'analyste de nombreuses heures de lecture fastidieuse d'information souvent redondante, ou encore introduire ce processus dans des domaines où il était impensable il y a seulement quelques années.

 

Nos travaux dans le domaine ont abouti au logiciel Neuronav, dont une première version [LEL 97] nous a permis de nous confronter à l'analyse de corpus très divers (littérature, encyclopédies, dépêches, bases de données biologiques ou de sciences humaines), dont les leçons ont été tirées pour concevoir et réaliser la version ici présentée.

 

 

2.1. Enseignement 1 : la qualité des résultats dépend de la qualité des entrées

 

Comme toute autre option de pré-traitement possible, notre choix de représenter les textes par des vecteurs de fréquence de termes descriptifs fait reposer la qualité de l'analyse sur celle du processus d'indexation qui crée ces termes. On peut récupérer tout index existant sous un format textuel simple, de type "matrice creuse des relations docs/mots + libellés des docs et des mots", mais nous recommandons d'utiliser en amont un logiciel de lemmatisation de termes et création de candidats termes composés, par exemple Nomino [PLA 00] dont les résultats sont directement récupérables.

 

Sur cette base, qui n'est qu'une proposition, l'indexation doit être corrigée et filtrée dans notre environnement, car toute indexation correspond à un point de vue sur les données ; on peut le faire par élimination de certaines catégories grammaticales, seuillages statistiques, tri des mots suivant divers critères pour faciliter leur élimination manuelle. On peut aussi, entre autres, fusionner des mots, indexer ex nihilo, corriger les libellés, attacher un commentaire ou une signature à un terme. Neuronav permet de réaliser ces opérations rapidement et de façon contrôlée, c’est à dire avec retour possible à tout instant sur le texte original - une demi-journée de travail suffit généralement pour faire progresser significativement la qualité de l’indexation.

 

Ainsi l’indexation réalisée en vue d’une analyse de discours sera différente de celle réalisée pour faire ressortir des thématiques documentaires : dans le premier cas les verbes, adjectifs et mots grammaticaux (la « forme ») importeront autant que les substantifs (le « contenu »), qui seuls seront gardés dans le deuxième cas, pour donner lieu à un filtrage par fréquence moins drastique et à des opérations plus élaborées de fusions de variantes, synonymes ou spécifiques. Les tris par ordre de fréquence permettent d’éliminer rapidement les termes de la rhétorique courante[1], tandis que l’accès aux variantes lexicales, orthographiques et sémantique, dans un but de regroupements, est facilité par le tri alphabétique et les procédures décrites plus bas.

 

 

2.2. Enseignement 2 : autoriser un accès lexical "flou" à la liste des termes retenus

 

Quand un corpus est indexé par plusieurs milliers ou dizaines de milliers de termes, l'accès par saisie directe aux mots réellement existants est primordial. Comme cette saisie peut être entachée d'erreur ou de variantes, sur une liste de termes elle-même affligée des mêmes maux, même après lemmatisation, nous avons réalisé un accès lexical "flou" aux termes susceptibles de constituer ou d'inclure le(s) mot(s) en requête - cf. figure 1. Cet algorithme « Proxilex » est décrit dans [LEL 00a] et illustré sur la Figure 1.

 


 


Figure  1. Expansion lexicale du mot écrit, éclairage de la carte par le mot interprétation, documents du thème mythologie, et panier contenant 6 mots.

 

2.3. Enseignement 3 : permettre la sélection et l'import de listes de termes

 

Un "panier" exportable et importable permet de mettre de côté une liste de termes pour en garder trace, ou la réutiliser ultérieurement, dans l'analyse en cours ou une autre - cf. Figure 1.

2.4. Enseignement 4 : expansion statistique généralisée

ou : comment ramener tous les types actuels de requêtes à une forme commune.

 

On trouve sur les moteurs de recherche documentaires ou Web un ensemble foisonnant et hétérogène de requêtes - mais jamais toutes simultanément - qu'on peut réduire aux quatre grands types suivants :

 

                . 1 (ou n) mot(s) -> docs : requête booléenne en général implicite et pondérée, à liste ordonnée de réponses.

                . 1 (ou n) doc(s) -> mots : donne les mots les plus importants d'un document ou d'un groupe de documents.

                . 1 doc -> docs : requête de similarité globale par rapport à un document, que nous appellerons " expansion statistique " d'un document .

                . 1 mot -> mots : recherche de mots voisins sémantiquement, soit à partir d'une structure de thésaurus éditée a priori, soit statistiquement à partir des co-occurences.

 

Nous avons conçu et réalisé un type de requête unique, qui regroupe les types précédents[2] et les généralise :

                . l'utilisateur dispose d'un mode " expansion sémantique " dans lequel il peut sélectionner indifféremment un (ou des) mot(s) et/ou un (ou des) doc(s), qui caractérisent au mieux son centre d'intérêt.

                . des flèches donnent lieu à deux types de réponses, selon que l'utilisateur clique " vers mots " ou " vers docs ", ce qui lui permet de rebondir dans sa recherche ou d'enrichir son panier.

 

Ceci lui permet l’opération, classique en documentation, de calcul des documents globalement proches d'un document donné (similarity ranking) et celle, moins classique, de calcul des mots proches d'un mot donné (zoom) (cf. figure 2).

 

Ce qui se généralise à l’expansion d’une requête d’un ou plusieurs mots, qui définit un document « virtuel », idéal, vers les documents les plus proches ; et à l’expansion d’un ou plusieurs documents, qui sont considérés comme un ensemble de mots, vers les « mots les plus proches », à savoir la liste ordonnée des mots les plus caractéristiques de ce ou ces documents. Cette dernière opération permet en quelque sorte de résumer au mieux le contenu d’un ou plusieurs documents par des mots qui ne sont pas nécessairement les plus fréquents de ces textes – ils pourraient être des mots banals de la rhétorique courante – mais les plus saillants, fournissant ainsi des candidats mots d’index, ou une base pour l’extraction des phrases les plus caractéristiques (résumé automatique).

 

Nous avons implanté toutes ces opérations dans le cadre unificateur du calcul de distances dans l'espace « distributionnel » où opère aussi notre algorithme de classification KMA [LEL94] : un document N° t (où la mot i a la fréquence xit et où x.t est le nombre total de mots du document t) est représenté par le vecteur normalisé xt = {Ö(xit/x.t)}, et le produit scalaire < xt , xu>   est l'indicateur de similarité des documents N° t et u. On procède de façon symétrique pour la similarité entre mots.

 


 


Figure  2. Expansion statistique du mot rite et du document Divination /La Géom...

 

 

2.4. Et toujours : réaliser une classification recouvrante et nuancée des documents et des termes, visualisée globalement sous forme de carte…

 

Rappelons ces fonctions, déjà décrites dans [LEL 97] :

 

Une classification automatique des documents selon la méthode, à formalisme neuronal, des K-Means axiales résume le corpus en ses composantes thématiques principales.

 

A chacun des thèmes sont associés une liste de documents, ordonnés par importance décroissante et une liste de mots clés également ordonnés ; les indicateurs numériques de centralité dans le thème balisent le caractère recouvrant et nuancé de la partition ainsi obtenue :  plusieurs thèmes de la carte, et non un seul, peuvent être « allumés » par un mot ou un document particulier, formant autant de contextes dans lesquels ce mot ou ce document peuvent prendre des sens légèrement ou profondément différents, respectant en cela la logique contextuelle du langage naturel.

 

Ces listes dont l'homogénéité signe la qualité des "clusters" fournissent la matière nécessaire à la compréhension fine des regroupements effectués.

 

Quant à la présentation cartographique des thèmes elle est créée comme suit : les vecteurs des centralités des mots caractéristiques des thèmes identifiés sont analysés selon la méthode d'analyse en composantes principales pour être présentés dans un plan factoriel. Les proximités géométriques entre les thèmes sont renforcées et nuancées par le dessin des liaisons entre les thèmes proches, qui peut corriger certains effets de perspective parfois trompeurs, et renseigner sur les grandes logiques sous-jacentes au corpus au fur et à mesure que l’on fait apparaître des liens plus faibles.

 

Les experts du back-office peuvent maîtriser la finesse d’analyse en paramétrant le nombre maximum de thèmes extraits, et renommer les thèmes dont le « terme-vedette », en tête de liste n’est pas suffisamment explicite pour en décrire le contenu.

 

 

2.5. …et créer plusieurs environnements de travail, pour diversifier les vues sur les données et comparer les synthèses obtenues.

 

NeuroNav est conçu pour conduire un travail d'indexation et d’analyse selon plusieurs approches parallèles. Chaque approche est matérialisée par une vue sur la base, associée - ou non - à une carte sémantique (cf. fig.1 pour un exemple). Les retours en arrière sont rendus possibles en passant d'une vue sauvegardée à l'autre de façon à faciliter le cheminement vers la vision de la base la mieux adaptée à la problématique de chaque utilisateur. Sont assurés : la duplication de vue, le zoom sur un thème extrait ou sur les documents issus d’une requête, et la comparaison de cartes sémantiques ou listes diverses sur des fenêtres simultanées – ainsi que des sauvegardes au format .TXT dans un but de sécurité et de communication avec des programmes extérieurs.

 

Ainsi, à partir d’une vue initiale conservée, pour préserver les traitements futurs, brute de chargement des résultats de l’indexation automatique, on pourra dériver en parallèle 1) une vue comportant une indexation de type documentaire fine, pour servir à des recherches pointues de type booléen, 2) une vue avec un nombre de termes inférieur à 2 ou 3 fois le nombre de documents, et avec suppression automatique, pour chaque document, des termes simples qui composent les termes composés, pour une cartographie synthétique du corpus, complétée par des zooms éventuels sur telle ou telle sous-partie.

 

La nouvelle version de NeuroNav  permet de publier sur un site Web une ou plusieurs des vues sur un corpus textuel construites en back-office. Celles-ci peuvent alors être consultées via Internet / Intranet grâce à l’applet Java CartoWeb, extension Web de NeuroNav. CartoWeb est un outil de consultation en front office où l’utilisateur final dispose des fonctions de navigation triangulaire à partir des cartes sémantiques et du vocabulaire d’indexation édité et travaillé en amont par  le back-office. On peut accéder à une démonstration en ligne sur le site de Diatopie <http://www.diatopie.com >.

 

 

3. Capacités pratiques de NeuroNav V2 

 

Nous avons pu charger un corpus de 13 Mo avec 5 000 documents et 150 000 candidats-termes, vite ramenés à 42 000 par élimination des hapax (fréquence = 1), sur un PC récent (1,3 GHz / 256 Mo). Il est possible de charger sous NeuroNav plusieurs dizaines de milliers de documents courts, de type résumés documentaires, avec un vocabulaire de plusieurs dizaines de milliers de candidats-termes, pour en contrôler l’indexation. On atteint là les limites admissibles en pratique sur ce type de configuration.

 

S’il s’agit d’effectuer des cartographies, des contraintes techniques, mais surtout ergonomiques limitent les cartes réalisables à 50 000 documents, 10 000 termes et 50 thèmes (au delà, la carte n’est plus lisible).

 

 

4. Bibliographie

[DOM 79] Domengès D., Volle M. « Analyse factorielle sphérique : une exploration », Annales de l'INSEE, N°35, 3-50, 1979.

[LEL 94] Lelu A., « Clusters and factors: neural algorithms for a novel representation of huge and highly multidimensional data sets », New Approaches in Classification and Data Analysis,  E. Diday, Y. Lechevallier & al. eds., 1994, pp.241-248,  Springer-Verlag, Berlin

[LEL 97] Lelu A., Tisseau-Pirot A.G., Adnani A., « Cartographie de corpus textuels évolutifs : un outil pour l’analyse et la navigation. », Hypertextes et Hypermédias, vol.1, N°1, 1997, p. 23-55, Hermès, Paris,

[LEL 00a] Lelu A., Hallab M., « Consultation floue de grandes listes de formes lexicales simples et composes : un outil preparatoire pour l'analyse de grands corpus textuels », Actes des  JADT'2000, coord. : M. Rajman, EPFL, Lausanne, Mars 2000

[LEL 00b]  Lelu, M. Hallab, F. Papy, S. Bouyahi, H. Rhissassi, N. Bouhaï, F. Tang, « Textual mapping for multilingual and multiwriting access to information on the Internet. », Actes de RIAO 2000, coord. CID, Collège de France, Paris,12-14 Avril 2000.

[PLA 00] Plante P. <www.ling.uqam.ca/nomino>

 



[1] La création et l’utilisation d’anti-dictionnaires esr également possible, mais de façon contrôlée afin d’éviter les dangers que comporte l’élimination de termes potentiellement significatifs dans un domaine, et non significatifs dans d’autres.

[2] Sauf l’utilisation d’un thésaurus, dans la version actuelle.