Présentation au séminaire ADEST du 13/11/2001 www.upmf-grenoble.fr/adest/seminaires
Vers un environnement
complet de synthèse statistique de contenus textuels
Neuronav
version 2
Alain
Lelu* — Sylvain Aubin**
*GRELIS / LASELDI, Université de
Franche-Comté
30-32 rue Mégevand 25030
Besançon Cedex
alain.lelu@univ-fcomte.fr
**Diatopie
27 Bd. St. Martin, 75003 Paris
sylvain.aubin@diatopie.com
RÉSUMÉ. D'après l'expérience que nous avons de la synthèse d'information textuelle, les principes suivants sont à mettre en œuvre : 1) opération à effectuer en back-office, non par l'utilisateur final, 2) indexation de bonne qualité et assistée humainement, 3) accès lexical flou au vocabulaire d'indexation, 4) calcul des mots et documents proches de tout mot(s) ou doc(s), 5) classification floue des docs et mots associés, représentée sur une carte globale, 6) dériver et comparer plusieurs environnements de travail, 7) importer/exporter des listes de mots. La dernière version de notre logiciel Neuronav intègre un travail théorique pour fonder mathématiquement une approche homogène des points 4 et 5, à une approche de simplification ergonomique validée empiriquement pour l'ensemble des points.
ABSTRACT. Several "golden thought"
were issued from our experience of statistical knowledge extraction from texts:
1) It is a back-office process, not an end-user one, 2) Good quality,
man-controlled indexing is essential; 3) A
lexically-tolerant access to the indexing vocabulary must be provided; 4) A generalized statistical query expansion
process must be implemented; 5) Fuzzy, overlapping clusters of both text units
and words must be displayed as a global mapping; 6) "Corpus
worksheets" are akin to be derived from each other and displayed
altogether for comparison; 7) Export/import for word lists is useful. The last
version of our Neuronav environment is intended to integrate both a
theoretically funded approach to points 4 and 5, and a design effort for
simplifying the ergonomics of all the above points.
MOTS-CLÉS : extraction de connaissances ; synthèse d’information; visualisation des connaissances ; réseaux neuromimétiques ; analyse des données ; très grandes bases de données ; statistique textuelle.
KEY
WORDS: knowledge extraction; information
synthesis; knowledge mapping; neural models; numerical data analysis; very
large databases; statistical processing for textual data;.
1. Introduction : back-office et front-office
Le besoin d'extraire les connaissances, c'est-à-dire de synthétiser, d'abstraire, à partir de masses importantes de textes, se fait de plus en plus ressentir au fur et à mesure que les contenus se multiplient sur support électronique. Si ce phénomène d'accumulation se produit de façon exponentielle et spectaculaire sur Internet, il alimente aussi de façon régulière et depuis de nombreuses années les "réservoirs de connaissance" publics que constituent les grandes bases de données scientifiques, techniques, juridiques, économiques et de presse, ainsi que les "réservoirs" privés dans les grandes entreprises : bases de courrier et courriel, de notes, rapports, revues de presse ou dépêches, forums intranet, documentation technique, juridique, sociale, … De plus en plus d'activités de veille technique, stratégique ou d'image d'entreprise s'appuient sur ces nouvelles ressources.
Un autre besoin consiste à mettre à la disposition d'utilisateurs internes ou externes les connaissances issues de telles activités ; nous y avons consacré une partie de nos travaux, par exemple [LEL 00] décrit notre prototype sur internet.
Ces deux besoins doivent être nettement distingués :
-
Le travail de synthèse
d’informations relève typiquement d’une activité de back-office menée par des experts, spécialistes du contenu. Elle
consiste à localiser et assimiler un maximum de documents pertinents pour en
extraire la "substantifique moelle", en fonction de différents points
de vue et différents objectifs (suivi de concurrence, veille d'image,
constitution de "mémoire d'entreprise", …)
-
La mise à disposition des
connaissances relève de la communication interne ou externe et passe par un front-office documentaire - souvent un
portail sur un intranet d’entreprise. On va délivrer aux utilisateurs une
information personnalisée en fonction de leur profil
2. Présentation de notre environnement de back-office
Le travail que nous présentons ici, issu d'une collaboration entre les laboratoires Paragraphe de l'université Paris 8, puis Grelis/Laseldi de l’université de Franche-Comté, et la société Diatopie, n'a pas pour objet de faire jaillir automatiquement, de façon presse-bouton, une synthèse "prête à l'emploi pour les décideurs" à partir d'une masse de textes, comme une vision naïve pourrait ou voudrait le faire croire. C'est au contraire un outil pour lequel la présence de l'homme dans la boucle d'utilisation est essentielle : comme tout instrument d'observation il s'intègre dans une démarche itérative, ici entre choix des textes à synthétiser, choix du point de vue adopté pour leur description, choix de la finesse d'analyse. Le processus est comparable en cela aux classiques allers-retours entre choix des objets à observer, des filtres et des grossissements pour un bon vieux microscope. Il n'y a pas de miracle : des outils fonctionnant "à la vitesse de l'internet" ne dispensent pas de penser ! Ils peuvent par contre accélérer et étendre le processus de synthèse, et décharger l'analyste de nombreuses heures de lecture fastidieuse d'information souvent redondante, ou encore introduire ce processus dans des domaines où il était impensable il y a seulement quelques années.
Nos travaux dans le domaine ont abouti au logiciel Neuronav, dont une première version [LEL 97] nous a permis de nous confronter à l'analyse de corpus très divers (littérature, encyclopédies, dépêches, bases de données biologiques ou de sciences humaines), dont les leçons ont été tirées pour concevoir et réaliser la version ici présentée.
2.1. Enseignement 1 : la qualité des résultats dépend de la qualité des
entrées
Comme toute autre option de pré-traitement possible, notre choix de représenter les textes par des vecteurs de fréquence de termes descriptifs fait reposer la qualité de l'analyse sur celle du processus d'indexation qui crée ces termes. On peut récupérer tout index existant sous un format textuel simple, de type "matrice creuse des relations docs/mots + libellés des docs et des mots", mais nous recommandons d'utiliser en amont un logiciel de lemmatisation de termes et création de candidats termes composés, par exemple Nomino [PLA 00] dont les résultats sont directement récupérables.
Sur cette base, qui n'est qu'une proposition, l'indexation doit être corrigée et filtrée dans notre environnement, car toute indexation correspond à un point de vue sur les données ; on peut le faire par élimination de certaines catégories grammaticales, seuillages statistiques, tri des mots suivant divers critères pour faciliter leur élimination manuelle. On peut aussi, entre autres, fusionner des mots, indexer ex nihilo, corriger les libellés, attacher un commentaire ou une signature à un terme. Neuronav permet de réaliser ces opérations rapidement et de façon contrôlée, c’est à dire avec retour possible à tout instant sur le texte original - une demi-journée de travail suffit généralement pour faire progresser significativement la qualité de l’indexation.
Ainsi l’indexation réalisée en vue d’une analyse de discours sera différente de celle réalisée pour faire ressortir des thématiques documentaires : dans le premier cas les verbes, adjectifs et mots grammaticaux (la « forme ») importeront autant que les substantifs (le « contenu »), qui seuls seront gardés dans le deuxième cas, pour donner lieu à un filtrage par fréquence moins drastique et à des opérations plus élaborées de fusions de variantes, synonymes ou spécifiques. Les tris par ordre de fréquence permettent d’éliminer rapidement les termes de la rhétorique courante[1], tandis que l’accès aux variantes lexicales, orthographiques et sémantique, dans un but de regroupements, est facilité par le tri alphabétique et les procédures décrites plus bas.
2.2. Enseignement 2 : autoriser un accès lexical "flou" à la liste
des termes retenus
Quand un corpus est indexé par plusieurs milliers ou dizaines de milliers de termes, l'accès par saisie directe aux mots réellement existants est primordial. Comme cette saisie peut être entachée d'erreur ou de variantes, sur une liste de termes elle-même affligée des mêmes maux, même après lemmatisation, nous avons réalisé un accès lexical "flou" aux termes susceptibles de constituer ou d'inclure le(s) mot(s) en requête - cf. figure 1. Cet algorithme « Proxilex » est décrit dans [LEL 00a] et illustré sur la Figure 1.

Figure 1. Expansion
lexicale du mot écrit, éclairage de
la carte par le mot interprétation,
documents du thème mythologie, et
panier contenant 6 mots.
2.3. Enseignement 3 : permettre la sélection et l'import de listes de termes
Un "panier" exportable et importable permet de mettre de côté une liste de termes pour en garder trace, ou la réutiliser ultérieurement, dans l'analyse en cours ou une autre - cf. Figure 1.
2.4. Enseignement
4 : expansion statistique généralisée
ou : comment ramener tous les types actuels de requêtes à une forme commune.
On trouve sur les moteurs de recherche documentaires ou Web un ensemble foisonnant et hétérogène de requêtes - mais jamais toutes simultanément - qu'on peut réduire aux quatre grands types suivants :
. 1 (ou n) mot(s) -> docs : requête booléenne en général implicite et pondérée, à liste ordonnée de réponses.
. 1 (ou n) doc(s) -> mots : donne les mots les plus importants d'un document ou d'un groupe de documents.
. 1 doc -> docs : requête de similarité globale par rapport à un document, que nous appellerons " expansion statistique " d'un document .
. 1 mot -> mots : recherche de mots voisins sémantiquement, soit à partir d'une structure de thésaurus éditée a priori, soit statistiquement à partir des co-occurences.
Nous avons conçu et réalisé un type de requête unique, qui regroupe les types précédents[2] et les généralise :
. l'utilisateur dispose d'un mode " expansion sémantique " dans lequel il peut sélectionner indifféremment un (ou des) mot(s) et/ou un (ou des) doc(s), qui caractérisent au mieux son centre d'intérêt.
. des flèches donnent lieu à deux types de réponses, selon que l'utilisateur clique " vers mots " ou " vers docs ", ce qui lui permet de rebondir dans sa recherche ou d'enrichir son panier.
Ceci lui permet l’opération, classique en documentation, de calcul des documents globalement proches d'un document donné (similarity ranking) et celle, moins classique, de calcul des mots proches d'un mot donné (zoom) (cf. figure 2).
Ce qui se généralise à l’expansion d’une requête d’un ou plusieurs mots, qui définit un document « virtuel », idéal, vers les documents les plus proches ; et à l’expansion d’un ou plusieurs documents, qui sont considérés comme un ensemble de mots, vers les « mots les plus proches », à savoir la liste ordonnée des mots les plus caractéristiques de ce ou ces documents. Cette dernière opération permet en quelque sorte de résumer au mieux le contenu d’un ou plusieurs documents par des mots qui ne sont pas nécessairement les plus fréquents de ces textes – ils pourraient être des mots banals de la rhétorique courante – mais les plus saillants, fournissant ainsi des candidats mots d’index, ou une base pour l’extraction des phrases les plus caractéristiques (résumé automatique).
Nous avons implanté toutes ces opérations dans le cadre unificateur du calcul de distances dans l'espace « distributionnel » où opère aussi notre algorithme de classification KMA [LEL94] : un document N° t (où la mot i a la fréquence xit et où x.t est le nombre total de mots du document t) est représenté par le vecteur normalisé xt = {Ö(xit/x.t)}, et le produit scalaire < xt , xu> est l'indicateur de similarité des documents N° t et u. On procède de façon symétrique pour la similarité entre mots.

Figure 2. Expansion statistique du mot rite et du document Divination /La Géom...
2.4. Et toujours : réaliser une classification recouvrante et nuancée des
documents et des termes, visualisée globalement sous forme de carte…
Rappelons ces fonctions, déjà décrites dans [LEL 97] :
Une classification automatique des documents selon la méthode, à formalisme neuronal, des K-Means axiales résume le corpus en ses composantes thématiques principales.
A chacun des thèmes sont associés une liste de documents, ordonnés par importance décroissante et une liste de mots clés également ordonnés ; les indicateurs numériques de centralité dans le thème balisent le caractère recouvrant et nuancé de la partition ainsi obtenue : plusieurs thèmes de la carte, et non un seul, peuvent être « allumés » par un mot ou un document particulier, formant autant de contextes dans lesquels ce mot ou ce document peuvent prendre des sens légèrement ou profondément différents, respectant en cela la logique contextuelle du langage naturel.
Ces listes dont l'homogénéité signe la qualité des "clusters" fournissent la matière nécessaire à la compréhension fine des regroupements effectués.
Quant à la présentation cartographique des thèmes elle est créée comme suit : les vecteurs des centralités des mots caractéristiques des thèmes identifiés sont analysés selon la méthode d'analyse en composantes principales pour être présentés dans un plan factoriel. Les proximités géométriques entre les thèmes sont renforcées et nuancées par le dessin des liaisons entre les thèmes proches, qui peut corriger certains effets de perspective parfois trompeurs, et renseigner sur les grandes logiques sous-jacentes au corpus au fur et à mesure que l’on fait apparaître des liens plus faibles.
Les experts du
back-office peuvent maîtriser la
finesse d’analyse en paramétrant le nombre maximum de thèmes extraits, et
renommer les thèmes dont le « terme-vedette », en tête de liste n’est
pas suffisamment explicite pour en décrire le contenu.
2.5. …et créer plusieurs environnements de travail, pour diversifier les
vues sur les données et comparer les synthèses obtenues.
NeuroNav est conçu pour conduire un travail d'indexation et d’analyse
selon plusieurs approches parallèles. Chaque approche est matérialisée par une
vue sur la base, associée - ou non - à une carte sémantique (cf. fig.1 pour un
exemple). Les retours en arrière sont rendus possibles en passant d'une vue
sauvegardée à l'autre de façon à faciliter le cheminement vers la vision de la
base la mieux adaptée à la problématique de chaque utilisateur. Sont
assurés : la duplication de vue, le zoom sur un thème extrait ou sur les
documents issus d’une requête, et la comparaison de cartes sémantiques ou
listes diverses sur des fenêtres simultanées – ainsi que des sauvegardes au
format .TXT dans un but de sécurité et de communication avec des programmes
extérieurs.
Ainsi, à partir d’une vue initiale conservée, pour préserver les
traitements futurs, brute de chargement des résultats de l’indexation
automatique, on pourra dériver en parallèle 1) une vue comportant une
indexation de type documentaire fine, pour servir à des recherches pointues de
type booléen, 2) une vue avec un nombre de termes inférieur à 2 ou 3 fois le
nombre de documents, et avec suppression automatique, pour chaque document, des
termes simples qui composent les termes composés, pour une cartographie
synthétique du corpus, complétée par des zooms éventuels sur telle ou telle
sous-partie.
La nouvelle version de NeuroNav permet de publier sur un site Web une ou plusieurs des vues sur un corpus textuel construites en back-office. Celles-ci peuvent alors être consultées via Internet / Intranet grâce à l’applet Java CartoWeb, extension Web de NeuroNav. CartoWeb est un outil de consultation en front office où l’utilisateur final dispose des fonctions de navigation triangulaire à partir des cartes sémantiques et du vocabulaire d’indexation édité et travaillé en amont par le back-office. On peut accéder à une démonstration en ligne sur le site de Diatopie <http://www.diatopie.com >.
3. Capacités pratiques de NeuroNav V2
Nous avons pu charger un corpus de 13 Mo avec 5 000
documents et 150 000 candidats-termes, vite ramenés à 42 000 par élimination
des hapax (fréquence = 1), sur un PC récent (1,3 GHz / 256 Mo). Il est possible de charger sous
NeuroNav plusieurs dizaines de milliers de documents courts, de type résumés
documentaires, avec un vocabulaire de plusieurs dizaines de milliers de
candidats-termes, pour en contrôler l’indexation. On
atteint là les limites admissibles en pratique sur ce type de configuration.
S’il s’agit d’effectuer des cartographies, des contraintes
techniques, mais surtout ergonomiques limitent les cartes réalisables à 50 000
documents, 10
000 termes et 50 thèmes (au delà, la carte n’est plus lisible).
4. Bibliographie
[DOM 79] Domengès D., Volle M. « Analyse factorielle sphérique : une exploration », Annales de l'INSEE, N°35, 3-50, 1979.
[LEL 94] Lelu A., « Clusters and factors: neural algorithms for a
novel representation of huge and highly multidimensional data sets », New Approaches in Classification and Data
Analysis, E. Diday, Y. Lechevallier
& al. eds., 1994, pp.241-248,
Springer-Verlag, Berlin
[LEL 97] Lelu A., Tisseau-Pirot A.G., Adnani A., « Cartographie de corpus textuels évolutifs : un outil pour l’analyse et la navigation. », Hypertextes et Hypermédias, vol.1, N°1, 1997, p. 23-55, Hermès, Paris,
[LEL 00a] Lelu A., Hallab M., « Consultation floue de grandes listes de formes lexicales simples et composes : un outil preparatoire pour l'analyse de grands corpus textuels », Actes des JADT'2000, coord. : M. Rajman, EPFL, Lausanne, Mars 2000
[LEL 00b] Lelu, M. Hallab, F. Papy, S. Bouyahi, H. Rhissassi, N. Bouhaï, F. Tang, « Textual mapping for multilingual and multiwriting access to information on the Internet. », Actes de RIAO 2000, coord. CID, Collège de France, Paris,12-14 Avril 2000.
[PLA 00] Plante P. <www.ling.uqam.ca/nomino>
[1] La création et l’utilisation
d’anti-dictionnaires esr également possible, mais de façon contrôlée afin d’éviter les dangers que comporte l’élimination de
termes potentiellement significatifs dans un domaine, et non significatifs dans
d’autres.
[2] Sauf l’utilisation d’un thésaurus, dans la version actuelle.