Deux éléments de la plate-forme infométrique de l'INIST : NEURODOC et HENOCH.
Claire FRANÇOIS et Luc GRIVEL
Programme de Recherche en Infométrie
Institut de l'Information Scientifique et Technique (INIST),
Centre National de la Recherche Scientifique (CNRS)
2, allée du Parc de Brabois, 54 514 Vandoeuvre-lès-Nancy (France)
e-mail: claire.francois@inist.fr , grivel@inist.fr
http://www.inist.fr/pri/pri_w2.htm
La fonction générale de l'infométrie est l'analyse de l'information, et plus particulièrement de l’information Scientifique et Technique (IST). Nos travaux ont pour objectif la réalisation informatique de cette fonction générale en une plate-forme regroupant des outils linguistiques, des outils de structuration de l’information mettant en œuvre des algorithmes de classification automatique des données et de représentation factorielle des classes sous la forme de cartes, et enfin un générateur des systèmes hypertexte sous WWW donnant accès à l’information ainsi structurée.
2. ANALYSE DE L’INFORMATION ET PLATEFORME INFOMETRIQUE
L'analyse de l'information est une démarche d'appropriation d'une grande masse d'information qu'il est exclu de parcourir séquentiellement (polanco 1996). Elle réponds à des besoins de veille scientifique et technologique ou des besoins d'analyse stratégique de la recherche. Ceci nécessite des capacités d'exploration et de recherche dans une information structurée et organisée autour de la question : "Qui fait quoi, avec qui .et où ?".
Pour cela, nous avons défini 3 types d'indicateurs :
Pour outiller ce besoin, nous avons défini au sein du Programme de Recherche Infométrie (PRI), une plate-forme infométrique qui correspond aux 3 phases suivantes :
3. LA PLATE-FORME D’INGENIERIE LINGUISTIQUE
L’objectif de cette plate-forme (polanco et al. 1995) est de traiter de gros corpus en texte intégral en s'affranchissant de l'indexation manuelle. Elle permet de traiter des textes français et anglais. Dans ce cadre, les techniques linguistiques informatiques utilisées visent à repérer automatiquement les termes de lexiques de spécialité et leurs variantes syntaxiques.
Cette plate-forme utilise l'analyseur FASTR (jacquemin 1993) qui est un outil linguistique de traitement local du groupe nominal dédié au repérage des termes et de leurs variantes. Elle permet un gain d'environ 15% dans la collecte. Pour le repérage des termes et de leurs variantes, l'analyse s'appuie sur deux catégories de variations : la variation flexionnelle et la variation syntaxique (royaute & jacquemin 1993, jacquemin & royaute 1994).
La variation flexionnelle permet d’identifier, pour chaque terme, les formes singulier / pluriel des noms (deficiency / deficiencies), et les formes infinitives, participe passé et gérondives des noms / verbes (acoustic test / acoustic testing).
Trois types de variations syntaxiques sont utilisées pour l'identification des termes :
4. NEURODOC
Pour réaliser la fonction d'analyse de l'information scientifique et technique (IST), NEURODOC applique la méthode des k-means axiales (KMA) comme algorithme de classification automatique non hiérarchique, et une Analyse en Composantes Principales (ACP) pour la représentation des classes obtenues sur un espace bidimensionnel (lelu 1993, lelu & francois 1992a et b, grivel & francois 1995a).
4.1 Classification
La spécificité de la méthode des k-means axiales provient du type de données que nous traitons. L'analyse des données est en général utilisée pour traiter un grand nombre de données caractérisées par un nombre limité de facteurs assez bien connus. Dans notre cas, nous ignorons à la fois le contenu des documents et la structure du vocabulaire d'indexation. Nous devons donc classer à la fois les documents et les mots-clés.
La méthode des k-means axiales est, comme son nom l'indique, une variante de la méthode de "k-means" de MacQueen (1967). L'algorithme de MacQueen fait partie de la famille d'algorithmes de classification à "centres mobiles".
Cette méthode considère l’ensemble des références bibliographiques comme un nuage de points plongé dans un espace géométrique où chaque dimension correspond à un mot-clé. Sa caractéristique est de représenter les classes par des vecteurs pointant vers les zones de forte densité du nuage. Les techniques de classification non hiérarchiques usuelles représentent les k classes recherchées par leur centre de gravité, les k-means axiales définissent les k classes recherchées par k demi-axes passant par l’origine de l’espace géométrique, ou k vecteurs unitaires pointant dans la direction de ces demi-axes.
La position des k demi axes est initialisée au hasard ou par k documents. L’affectation d’un document dans les classes est réalisée selon le calcul de sa projection orthogonale sur les k demi-axes ainsi définis. Chaque document est affecté à la classe k où sa projection est maximale. Par itérations successives, les axes se positionnent puis se stabilisent dans les zones de forte densité du nuage de documents, effectuant ainsi une classification stricte des documents.
Pour obtenir des classes recouvrantes, un "seuil de typicité" est défini : un document appartient à la classe où il a été affecté lors du dernier passage, il peut également appartenir à une autre classe si sa valeur de projection sur ce deuxième axe est supérieure au seuil. Un document peut donc appartenir à plusieurs classes si ses valeurs de projection sur les axes correspondants sont supérieures au seuil.
Nous pouvons ordonner les documents appartenant à une classe selon la valeur de leur projection sur l’axe représentant la classe. Cet ordre correspond à un ordre de "typicité" décroissant des documents par rapport au type idéal de la classe qui est un document fictif positionné exactement sur l’axe de la classe dans l’espace géométrique.
En utilisant les valeurs des composantes du vecteur unitaire des classes, nous pouvons définir de la même façon une partition des mots-clés du corpus documentaire. Comme pour les documents, la partition ainsi établie admet des classes recouvrantes, un mot-clé peut appartenir à plusieurs classes, et les mots-clés sont ordonnés selon un ordre de pertinence décroissant par rapport au type idéal de la classe. La pondération utilisée pour calculer la valeur de pertinence permet de faire ressortir les mots-clés spécifiques (ou typiques) de la classe, c’est à dire fréquents dans cette classe et rares dans l’ensemble des documents.
La méthode des k-means axiales permet donc de définir des classes d'un type particulier :
Les résultats dépendent de l'initialisation et du paramétrage. Le paramètre essentiel est le nombre de classes. Il permet de définir le niveau de finesse de l'analyse. C'est pourquoi nous testons toujours plusieurs initialisations avant de choisir la classification définitive.
4.2 Cartographie
Une classe de documents correspond à un thème, sous-ensemble homogène de l’information contenue dans le corpus documentaire étudié. Afin de positionner les classes obtenues les unes par rapport aux autres sur une carte, l'ensemble des classes est traité comme un nuage de points. Une Analyse en Composantes Principales (ACP) recherche les directions d'allongement maximum de ce nuage permettant de déterminer le plan de la carte. Tous les points sont ensuite projetés orthogonalement sur le plan de la carte.
Les cartes permettent aussi d’évaluer la position de ces thèmes entre eux dans un espace géométrique de représentation. La proximité géométrique des thèmes indique une proximité de contenu. La carte permet aussi de caractériser des oppositions par leur éloignement relatif.
5 LE SYSTEME HENOCH
Le système HENOCH est un générateur des systèmes hypertextes sous WWW pour l'analyse, la valorisation et la diffusion des résultats de classification de données intéressant la veille technologique (grivel & francois 1995b).
HENOCH assure deux fonctions principales :
Nous appelons données infométriques les résultats de programmes de classification/cartographie appliqués à des données structurées de type références bibliographiques ou brevets. Le modèle réalisé dépend bien sur des caractéristiques de ces résultats. Ici, nous prenons par exemple les résultats du programme NEURODOC sur des données bibliographiques. Le modèle serait légèrement différent sur des brevets ou dans le cas d'une analyse de citations, de cocitations ou une analyse des mots associés. Des exemples de ces modèles sont donnés dans (balpe et al. 1995).
Une classe NEURODOC est constitué d'une liste pondérée de mots-clés et d'une liste pondérée de documents. Chaque classe est étiquetée par un nom et possède des coordonnées sur une carte bi-dimensionnelle.
Une référence bibliographique est composée de champs (éventuellement en plusieurs langues), tels que titre, résumés, auteurs, date de publication, etc.
Ces deux types de documents SGML sont considérés comme des entités composites et sont décomposés en plusieurs tables reliées entre elles (table des classes, table des documents, table des auteurs, table des mots-clés, ...) par des liens structurels (par exemple auteur <-> document) ou calculés (classe<->document, classe<->mots-clés).
Le système prend en entrée un fichier modèle de mise en correspondance entre le type de document traité et les tables relationelles à remplir. Grâce à celui-ci, il détermine tous les éléments de données qui doivent être extraits. Il parse ensuite les documents SGML et exécute les procédures d'insertions requises.
5.2 Interface utilisateur et génération hypertexte
L'interface utilisateur que nous présentons ici se situe dans la continuité de nos travaux (grivel & francois 1995 a et b) en tirant avantage de la modélisation décrite plus haut. Elle propose deux types de navigations complémentaires : une exploration intuitive basée sur la métaphore de la carte, et un mode de recherche basé sur la métaphore "Qui fait Quoi, Où, avec Qui, Quand, dans quelles sources (revue, congrès, ...)". Dans les deux cas, la navigation est assurées par l'exécution de requêtes SQL sur la base de données infométriques grace à une passerelle de communication de type CGI. Cette dernière se connecte au SGBD, soumet des requêtes SQL, récupère le résultat, le reformate en HTML selon un modèle de page HTML intégrant les requêtes SQL puis se déconnecte.
Exploration intuitive
La carte thématique est une aide pour analyser globalement le paysage informationnel pour un sujet donné. c'est également une aide inappréciable pour explorer un sujet de recherche transversal, ou un sujet à la limite de nos connaissances. Si les coordonnées des classes ont été pré-calculées (programmes de cartographie), la construction de la carte est par contre dynamique, grâce aux possibilités combinées de notre passerelle ICGI qui récupérant le résultat de l'exécution d'une requête SQL, est capable de générer un graphique au format GIF. Depuis cette carte, l'analyste peut cliquer sur un nom de classe et accéder à différents types de noeuds (description de la classe par une liste de mots-clés ordonnées et valués, titres des documents, auteurs, affiliations, etc.).
Recherche d'informations basée sur "Qui fait Quoi, Où, avec Qui, Quand, .."
Ici la recherche d'information a été adaptée pour que l'exécution de cette fonction par un utilisateur soit la plus simple et la plus conviviale possible. L'objectif est de pouvoir positionner très facilement les auteurs, les affiliations, les périodiques, ou autres entités dans les thèmes (classes). Ainsi, pour avoir une idée globale des centres d'intérêts d'une société, l'utilisateur peut, par un simple chemin de navigation, exprimer des requêtes plus ou moins complexes sans avoir à connaître SQL. Il peut savoir dans quelles thèmes cette société est positionnée et le nombre de documents qui est à l'origine de ce positionnement dans le corpus pour chaque thème, puis naviguer vers ces documents.
6 CONCLUSION
La plate-forme infométrique que nous avons décrite est opérationnelle et a été utilisée pour réaliser un rapport de tendances sur les plantes transgéniques en collaboration avec le Bureau Van Dijk.
Cette plate-forme évoluera d’une part par le développement d’une interface opérateur intégrant les éléments constitutifs de la plate-forme et coordonnant leur utilisation.
D’autre part, nous explorons une approche connexionniste pour la classification et la cartographie en coopération avec le groupe CORTEX du CRIN-CNRS/INRIA-Lorraine (polanco et al. 1997).
Enfin, nous projetons de faire évoluer l'hypertexte généré par le système HENOCH d’un environnement de consultation (utilisateur) vers un environnement de création (auteur). Ceci nous demande de résoudre le problème de la gestion de plusieurs auteurs effectuant une veille à partir des données infométriques et coopérant pour enrichir la base de données par des annotations, résultats de la confrontation entre leurs axes de surveillance (leurs centres d’intérêts) et la navigation dans les données infométriques.
7 BIBLIOGRAPHIE
BALPE J.P, LELU A., PAPY F., SALEH I. (1996) Techniques avancées pour l'hypertexte Paris, Editions Hermès.
Grivel L., FranÇois C (1995a) Une station de travail pour classer, cartographier et analyser l'information bibliographique dans une perspective de veille scientifique et technique, SOLARIS, n° 2, Presses Universitaires de Rennes, 81-113., et sur internet, http://www.info.unicaen.fr/bnum/jelec/Solaris
Grivel L., FranÇois C (1995b) Conception et développement d'un système d'information dédié à la veille scientifique, basé sur les sorties des outils de classification thématique : SDOC et NEURODOC , BALPE J.P, LELU A.
Grivel L., Mutschke P., Polanco X. (1995) Thematic mapping on bibliographic databases by cluster analysis: a description of the SDOC environment with SOLIS, Journal of Knowledge Organization, vol. 22, n°2, 70-77.
GRIVEL L., POLANCO X., KAPLAN A. (1997a) "A computer system for big scientometrics at the age of the World Wide Web", Scientometrics, Vol.40, N°3 (1997) 493-506.
JACQUEMIN C. (1994) " FASTR : A Unification-based Front-end to Automatic Indexing ", RIAO 94 Confrence Proceedings " Intelligent Multimedia Information Retrieval Systems and Management, Rockfeller Univresity, New York, October 11-13, p.34-47.
JACQUEMIN C., ROYAUTE J. (1994) "Retrieving Terms and their Variants in a Lexicalised Unification-Based Framework", Proceedings, 17th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval, 3 - 6 July 1994, Dublin, p. 132-141.
LELU A. (1993) Modèles Neuronaux pour l'Analyse de Données Documentaires et Textuelles. Thèse de l’Université de Paris 6.
LELU A., FRANCOIS C. (1992a) "Information retrieval based on a neural unsupervised extraction of thematic fussy clusters" Neuro-Nîmes 92 : Les réseaux neuro-mimétiques et leurs applications, 2-6 novembre 1992, Nîmes, France.
LELU A., FRANCOIS C. (1992b) "Hypertexte paradigm in the field of information retrieval : a neural approach" Fourth ACM conference on Hypertext: ECHT’92, 30 novembre - 4 décembre 1992, Milan, Italie.
POLANCO X. (1996) La notion d'analyse de l'information dans le domaine de l'information scientifique et technique, Conference INRA-Information scientifique et technique, 21-23 october, Tours, France (A paraître).
POLANCO X., FRANÇOIS C., KEIM J.P. (1997) Artificial Neural Network Technology for the classification and Cartography of Scientific and Technical Information, Scientometrics
, Vol.41, N°1-2, (1998) 69-82.POLANCO X., GRIVEL L., ROYAUTE J.(1995) How to do things with terms in informetrics: terminological variation and stabilization as science watch indicators, in: Michael E.D Koenig, Abraham Bookstein (Eds), 5th International Conference of the International Society for Scientometrics and Informetrics, 435-444, Learned Information Inc. Medford NJ.
ROYAUTE J., JACQUEMIN C. (1993) "Indexation automatique et recherche de noms composés sous leurs différentes variations", Informatique & Langue Naturelle, ILN'93, Nantes, Décembre 1993, p. 5-23.