Présentation

Programme de Recherche en Infométrie (PRI)

de l'Institut de l'Information Scientifique et Technique (INIST)

du Centre National de la Recherche Scientifique (CNRS)

Le PRI (créé en novembre 1992) est une équipe de six ingénieurs double compétence (à la fois informatique et scientifique), spécialisés dans les sciences et technologies de l'information : Xavier Polanco (polanco@inist.fr), responsable du PRI, assisté de Dominique Besagni, Claire François, Luc Grivel, Chantal Muller et Jean Royauté, chefs de projets : http://www.inist.fr/pri

 

La mission du PRI est de développer une recherche appliquée dont le but principal est de concevoir et de produire des instruments (à savoir : des indicateurs, méthodes et outils) d'analyse de l'information scientifique et technique (IST). Dans la réalisation de cette mission, sont mobilisées des compétences en informatique, en linguistique informatique, en statistique et méthodes d'analyse des données. On trouvera dans (Polanco et al., 1993 ; Polanco, 1995a ; 1996a et 1996b) des présentations détaillées de l'approche mise en oeuvre par le PRI.

 

Les données bibliographiques et/ou textuelles constituent la matière première à partir de laquelle le PRI se propose d'extraire et structurer la connaissance, en utilisant des indicateurs comme :

 

 

Sur le plan informatique, le PRI applique une approche modulaire implémentée sous UNIX par des bibliothèques de fonctions programmées en C (Ducloy et al., 1991) ou des API en C++ et Java selon les cas. En outre, le PRI utilise la norme SGML pour représenter la structure logique des données et comme format pivot entre les modules.

 

1 ANALYSE DE L'INFORMATION

 

L'analyse de l'information peut être définie comme l'application de techniques de traitement automatique du langage naturel, de classification automatique et de représentation graphique (cartographie) du contenu cognitif et factuel des données bibliographiques. On trouvera dans (Polanco, 1996c) une description détaillée de cette notion.

 

Afin de préciser sa position dans le traitement de l'information, on distingue, d'un point de vue historique, trois phases : le stockage, l'accès ou la recherche de l'information (en anglais information retrieval) et enfin l'analyse elle-même. D'un point de vue logique, on peut considérer ces trois phases comme les fonctions d'un système d'information. Partant du postulat que l'information se trouve dans des bases de données, que des systèmes d'accès existent, le PRI s'est donc orienté vers le développement de techniques d'analyse de l'information (indicateurs, méthodes, outils).

 

Quant à la position de l'analyse de l'information dans le contexte des études de la science et de la technologie, de la veille technologique et de l'intelligence économique, elle apparaît comme le commun dénominateur de toutes ces opérations, où l'information représente une "matière première" qu'il faut traiter afin d'obtenir une information utile.

 

A cet effet, le PRI a conçu et développé des technologies comme les programmes NEURODOC (approche neuromimétique) et SDOC (méthode des mots associés) pour la génération de clusters et la cartographie ; le système HENOCH qui organise les résultats des programmes précédemment cités dans un SGBD relationnel et les met à disposition des utilisateurs au travers d'une architecture client-serveur WWW sur l'Internet ; et enfin une plate-forme d'ingénierie linguistique pour l'extraction terminologique (en français et anglais) à partir du texte intégral, en coopération depuis 1995 avec l'INRIA Lorraine et le CRIN-CNRS.

 

Dans le cadre de la production de bases de données de l'INIST, le PRI s'est appliqué à des opérations de transformation de l'information "brute" (données bibliographiques traditionnelles) en information "élaborée" et donc utile à la veille, l'évaluation et la programmation stratégique, impliquant la participation des ingénieurs documentalistes de l'INIST et des experts scientifiques extérieurs. A titre d'exemple, citons les analyses réalisées en 1996 par le PRI dans les domaines de l'aéronautique, des énergies naturelles, de la santé (traitement de la douleur, récepteurs neurophysiologique), des biotechnologies (enzymes, cosmétologie), de la ville (domotique), de la société (psychologie du travail et gestion de ressources humaines), de la linguistique (informatisation et ingénierie linguistique).

 

2 ANALYSE LINGUISTIQUE

 

Le traitement automatique du langage naturel (TALN) est indispensable si on se propose de travailler au niveau du texte intégral sur de gros corpus, afin de s'affranchir de l'indexation manuelle (Royauté et al., 1992 ; Royauté et Jacquemin, 1993). Le PRI cherche à définir des indicateurs linguistiques de connaissance plus complexes que les simples mots-clés. Dans ce cadre, le PRI s'appuie sur des techniques de la linguistique informatique qui visent à repérer par des moyens automatiques la terminologie d'un langage de spécialité à partir de la nomenclature existante et de ses variations (Jacquemin et Royauté, 1994 ; Daille et al., 1996). L'hypothèse est donc d'utiliser comme indicateurs les phénomènes linguistiques que sont la variation et la stabilité des termes. On trouvera dans (Polanco et al., 1995b et 1995c ; Royauté et al., 1996 ; Muller et al., 1997 ; Toussaint et al., 1997) des présentations détaillées de l'approche linguistique.

 

Ces recherches en linguistique informatique sont menées en coopération avec le CRIN-CNRS/INRIA-Lorraine dans le cadre du projet ILC (Infométrie - Langage - Connaissance).

 

 

Cette plate-forme (royauté@inist.fr ; muller@inist.fr) est un environnement de travail pour le traitement du langage naturel. Elle accueille et intègre différents types d'outils et ressources (linguistiques informatiques) dans une perspective d'analyse de l'information au service de la veille scientifique et technique. Elle est capable de traiter aussi bien le français que l'anglais.

 

Le traitement se fait en deux phases. La première phase concerne le traitement automatique des ressources terminologiques et met en oeuvre :

 

 

 

 

La deuxième phase concerne le traitement des corpus proprement dit. L'analyseur FASTR est un outil linguistique de traitement local du groupe nominal pour le repérage des termes et de leurs variantes, ce qui permet un gain d'environ 15% dans la collecte. Un module de formatage des sorties fusionne les informations concernant les termes issus de l'analyse avec les informations de la table du thesaurus (cf. première phase, formatage du thesaurus) dans la structure SGML des fichiers de références bibliographiques initiales.

 

Pour le repérage des termes et de leurs variantes, l'analyse s'appuie sur deux catégories de variations : la variation flexionnelle et la variation syntaxique.

 

La variation flexionnelle permet d’identifier pour chaque terme, les formes singulier / pluriel des noms (deficiency / deficiencies), et les formes infinitives, participe passées et gérondives des noms / verbes (acoustic test / acoustic testing).

 

Trois types de variations syntaxiques sont utilisées pour l'identification des termes. [1] La variation d’insertion concerne l'ajout de tout mot à l’intérieur du groupe nominal, à l’exception de la plupart des mots grammaticaux. Par exemple, electron microscopy diffraction est associé au terme Electron diffraction. [2] La variation de coordination concerne toutes formes coordonnées de mots (adjectifs ou noms) à l’intérieur du groupe nominal. Par exemple, electron and photoelectron diffraction est une autre variation du terme Electron diffraction. [3] La variation de permutation implique tous les mots ou les groupes de mots pouvant permuter autour d’un élément pivot (prépositions ou séquences verbales). Par exemple, diffraction of fast electrons est aussi associé au terme Electron diffraction.

 

L'objectif, dans le cadre des projets ILC (cf. analyse linguistique) et ILIAD (Infométrie et Linguistique Informatique pour l'Analyse de l'Information dans les fond Documentaire), du GIS "Sciences de la Cognition", en partenariat avec le CRIN-INRIA Lorraine, l'INaLF, l'IRIN et l'Université de Nancy 2, est de faire évoluer cette plate-forme vers une analyse linguistique plus fine, en organisant les termes en réseau prédicatif, afin d'extraire des textes, les éléments d'information susceptibles d'être traités grâce à des systèmes de représentation des connaissances de type KL-ONE (en l'occurrence CLASSIC). L'accès à cette information et sa localisation facilitera la tâche de veille et d'intelligence de l'expert du domaine.

 

3 ANALYSE INFOMETRIQUE

 

Le terme "infométrie" (Polanco, 1995a et 1995e) a été adopté pour désigner d'une manière générale les analyses métriques de l'information (c'est-à-dire statistiques, probabilistes et analyse des données), appliquées à la production d'une "information de l'information" du type "qui fait quoi, en coopération avec qui, où et quand".

 

Il s'agit, en premier lieu, de l'application d'outils de statistique descriptive pour analyser notamment la distribution et la fréquence des données bibliographiques et/ou textuelles (voir ci-dessous MIRIAD). L'objectif est de caractériser, à l'aide de tableaux et de graphes, la littérature scientifique dans un domaine déterminé.

 

L'analyse infométrique (voir ci-dessous NEURODOC et SDOC) consiste, d'autre part, en la mise en oeuvre de procédures de classification automatique et de représentation cartographique. Classer est quelque chose d'inhérent à l'esprit humain. Pour pouvoir traiter toutes les informations qui se présentent, l'utilisateur est obligé d'établir des catégories qui rassemblent les unités d'information ayant des caractéristiques communes. La classification automatique est un ensemble d'algorithmes dont le but principal est de donner des classes et de fournir une représentation visuelle de la structure des classes (graphes, cartes). Le processus de classification permet à l'utilisateur de synthétiser de l'information, et par là même d'avoir une vision globale de l'environnement informationnel. Mais il permet aussi, au-delà de la synthèse, d'enrichir l'information qu'il possède : l'appartenance des entités à une classe permet d'en apprécier les caractéristiques et de savoir comment la traiter.

 

Les cartes ne sont pas seulement un moyen de visualisation, elles représentent aussi une méthode d'analyse dans la mesure où elles permettent d'évaluer la position des thèmes entre eux dans un espace géométrique de représentation.

 

 

Le projet MIRIAD (besagni@inist.fr) fait partie d'une plate-forme bibliométrique qui a pour objet la mise en place d'un système d'aide à la gestion et à la prise de décision dans la production des bases de données de l'INIST, sur la base d'un système informatisé de statistiques descriptives appliquées aux données bibliographiques (notices, indexation et périodiques).

 

Il y a deux catégories de problèmes dans l'étude statistique de l'information bibliographique : la première comprend les problèmes relatifs aux actes de production de l'information, la seconde comprend les problèmes relatifs aux propriétés et à la qualité de l'information produite. C'est cette deuxième catégorie de problèmes qui constitue l'objet de ce dispositif. Il s'agit d'analyser statistiquement et de représenter par des graphiques (tableaux, histogrammes, courbes, etc.) l'état de l'information produite, et de mettre ces résultats ainsi que son mode d'obtention et d'utilisation à la disposition des responsables pour améliorer la gestion et la prise de décision.

 

MIRIAD comprend plusieurs modules permettant de faire des statistiques standard sur différents formats de notices, à commencer par ceux utilisés à l'INIST pour les bases PASCAL et FRANCIS. Ces statistiques portent sur les éléments bibliographiques des notices : distribution par code de classement, par type de document, par date de publication, par langue, par affiliation des auteurs et par pays de publication ; sur les périodiques : nombre de notices produites par titre et nombre de titres par pays de publication ; sur l'indexation : distribution des mots-clés par notices et distribution des mots-clés par fréquence.

 

MIRIAD comprend aussi un serveur interne à l'INIST dont le but est de réaliser des statistiques à la demande sur les notices issues des bases PASCAL et FRANCIS. Par le biais d'une interface graphique conviviale, en l'occurrence un outil de navigation WWW de type Netscape, les utilisateurs peuvent constituer un corpus de notices à partir de requêtes booléennes, définir et lancer une analyse statistique.

 

La recherche se fait sur une base de données conséquente : l'ensemble de la base PASCAL depuis 1992, avec une mise à jour hebdomadaire. MIRIAD fournit aux utilisateurs un compte-rendu détaillé du résultat de leur recherche et permet la visualisation des notices obtenues, donnant en cela la possibilité de vérifier la pertinence de leurs requêtes et de les modifier si besoin est. Cette possibilité de validation du corpus fait qu'il est souhaitable que cette étape soit exclusivement à la charge des utilisateurs.

 

Chaque type d'analyse statistique est réalisée à l'aide d'un script paramétrable, suivant en cela le principe de modularité. Ainsi, toute nouvelle procédure d'analyse, du moment qu'elle a été réalisée une fois, peut être placée dans un script et ajoutée à la liste des procédures. Lorsque les statistiques demandées sont suffisamment complexes ou qu'aucune procédure n'existe, un expert peut alors prendre le relais.

 

 

Les premières études d’application des réseaux de neurones artificiels à l'infométrie ont abouti à définir la méthode de classification des k-means axiales. Cette méthode s’inspire du formalisme neuronal du modèle de KOHONEN et applique une loi d'apprentissage d'Oja modifiée, du type "winner takes all" (Lelu, 1993). NEURODOC (françois@inist.fr) applique la méthode de k-means axiales comme algorithme de classification non hiérarchique, et une analyse en composantes principales (ACP) pour la représentation des classes obtenues sur un espace bidimensionnel (les deux premiers axes factoriels). Les résultats sont présentés sous la forme d'hypertextes (Hypercard sur Macintosh et Winhelp sur PC). On trouvera dans (Lelu et François, 1992a et 1992b ; Mangeot et François, 1997) des présentations de NEURODOC.

 

A partir d'une représentation vectorielle des données, la méthode des k-means axiales considère l'ensemble des documents comme un nuage de points plongé dans un espace géométrique où chaque dimension correspond à un mot-clé. Elle est caractérisée par une représentations des classes par des vecteurs pointant vers les zones de forte densité du nuage. Tandis que les techniques de classification non hiérarchiques usuelles représentent les k classes recherchées par leur centre de gravité, l'algorithme de k-means axiales définit les k classes par k demi-axes passant par l'origine de l'espace géométrique, ou k vecteurs unitaires pointant dans la direction des ces demi-axes. Cet algorithme, paramétré par le nombre maximal de classes désiré et le seuil d'appartenance des documents et des mots-clés dans les classes, permet de construire des classes d'un type particulier. [a] Ces classes sont recouvrantes car un document ou un mot-clé peut appartenir à plusieurs classes à la fois. [b] Les éléments, documents et mots-clés de chaque classe, sont ordonnés selon un degré de ressemblance au type idéal de la classe.

 

Afin de positionner les thèmes obtenus les uns par rapport aux autres, les classes sont représentées par des points. Une ACP de l'ensemble de points représentant les classes permet de déterminer un plan déformant le moins possible le nuage de points. Tous les points de ce nuage sont ensuite projetés sur ce plan, constituant ainsi la carte des thèmes.

 

L'intérêt pour les algorithmes neuronaux s'appuie sur les liens qui existent entre l'analyse des données et l'approche connexionniste sur le plan statistique de la classification automatique et des représentations factorielles. L'analyse quantitative de l'information (infométrie) peut être complétée par des réseaux de neurones artificiels (modèles essentiellement non linéaires et à seuils). Afin de convertir NEURODOC en une plate-forme neuromimétique, nous avons testé trois réseaux de neurones : [1] ART1 pour la classification et [2] pour la cartographie : un PERCEPTRON multicouche utilisé en auto-association, et un réseau de KOHONEN permettant de réaliser des cartes auto-adaptatives. Le PRI mène ces recherches en coopération avec le groupe CORTEX de l'Equipe RFIA (CRIN-CNRS/INRIA-Lorraine). On trouvera dans (Polanco et al., 1997 ; Grivel et al., 1997b) une présentation de ces tests et développements.

 

 

A côté de l'approche neuromimétique, le PRI s'est engagé également dans le développement d'un autre modèle de traitement infométrique, connu sous le nom de méthode de mots associés (co-words analysis en anglais), à partir duquel existent à l'heure actuelle plusieurs implémentations informatiques dont la première est LEXIMAPPE (CDST-CNRS/CSI-ENSMP).

 

SDOC (grivel@inist.fr.) applique la méthode des "mots associés". Cette méthode se base sur la cooccurrence des mots-clés pour mettre en évidence la structure de leur relations (réseaux lexicaux). La notion de cooccurrence est essentielle. En effet, si on considère que deux documents sont proches parce qu'ils sont indexés par des mots-clés similaires, alors deux mots-clés figurant ensemble dans un grand nombre de documents seront considérés comme proches. L'emploi d'un indice statistique permet de normaliser la mesure de l'association entre deux mots-clés. L'indice utilisé est l'indice d'équivalence : la cooccurrence au carré des mots-clés i et j, divisée par le produit de leur fréquences respectives, les valeurs varient entre 0 et 1. Cet indice est analogue aux indices bien connus de Dice, de Jaccard et de Salton ou du cosinus. Ensuite, SDOC applique un algorithme de classification ascendante hiérarchique (CAH) du simple lien, afin de construire des classes ou clusters de mots proches les uns des autres n'excédant pas une taille maximale. Un cluster est donc constitué de mots associés les uns aux autres (associations internes). Les clusters peuvent avoir des relations entre eux (associations externes). Après le processus de classification des mots-clés, les documents sont affectés aux clusters.

 

La "densité" et la "centralité" des clusters sont utilisées pour les positionner sur un plan bidimensionnel (Y, X), c'est-à-dire une carte. La densité (Y) d'un cluster est exprimée par la valeur moyenne des associations entre mots-clés formant le cluster, ou associations internes. La centralité (X) d'un cluster est exprimée par la valeur moyenne des associations entre les mots qui le constituent et les mots d'autres clusters, ou associations externes. Sur une telle carte, la proximité entre deux clusters indique qu'ils sont structurellement proches, mais leurs contenus sémantiques ne sont généralement pas voisins.

 

On trouvera dans (Grivel et Lamirel, 1991 et 1993 ; Grivel et al., 1995c ; Polanco et al., 1991 ; Ducloy et Polanco, 1992 ; Polanco et Grivel, 1995d) des présentations détaillées de SDOC et ses applications, et dans (Grivel et François, 1995b) une étude comparative entre SDOC et NEURODOC.

 

4 SGBD-WEB

 

L'intérêt d'une architecture mixte SGBD-Hypertexte, l'apport de la structure d'arbre SGML pour la conversion de documents vers les SGBD et les avancées actuelles dans le couplage WWW-SGBD, ont conduit le PRI à développer le système HENOCH, permettant deux types de navigation complémentaires pour l'analyse de l'information : l'exploration basée sur la métaphore de la carte et la recherche d'informations par requêtes orientées par la question "qui fait quoi en coopération avec qui, où et quand". On trouvera dans (Grivel et al., 1995a ; 1997a et 1997b) des présentations détaillées du système HENOCH.

 

 

Le système HENOCH (grivel@inist.fr) permet de stocker l'information élaborée par NEURODOC et/ou SDOC dans une base de données accessible à l'utilisateur par hypertexte et offre la possibilité de faire des requêtes. L'expérience nous a montré que le processus d'analyse de l'information structurée, dans une démarche de veille, est un mélange d'exploration informelle intuitive et de requêtes spécifiques du type "qui fait quoi, en collaboration avec qui, où et quand". Afin de satisfaire ce double aspect "exploration/requête", nous avons développé une architecture mixte combinant les technologies SGBD et Hypertexte (WWW).

 

Le système assure deux fonctions principales : [1] alimenter le SGBD à partir de documents SGML produits par les programmes NEURODOC et SDOC, et [2] établir une interface WWW-SGBD.

 

Pour être le plus indépendant possible du SGBD, les programmes qui constituent HENOCH utilisent une API développée en C++ pour exécuter des requêtes SQL et virtuellement se connecter à n'importe quel SGBD. Dans son principe, elle est équivalente à l'API JDBC développée par Sun en Java. C'est une classe C++ qui comprend les fonctions de création et de manipulation d'une base de données ainsi que les fonctions de consultations (requêtes SQL).

 

Pour pouvoir traiter tout type de document structuré conforme à la norme SGML, HENOCH utilise une autre API, écrite en C++ et en C, qui est basée sur une structure d'arbre et des fonctions d'accès aux noeuds de l'arbre. Une sorte de langage applicatif permet d'associer une procédure PL/SQL à différents noeuds de l'arbre correspondant à des éléments de données SGML.

 

Sur le plan de l'interface utilisateur, HENOCH propose deux types de navigation complémentaires sur le Web. [1] une exploration intuitive basée sur la métaphore de la carte, et [2] un mode de recherche basé sur la métaphore "qui fait quoi, où, avec qui, quand, dans quelles sources (revue, congrès, ...)". Dans les deux cas, la navigation est assurée par l'exécution de requêtes SQL sur la base de données infométriques.

 

En coopération avec le LERECO-INRA, le PRI réalise actuellement une extension d'HENOCH basée sur JDBC, afin de développer une plate-forme commune d'accès à des données infométriques selon un modèle englobant l'analyse des co-citations maîtrisée par le LERECO.

 

5 REFERENCES

 

  1. DAILLE B., HABERT B., JACQUEMIN C., ROYAUTE J. (1996) "Empirical observation of term variations for their description", Terminology,.vol. 3, n° 2, p.197-257.
  2. DUCLOY J., CHARPENTIER P., FRANCOIS C., GRIVEL L. (1991) "Une boîte à outils pour le traitement de l’Information Scientifique et Technique", 4es. Journées Internationales Le Génie logiciel et ses applications. Toulouse, 9-13 Décembre 1991, p. 239-254 ; et dans Génie logiciel, n° 25, 1991, p. 80-90.
  3. DUCLOY J., POLANCO X. (1992) "D'une boîte à outils à la description du domaine des Cognisciences", Journées d'étude de l'ADEST : La scientométrie en action, Paris, 1 et 2 juin 1992, p. 65-73.
  4. FAUCOMPRE P., GRIVEL L., POLANCO X., DOU H., QUONIAM L. (1997) "Un lien effectif entre informations scientifiques et informations techniques", Journées d'études sur les systèmes d'information élaborée de la SFBA, Ile Rousse, Corse, 12-16 mai 1997, p. 19-28.
  5. GRIVEL L., LAMIREL J.C. (1991) "SDOC, A Generator of Hypertext Structures", M. Feeney et S. Day (Eds), Multimedia information : Proceedings of a Conference held at Churchill college, Cambridge (UK), 15-18 july 1991, Londres: Bowker Saur , 1991, p. 69-81.
  6. GRIVEL L., LAMIREL J.C. (1993) "An analysis tool for scientometric studies integrated in an hypermedia environment", Proceedings of ICO 93: 4th International Conference on Cognitive and Computer Sciences for Organizations, Montreal (Quebec), Canada, 4-7 mai 1993, p. 146-154.
  7. GRIVEL L., FRANÇOIS C. (1995a) "Conception et développement d'un système d'information dédié à la veille scientifique basé sur les sorties des outils de classification thématique SDOC et NEURODOC", 3ème Conf. Intern. Hypertextes et Hypermedias : réalisation, outils méthodes, J-P. Balpe, A. Lelu, I. Saleh, Hypertextes et hypermédias. Paris, HERMES, p. 109-118.
  8. GRIVEL L., FRANÇOIS C. (1995b) "Une station de travail pour classer, cartographier et analyser l'information bibliographique dans une perspective de veille scientifique et technique", SOLARIS n° 2, Presses Universitaires de Rennes, p. 81-112 ; et dans http//www.info.unicaen/bnum/jelec/Solaris.
  9. GRIVEL L., MUTSCHKE P., POLANCO X. (1995c) "Thematic mapping on bibliographic databases by cluster analysis : a description of the SDOC environment with SOLIS", Journal of Knowledge Organization, Vol. 22, 1995, n° 2, p. 70-77.
  10. GRIVEL L., POLANCO X., KAPLAN A. (1997a) "A computer system for big scientometrics at the age of the World Wide Web", Proceedings of the Sixth Conference of the International Society for Scientometrics and Informetrics, edited by B.C. Bluma & L. Egghe. Jerusalem, Israel, June 16-19, p. 131-142 ; à paraître également dans Scientometrics.
  11. GRIVEL L., FRANÇOIS C., POLANCO X. (1997b) "Analyse de l'information par cartographie neuromimétique et requêtes SQL sur le Web", 4ème Conf. Intern. Hypertextes et Hypermedias : réalisation, outils méthodes, à paraître dans Hypertextes et Hypermedias, Vol. 1, 1997, n° 2.
  12. JACQUEMIN C., ROYAUTE J. (1994) "Retrieving Terms and their Variants in a Lexicalised Unification-Based Framework", Proceedings, 17th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval, 3 - 6 July 1994, Dublin, p. 132-141.
  13. LELU A. (1993) Modèles Neuronaux pour l'Analyse de Données Documentaires et Textuelles. Thèse de l'Université de Paris 6.
  14. LELU A., FRANCOIS C. (1992a) "Information retrieval based on a neural unsupervised extraction of thematic fussy clusters" Neuro-Nîmes 92 : Les réseaux neuro-mimétiques et leurs applications, 2-6 novembre 1992, Nîmes, France.
  15. LELU A., FRANCOIS C. (1992b) "Hypertexte paradigm in the field of information retrieval : a neural approach" Fourth ACM conference on Hypertext: ECHT’92, 30 novembre - 4 décembre 1992, Milan, Italie.
  16. MANGEOT D., FRANCOIS C. (1997) "La base de données 'Histoire et Sciences des Religions' (FRANCIS). Une problèmatique : femme et religion. Analyse assistée par ordinateur", à paraître dans Le médiéviste et l'ordinateur.
  17. MULLER C., POLANCO X., ROYAUTE J., TOUSSAINT Y. (1997) Acquisition et structuration des connaissances en corpus : éléments méthodologiques. INRIA, RR-3198, juin 1997, 45p.
  18. POLANCO X., SCHMITT L., BESAGNI D., GRIVEL L. (1991) "A la recherche de la diversité perdue : est-il possible de mettre en évidence les éléments hétérogènes d'un front de recherche", Journées d'études sur les systèmes d'information élaborée de la SFBA, Ile Rousse, Corse, 5-7 juin 1991, p. 273-292.
  19. POLANCO X. (1993) "Analyse stratégique de l'information Scientifique et Technique : Construction de clusters de mots-clés", Sciences de la société, n° 29, p. 111-126.
  20. POLANCO X., GRIVEL L., FRANÇOIS C., BESAGNI D. (1993) "L'infométrie, un programme de recherche", Journées d'études sur les systèmes d'information élaborée de la SFBA, Ile Rousse, Corse, Document n° 3 des Actes, 9p.
  21. POLANCO X. (1995a) L'infométrie mode d'emploi. Louvain-la-Neuve, Editions du CLPCF (ISBN 2-87209-373-7), 53p.
  22. POLANCO X., GRIVEL L., ROYAUTE J. (1995b) "How To Do Things with Terms in Informetrics: Terminological Variation and Stabilization as Science Watch Indicators". Proceedings of the Fifth International Conference of the International Society for Scientometrics and Informetrics. Edited by M.E.D. Koening and A. Bookstein. Medford, NJ, Learned Information Inc., p. 435-444.
  23. POLANCO X., ROYAUTE J., GRIVEL L., COURGEY A. (1995c) "Infométrie et linguistique informatique. Une approche linguistico-infométrique au service de la veille scientifique et technique". Journées d'études sur les systèmes d'information élaborée de la SFBA, Ile Rousse, Corse, 19p. Edition CD-ROM (CRRM - Marseille).
  24. POLANCO X., GRIVEL L. (1995d) "Mapping Knowledge: The use of co-word analysis techniques for mapping a sociology data file of four publishing countries (France, Germany, UK, and USA", The International Journal of Scientometrics and Informetrics, Vol. 1, n° 2 (june 1995), p. 123-137.
  25. POLANCO X. (1995e) "Aux sources de la scientométrie", SOLARIS n° 2, Presses Universitaires de Rennes, p. 13-79 ; et dans http//www.info.unicaen/bnum/jelec/Solaris.
  26. POLANCO X. (1996a) "L'información científica y las necesidades de la investigación : el caso del Instituto de la Información Científica y Técnica (INIST)", COLCIENCIAS, Hacia la Construcción de un Observatorio de Ciencia y Tecnología (ISBN 958-9037-44-5), Bogota, Colombia, 1996, p. 41-48.
  27. POLANCO X. (1996b) "La cienciometría cognitiva, métodos, potencialidades y utilizaciones", COLCIENCIAS, Hacia la Construcción de un Observatorio de Ciencia y Tecnología (ISBN 958-9037-44-5), Bogota, Colombia, 1996, p. 93-106.
  28. POLANCO X. (1996c) "La notion d'analyse de l'information dans le domaine de l'information scientifique et technique", Conférence INRA sur L'Information Scientifique et Technique, 21-23 octobre, Tours, à paraître.
  29. POLANCO X., FRANCOIS C., KEIM JP. (1997) "Artificial neural network technology for the classification and cartography of scientific and technical information", Proceedings of the Sixth Conference of the International Society for Scientometrics and Informetrics, edited by B.C. Bluma & L. Egghe. Jerusalem, Israel, June 16-19, p. 319-330.
  30. ROYAUTE J., SCHMITT L., OLIVETANT E. (1992) "Les expériences d'indexation à l’INIST". Proceedings of the 15th International Conference on Computational Linguistics (COLING'92), Nantes, 23- 28 August 1992, p. 1058-1063.
  31. ROYAUTE J., JACQUEMIN C. (1993) "Indexation automatique et recherche de noms composés sous leurs différentes variations", Informatique & Langue Naturelle, ILN'93, Nantes, Décembre 1993, p. 5-23.
  32. ROYAUTE J. (1994) "Formal description of complex noun phrases with predicative nouns", Current Issues in Mathematical Linguistics, C Martin-Vide (Editor), North-Holland Linguistics Series, Elsevier Science B.V, Avril 1994, p. 209-218.
  33. ROYAUTE J., MULLER C., POLANCO X. (1996) "Une approche linguistique infométrique de la variation terminologique pour l'analyse de l'information", Colloque ILN'96, Informatique et Langage Naturel, Institut de Recherche en Informatique de Nantes, Université de Nantes, 9-10 octobre 1996, p. 563-581.
  34. TOUSSAINT Y., ROYAUTE J., MULLER C., POLANCO X. (1997) "Analyse linguistique et infométrique pour l'acquisition et la structuration de connaissances", Deuxièmes Rencontres Terminologie et Intelligence Artificielle, Université Toulouse-Le Mirail, 3-4 avril 1997.