Indexation et contexte, application au prion

Marie-Thérèse Maunoury, William A. Turner :

 

Aux origines du mot lexique, le lexicon des grecs répertoriait le vocabulaire caractéristique des écoles de pensée (de Platon, d'Aristote..).

Dans cet exposé, nous avons tenté de montrer l'importance de la phase préliminaire d'indexation dans tout processus de veille, les particularités du logiciel utilisé pour l'analyse lexicale et, avec la notion de collaboratoire, le nécessaire travail en synergie entre les scientifiques d'un domaine et les infomètres, pour suivre l'évolution de la science à travers la littérature.."

_______

Le sujet de l'étude, proposé par Mme Anne-Marie De Recondo, (représentant du CNRS au Comité des Bio-pathologies associées aux prions au M.E.N.R.T.) est :

" le concept prion et l'hypothèse d'hérédité non mendélienne, leur développement respectif et leur rapprochement dans la littérature.. "

La maladie de la vache folle a souligné de façon dramatique les particularités et la dangerosité des maladies dites à prions avec un agent infectieux qui résiste à tous les traitements dégradant les acides nucléiques. Ceci a conduit " S. Prusiner " à proposer le modèle de " la protéine seule " remettant en cause les dogmes de la biologie moléculaire. L'hypothèse de Prusiner expliquant la transmission de la maladie par un changement de conformation de cette protéine n'est pas totalement démontrée et se heurte à un certain scepticisme de la communauté scientifique. Existe-t-il d'autres phénomènes biologiques pouvant être liés à un changement de conformation d'une protéine ? Depuis plus de 30 ans, on connaît chez les champignons filamenteux et chez la levure des exemples d'hérédité non mendélienne..

Ce sujet nous a paru intéressant pour tester une démarche infométrique. On y trouve, en effet, trois courants de recherche indépendants assimilables à des écoles de pensées avec en 1952 et 1962 : les travaux de G Rizet et J Beisson sur l'incompatibilité cytoplasmique des champignons filamenteux, en 1967 : les modèles proposés par JS Griffith pour expliquer l'autoreplication de la scrapie ou tremblante du mouton, et en 1965 : les observations de Cox, puis en 1971, 1975  les recherches de F Lacroute et M Aigle sur des déterminants phénotypiques non mendéliens, chez la levure. En 1994, le levuriste RB Wickner souligne des analogies entre le modèle ''prion'' de SB Prusiner et le changement de conformation des protéines mutées de levure, similitudes qui pourraient expliquer un tel mode de transmission. Récemment, plusieurs articles de synthèses font état de convergences entre les maladies à prion et les phénomènes d'hérédité non mendélienne, élargissant d'emblée le champs des recherches..

Une première série de tests de logiciels de veille, réalisée au CNRS sur le thème des prions, nous avait montré l'importance de la phase préliminaire d'indexation pour caractériser le vocabulaire d'un domaine, et tout particulièrement, pour suivre des thèmes de recherche fondamentale en marge du front principal des recherches. Les analyses lexicales, doivent tenir compte des spécificités des écoles de pensées et/ou des courants de recherche, le vocabulaire évoluant avec les données expérimentales, conceptuelles qu'apportent les publications..

Nous proposons une méthode de constitution de lexiques en trois étapes 

  1. La constitution de corpus a été réalisée à partir d'articles de synthèse, et d'une base de données intégrant les citations, le Science Citation Index.. Les articles de synthèse choisis par les experts donnent une vision élargie des recherches concernées. Ils apportent aussi la distanciation nécessaire à la mise en place d'un véritable partenariat entre scientifiques du domaine et infomètres, permettant une généralisation de la méthode. Par ailleurs, les publications permettent d'étudier l'approfondissement et l'élargissement des recherches scientifiques au fur et à mesure de l'évolution des connaissances et des hypothèses qui en découlent. Enfin, les citations, outil d'identification des corpus documentaires, aident à repérer des domaines de recherche.

  2. Les analyses lexicales permettent de suivre l'évolution des concepts en regard de nouvelles données expérimentales. Elles doivent étudier les mots ''en situation'' et ont été réalisées à l'aide de l'extracteur terminologique Genet de SYSTAL, développé par P Constant, qui privilégie l'approche contextuelle.

Ces analyses lexicales restituent la spécificité des mots dans leurs contextes d'utilisation :

  1. le langage d'un article scientifique comporte des unitermes et des mots composés spécifiques, inhabituels dans le langage courant ;
  2. chaque école de pensée exprime ''un point de vue'' lié à son sujet d'étude, il est intéressant de suivre l'APPROFONDISSEMENT de ces travaux ;
  1. les mots qui signent l'émergence de nouveaux centres d'intérêt avec l'ELARGISSEMENT conceptuel se retrouvent hors des premières listes.

3. La restitution des résultats est faite sous forme de listes de mots qui traduisent l'évolution des recherches et, en particulier, signent l'approfondissement puis l'élargissement des thèmes.. Une présentation tabulaire des résultats explicite :

En conclusion :

La démarche d'INDEXATION proposée se décompose en 3 phases.

Les première, phase de mise en œuvre, et troisième, phase de restitution, supposent un travail en complète SYNERGIE entre les infomètres et les scientifiques du domaine, pour tenir compte, au plus près, du CONTEXTE de recherche..

La seconde phase de notre démarche a pu être codifiée sous forme d'une ANALYSE LEXICALE semi-automatique qui :

  1. grâce aux particularités du logiciel Genet,
  2. partant d'articles de synthèse récents,
  3. puis, des articles anciens cités par ces articles de synthèse,
  4. et enfin, des corpus citant ces articles anciens,

permette de caractériser le vocabulaire spécifique des phases d'approfondissement puis d'élargissement de recherches, avec une grande pertinence.

Summary :

In this talk, a method is presented to build lexicons for describing changes in research interests over time. The method is tested in the area of prion or prion-like protein research and concerns more specifically an effort to trace the history of work on the "non-mendelian hypothesis". The study concerns a period of more than thirty years. It shows the importance of review articles and citations for establishing an appropriate corpus for terminology extraction; presents the linguistic tools and relevancy measures used for this extraction; and, finally, uses graphical displays to cluster terminology and help in interpretation and understanding. One important conclusion of this work concerns the necessary cooperation between information specialists and scientific experts during lexicon construction

Cf. article paru dans Médecine/Sciences :

"Observer la science en action; Ou, comment les sciences de l'information

permettent de suivre l'évolution et la convergence des concepts de prion et

d'hérédité non mendélienne dans la littérature.

Maunoury MT, De Recondo AM, Turner WA. Med Sci 1999; 4: 577-82."