DE NOUVEAUX OUTILS POUR DECOUVRIR L'INFORMATION
 
Olivier Jouve - Cisi
Françoise Rousseau - CEA/DIST
Jérôme Thil - ADIT

La montée en puissance des réseaux (Internet, Intranet, Extranet,...) modifie en profondeur l'ensemble du processus de veille technologique, commerciale ou concurrentielle.  

Deux phénomènes majeurs marquent cette évolution : d'une part la prolifération du texte intégral électronique (plus de 200 millions de pages sur le Web), d'autre part le développement des formes de travail coopératif (" news groups ",...).  

Afin d'aider le spécialiste de l'Intelligence Economique à constituer des produits d'information élaborée à partir de ces gisements d'information, sont apparus de nouveaux types d'outils informatiques qui permettent le traitement automatique de grandes quantités d'informations textuelles sous forme numérique (pages provenant d'Internet, dépêches de presse, notices bibliographiques, brevets...) en dépassant la simple combinaison de mots clés. Même si l'expertise humaine reste toujours indispensable pour interpréter les résultats et pour orienter les différentes analyses, ces logiciels, aujourd'hui industriels, deviennent de plus en plus incontournables pour ramener l'information à traiter à une échelle compatible avec un cycle de décision rapide.

 

Olivier Jouve
Responsable des technologies de l'information
Cisi

 
Explorer le contenu des documents 

Une des directions majeures prise par ces logiciels est de proposer à l'utilisateur une vision globale du contenu de sa base documentaire à l'aide de représentations simplifiées. Celles-ci sont souvent construites à partir des mots ou des concepts rencontrés dans les textes et de leurs relations de proximité calculées par différentes méthodes. Ces cartographies, utilisables pour naviguer, peuvent être constitués d'agrégats (ou clusters) de termes proches dans les textes (SAMPLERTM, SDOCTM, ALCESTETM ...), d'îlots visualisant la répartition des mots dans les textes (UMAP) ou encore de classifications des documents par rapport aux thématiques abordées (NEURODOCTM, TECHNOLOGY WATCHTM, TEXT NAVIGATORTM...).  

Parce qu'elles permettent une compréhension rapide du contenu des documents analysés en les " mettant en scène ", contrairement aux résultats " kilométriques " d'un moteur de recherche, ces représentations peuvent aider à la découverte d'informations stratégiques. Elles peuvent aussi servir à la " reformulation ". Par exemple, CYRANO (réalisé par l'ADIT, Cisi et Ecila) serveur Web d'accès à l'ensemble de la documentation publique et para publique française, basé sur le moteur documentaire Search'97TM de Verity, utilise SAMPLER pour offrir une navigation graphique et un accès intuitif à la documentation sans ingénierie préalable.  

La pertinence des cartographies, construites directement à partir des textes, est largement supérieure aux approches classiques par thesaurus ou réseaux sémantiques qui réclament une organisation forte de l'information "a priori" ce qui est généralement incompatible avec une démarche de veille sur des textes sémantiquement hétérogènes et instables, et pour lesquels l'émergence et la rupture sont des critères majeurs de recherche. 

 
Sampler : Une démarche bottom-up pour découvrir l'information
 
Structurer pour comprendre 

Un autre besoin du veilleur est de comprendre l'environnement dans lequel il agit ou veut agir, de pouvoir décrire ses concurrents, de connaître les partenariats. Pour structurer le domaine, les logiciels doivent isoler les acteurs, leur entreprise ou leur laboratoire, les thèmes de recherche... et croiser ces variables entre elles en privilégiant leur évolution chronologique. Ces résultats sont obtenus à partir de données structurées telles que des notices bibliographiques ou des brevets avec des logiciels tels que TETRALOGIETM , DATAVIEWTM ou SAMPLER. 

Il n'existe cependant pas de solutions totalement autonomes ou universelles sur le marché même si les technologies dites de Clustering (SAMPLER, SDOC, ...), basées sur un couplage de la statistique et de la linguistique semblent actuellement être les seules opérationnelles face aux enjeux de l'Internet..  

La multiplication des points de vue sur l'information est alors une nécessité et la synergie entre les différents produits, pour la plupart français, une voie incontournable. C'est la direction dans laquelle se sont engagés des organismes pionniers tels que le CEA/DIST ou l'ADIT aux côtés de Cisi et de l'IRIT. 

Tableau récapitulatif de quelques logiciels représentatifs

 
Nom du logiciel Société
SAMPLER CISI
TETRALOGIE IRIT Toulouse
DATAVIEW CRRM Marseille
TECHNOLOGY WATCH IBM/ECAM France
TEXT NAVIGATOR IBM/ECAM France
U-MAP TRIVIUM
NEURODOC INIST Nancy
SDOC  INIST Nancy
ALCESTE IMAGE