Comprendre la recherche d’information sur les moteurs de recherche par l’analyse sémantique automatisée

Mars 2001

Comprendre la recherche d’information sur les moteurs de recherche par l’analyse

sémantique automatisée des mots clés.

Compte-rendu de l’intervention au séminaire de l’ADEST le 17 novembre 2000 à

l’Ecole des Mines de Paris.

Présentation for German Online Research 2001, Goettingen.

Par Christophe Castano (christophe.castano@libertysurf.fr )

( consultant Internet, chercheur au laboratoire de Psychologie Environnementale,

CNRS, Paris 5, éditeur du Guide web de Psychologie sociale).

Des millions de mots sont tapés quotidiennement sur les moteurs de recherche. Une analyse sémantique automatisée permet de clarifier la demande d’information des internautes et de la mettre en relation avec l’offre de sites web proposé par le moteur.

Des tendances journalières, hebdomadaires ou encore mensuels peuvent être détectées à l’aide du logiciel Tropes Zoom, édité par la société Acetic (http://www.acetic.fr ).

Egalement, ce logiciel permet de comprendre le contexte sémantique de l’emploi

d’un mot ou d’un groupe de mot.

Au final, ce travail fournit une aide

- Pour la documentation, en permettant d’indexer de façon plus juste

les sites web, et en permettant d’anticiper les tendances en matière de

recherche d’information.

- Pour le service marketing, en facilitant les plans de communication.

- Pour l’ergonomie du site : les résultats aident à concevoir une

navigation plus adaptée aux recherches de type " annuaire " et aux recherches de

type " moteur de recherche ". Nos résultats tentent aussi de montrer que des

mots ou des thèmes proches du point de vue des utilisateurs peuvent leur être

suggérés pour améliorer leur recherche.

Nous proposons aujourd’hui un bref aperçu de l’étude que nous avons menée pour

Nomade.fr (http://www.nomade.fr ) entre mai et juillet 2000, à l’aide du

logiciel Tropes Zoom.

Abstract

Keyword analyse on a search motor : tools to help web users

Millions of words are taped everyday on search motors. An automatic semantic

analyse is a good support to understand what kind of information people is

looking for on the web.

We present you today an applied research on the french directory and search

motor Nomade.fr (http://www.nomade.fr ), which has been realised between may and

july 2000, using the soft Tropes Zoom (http://www.acetic.fr ). 15 millions of

keywords have been analysed by the soft.

Tropes Zoom has an integrated thesaurus and can classify the words in different

issues. Some daily, weekly and monthly tendencies can be detected.

Also, we can know the semantic context of the use of a word or a group of words.

This is interesting to know which words and which issues are associated together

by the users.

This study shows also that some words and issues very closed together can be

sugested to the user in order to enhance his information research.

At last, we compared and analysed the user’s demand of information with the

information supplied by web sites.

Concretly, this work provides support for :

- Documentation research : tool for web sites indexation. We have built a

directory of the demand.

- Marketing research : tool for communication plan.

- Social Psychology research : tool for detecting social tendencies of the users

of the web.

- Ergonomy : tool to concept navigation trough the directory and the search

motor.

1/ Les objectifs principaux de l’étude.

-connaître les principaux thèmes recherchés sur le web afin de mieux orienter

les services offerts par le site.

-réaliser un annuaire de la demande, constitué par le regroupement thématique

des mots recherchés, afin de comparer avec l'offre des sites de la base de

nomade.

-Suivre les évolutions de certains thèmes, de semaine en semaine, de mois en

mois, ou bien encore repérer les thèmes recherchés plutôt la semaine et ceux

recherchés plutôt le week-end.

2/ L’utilisation de Tropes Zoom.

Tropes Zoom est un logiciel édité par la société Acetic, et est composé d’un

thésaurus de taille encyclopédique. Il se décompose en deux sous logiciels

intégrés : Tropes et Zoom.

Tropes a permis :

- la classification thématique des mots.

Le logiciel classe en trois niveaux d’abstraction les substantifs, allant du

plus petit regroupement au plus général.

- l’observation des mises en relation pour savoir quels sont les thèmes associés

à un mot. Cela permet aussi de désambiguiser certains termes. Par exemple, le

mot java est exclusivement tapé dans le sens : " langage informatique ".

Cela permet aussi de connaître les réseaux sémantiques, qui peuvent suggérer une

organisation de l’annuaire.

Zoom a permis une gestion facile des fichiers à traiter.

Différentes combinaisons d'agrégations des fichiers permettent de faire des

comparaisons en quelques minutes entre les différentes semaines, et des

comparaisons entre les jours de semaine et les jours de week-end.

3/ Caractéristique du guide Nomade.fr

Ce guide, destiné avant tout au grand public, contient environ 115 000 sites

francophones.

Nomade.fr est à la fois un annuaire et un moteur de recherche. Cependant, le

moteur n’est pas un crawler.

Pour chaque site recensé, les documentalistes réalisent une fiche résumé avec

une dizaine de termes (et aussi quelques mots clefs rajoutés). Il y a donc

surtout des termes français et généraux. Ceci n’a pu que faciliter notre tâche

!

Voici un exemple de fiche résumé d’un site :

Les joyeux vignerons de Thann

Les joyeux vignerons de Thann, dans le Haut Rhin sont des amis qui partagent la

même passion, la musique. Ils proposent leurs services pour des fêtes dansantes

avec une ambiance régionale et folklorique.

Editeur : Les joyeux vignerons de Thann - Nature : Association - Pays : France,

Thann - Site pour : Tous Publics

Arts et culture...France : Alsace, Lorraine : (21)

Adresse : http://perso.wanadoo.fr/trom.infos/jvt/jvt.index.htm

Quand un internaute tape un mot clef, le moteur n’ira donc pas crawler toutes

les pages des sites de la base, mais se référera aux seuls mots donnés par les

fiches résumés des sites.

3/ Quelques résultats de l’étude.

15 millions de mots ont été traités par Tropes sur 3 semaines, entre le 15 mai

et le 9 juillet 2000.

Des tests sur plusieurs échantillons ont montrés que Tropes a reconnu entre 80%

et 85% des mots clés tapés par les internautes (ayant eu une réponse ou non sur

le site).

Les résultats montrent la grande diversité des thèmes abordés.

voici quelques résultats concernant les thèmes les plus généraux.

Sexualité : c'est le premier grand thème. Il représente 7.8% des 15 millions de

requêtes analysés.

Ce résultat remet en partie en cause les résultats d’une étude du psychologue

Jacques Lajoie, qui montrait que moins d’un 1% des requêtes concernent la

sexualité (études des requêtes d’Altavista.com et Webcrawler.com en 1998).

Ce résultat remet aussi en cause les affirmations courantes selon lesquelles on

ne cherche que du sexe sur Internet.

Dans cette catégorie, l'homosexualité représente 10%.

Informatique : des recherches essentiellement le week-end. C'est une

confirmation que le public concerné n'est pas constitué de professionnels de

l'informatique.

Art et Culture : Le cinéma, la musique et les musées sont des thèmes recherchés

surtout le week-end. Les autres thèmes le sont plutôt en semaine.

Education : catégorie de semaine. Les diplômes étaient très recherchés en cette

période de fin d’année scolaire.

Média : les radios et la presse sont essentiellement recherchées la semaine.

Littérature/Edition : c'est une surprise de retrouver cette catégorie aussi bien

placée. On retrouve notamment les BD (le week-end) et les dictionnaires (en

semaine).

Famille: des recherches essentiellement le week-end.

Emploi: des recherches de semaine.

4/ un exemple de résultat pour la catégorie Science.

Un bref regard sur cette catégorie nous donne les résultats suivants :

-203 118 mots tapés en 3 semaines.

-Une tendance générale : les recherches sont bien plus nombreuses en semaine

qu’en week-end.

-Les sciences dures sont plus représentées que les sciences humaines et

sociales. Pour illustrer ce résultat, on peut voir que parmi les dix premiers

thèmes scientifiques, seuls trois font référence aux sciences humaines :

l’histoire, les sondages et la psychologie.

-parmi les 7 thèmes qui sont majoritairement recherchés le week-end, on retrouve

essentiellement les sciences humaines : l’anthropologie, l’ethnologie, la

philosophie et la préhistoire.

2 tableaux sont présentés :

Tableau1 : classement des thèmes scientifiques selon les occurrences.

Tableau 2 : thèmes scientifiques recherchés majoritairement la semaine versus le

week-end.

Tableau1 : classement des thèmes scientifiques selon les occurrences

 

Thèmes

Occurrences

1

électronique

100895

2

histoire

16250

3

astronomie

8926

4

chimie

8175

5

mathématique

6704

6

sondage

5926

7

ingénierie

4820

8

pollution

4730

9

psychologie

4694

10

physique

4359

11

biologie

4078

12

géographie

3962

13

optique

3682

14

préhistoire

3222

15

philosophie

2867

16

linguistique

2562

17

vétérinaire

1847

18

génétique

1578

19

statistique

1473

20

astronautique

1359

21

extraterrestre

1284

22

robotique

1239

23

science_politique1

019

24

sociologie

1006

25

géologie

831

26

botanique

763

27

automatisation

732

28

écologie7

12

29

cerveau

623

30

microphysique

541

31

démographie

508

32

radiochimie

441

33

biotechnologie

368

34

ethnologie

259

35

stérilisation

211

36

anthropologie

206

37

atmosphère

143

38

transgénique1

23

Tableau 2 : thèmes scientifiques recherchés majoritairement la semaine versus le

week-end.

Thèmes de semaine

Thèmes de week-end

1

Transgénique

1

Extraterrestre

2

Radiochimie

2

Anthropologie

3

Automatisation

3

Ethnologie

4

Pollution

4

Philosophie

5

Génétique

5

Atmosphere

6

Biologie

6

Astronautique

7

Cerveau

7

Préhistoire

8

Sondage

   

9

Ingénierie

   

10

Chimie

   

Mes remerciements pour les sociétés Acetic et Nomade.fr qui ont permis la

réalisation de cette étude.

Copyright Christophe Castano, Mars 2001. Toute reproduction interdite sans

autorisation