Comprendre la recherche d’information sur les moteurs de recherche par l’analyse sémantique automatisée
Mars 2001
Comprendre la recherche d’information sur les moteurs de recherche par l’analyse
sémantique automatisée des mots clés.
Compte-rendu de l’intervention au séminaire de l’ADEST le 17 novembre 2000 à
l’Ecole des Mines de Paris.
Présentation for German Online Research 2001, Goettingen.
Par Christophe Castano (christophe.castano@libertysurf.fr )
( consultant Internet, chercheur au laboratoire de Psychologie Environnementale,
CNRS, Paris 5, éditeur du Guide web de Psychologie sociale).
Des millions de mots sont tapés quotidiennement sur les moteurs de recherche. Une analyse sémantique automatisée permet de clarifier la demande d’information des internautes et de la mettre en relation avec l’offre de sites web proposé par le moteur.
Des tendances journalières, hebdomadaires ou encore mensuels peuvent être détectées à l’aide du logiciel Tropes Zoom, édité par la société Acetic (http://www.acetic.fr ).
Egalement, ce logiciel permet de comprendre le contexte sémantique de l’emploi
d’un mot ou d’un groupe de mot.
Au final, ce travail fournit une aide
- Pour la documentation, en permettant d’indexer de façon plus juste
les sites web, et en permettant d’anticiper les tendances en matière de
recherche d’information.
- Pour le service marketing, en facilitant les plans de communication.
- Pour l’ergonomie du site : les résultats aident à concevoir une
navigation plus adaptée aux recherches de type " annuaire " et aux recherches de
type " moteur de recherche ". Nos résultats tentent aussi de montrer que des
mots ou des thèmes proches du point de vue des utilisateurs peuvent leur être
suggérés pour améliorer leur recherche.
Nous proposons aujourd’hui un bref aperçu de l’étude que nous avons menée pour
Nomade.fr (http://www.nomade.fr ) entre mai et juillet 2000, à l’aide du
logiciel Tropes Zoom.
Abstract
Keyword analyse on a search motor : tools to help web users
Millions of words are taped everyday on search motors. An automatic semantic
analyse is a good support to understand what kind of information people is
looking for on the web.
We present you today an applied research on the french directory and search
motor Nomade.fr (http://www.nomade.fr ), which has been realised between may and
july 2000, using the soft Tropes Zoom (http://www.acetic.fr ). 15 millions of
keywords have been analysed by the soft.
Tropes Zoom has an integrated thesaurus and can classify the words in different
issues. Some daily, weekly and monthly tendencies can be detected.
Also, we can know the semantic context of the use of a word or a group of words.
This is interesting to know which words and which issues are associated together
by the users.
This study shows also that some words and issues very closed together can be
sugested to the user in order to enhance his information research.
At last, we compared and analysed the user’s demand of information with the
information supplied by web sites.
Concretly, this work provides support for :
- Documentation research : tool for web sites indexation. We have built a
directory of the demand.
- Marketing research : tool for communication plan.
- Social Psychology research : tool for detecting social tendencies of the users
of the web.
- Ergonomy : tool to concept navigation trough the directory and the search
motor.
1/ Les objectifs principaux de l’étude.
-connaître les principaux thèmes recherchés sur le web afin de mieux orienter
les services offerts par le site.
-réaliser un annuaire de la demande, constitué par le regroupement thématique
des mots recherchés, afin de comparer avec l'offre des sites de la base de
nomade.
-Suivre les évolutions de certains thèmes, de semaine en semaine, de mois en
mois, ou bien encore repérer les thèmes recherchés plutôt la semaine et ceux
recherchés plutôt le week-end.
2/ L’utilisation de Tropes Zoom.
Tropes Zoom est un logiciel édité par la société Acetic, et est composé d’un
thésaurus de taille encyclopédique. Il se décompose en deux sous logiciels
intégrés : Tropes et Zoom.
Tropes a permis :
- la classification thématique des mots.
Le logiciel classe en trois niveaux d’abstraction les substantifs, allant du
plus petit regroupement au plus général.
- l’observation des mises en relation pour savoir quels sont les thèmes associés
à un mot. Cela permet aussi de désambiguiser certains termes. Par exemple, le
mot java est exclusivement tapé dans le sens : " langage informatique ".
Cela permet aussi de connaître les réseaux sémantiques, qui peuvent suggérer une
organisation de l’annuaire.
Zoom a permis une gestion facile des fichiers à traiter.
Différentes combinaisons d'agrégations des fichiers permettent de faire des
comparaisons en quelques minutes entre les différentes semaines, et des
comparaisons entre les jours de semaine et les jours de week-end.
3/ Caractéristique du guide Nomade.fr
Ce guide, destiné avant tout au grand public, contient environ 115 000 sites
francophones.
Nomade.fr est à la fois un annuaire et un moteur de recherche. Cependant, le
moteur n’est pas un crawler.
Pour chaque site recensé, les documentalistes réalisent une fiche résumé avec
une dizaine de termes (et aussi quelques mots clefs rajoutés). Il y a donc
surtout des termes français et généraux. Ceci n’a pu que faciliter notre tâche
!
Voici un exemple de fiche résumé d’un site :
Les joyeux vignerons de Thann
Les joyeux vignerons de Thann, dans le Haut Rhin sont des amis qui partagent la
même passion, la musique. Ils proposent leurs services pour des fêtes dansantes
avec une ambiance régionale et folklorique.
Editeur : Les joyeux vignerons de Thann - Nature : Association - Pays : France,
Thann - Site pour : Tous Publics
Arts et culture...France : Alsace, Lorraine : (21)
Adresse : http://perso.wanadoo.fr/trom.infos/jvt/jvt.index.htm
Quand un internaute tape un mot clef, le moteur n’ira donc pas crawler toutes
les pages des sites de la base, mais se référera aux seuls mots donnés par les
fiches résumés des sites.
3/ Quelques résultats de l’étude.
15 millions de mots ont été traités par Tropes sur 3 semaines, entre le 15 mai
et le 9 juillet 2000.
Des tests sur plusieurs échantillons ont montrés que Tropes a reconnu entre 80%
et 85% des mots clés tapés par les internautes (ayant eu une réponse ou non sur
le site).
Les résultats montrent la grande diversité des thèmes abordés.
voici quelques résultats concernant les thèmes les plus généraux.
Sexualité : c'est le premier grand thème. Il représente 7.8% des 15 millions de
requêtes analysés.
Ce résultat remet en partie en cause les résultats d’une étude du psychologue
Jacques Lajoie, qui montrait que moins d’un 1% des requêtes concernent la
sexualité (études des requêtes d’Altavista.com et Webcrawler.com en 1998).
Ce résultat remet aussi en cause les affirmations courantes selon lesquelles on
ne cherche que du sexe sur Internet.
Dans cette catégorie, l'homosexualité représente 10%.
Informatique : des recherches essentiellement le week-end. C'est une
confirmation que le public concerné n'est pas constitué de professionnels de
l'informatique.
Art et Culture : Le cinéma, la musique et les musées sont des thèmes recherchés
surtout le week-end. Les autres thèmes le sont plutôt en semaine.
Education : catégorie de semaine. Les diplômes étaient très recherchés en cette
période de fin d’année scolaire.
Média : les radios et la presse sont essentiellement recherchées la semaine.
Littérature/Edition : c'est une surprise de retrouver cette catégorie aussi bien
placée. On retrouve notamment les BD (le week-end) et les dictionnaires (en
semaine).
Famille: des recherches essentiellement le week-end.
Emploi: des recherches de semaine.
4/ un exemple de résultat pour la catégorie Science.
Un bref regard sur cette catégorie nous donne les résultats suivants :
-203 118 mots tapés en 3 semaines.
-Une tendance générale : les recherches sont bien plus nombreuses en semaine
qu’en week-end.
-Les sciences dures sont plus représentées que les sciences humaines et
sociales. Pour illustrer ce résultat, on peut voir que parmi les dix premiers
thèmes scientifiques, seuls trois font référence aux sciences humaines :
l’histoire, les sondages et la psychologie.
-parmi les 7 thèmes qui sont majoritairement recherchés le week-end, on retrouve
essentiellement les sciences humaines : l’anthropologie, l’ethnologie, la
philosophie et la préhistoire.
2 tableaux sont présentés :
Tableau1 : classement des thèmes scientifiques selon les occurrences.
Tableau 2 : thèmes scientifiques recherchés majoritairement la semaine versus le
week-end.
Tableau1 : classement des thèmes scientifiques selon les occurrences
|
Thèmes |
Occurrences |
|
|
1 |
électronique |
100895 |
|
2 |
histoire |
16250 |
|
3 |
astronomie |
8926 |
|
4 |
chimie |
8175 |
|
5 |
mathématique |
6704 |
|
6 |
sondage |
5926 |
|
7 |
ingénierie |
4820 |
|
8 |
pollution |
4730 |
|
9 |
psychologie |
4694 |
|
10 |
physique |
4359 |
|
11 |
biologie |
4078 |
|
12 |
géographie |
3962 |
|
13 |
optique |
3682 |
|
14 |
préhistoire |
3222 |
|
15 |
philosophie |
2867 |
|
16 |
linguistique |
2562 |
|
17 |
vétérinaire |
1847 |
|
18 |
génétique |
1578 |
|
19 |
statistique |
1473 |
|
20 |
astronautique |
1359 |
|
21 |
extraterrestre |
1284 |
|
22 |
robotique |
1239 |
|
23 |
science_politique1 |
019 |
|
24 |
sociologie |
1006 |
|
25 |
géologie |
831 |
|
26 |
botanique |
763 |
|
27 |
automatisation |
732 |
|
28 |
écologie7 |
12 |
|
29 |
cerveau |
623 |
|
30 |
microphysique |
541 |
|
31 |
démographie |
508 |
|
32 |
radiochimie |
441 |
|
33 |
biotechnologie |
368 |
|
34 |
ethnologie |
259 |
|
35 |
stérilisation |
211 |
|
36 |
anthropologie |
206 |
|
37 |
atmosphère |
143 |
|
38 |
transgénique1 |
23 |
Tableau 2 : thèmes scientifiques recherchés majoritairement la semaine versus le
week-end.
|
Thèmes de semaine |
Thèmes de week-end |
||
|
1 |
Transgénique |
1 |
Extraterrestre |
|
2 |
Radiochimie |
2 |
Anthropologie |
|
3 |
Automatisation |
3 |
Ethnologie |
|
4 |
Pollution |
4 |
Philosophie |
|
5 |
Génétique |
5 |
Atmosphere |
|
6 |
Biologie |
6 |
Astronautique |
|
7 |
Cerveau |
7 |
Préhistoire |
|
8 |
Sondage |
||
|
9 |
Ingénierie |
||
|
10 |
Chimie |
||
Mes remerciements pour les sociétés Acetic et Nomade.fr qui ont permis la
réalisation de cette étude.
Copyright Christophe Castano, Mars 2001. Toute reproduction interdite sans
autorisation