Vraie fiction ou fausse science, la star s'appelle TREC
TREC, Text REtrieval Conference, Conférence sur la recherche de texte, rassemble les concepteurs de boîtes à outil ou de logiciels de recherche d'information en texte intégral. Le but de la conférence (il s'agit plus précisément d'une conférence compétitive) est de permettre la comparaison des performances des systèmes, sur des volumes de données importants (+500 Mo de données à traiter dès TREC 1). Les participants sont majoritairement anglo-saxons, car les opérations de recherche sont effectuées sur des documents en anglais. La présence d'équipes suisses, allemandes françaises (TREC 5), singapourienne etc est toutefois à noter. TREC s'affirme en effet comme une référence et un standard internationaux, annuels, dans le domaine de l'évaluation de l'IR, (Information Retrieval, ou recherche d'information).
TREC est née en novembre 1992 à l'initiative de deux agences gouvernementales américaines (transparent 1) :
le NIST, organisateur, qui a pour mission générale de développer la science et les techniques aux Etats-Unis, et dépend du ministère du commerce.
l'ARPA (ex-DARPA), qui mène plusieurs actions dans le domaine des technologies de l'informatique et de la communication, et qui dépend du ministère de la défense.
Ces ateliers visent quatre objectifs :
développer la recherche dans le domaine de l'IR, axée sur les collections volumineuses,
faire un état de lart et fournir des méthodologies d'évaluation,
être un forum ouvert de discussion entre l'industrie, les centre de recherche universitaires et le gouvernement,
permettre des transferts, notamment des équipes de recherche universitaires vers le secteur commercial.
Les participants ont à remplir les deux tâches suivantes, jugées les plus représentatives de la recherche d'information.
1°/ Un test simulant un routage (routing task), c'est-à-dire une recherche selon un profil fixe, appliqué à des flux de documents. En d'autres termes, les questions, dites thèmes (topics) pour TREC, sont les mêmes que lors des phases d'entraînement et de test, mais elles interrogent des documents différents. C'est la recherche d'un utilisateur spécialisé sur un domaine précis et limité, comme en veille stratégique.
2°/ Un test simulant une interrogation (ad hoc task), c'est-à-dire une recherche à partir de questions non connues à l'avance, sur un ensemble stable de documents. Autrement dit, les thèmes diffèrent lors de la phase d'entraînement et de test mais ils sont appliqués à la même collection. Ce sont les recherches du public d'une bibliothèque par exemple.
Les données pour l'évaluation comprennent les corpus (périodiques et textes réglementaires anglophones, transparent 2), les topics ou thèmes, et les référentiels de réponses justes.
exemple tiré des thèmes de TREC 5 :
<top>
<num> Number: 257
<title> Topic: Cigarette Consumption
<desc> Description:
What data is available on cigarette consumption by country?
<narr> Narrative:
If cigarette smoking is a causative factor in lung cancer, then countries with higher cigarette consumption per capita might experience a higher incidence of lung cancer. This topic would provide basic data for such a comparison.
<top>
Contrairement à la majorité des tests d'évaluation en IR, les thèmes ne sont pas les requêtes soumises aux systèmes de recherche. Ils sont la représentation supposée de la demande d'un utilisateur réel.
Les participants ont pour tâche de formaliser cette question en requête que leur système peut traiter. Par exemple, un thème sous forme de proposition interrogative peut être transformé en requête de forme affirmative.
Cette approche : distinguer la question, qui est la forme d'une demande d'utilisateur, en langue naturelle, de la requête, qui est la forme de langage soumise au système de recherche, vise à encourager la diversité des méthodes de construction des requêtes. TREC entend en effet présenter un éventail aussi large que possible des fonctionnements de systèmes.
Les réponses dites pertinentes sont déterminées a posteriori, par échantillonage, à partir des résultats que fournissent les participants.
Les organisateurs ont choisi pour référence théorique les travaux de Gerard Salton (transparent 3) et s'appuient sur les indicateurs de rappel et de précision (transparent 4) pour calculer les performances des systèmes participants. Le lecteur est invité à consulter les Actes de TREC pour tout développement, qui sont en ligne à l'adresse http://trec.nist.gov.
TREC est incontestablement une étape importante dans le domaine de l'évaluation de l'IR. Elle a le mérite d'avoir mis au point une collection de documents, réutilisable, de taille jusqu'à présent inégalée, assortie de questions et de référentiels de réponses. Cet ensemble autorise toutes sortes d'évaluations, de tests et de recherches, pour les participants. Mais sa taille et la méthode élaborée sont criticables (transparent 5).
En effet, l'importance des volumes à traiter exclut les petites équipes de recherche et tend à alourdir l'organisation. L'approche, très anglo-saxonne, favorise d'une part les systèmes de recherche statistiques et d'autre part, un esprit de compétition qui nuit à la lisibilité des résultats. Les participants effectuant les tests en interne sont encouragés à développer des ajustements spécifiques aux tâches de TREC. Les meilleurs logiciels selon les critères de TREC sont par conséquents assez éloignés de ceux du commerce, en ce qui concerne les systèmes proposés par les industriels.
De plus, les méthodes d'évaluation de la conférence souffrent de ne proposer que des mesures quantitatives, au détriment de mesures plus qualitatives, comme la satisfaction de l'usager et l'utilité du texte, tout en se présentant comme une référence, presque une norme pour l'évaluation en IR.
Enfin, TREC ne sort pas de la stricte logique booléenne : le document est pertinent ou ne l'est pas, alors que la recherche sur texte intégral permet d'envisager des travaux beaucoup plus nuancés et proches de la réalité de la recherche d'information (du plus ou moins pertinent).
Son existence permet néanmoins d'encourager la recherche, comme le cycle de recherche spécialisé en français, Amaryllis, lancé en 1996, le montre, ou d'autres initiatives (Japon, Allemagne (transparent 6).
Autres références de l'intervenant :
Lespinasse Karine, Evaluer la recherche d'information : l'exemple de TREC, septembre 1996, mémoire CSSID, IEP de Paris, 116p
Lespinasse Karine, "TREC, une conférence pour l'évaluation des systèmes de recherche d'information", Documentaliste-Sciences de l'information, mars-avril 1997, n°2, Paris, pp74-82