Les lois de l'information: une réalité?

LAFOUGE, Thierry

Université Lyon1- Recodoc- Bat 721

43 boulevard du novembre 1918

69622 Villeurbanne cedex

Tel 04 72 43 13 91

lafouge@enssib.fr

Résumé

L'objet de cet article est de donner un certain nombre d'arguments qui rendent suspectes à nos yeux, ce que l'on a appelé abusivement "lois bibliométriques" ou "lois de l'information". Nous commencerons par rappeler brièvement l'origine de ces travaux. Nous n'adopterons pas ici une démarche épistémologique, mais énumérerons divers arguments convergents, pour penser qu'une recherche sur ce thème est une impasse.

1. Un constat empirique

Un grand nombre d'articles en général anglo-saxons, est consacré à l'étude de ce que l'on nomme les "lois bibliométriques", ou même "lois de l'information". Elles ont été formulées à partir d'observations empiriques. Par exemple, nous constatons qu'il existe une relation inverse entre le nombre de publications dans un domaine scientifique et le nombre de ses membres. Cette régularité a été formulée par une fonction hyperbolique par Lotka en 1926 (LOT26), et a connu par la suite de nombreuses études, dont certaines sont récentes (ROU92,WAG95). Bradford en 1930 s'est intéressé à la répartition des articles scientifiques, pour un domaine précis, dans les périodiques; il montre dans un article célèbre(BRA34) que les articles scientifiques sont distribués avec une régularité remarquable dans les revues. Zipf en 1949 (ZIP49) constate en étudiant des corpus de données textuelles des régularités sur la fréquence d'apparition des mots. Très grossièrement, nous pouvons dire que si nous rangeons les termes suivant leur fréquence décroissante, nous nous apercevons d'une relation entre le rang et la fréquence: le produit rang fréquence est à peu près constant. Dans tous les cas la forme des distributions observées, exprime toujours un état de concentration forte d'un coté et d'une large dispersion de l'autre, c'est à dire des courbes fortement décroissantes et asymétriques. Voilà très rapidement formulé ce que l'on a appelle les lois bibliométriques. On pourra consulter par exemple l'article de Xavier Polanco "Aux sources de la scientométrie (NOY95) pour connaitre l'origine de ces travaux.

2. La formulation du modèle de Price

Le modèle de l'urne est très souvent utilisé pour simuler des processus aléatoires. Soit une urne remplie de boules rouges (une boule rouge signifie un "succès") et de boules noires (une boule noire signifie un "échec"). A intervalle régulier une boule est tirée au hasard. L'urne est supposée de taille infinie, ce qui nous permet de dire que la probabilité de tirage d'une boule noire(1-p) ou rouge (p) reste constante durant les tirages. On calcule alors la probabilité d'avoir x succès (x=0.1.......n) après n tirages. Cette loi est connue sous le nom de loi binomiale(notée (B(n, p)), ou de loi du hasard. On montre lorsque l'on étudie le comportement asymptotique de la variable binomiale que lorsque µ , p 0, de telle sorte que np ait une limite finie m alors B(n p) converge en loi vers une loi de Poisson de moyenne m(CAL84). La loi normale, dont la présence est dominante dans de nombreux domaines, physique, biologie et autres est obtenue comme une limite du modèle précédent: ce résultat est connue sous le nom de loi des grands nombres(CAL84).

Dans son célèbre article(PRI71) Price nous rappelle le schéma de l'urne de Polya et ses conséquences. Il suppose qu'après chaque tirage, des boules soient remises dans l'urne, ce qui modifie les mesures de probabilité de "succès" et "d'échec" constamment, contrairement au modèle précédent.

Si à chaque tirage nous remettons c boules de couleur identique à celle qui vient d'être tirée, Polya montre(FEL68) que lorsque l'on passe à la limite nous obtenons une distribution binomiale négative. Par contre si nous remettons c boules de couleur rouge uniquement après le tirage d'une boule rouge nous sommes dans le cas de la célèbre loi des avantages cumulés étudiée par Price. Il montre alors que les lois empiriques, relatives à la répartition des articles dans des revues, Bradford, la production d'articles par les chercheurs, Lotka, la fréquence d'apparition des mots dans un texte, Zipf, ne sont que des limites du modèle précédent. Cette loi peut s'énoncer ainsi: plus une source produit des items (le journal produit des articles, le chercheur produit des articles, le chercheur cite des articles, le texte produit des mots.....) plus grande est sa chance d'en produire. De nombreux travaux théoriques (EGG88) ont montré par la suite l'équivalence sous certaines conditions des différents phénomènes, décrits précédemment. Les propriétés mathématiques de ces distributions statistiques vont être étudiées (HAI82) et vont recevoir le nom de "Zipfiennes" qu'on opposera aux "Gaussiennes".

3. Critiques rendant suspectes les lois bibliométriques

Nous allons poser un certain nombre de questions de nature différente sur la validité de ce concept de loi. Toutes les réponses sont convergentes pour douter, que les lois de l'information, soient une direction de recherche féconde en bibliométrie.

Lois opérationelles?

Nous pouvons tout d'abord nous poser la question si ces lois sont opérationnelles pour notre discipline.

Pour cela rappelons les avantages procurés par l'emploi d'un modèle mathématique, nous en distinguons en général trois:

- simplification dans la description des phénomènes observés,

- facilité d'extrapolation,

- introduction de concepts nouveaux féconds.

Si le premier point est atteint par la formulation des lois bibliométriques, le deuxième est incertain et le troisième est pour le moment absent.

Lois universelles?

Le deuxième constat que l'on peut faire est que notre discipline n'est pas la seule à posséder des régularités de ce type, la biologie(voir la loi de Moturama sur la répartitio du nombre de spécimen dans chaque espèce(LEG84)), l'épidémiologie, l'économie(voir la loi de Paréto), la géographie, en comptent de nombreux exemples. De nombreuses disciplines ont constaté ce type de régularité. De nombreux auteurs ont essayé d'expliquer ce phénomène (PHI96).

Nous savons que les trois lois, évoquées précédemment, formulées de façon mathématique différente, sont équivalentes dans le cas idéal. Pour notre part, il nous semble curieux de vouloir décrire des phénomènes très différents avec un modèle unique. La loi de Lotka qui est une loi de production au sens économique du terme, et la loi de Zipf (ZIP49) qu'on nomme aussi sous le terme de loi du moindre effort sont elles comparables? La langue produit-elle des mots, comme les chercheurs des articles?

Interprétation des lois?

Si Price a montré que son modèle offre un cadre d'interprétation probabiliste pour les différentes lois de Bradford, Lotka, et Zipf, le lien entre les comportements sociaux et la description statistique n'est pas toujours très clair. Le fait, par exemple, de ne pas publier un article à un moment précis dans un domaine ne peut être considéré comme un échec (cf. le modèle de l'urne proposé par Price) mais plutôt comme un "non événement". Il faut cependant relativiser cette critique car les modèles prédictifs expliquent rarement les causes. Nous pouvons comparer cela à la loi de gravité en physique par exemple.

Utilisation des mathématiques?

Rappoport (RAP82) montre que la loi originelle rang-fréquence proposée par Zipf est seulement une des nombreuses équations possibles pour ce type de distribution qui, rappelons le, est de nature décroissante par construction. Le fait que beaucoup de ces distributions soient ajustées de "très près" par des hyperboles ne signifie rien. Il existe une infinité de courbes qui ajustent raisonnablement des hyperboles. Nous ne pouvons tirer des conclusions théoriques que s'il existe une raison qui implique que ces distributions appartiennent à une certaine classe.

D'autre part nous connaissons bien les raisons statistiques (Loi des grands nombres ) qui font que de nombreux phénomènes (poids ou taille d'une population) sont distribués suivant une courbe de Gauss. Ce n'est pas pour cela que nous allons parler de lois. La loi dite des "grands nombres" en statistique est un théorème mathématique issu des axiomes de la théorie des probabilités.

Enfin nous voulons plus généralement mettre en garde le lecteur sur différents points plus généraux. Ces travaux s'inscrivent plus généralement dans ce que l'on appelle la bibliométrie distributionnelle. Aussi il ne faut pas oublier que les distributions étudiées sont monodimensionnelles et que par conséquent nous avons une seule variable explicative. D'autre part de nombreuses méthodes d'ajustement sont fondées sur l'emploi de distributions standards qui sont analytiques sur l'axe des fréquences statistiques. Il en résulte une confiance a priori sur la naturalité, définie par la fréquence de ces axes. Aussi ce n'est pas un hasard si en bibliométrie, on a très souvent utilisé des techniques de statistique de rang (TAG90).

4. Permanence des phénomènes induits par ces lois

Tous les arguments précédents sont convergents pour douter que les lois de l'information, soient une direction de recherche féconde en bibliométrie. Il est cependant impossible d'ignorer cet état de fait. En statistique bibliographique il est nécessaire de connaître la permanence de la Loi de Zipf car elle influencera les calculs et les méthodes qui seront mis en place, lorsque nous ferons des traitements statistiques de données de type bibliographique. Plus précisément de nombreuses méthodes développées en bibliométrie visent à mettre en place une statistique opérationnelle des "distributions Zipfiennes"(LHE95). Nous ne voulons pas dire qu'il existe des statistiques pour les sciences physiques d'un coté (distributions Gaussiennes) et pour les Sciences sociales de l'autre: les fondements sont les mêmes, seules les techniques utilisées sont différentes.

La loi de Bradford, mérite toute notre attention car elle nous semble vraiment concernée la bibliométrie. Elle est encore aujourd'hui l'objet de travaux originaux (WAG96). Dans cet article Wagner montre, que la distribution de type géométrique, de la thématique des articles, est également vrai au niveau de la revue. Pour notre part, nous remarquons que les distributions d'usage sont de nature zipfienne, quelque soit le niveau observé(LAF95). Il nous semble clair aujourd'hui que cette singularité (permanence de ce type de distribution Zipfienne) a été (de façon consciente ou inconsciente) le fil conducteur de nombreuses recherches en bibliométrie.

BIBLIOGRAPHIE

(BRA34) S. C. BRADFORD

Sources of information on specific subject .

26 janvier 1934, Engineering, p. 85-86.

(BUR87) Q.L. BURREL

Predictive aspects of some bibliometrics process.

Communication faite lors de la conférence internationale de bibliométrie en 1987 à Diepenbeek (Belgique).

(CAL84) G. CALOT

Cours de calcul de probabilité

Chapitre 12

Dunod décision 1984, 476 pages.

(EGG88) L. EGGHE

On the classification of the classical bibliometric laws.

Jounarl of documentation, Vol 44 (1) 1988, p. 53-62.

(FEL68) W. FELLER

An introduction to probability theory and its applicat

Chapitre 5

(3rd ed) New York: John Willey & Sons, I (1968), II (1966).

(HAI82) S. D. HAITUM

Stationary scientometric distributions.

Scientomatrics n°4, 1982, Part I p.5-25, Part II p.89-104, Part III

p.181-194.

(LEG84) L. Legendre, P. Legendre

Ecologienumérique
Le traitement multiple des données écologiques.

Chapitre 6

Masson 260 pages.

(LHEN95) J. LHEN, T. LAFOUGE ,Y. ZLSKENS, L .QUONIAM , H. DOU

La " Statistique" des lois de Zipf.

Revue Française de Bibliométrie N°14, 1995, p. 135-146.

(LAF95) T LAFOUGE

Mesures relatives de l'information utile dans des périodiques scientifiques.

Revue Française de Bibliométrie N°14, 1995, p. 165-179.

(LAZ70) J. G. LAZORIK

Analysis of stochastic properties and prediction of demand for book in a library circulation systems..

State university of New York at Buffalo P.H.D, 1970.

(LOT26) A. J. LOTKA

The frequency distribution of scientific productivity.

Journal of the Washington Academy of Sciences, 16, 1926, p. 317-323.

(NOY95) X. POLANCO

Aux sources de la scientométrie, p13-78.

Les Sciences de l'Information-Bibliométrie Scientométrie Infométrie sous la direction De Jean-Max Noyer

Solaris 260 pages.

(PRI76) D.S PRICE

A general theory of bibliometric and other cumulative advantage processes.

Journal of the American Society for Information Science, Vol.39, N°4 1976, p. 292-306.

(PHI96) Pierre Philippe

The inverse Power law: 1/f*a

http: //alize.ere.unontreal.ca/~philpp/nonlin/power

(RAP82) A. RAPPOPORT

Rank size relations

International Encyclopedies of Statistics,

edités par W. Kruskal et J. Tanur New York: Free Press, 1982, 851 pages.

(ROU92) R. ROUSSEAU

Breakdown of the robustness property of Lotka'law: the case of adjusted count for Multiauthorship attribution.

Journal of the American Society for Information Science, Vol 43, N°10, 1992, p. 645-647.

(TAG90) J. TAGUE

Ranks and sizes some complementaries and contrasts.

Journal of Information Science, Vol 16, N°1, 1990, p. 29-35.

(WAG95) R. WAGNER-DÖBLER, J. BERG

The dependance of Lotka's law on the selection of time periods in the development of scientific aeras and authors.

Journal of documentation, Vol 51, N°1, 1995, p. 28-43.

(WAG96) R. WAGNER-DÖBLER

Two component of a causal explanation of Bradford'law.

Journal of Information Science, Vol 22, N°2, 1996, p. 125-132.

(ZIP49) G.K ZIPF

Human Behavior and the Principle of least effort: An introduction to Human Ecology

Reading, Mass: Addison-Wesley, 1949.