Vers 1935, le linguiste américain George Zipf a observé que lors de la liste des mots par ordre décroissant de leur utilisation dans différents contextes, la fréquence du premier mot de la liste était (environ) 2 fois supérieure à celle du deuxième mot, 3 fois supérieure à celle du troisième, et ainsi de suite.
Par exemple, les trois mots les plus utilisés en anglais sont l’article « le », la préposition « de » et la conjonction « et », avec « le » apparaissant 1,92 fois plus que « de » et 2,42 fois plus que « et ».
En fait, ce comportement singulier avait déjà été signalé auparavant, par le sténographe français Jean-Baptiste Issop (1868 – 1950) et par le physicien allemand Felix Auerbach, et ce n’est pas non plus le privilège de la langue anglaise : il est valable pour toutes les langues connues, y compris les langues artificielles comme l’espéranto.
De plus, elle n’est pas restreinte au domaine de la linguistique : le même type de distribution se retrouve dans des listes de données provenant de sources différentes. L’une des situations les plus étudiées, déjà signalée par Auerbach en 1913, concerne la taille des villes.
Par exemple, lorsque l’on classe les villes brésiliennes par ordre décroissant de leur population, on observe que la plus grande (São Paulo) est 1,92 fois plus grande que la seconde (Rio de Janeiro) et 2,42 fois plus grande que la troisième (Brasilia).
La première tentative d’explication mathématique de ce phénomène était due à Zipf lui-même et est très curieuse. Il a supposé que le locuteur et l’auditeur voulaient mettre le moins d’effort possible dans la communication, et il a utilisé des arguments statistiques pour conclure que cela conduirait au type de distribution de fréquences prescrit par la loi. Mais il n’est pas clair comment cette idée pourrait être étendue à d’autres instances de la loi de Zipf en dehors de la linguistique.
D’autres explications scientifiques possibles ont été proposées au fil des ans, mais la validité de la loi de Zipf reste un mystère. Cela est dû en partie au fait que, contrairement à la plupart des énoncés mathématiques, cette loi n’est qu’approximativement correcte : les fréquences des mots dans la langue, les populations des villes et d’autres données similaires ont un comportement complexe, que la loi de Zipf ne reflète qu’approximativement.
LIEN PRÉSENT : Vous avez aimé ce texte ? L’abonné peut libérer cinq visites gratuites de n’importe quel lien par jour. Cliquez simplement sur le F bleu ci-dessous.
“Coffee addict. Lifelong alcohol fanatic. Typical travel expert. Prone to bouts of apathy. Internet pioneer.”