Les statistiques à l’assaut du manuscrit Voynich

Il est passé entre les mains de Rodolphe II, empereur du Saint-Empire romain germanique, de Georg Baresch, alchimiste pragois, et des Jésuites italiens de la Villa Mondragone de Frascati avant d’atterrir en 1912 chez le collectionneur polonais Wilfrid Michael Voynich – qui lui a laissé son nom – et de finir sa course à la Bibliothèque Beinecke de l’université Yale, aux États-Unis. Outre un parcours tortueux, pourquoi le manuscrit Voynich et ses 234 pages de vélin finement illustrées à la plume d’oie (vous pouvez le feuilleter sur le site de la bibliothèque américaine), datant selon de récentes analyses au carbone 14 du début du XV^e siècle, intrigue autant ? Car plus de cent ans après sa redécouverte, les linguistes restent incapables de dire en quelle langue a été rédigé ce bréviaire semblant évoquer la botanique, l’astronomie ou encore des recettes de cuisine. Trois hypothèses se font face : le manuscrit est un faux, sans aucune signification ; le texte, écrit dans une langue connue, est crypté ; le manuscrit est rédigé dans une langue inconnue à ce jour. Pour trancher ce débat, des chercheurs de l’Institut de physique de São Carlos (Brésil), épaulés par des compatriotes travaillant en Allemagne, ont passé le manuscrit Voynich à la moulinette statistique afin de connaître la vraie nature de ce mystère linguistique.

Depuis de nombreuses années, la littérature constitue l’un des terrains de jeu favoris des physiciens statisticiens (n’hésitez pas à lire à ce sujet le passionnant article de David Louapre sur les propriétés statistiques exceptionnelles de Moby Dick). Outre la fameuse loi de Zipf selon laquelle le vocabulaire employé dans tous les livres suit une même règle générale, relative à la fréquence des mots utilisés (et qui se vérifie pour le manuscrit Voynich), de nombreuses autres mesures permettent de distinguer un texte signifiant d’une suite stochastique de lettres. Luciano Costa et ses collègues ont ainsi défini une série de 29 grandeurs statistiques calculables pour un texte, comme la taille du lexique utilisé, l’intermittence des mots (les articles définis “le” ou “la” reviennent régulièrement, alors qu’un mot-clé, normalement rare, va se faire plus fréquent dans la portion du texte consacré à ce thème) ou encore la répétition d’un couple de mots dans le même ordre (certains couples vont réapparaître plus souvent que si les mots étaient répartis aléatoirement, car leur sens est associé).

L’empreinte du sens

Comparé au Nouveau Testament (la cloche rouge), le manuscrit Voynich (en tirets) présente un plus grand nombre de mots revenant par à-coups dans le texte.

Ces grandeurs ont été calculées pour plusieurs textes rédigés en anglais et en portugais, ainsi que pour 15 traductions différentes du Nouveau Testament, puis comparées à celles correspondant à des copies aléatoires de ces mêmes textes. Les chercheurs ont sélectionné celles dont les valeurs étaient sensiblement différentes dans les deux cas pour construire un test robuste permettant de distinguer un texte sensé d’une suite des mêmes mots distribuée au hasard.

Les tests statistiques révèlent selon les physiciens brésiliens que “le manuscrit Voynich n’est pas compatible avec des textes dont les mots ont été mélangés, et ainsi rendus dépourvus de sens“, mettant à bas la thèse d’un faussaire ayant garni à partir d’un alphabet construit de toutes pièces des pages entières de mots sans signification. De plus, les différentes grandeurs calculées à partir du manuscrit mystérieux sont assez voisines de celles obtenues pour le Nouveau Testament, à l’exception de l’intermittence qui est plus élevée que dans le texte biblique. Pour les chercheurs, cela est sans doute lié à la nature du manuscrit Voynich, qui s’apparente à un abrégé évoquant différents thèmes, d’où la surabondance de mots qui reviennent régulièrement. Le manuscrit serait néanmoins compatible avec une langue naturelle et ne serait donc pas écrit dans une langue construite comme l’espéranto.

Enfin, cette analyse statistique du manuscrit Voynich est même parvenue à repérer les mots probablement les plus signifiants du texte, en isolant les mots-clés (ceux qui reviennent à intervalle régulier dans une fraction du texte) les plus fréquents, équivalents des Pilate, Hérode et Marie du Nouveau Testament. Reste à savoir ce que peuvent bien signifier cthy, qokeedy ou encore lkaiin pour que les linguistes parviennent enfin à bout de cette version récalcitrante.

Source : D.R. Amancio et al., Probing the statistical properties of unknown texts: application to the Voynich Manuscript, arXiV, 5 mars 2013.

Crédit photo : Wikimedia Commons.

Un blog scientifique animé par Guillaume Frasca

Les statistiques à l’assaut du manuscrit Voynich

L’empreinte du sens

Leave a Reply Cancel reply

Guillaume Frasca

Posts by Guillaume Frasca

Quel bilan carbone pour le vélo-boulot-dodo ?

Les biais sexistes de l’intelligence artificielle

La science deviendrait-elle conservatrice ?

L’édition scientifique : gare aux revues prédatrices ! (3/3)

L’édition scientifique : la science a quel prix ? (2/3)

Comments by Guillaume Frasca

Les statistiques à l’assaut du manuscrit Voynich

L’empreinte du sens

Leave a Reply Cancel reply

Suricates et sécurité routière : le cruel compromis

La crucifixion tape sur les nerfs

Guillaume Frasca

Posts by Guillaume Frasca

Quel bilan carbone pour le vélo-boulot-dodo ?

Les biais sexistes de l’intelligence artificielle

La science deviendrait-elle conservatrice ?

L’édition scientifique : gare aux revues prédatrices ! (3/3)

L’édition scientifique : la science a quel prix ? (2/3)

Comments by Guillaume Frasca