La stylométrie suit une approche matérialiste, qui fait sa force et sa faiblesse. Loin de sonder l’esprit de l’auteur ou la réception du lecteur, elle recense objectivement les unités d’un texte.

Selon le point de vue linguistique, ces unités varient. Le vocabulaire porteur du sens est naturellement le plus étudié ; cependant, il implique un lemmatiseur pour ramener les formes lexicales aux entrées du dictionnaire, et sa richesse limite malencontreusement le nombre des occurrences. Les catégories grammaticales sont quant à elles plus stéréotypées, leurs emplois étant dictés par des règles ; en outre, elles réclament un étiqueteur afin d’affecter chaque terme. Ponctuation, espacements et lettres véhiculent enfin un élément plus archaïque et inconscient du langage, fait de sons et d’émotions ; objectifs et profus, les caractères sont ici privilégiés.

Les unités fixées, quel mètre suivre ? La méthode traditionnelle analyse la composition du texte, par un simple comptage. Teneurs fondamentales, temps et rythme sont alors effacés. Pour transcrire la répartition des unités, les temps de retour d’un caractère sont enregistrés* : par exemple, les temps de retour de « e » dans « exemple » valent deux et quatre. Généralement indépendants, ces termes se synthétisent par leur fonction de répartition. Les écarts entre ces fonctions pour l’ensemble des caractères définissent alors une distance intertextuelle. Enfin, les distances mutuelles au sein d’un corpus sont projetées sur un plan idoine, en vue d’obtenir une carte.

La méthode et sa justification sont précisées dans ma
thèse
(chapitre 2, section 7 pour la mesure et chapitre 8, section 5.1.2 pour les unités).

* Notre article paru en 2016 généralise ce principe, substituant aux temps de retour les temps de transition : les deux composantes du rythme, répétitions et variations, sont alors prises en compte.