Comment compter le nombre de mots d’un document ?#

Il arrive parfois qu’un document soit soumis à une contrainte de taille exprimée en un nombre de mots. Une solution simple existe, basée sur un constat simple : vos relecteurs ou jurys ont peu de chances de compter tous les mots d’un document qui leur est soumis. Par conséquent, une méthode statistique peut être employée :

  • trouver combien de mots il y a sur une page entière ;

  • trouver combien de pages complètes compte le document (en tenant compte des divers affichages et figures insérées, ce nombre ne sera probablement pas un entier) ;

  • multiplier les deux.

Cependant, si le document à soumettre doit déterminer le reste de votre vie, mieux vaut peut-être ne pas tenter ce pied de nez. Vous vous retrouvez alors face à un problème complexe si la réponse doit être précise : il faut en effet pouvoir distinguer d’une part les mots à prendre en compte et d’autre part les commandes qui devront être développées afin de savoir combien de mots elles engendrent. Différentes solutions, listées ci-dessous, existent et certains éditeurs proposent des traitements similaires.

1.  En se basant sur le document final#

Une solution consiste par exemple à générer une sortie dvi puis de la convertir en texte, avec dvi2tty, puis compter le nombre de mots. Il est possible aussi de transformer un document postscript en texte, avec ps2ascii. Le compte de mot peut être ensuite effectué avec des traitements de texte simples ou avec des utilitaires dédiés. Sur Linux, cela peut être fait en ligne de commande avec le programme wc (pour word count).

À faire

Indiquer les solutions pour des PDF.

2.  En travaillant avec le fichier source#

2.1.  Avec le programme opendetex#

Il est possible de travailler sur le source en utilisant le programme opendetex, qui supprime toutes les commandes pour ne laisser que le texte. Ensuite, il ne reste qu’à compter ce qui reste. Voici, sur Linux, un exemple de shell avec la commande wc :

detex ⟨fichier⟩ | wc -w

Ce programme, de Piotr Kubowicz, constitue une reprise du programme detex qui n’est plus maintenu. Daniel Trinkle, auteur de detex, recommande l’usage de opendetex.

2.2.  Avec le script latexcount#

Le script Perl latexcount fait ce travail, en étant en principe assez simple à configurer (voir documentation à l’intérieur du script).

2.3.  Avec le script texcount#

Le script Perl texcount va très loin avec l’heuristique de dénombrement des mots d’un fichier La documentation est complète et vous pouvez essayer le script en ligne via la page officielle du script.

2.4.  Avec l’extension wordcount#

Cependant, même un traitement sophistiqué du balisage ne peut jamais être entièrement fiable : le balisage lui-même peut ajouter ou retrancher des mots dans le texte.

L’extension wordcount contient un script Bourne shell (donc propre à Unix) qui exécute un fichier avec un bloc de code dédié puis qui compte les indications de mot obtenues dans le fichier journal. Il s’agit probablement du calcul automatique le plus précis dont vous pourrez disposer.