Comment convertir un document en texte brut ?#

À faire

Revoir cette question, redondante avec d’autres.

1.  À partir du format DVI#

La conversion d’un format DVI en texte simple est la base de beaucoup de ces techniques. Parfois la simple conversion fournit une réponse suffisamment bonne. Les options sont :

  • dvi2tty (l’une des premières) ;

  • crudetype ;

  • catdvi, capable de générer une sortie encodée en Latin-1 (ISO 8859-1) ou en UTF-8. Ce programme a été conçu pour remplacer dvi2tty, mais le développement semble s’être arrêté avant que les auteurs ne soient prêts à déclarer le travail terminé.

La césure que insère lors de la composition d’un texte pose alors souvent problème : comme la sortie est très rarement visualisée avec des polices qui ne correspondent pas à l’original, la césure paraît souvent ridicule.

Ralph Droms a mis à disposition l’extension txt qui permet de générer de l’ASCII, mais les résultats ne sont pas satisfaisants avec les tableaux et les mathématiques.

2.  À partir du code #

Vous pouvez ici utiliser le programme de conversion de en ASCII, l2a, bien qu’il s’agisse plutôt d’un programme de « dé-ifiage ».

Le programme canonique de « dé-ifiage » est detex, qui supprime tous les commentaires et les séquences de contrôle de son entrée avant de l’écrire sur sa sortie. Son but initial était de préparer l’entrée d’un correcteur orthographique stupide, et il n’est utilisable pour préparer des versions ASCII utiles d’un document que dans des circonstances très restreintes.

Tex2mail est un peu plus qu’un « dé-ifieur » — c’est un script Perl qui convertit les fichiers en fichiers texte, en développant divers symboles mathématiques (sommes, produits, intégrales, indices, exposants, fractions, racines carrées, …) en « art ASCII » qui s’étale sur plusieurs lignes si nécessaire. Le résultat est plus lisible pour les êtres humains que le code

Une autre possibilité importante est d’utiliser l’une des méthodes vues à la question « Comment convertir de vers HTML ? », puis d’utiliser un navigateur tel que lynx pour extraire le HTML résultant sous forme de texte brut.