Comment convertir un document (La)TeX en texte brut ?#
À faire
Revoir cette question, redondante avec d’autres.
1. À partir du format DVI#
La conversion d’un format DVI en texte simple est la base de beaucoup de ces techniques. Parfois la simple conversion fournit une réponse suffisamment bonne. Les options sont :
dvi2tty
(l’une des premières) ;crudetype
;catdvi
, capable de générer une sortie encodée en Latin-1 (ISO 8859-1) ou en UTF-8. Ce programme a été conçu pour remplacerdvi2tty
, mais le développement semble s’être arrêté avant que les auteurs ne soient prêts à déclarer le travail terminé.
La césure que TeX insère lors de la composition d’un texte pose alors souvent problème : comme la sortie est très rarement visualisée avec des polices qui ne correspondent pas à l’original, la césure paraît souvent ridicule.
Ralph Droms a mis à disposition l’extension txt qui permet de générer de l’ASCII, mais les résultats ne sont pas satisfaisants avec les tableaux et les mathématiques.
2. À partir du code (La)TeX#
Vous pouvez ici utiliser le programme de conversion de LaTeX en ASCII, l2a, bien qu’il s’agisse plutôt d’un programme de « dé-TeXifiage ».
Le programme canonique de « dé-TeXifiage » est detex
,
qui supprime tous les commentaires et les séquences de contrôle de son entrée
avant de l’écrire sur sa sortie.
Son but initial était de préparer l’entrée d’un correcteur orthographique stupide,
et il n’est utilisable pour préparer des versions ASCII utiles d’un document
que dans des circonstances très restreintes.
Tex2mail
est un peu plus qu’un « dé-TeXifieur » —
c’est un script Perl qui convertit les fichiers TeX en fichiers texte,
en développant divers symboles mathématiques (sommes, produits, intégrales, indices,
exposants, fractions, racines carrées, …) en « art ASCII » qui s’étale
sur plusieurs lignes si nécessaire.
Le résultat est plus lisible pour les êtres humains que le code TeX.
Une autre possibilité importante est d’utiliser l’une des méthodes vues à la question
« Comment convertir de (La)TeX vers HTML ? », puis d’utiliser un navigateur
tel que lynx
pour extraire le HTML résultant sous forme de texte brut.