À Orléans, le 27 janvier dernier, Richard Walter, de l’institut national de recherche historique des textes, débutait un séminaire sur la pérennité des archives numériques. Le but ? Non seulement établir un mode d’édition adapté aux nouvelles technologies, et le rendre commun. Mais aussi élargir le petit monde de la recherche à d’autres secteurs que le sien, ouvrir son labo à d’autres compétences et même, fait nouveau, d’autres disciplines. Grâce au Très Grand Équipement Adonis, les humanités digitales prennent corps. La renaissance technologique, post-industrielle, peut désormais enchanter le monde, comme le préconise l’équipe d’Ars Industrialis avec Bernard Stiegler.
Que les documents soient écrits, sonores ou graphiques, il faut désormais les traiter comme des données, dixit Stéphane Pouyllau. Il ne s’agit pas de se servir des outils, souvent vite pérennes et à documentation masquée des micro-ordinateurs. Mais bien de séparer le fond et la forme, la machine et ses outils, les besoins actuels et futurs, les données et leur encodage.
Ces données sont à documenter très précisément, comme une fiche cartonnée de catalogue de bibliothèque renseigne au plus près le lecteur sur le livre qu’il recherche (auteur(s), titre et sous-titre, mots-clés, nombre de pages, format, date de publication, état du livre, illustrations ou pas, combien, couv. cartonnée ou souple, éditeur, etc.). Ces métadonnées, qu’il faut largement anticiper, sont longues à mettre en place : évaluation des besoins, documentation des données, établissement d’une DTD, soit huit mois pour le corpus évoqué. Elles induisent des pratiques communes à toutes les disciplines, outre un langage commun. Mais elles permettent une très grande rapidité de numérisation, une fois le balisage préconisé - trois semaines pour le corpus en question. Surtout, ces métadonnées permettent la conservation des données dans des grands centres de calculs. Sous l’égide du TGE Adonis, les données y sont dupliquées, stockées, mises à jour et moissonnées (c’est-à-dire balayées par les robots des moteurs de recherche).
Pour cela, chaque projet devra être conduit en fonction d’un strict cahier des charges, avec un budget établi au plus près, de façon à ne pas anéantir des mois de travail et des années de recherche dans une édition numérique caduque dans une petite dizaine d’années. Il faut désormais concevoir qu’un chercheur, quelle que soit sa discipline, fasse de la veille technologique. Qu’il confie cela à quelqu’un dans l’équipe de son labo ou de son groupe de recherche, ou qu’il le prenne en charge lui-même, c’est un travail à temps complet.
Outre la pérennisation, cette numérisation dûment renseignée permet aux données de communiquer. Ça ne veut pas dire que les textes se mettent à faire danser les images. Non, ça signifie qu’un chercheur peut désormais faire toutes ses recherches depuis un ordinateur, quel qu’il soit. Pierre Mounier en a fait un schéma que Stéphane Pouyllau reprend. La bibliographie est sous Zotero ou JabRef, le travail sur les sources se fait en équipe grâce à un wiki, le séminaire se conduit sur Hypothèses, le colloque sur Fabula ou PKP, les articles sont publiés sur Hal ou Revues.org, les essais sont lus sur des liseuses, et la veille se fait grâce à Google reader, Blogline, delicious ou twitter et même CiteUlike (c’est vous dire). Où que nous soyons, et même sur un ordi qui n’est pas le nôtre. Bon, il vaut mieux avoir sa liseuse avec soi. Si possible un Irex de sorte à annoter les textes.
Ce langage, développe Michel Jacobson qui archive des langues orales en voie de disparition, c’est XML. Sa norme de balisage, la TEI. Son mode d’édition, pourquoi pas ? Cocoon avec Dublin Core. Aucun intérêt de réinventer la roue quand tout a été si bien structuré depuis Lou Burnard. Le danger, c’est lorsque les chercheurs se mettent l’un à publier directement sous Spip, l’autre sous Drupal, ou même sous WordPress (comme ici, NDA). Peu importe qu’ils le fassent après avoir pris conscience de ce que la machine induit. Un ordinateur n’interprète jamais que des 0 et des 1. Ces trains de byts ne deviennent des données qu’une fois qu’on les a renseignées. Décodées, en quelque sorte. Elles deviennent alors un code Ascii, assez difficile à lire pour un être humain. Ce code Ascii est lisible en code HTML grâce à des balises, que la machine interprète comme de la couleur, une graisse, une image, un son, une inclinaison, une police, un paragraphe, etc. L’éditeur de textes (txt, notepad) rend aisé le balisage HTML. XMLMind ou DocBook le balisage XML. Tandis que le navigateur web (Internet Explorer ou Mozilla Firefox) rend visible à l’oeil, nu mais humain, le contenu que la machine ne lit que comme des 0 et des 1.
Une fois ces données mises en ligne, il faut les pérenniser, poursuit ce spécialiste de l’archive numérique. L’Open Archive Information System est une organisation dont la vocation consiste à préserver l’information de sorte que la communauté d’utilisateurs cibles y accède et l’utilise. L’OAIS définit entre autres : un vocabulaire, une typologie des catégories d’information, un modèle fonctionnel, et les interactions possibles. Tout converge vers ces interactions envisagées - qui seront sans doute tout à fait différentes de ce qu’on imagine aujourd’hui, mais pour l’instant, il vaut mieux s’entendre sur une norme de conservation des données.
Ainsi, à l’entrée du processus, on vérifie la conformité aux standards XML ; les feuilles de style sont établies en XSLT pour une transcription plus large, avec des métadonnées en Javascript pour plus de lisibilité ; lors du stockage, on envisage la migration sur différents supports, que l’on multiplie, et dont on contrôle l’intégrité ; la gestion des données s’établit en modifiant les outils de recherche d’information - à cet égard, le CRDO que conduit Michel Jacobson propose des moteurs de recherche variés : full text, par catégorie, par indication spatiale (géolocalisation des langues parlées dans le monde), par similarité temporelle (google maptemporel).
Les outils utilisés sont robustes : XML, XSLT avec du Javascript embarqué. C’est un gage de stabilité des données. Ce n’est pas Jean-Marc Destabeaux, développeur malgré lui mais hyper doué, qui dira le contraire.
Le référencement des données s’élabore avec des protocoles d’Open Archive Intitiative qui, distinguant les entrepôts de données de leurs fournisseurs, moissonnent les métadonnées au plus large. Ainsi les données sont-elles visibles, interactives - et conservées. Le Corpus de la parole a, par exemple, mis en ligne des vidéos analogiques en langue des signes. Comme quoi, même le numérique peut viser à la pérennité.