Les archives du web

Le mer. 24 août 2011

Depuis le début de l'après-midi, sur mon petit caillou au beau milieu de l'Océan Indien, derrière mon écran, j'étais à la recherche d'un petit livre de Jean Onimus, une étude intitulée Beckett, un écrivain devant Dieu, publiée aux éditions Desclée de Brouwer en 1967 mais épuisée. Jean Onimus avait eu la générosité d'autoriser sa reproduction sur le web. Malheureusement, l'adresse n'est plus valide. Oups...! Une erreur 404 personnalisée et référencée par tous les sites de référence. Immanquable. C'est fâcheux, n'est-ce pas ? Lors de la refonte de son site, l'université de Nice (feue ?) n'a pas cru bon de remettre cette étude en ligne. Ce qui est bien regrettable. En tous cas pour moi et pour le moment.

Cet exemple illustre assez bien ce qu'est (devenu) Internet : un formidable espace d'information, et, j'ose l'affirmer, une référence incontournable. — Et cela pour bien des domaines et pour toutes sortes de contenus. Mais le web est aussi et surtout un milieu extrêmement mouvant ou instable. Du jour au lendemain, un site web peut changer son contenu, son adresse voire cesser toute activité et disparaître dans les limbes du cybermonde. Le peu de lecteurs qu'il me reste doit en savoir quelque chose... n'est-ce pas Cyrille ?

L'avènement du web, si soudain, a créé une toute nouvelle problématique : la récupération, le stockage et l'étiquetage des pages web. Mais au vu de son instabilité, on a peine à croire cette tâche possible, en tous cas, à la manière du "bibliothécaire-archiviste-conservateur" dans la mesure où, dans le cybermonde, une page web peut être créée, modifiée ou disparaître sans laisser la moindre trace à tout moment. La durée de vie moyenne d'une page Web serait de cent jours...

Les bibliothèques et les archives du monde entier font des efforts considérables, et cela depuis..., pour recueillir et de conserver les imprimés sur "papier" mais le web, qui s'en préoccupe ?

« L'informatique, comme l'a écrit Brewster Kahle, laisse des traces ». Et cette "mémoire du Web est sur Archive.org..." (un article de Jean-Marc Mamach paru dans le journal Le Monde du 13.11.07... inaccessible mais... archivé !). Et depuis 1996, toutes ces traces, Internet Archive les collecte. Imaginez un peu qu'en 2009 cette mémoire s'élevait à 3 pétaoctets de données et que son augmentation était de 100 téraoctets par mois... le tout en libre consultation sur le web. Petite précision : le robot d'indexation, Heritrix, est un logiciel libre. Le logiciel de numérisation, Scribe, aussi.

Archive.org met à disposition de tous, (presque entièrement) librement, une bibliothèque numérique multimédia d'une extraordinaire diversité : 150 billions (15000 milliards ou quinze millions de millions) de pages web, 549077 films, 96227 concerts, 954561 enregistrements audio, 2955798 textes. Le tout accessible depuis un simple navigateur sur le web... Extraordinaire.

Revenons à ma fameuse page web odieusement déménagée... Pour la voir ressurgir du passé, il faut utiliser la Wayback Machine et lui indiquer l'adresse internet (URL) originale. Grâce à cette URL, la Wayback Machine permet de visualiser la liste d'archives accessibles pour la page recherchée, soit, pour cette étude de Jean Onimus sur Samuel Beckett, 81 captures réalisées entre octobre 1999 et avril 2009. Incroyable.

Notez que l'adresse d'une page archivée commence toujours par "web.archive.org", que cette nouvelle adresse peut être utilisée pour référencer une page web devenue introuvable... http://web.archive.org/web/19991111231247/http://www.unice.fr/AGREGATION/becket.html.

Il est ainsi possible de consulter le web (au moins pour de larges étendues) tel qu'il est depuis 1996... Je vous laisse méditer sur les implications de ce projet hors normes. On ne vous le dira jamais assez : le web a bonne mémoire...

Et pour finir, une petite astuce : il existe un module pour Firefox pour ajouter la Wayback Machine à vos moteurs de recherche.

Par Christophe, Catégorie : Internet

Tags : Web / Archives / Internet /