Les archives du web

Le mer. 24 août 2011

Depuis le début de l'après-midi, sur mon petit caillou au beau milieu de l'Océan Indien, derrière mon écran, j'étais à la recherche d'un petit livre de Jean Onimus, une étude intitulée Beckett, un écrivain devant Dieu, publiée aux éditions Desclée de Brouwer en 1967 mais épuisée. Jean Onimus avait eu la générosité d'autoriser sa reproduction sur le web. Malheureusement, l'adresse n'est plus valide. Oups...! Une erreur 404 personnalisée et référencée par tous les sites de référence. Immanquable. C'est fâcheux, n'est-ce pas ? Lors de la refonte de son site, l'université de Nice (feue ?) n'a pas cru bon de remettre cette étude en ligne. Ce qui est bien regrettable. En tous cas pour moi et pour le moment.

Cet exemple illustre assez bien ce qu'est (devenu) Internet : un formidable espace d'information, et, j'ose l'affirmer, une référence incontournable. — Et cela pour bien des domaines et pour toutes sortes de contenus. Mais le web est aussi et surtout un milieu extrêmement mouvant ou instable. Du jour au lendemain, un site web peut changer son contenu, son adresse voire cesser toute activité et disparaître dans les limbes du cybermonde. Le peu de lecteurs qu'il me reste doit en savoir quelque chose... n'est-ce pas Cyrille ?

L'avènement du web, si soudain, a créé une toute nouvelle problématique : la récupération, le stockage et l'étiquetage des pages web. Mais au vu de son instabilité, on a peine à croire cette tâche possible, en tous cas, à la manière du "bibliothécaire-archiviste-conservateur" dans la mesure où, dans le cybermonde, une page web peut être créée, modifiée ou disparaître sans laisser la moindre trace à tout moment. La durée de vie moyenne d'une page Web serait de cent jours...

Les bibliothèques et les archives du monde entier font des efforts considérables, et cela depuis..., pour recueillir et de conserver les imprimés sur "papier" mais le web, qui s'en préoccupe ?

« L'informatique, comme l'a écrit Brewster Kahle, laisse des traces ». Et cette "mémoire du Web est sur Archive.org..." (un article de Jean-Marc Mamach paru dans le journal Le Monde du 13.11.07... inaccessible mais... archivé !). Et depuis 1996, toutes ces traces, Internet Archive les collecte. Imaginez un peu qu'en 2009 cette mémoire s'élevait à 3 pétaoctets de données et que son augmentation était de 100 téraoctets par mois... le tout en libre consultation sur le web. Petite précision : le robot d'indexation, Heritrix, est un logiciel libre. Le logiciel de numérisation, Scribe, aussi.

Archive.org met à disposition de tous, (presque entièrement) librement, une bibliothèque numérique multimédia d'une extraordinaire diversité : 150 billions (15000 milliards ou quinze millions de millions) de pages web, 549077 films, 96227 concerts, 954561 enregistrements audio, 2955798 textes. Le tout accessible depuis un simple navigateur sur le web... Extraordinaire.

Revenons à ma fameuse page web odieusement déménagée... Pour la voir ressurgir du passé, il faut utiliser la Wayback Machine et lui indiquer l'adresse internet (URL) originale. Grâce à cette URL, la Wayback Machine permet de visualiser la liste d'archives accessibles pour la page recherchée, soit, pour cette étude de Jean Onimus sur Samuel Beckett, 81 captures réalisées entre octobre 1999 et avril 2009. Incroyable.

Notez que l'adresse d'une page archivée commence toujours par "web.archive.org", que cette nouvelle adresse peut être utilisée pour référencer une page web devenue introuvable... http://web.archive.org/web/19991111231247/http://www.unice.fr/AGREGATION/becket.html.

Il est ainsi possible de consulter le web (au moins pour de larges étendues) tel qu'il est depuis 1996... Je vous laisse méditer sur les implications de ce projet hors normes. On ne vous le dira jamais assez : le web a bonne mémoire...

Et pour finir, une petite astuce : il existe un module pour Firefox pour ajouter la Wayback Machine à vos moteurs de recherche.

Par Christophe, Catégorie : Internet

Tags : Web / Archives / Internet /

Autres articles

Les galeries de Road2Mayotte

Le dim. 22 mai 2011

Il y a peu, Cyrille me faisait remarquer, alors que je venais tout juste de mettre en ligne ce nouveau calepin sous Pelican, en remplacement de mon blog version PluXml, qu'il serait tout de même intéressant de rapatrier la totalité de mes articles et d'unifier le tout à ...

Par Christophe, Catégorie : Photographies

Lire la suite …

Et si...

Le lun. 16 mai 2011

Ah ! Le monde, écrivait Baudelaire, ce vaste système de contradiction...

Ce qu'on va lire est à prendre un peu comme cette sorte d'anecdote que l'on vous raconte avec la prière — toujours insistante — de n'en parler surtout à personne. Et c'est pour cette raison même que ...

Par Christophe, Catégorie : Journal

Lire la suite …