Conservazione Digitale

Centro di Eccellenza Italiano sulla Conservazione Digitale

Web archiving

Con il termine di web archiving si indica il processo di raccolta e conservazione di porzioni del World Wide Web allo scopo di tramandarlo agli storici, ai ricercatori ed al pubblico di domani. Per catturare i contenuti si usano appositi strumenti software, denominati web crawlers (letteralmente: che strisciano lentamente), i quali percorrono la struttura dei siti, discendendola ricorsivamente, visitandone le pagine e facendone delle copie.

I problemi da affrontare sono sostanzialmente due:

  • la sterminata estensione del web rende all’atto pratico impossibile pensare di visitarlo e conservarlo nella sua interezza;
  • il web è per sua stessa natura dinamico, cioè i contenuti dei siti delle pagine cambiano spesso, perciò si dovrebbe per ciascun sito e ciascuna pagina conservare una sequenza temporale.

Pertanto si deve forzatamente procedere in modo selettivo, con criteri sia di tipo tematico che legati all’importanza che determinati siti possono avere per le future generazioni sotto il profilo storico, economico o quant’altro. Inoltre occorre stabilire una re-visit policy, cioè decidere quanto spesso si debba controllare se il contenuto di un sito e di una pagina è cambiato. Seppure con queste limitazioni, si comprende però quanto conservare queste informazioni possa essere vitale per chi un domani voglia comprendere e ricostruire il nostro mondo.

Inoltre, c’è la difficoltà di accedere al cosiddetto deep web (anche chiamato deepnet o invisible web), cioè a quella porzione del web comunemente non indicizzata dai motori di ricerca e che, secondo alcune stime è 4.000-5.000 del cosiddetto surface web, cioè della parte accessibile, per un volume totale di oltre 10 Petabyte (1016 Byte). Il deep web è costituito da vari tipi di pagine, tra cui in particolare:

  • pagine dinamiche, cioè costruite al momento a seguito di valori forniti dall’utente: ad esempio il costo ad un certo istante di un certo biglietto aereo per un certo giorno;
  • pagine scollegate, cioè non accessibili tramite un percorso che parta dalla home del sito, ma solo a chi ne conosca l’indirizzo;
  • pagine private, accessibili solo attraverso registrazione e login;
  • pagine ad accesso limitato, per esempio quelle con accesso protetto da CAPTCHA.

Benché si stiano sviluppando alcuni metodi per penetrare il deep web, la cosa resta ancora complessa e problematica, soprattutto se gli amministratori dei siti non collaborano, o mettono addirittura in atto misure diversive. Resta così condannata all’oblio una parte significativa del nostro universo culturale e documentale.

Di web archiving si occupano attualmente numerose organizzazioni a livello nazionale ed internazionale, attualmente diverse dozzine, tra le quali purtroppo nessuna italiana. Tra queste citiamo:

  • Internet archive  ha da anni avviato un’attività in questo senso, curando anche l’aspetto dell’interfaccia di accesso alle informazioni archiviate, tramite la cosiddetta Wayback Machine, ed il servizio collaborativo Archive-It.
  • La Library of Congress, ha fatto partire sin dal 2000 un programma pilota, e dispone attualmente di un team multidisciplinare impegnato a selezionare, valutare e catalogare i contenuti web da archiviare; l’archivio è liberamente accessibile all’indirizzo Archivio Web della Library of Congress;
  • UK Web Archive, gestito dalla British Library, è un’interessante iniziativa che si pone l’obiettivo di conservare i contenuti dei maggiori siti web del Regno Unito a beneficio delle future generazioni. I contenuti dell’archivio sono liberamente accessibili da parte del pubblico, e l’accesso è facilitato da un’organizzazione tematica (vedi il sito istituzionale).

A livello internazionale, le Biblioteche nazionali di 10 paesi, tra cui l’Italia, e Internet Archive hanno congiuntamente riconosciuto l’importanza di una collaborazione internazionale nella conservazione del contenuto di Internet e hanno formato nel 2003 lo International Internet Preservation Consortium con l’obiettivo di promuovere lo sviluppo di tecniche e standard comuni.

Conservazione Digitale © 2014