Conservazione Digitale

Centro di Eccellenza Italiano sulla Conservazione Digitale

Formato delle risorse digitali

In un sistema di elaborazione, un documento informatico, o più in generale una risorsa digitale, è memorizzato in un file e codificato sotto forma di sequenza binaria (bitstream), secondo uno schema di codifica, cioè un insieme di regole, denominate nel loro complesso formato del documento.  La leggibilità del documento e la capacità di decodificarlo a partire dal bitstream e di riprodurlo nella forma e nell’aspetto stabiliti dal suo creatore, dipendono quindi dalla conoscenza del formato, cioè delle regole con cui il documento è stato codificato ed in base alle quali può essere ricostruito.

In uno scenario di conservazione di lungo periodo i formati giocano un ruolo centrale. Quando infatti conserviamo un documento codificato in un certo formato, memorizziamo in realtà la sequenza binaria che lo rappresenta, che come tale non ha nessun significato. Al fine di rendere tale documento effettivamente accessibile a distanza di tempo, è pertanto necessario che:

  • al bitstream contenuto nel file sia univocamente e precisamente associato il formato (compresa la specifica di tutte le eventuali  versioni e opzioni);
  • chi accede al documento sia in possesso della specifica del formato, cioè dell’insieme di regole, tramite la quale procedere al processo di decodifica.

La rilevanza di queste osservazioni può in prima battuta sfuggire, perché nella nostra quotidianità tutto è semplificato e reso immediato dal fatto che utilizziamo in genere per leggere un file la stessa applicazione che lo ha generato. Le cose però a distanza significativa di tempo vanno in modo diverso, come l’esperienza degli ultimi decenni ci ha purtroppo dolorosamente insegnato:

  • le applicazioni software sono soggette ad obsolescenza, e quindi diventano indisponibili a distanza di tempo;
  • un’applicazione per essere eseguita richiede comunque la disponibilità di una specifica piattaforma hardware/software (elaboratore e sistema operativo), e questa, a sua volta, diventa rapidamente vittima dell’obsolescenza.

L’unica difesa consiste pertanto in utilizzare formati che:

  • siano indipendenti dall’applicazione e di pubblico dominio;
  • siano oggetto di standardizzazione, cioè descritti in modo completo e dettagliato da un documento (standard) prodotto da un’organizzazione di riconosciuta credibilità.

È opportuno porsi il problema all’atto della creazione del documento, tuttavia, anche di documenti originariamente creati in formato non standard possono essere gestiti, convertendoli quanto in formato standard, previo  controllo che il processo di conversione non ne alteri il contenuto (vedi anche la sezione Autenticità e validazione).

Sulla base di queste osservazioni, diverse organizzazioni hanno provveduto a stilare repertori di formati standard adatti alla conservazione di lungo periodo. La consultazione di questi repertori è di grande interesse per pianificare correttamente la creazione dei documenti e la loro successiva gestione e conservazione.

In particolare, a livello internazionale, segnaliamo:

  • le linee guida della Library of Congress (vedi anche LoC), che prendono in esame una grande varietà di formati per testi, immagini ed altri materiali multimediali, inclusi i contenuti del web (per l’insieme delle attività della LoC;
  • le linee guida del Curation Reference Manual edito dal DCC (Digital Curation Center);
  • il registro dei formati PRONOM degli UK National Archives, che pure rendono disponibile un apposito tool (DROID) per l’identificazione del formato di file sconosciuti;
  • il repertorio dei formati sul sito della BNF (Bibliotheque Nationale de France)

Per quanto riguarda la normative italiana, il riferimento è costituito dal repertorio dei formati aperti redatto dall’AgID ed allegato alle Regole tecniche del documento informatico e gestione documentale .

Per concludere vale la pena di citare il problema, di grande complessità, di verificare l’effettiva aderenza di un documento al formato che dichiara di avere. Purtroppo in merito ci sono solo risultati molto preliminari, anche se recentemente il progetto europeo PREFORMA.

MATERIALI DIDATTICI

  • Formato del documento informatico: una dettagliata presentazione che discute sia le problematiche generali che quelle specifiche dei diversi tipi di formati, sia per testi che per materiali multimediali.
Conservazione Digitale © 2014