Conservazione Digitale

Centro di Eccellenza Italiano sulla Conservazione Digitale

PREMIS – Data Dictionnary for Preservation Metadata

PREMIS – Data Dictionnary for Preservation Metadata, nasce come il prodotto di un gruppo di lavoro costituito nel 2003 da Online Computer Library Center (OCLC) e Research Libraries Group (RLG), e comprendente oltre 30 rappresentanti provenienti da tutto il mondo, avente il mandato di definire un insieme base di metadati che fosse concretamente utilizzabile, completo di linee guida per al gestione e l’uso. Il risultato del gruppo di lavoro fu pubblicato nel 2005 sotto il titolo di Data Dictionary for Preservation Metadata: Final Report of the PREMIS Working Group. Successivamente fu pubblicata nel 2008 una versione riveduta (v. 2.0)  che costituisce tuttora il riferimento principale per i metadati per la conservazione.

I principali risultati del gruppo di lavoro consistono definizione di:

  • un insieme essenziale di metadati coerente con altri rilevanti standard di metadati descrittivi basati su domini specifici) predisposto nella forma di uno schema XML;
  • un data dictionary o dizionario dei dati finalizzato a facilitare l’uso dello schema elaborato.

Le componenti principali del prodotto finale (schema e data dictionary) sono state completate e approvate nel maggio 2005 e riguardano (coerentemente con i requisiti previsti dallo standard ISO 14721 OAIS) i metadati di conservazione in quanto informazioni che un deposito digitale utilizza per assicurare il processo di conservazione digitale, ovvero le informazioni necessarie a garantire la possibilità della tenuta, l’accessibilità, l’intelligibilità, l’autenticità delle risorse digitali. Particolare attenzione è stata dedicata alla documentazione relativa alla provenienza (la storia dell’oggetto) e alle relazioni fra oggetti diversi (soprattutto interne al deposito digitale).

In particolare il modello di dati PREMIS ha individuato nell’ambito delle attività conservative cinque tipi di entità:

  • intellectual entity: un insieme coerente di contenuti che sia ragionevolmente descritto come un’unità (un libro, una fotografia, un database, un documento normativo); può includere altre entità (ad esempio un sito web può includere una pagina web, una pagina web può includere una fotografia; un documento normativo può includere documenti allegati, relazioni introduttive, oppure redazioni dello stesso testo normativo in formati diversi: pdf, xml, tiff, ecc. conservati nello stesso deposito o in depositi distinti)
  • object: unità informativa digitale; include tre possibili sotto-categorie:
    • file (sequenza specificatamente denominata e ordinata di byte riconosciuta da un sistema operativo; ha un formato, permessi di accesso e elementi descrittivi quali la dimensione e la data dell’ultima modifica),
    • bitstream (dati anche non contigui all’interno di un file che hanno proprietà e un significato comuni a fini conservativi: non può essere trasformato in un file autonomo senza l’aggiunta di una struttura, ad esempio una intestazione e/o la formattazione in conformità con un particolare formato) e
    • rappresentazione (un insieme di file che include i metadati che identificano la struttura, necessari per una completa e ragionevole restituzione dell’entità intellettuale: un documento può essere adeguatamente rappresentato in un solo file pdf, oppure può essere costituito da più file nel caso in cui a un file di testo seguano file diversi per ciascun allegato: nel primo caso la rappresentazione è costituita da un solo file; nel secondo include tutti i file ed eventualmente un file ulteriore che contenga i metadati descrittivi della struttura complessiva del documento); la rappresentazione non include qualunque oggetto esistente che risponda alle stesse caratteristiche fisiche e intellettuali dovunque si trovi, ma si riferisce a una singola istanza digitale di un’entità intellettuale conservata in uno specifico deposito (quel file conservato nel deposito digitale di una determinata organizzazione)
  • event: un atto che riguarda almeno un oggetto o un agente ed è inclusivo dei metadati che lo identificano; la documentazione degli eventi che modificano un oggetto digitale è essenziale per garantirne la provenienza, a sua volta elemento centrale per assicurare l’autenticità dell’oggetto. E’ compito di ciascun deposito stabilire quali eventi debbano essere documentati a fini conservativi. Ogni evento produce un risultato che in alcuni casi può dar vita a un nuovo oggetto che potrebbe essere identificato e descritto come un oggetto autonomo conservato nel deposito (ad esempio un nuovo file XML normalizzato e validato del documento acquisito)
  • right: dichiarazione di diritti relativi a un oggetto o a un agente (trattati in questo contesto esclusivamente con riferimento alla conservazione e non all’accesso e alla distribuzione)
  • agent: una persona fisica o giuridica o un’applicazione associata a eventi di conservazione dell’oggetto.

PREMIS si concentra quasi esclusivamente sulla descrizione e sul trattamento di oggetti ed eventi, considerando che un deposito digitale abbia a che fare con oggetti da conservare e con eventi che interagiscono con gli oggetti nei processi conservativi e che la definizione e descrizione delle entità intellettuali e degli agenti debbano essere approfondite dagli esperti di ciascun dominio in relazione ai propri standard di settore (archivistici, biblioteconomici, ecc.). Non tutti i depositi conservano oggetti in forma di rappresentazione: possono limitarsi a conservare semplici file che agenti esterni trattano (ad esempio mediante la creazione di metadati e attraverso attività di ricostituzione dell’entità intellettuale) al fine di renderne disponibile la rappresentazione (completa, intelligibile, ecc.). Si tratta di una modalità di conservazione che presenta molti rischi, soprattutto nel caso di complessi archivistici, per i quali la conservazione di file separati dalle informazioni di contesto non assicura in alcun modo il mantenimento del significato dei file medesimi.

PREMIS distingue infine tre tipi di relazioni tra oggetti:

  • relazioni strutturali: riguardano le relazioni tra parti di oggetti, in particolare tra i file che costituiscono una rappresentazione di un’entità intellettuale; in alcuni casi sono relazioni semplici (un file corrisponde alla rappresentazione), in altri sono molto complesse (come nel caso di un sito web)
  • relazioni di derivazione: sono la conseguenza di una duplicazione o di una trasformazione dell’oggetto (ad esempio nel caso di una modifica dei formati)
  • relazioni di dipendenza: si riferiscono al caso in cui un oggetto richieda la presenza di un altro oggetto per svolgere la sua funzione o per garantire coerenza o integrità del contenuto, a fini di intelligibilità e leggibilità (ad esempio un documento normativo marcato XML richiede la presenza dello schema di riferimento e/o di un foglio di stile).

PREMIS prevede anche le relazioni tra entità di diversa natura, ad esempio tra documenti diversi, ma appartenenti alla stessa serie o allo stesso fascicolo (unità semantica: linkingIntellectualEntityIdentifier).

Poiché la conservazione digitale implica – al fine di fronteggiare l’obsolescenza tecnologica – la necessità di creare nuove copie e versioni degli oggetti memorizzati, PREMIS ha stabilito un principio generale che deve essere comunque rispettato: ogni descrizione descrive una sola risorsa; ogni oggetto custodito all’interno del deposito, qualunque sia il tipo (file, bitstream, rappresentazione) è identificato come un insieme statico di bit che non può essere modificato. Se è necessaria una migrazione o una modifica dell’oggetto, sarà necessario creare un nuovo oggetto e identificare una relazione di derivazione tra i due oggetti. Quindi un oggetto ha una sola data di formazione (dateCreatedByApplication) e non ha date di modifica.

Le unità semantiche sono le proprietà di ciò che viene descritto nell’ambito del Data Dictionary ai diversi livelli (entità intellettuale, oggetto, agente, ecc.). Hanno valori che in alcuni casi si riferiscono a un solo livello, in altri si possono applicare a livelli diversi (a entità intellettuali, a oggetti, a eventi, ecc.). In alcuni casi le unità semantiche sono un contenitore (ad esempio un fascicolo o una serie) che raggruppa un sotto-insieme di unità semantiche, identificate in questo caso come componenti semantiche.
Le unità semantiche sono descritte mediante informazioni dettagliate finalizzate a indicare anche i modi del loro utilizzo. Includono:

  • il nome dell’unità semantica e le sue eventuali componenti
  • la definizione
  • la ragione della sua inclusione in PREMIS
  • i vincoli
  • nel caso degli oggetti, la categoria e gli attributi di obbligatorietà e ripetibilità
  • le annotazioni sui modi per identificare i valori o aggiornarli
  • le annotazioni integrative relative all’uso dei valori.

Nel Data dictionary non sono stati considerati:

  • i metadati descrittivi, perché ritenuti competenza degli esperti di settore e oggetto di specifici interventi di normalizzazione: si citano tra gli altri gli standard Dublin Core, Marc, EAD,
  • l’analisi dettagliata dell’agente, in quanto elemento cui si possono applicare standard esistenti,
  • l’analisi dei diritti di accesso e di distribuzione, in quanto non pertinenti al tema specifico della conservazione,
  • i metadati tecnici in quanto oggetto di approfondimento da parte degli esperti di formati,
  • i dettagli relativi ai supporti e all’hardware, anch’essi destinati ad essere trattati dagli specialisti di settore,
  • le procedure amministrative dei depositi la cui rilevanza per la conservazione è notevole ma non in quanto proprietà degli oggetti.

APPROFONDIMENTI

Per una trattazione ampia sulla problematica dei metadati per la conservazione si rimanda alla sezione di approfondimento tematico Metadati per la conservazione.

Per ulteriori riferimenti in italiano si vedano:

Conservazione Digitale © 2014