Inglismaal sama häda mis meil, vaja säilitada digitaalseid dokumente: Public Records Office to preserve digital documents. Ma ei saa siiamaani päris hästi aru, miks html/xml selleks ei sobi: küllap suudavad ka tulevased põlved hakkama saada ascii failiga kus olulisemad osad on <märgendus>märgenduse</märgendus> abil esile toodud. OK, kaduma lähevad Flashis tehtud laulvad hobused jms. So what? Nii ehk naa katab arhiivindus vaid osa meie minevikust.
Samas: mul on juba täna probleeme netist leitud värske video vaatamisega, sest tegija on kasutanud mingit imelikku koodekit. Probleem pole vist üldse selle kõige säilitamises vaid selles, et igaüks meist tahaks kasutada seda ühte ja kõige paremat failiformaati… Isegi juhul, kui see tuleb iseendal leiutada.
9 Kommentaarid
Ei ole see lugu niisamalihtne … XML on küll tore asi kirjeldamaks teatud tüüpi infot, sh näiteks metaandmeid, kuid arhiivide poolt säilitatav ei koosne vaid lihtlabastest dokumentidest, mis loomu poolest ka välja trükitavad.
Mis saab piltidest? Mis saab helifailidest? Mis saab andmebaasidest? Kõigi nende asjade jaoks on vaja mingit vormingut, mida tõepoolest suudetakse ka 10-20 aasta pärast lugeda.
Kui andmed on asutuses seotud mingisuguse nõmeda rakendustarkvaraga, mis ei võimalda asjalikku eksporti, siis tuleb siiski mingi lahendus leida jne jne jne.
Kaimar
Kuidas on dokument lihtlabane? Vahendatava mõte sisu seisneb sõnades, mida pildiga saab “kõigest” abstraktselt kujundada. Enamiku helifailidest arvan “lihtlabase” saasta hulka.
Lihtlabase dokumendi all pidasin ma silmas tekstidokumente a la lepingud, mis säilitavad oma vormingu olulise osa ka peale tavatekstiks, olgu see siis HTML või XML, konverteerimist.
Enamikke helifaile arhiivid ka ei säilita. Säilitatakse neid, mida tõepoolest peetakse oluliseks. Saasta ei säilitata. Otsustajateks ei ole üksikisikud.
Tsitaat: “Vahendatava mõte sisu seisneb sõnades, mida pildiga saab “kõigest” abstraktselt kujundada”.
Ja Dali pildi “Põlevad Kaelkirjakud” kohta säilitaks siis arhiiv lause “Ebaproportsionaalse kehaehitusega sahtel-jalgadega naised ning taamal põlev kaelkirjak”?
Arhiveerimise juures on üheks oluliseks punktiks see, et säilitada tuleb autentsus ja taaskäsitletavus. Nii näiteks ei saa pildimaterjale (tihti, kuid mitte alati) kirjeldada vaid tekstiga, küll aga saab enamiku andmebaasidest konverteerida universaalsesse vormingusse (näiteks SQL, aga see on vaieldav), et sellest siis vajadusel luua hallatav baas …
Nagu näha ei vaidle ka mina helifailide jms osas tekkivate probleemide vastu. Pigem olen ma … eFatalist? no igas tahes ma arvan et kohe kuidagi ei õnnestu enam tekitada olukorda, kus netis sündiv sisu oleks kenasti korrastatud ja arhiveerimiskõlbulik. Tõenäoliselt ainus toimiv lahendus on midagi google’i cache taolist: kõik mis kokku kogutud (.pdf, .doc, .xls jne) keeratakse mootori parema äranägemise kohaselt (ja vastavalt tänastele teadmistele) html’iks ja säilitatakse, soovitavalt koos algdokumendiga.
Pildi ja heli puhul tuleb rakendada midagi analoogset. Enam-vähem ühtlustatud & avatud formaat, mille dekoodrit on suht lihtne luua mistahes tulevikus.
Samas tekib siin huvitav olukord: ennustuste kohaselt hakkab üsna pea kätte jõudma iseprogrammeeruvate süsteemide ajastu. Sina lihtsalt kirjeldad midagi ja arvuti loob sulle vastava rakenduse. Nüüd… Kui me teeme tänasest www-st koopia ja selle hulgas on mp3, mpeg, flash, pdf jt formaatide kirjeldused inimesele loetaval kujul siis peaks paarikümne aasta pärast suutma arvutid ise vajadusel puuduvad koodekid-konverterid kirjutada. Ja tõenäoliselt pole neile ka probleemiks tänane krüpto. Ehk et who cares mis kujul me hetkel andmeid talletame.
Ainus jääv probleem on meedia.
Kindlasti ei suuda ajaloolased näiteks 500 aasta pärast meie praegusel kujul faile lahti teha. Samuti ei suuda meie põlvkond sellist arhiveerimise standardit leiutada, mis selle probleemi otseselt lahendaks. Küll aga suudame olulise tähtsusega failid oma otseste järeletulijate jaoks arusaadaval kujul arhiveerida. Standardite arenedes arhiveerivad nemad oma failid ja loodetavalt ka meie omad ümber vastavalt uutele nõuetele ning ulatavad teatepulga järgnevatele põlvkondadele edasi.
Olen veendunud, et näiteks käesolev oluline mõtevahetus 2503. aasta teadlasteni läbi mitmekordse ümberarhiveerimise ikkagi vahendub. See pole enam meie peamurdmine, millises vormis see nende sahtlisse satub. Olulisem on minu arvates selle üle muret tunda, kas nad sellegi poolest seda lugeda oskavad. On nimelt reaalne kartus, et 500 aasta pärast maailmas mitte keegi sellisest ära ununenud keelest nagu eesti keel enam aru ei saa.
Kordan veelkord seda, et arhiveerimisele (rahvusarhiivi, olgu see siis PRO Inglismaal või Rahvusarhiiv Eestis, mõistes) ei lähe mitte kogu olemasolev informatsioon, vaid see, mida peetakse oluliseks. Kriteeriumid sellise hindamise jaoks on eraldi teema …
Nendes asutustes, milles tekkiv info on rahvusliku tähtsusega, on sageli (reeglina) võimalik ette kirjutada, kuidas peab taaskäideldavat :) infot tekitama, struktureerima ja arhiveerima – olgu need siis lepingud, joonised või Suure Juhi kõned. Seesama PRO üritus vaatabki asju laiemas plaanis, st erinevate vormingute tasandilt, kuid samas jällegi kitsalt – vaadeldakse vaid üht osa olemasolevast ja tekkivast infost.
Piltide ja heli puhul käivad vaidlused – mis on hea vorming. On olukordi, kus ka dokumenteide säilitamisel tuleb arvestada nende väljanägemisega, seega lihtne XML ei ole lahendus.
Lisaks veel digitaalne allkirjastamine – uurige Jan Willemsoni käest, kuidas ta suhtub XML-i allkirjastamisesse :)
eFatalism on põnev elufilosoofia, kuid riigi tasandil ei ole see rakendatav, seega arhiivide ülesandeks on jätkuvalt universaalsete ja hiljemgi kasutatavate vormingute leidmine, vajadusel ka loomine (PRO ressursside juures ei ole see sugugi võimatu).
Taas-arhiveerimine tehnoloogia muutudes tundub vähemalt esialgu olevat parim lahendus (nagu ka CD-de ümberkirjutamine teatud aja möödudes, arvestades nende säilivusaega), kuid meil ei ole ressursse seda taas-arhiveerimist iga 5 aasta tagant läbi viia – tuleb leida moodus arhiveerida praegused andmed nii, et need säiliksid kättesaadavatena võimalikult pikka aega.
Nõus, et iga viie aasta tagant pole reaalne ümber arhiveerida. Nõus, et tuleb leida natuke üle selle aja ulatuvaid lahendusi. Aga nii kui nii ei suuda me 500 aasta kaugusele mitte tuhkagi jäätvustada. Nii kui nii peame oma järeletulijate mõistust usaldama.
Aga ega keegi ju nii kaugeleulatuvaid lahendusi ei üritagi leida … selge see, et 500 aastaga on asjad äratundmatuseni muutnud ja meie arusaam arvutitest või tuleviku tipptehnoloogiast on selleks ajaks omakorda kas ajalugu või naerukoht …
m.o.t.t.