Historieskrivning. En voksende del af den kollektive hukommelse forekommer udelukkende i digital form. Hvis ikke vi bliver bedre til at gemme de vigtigste data, risikerer vi, at de smuldrer bort.

Inden skyen fordamper

Coronakrisen er en af de store begivenheder i nyere danmarkshistorie, og ligesom andre store begivenheder har den affødt enorme mængder kilder til gavn for fremtidens historikere. Det er bare ofte nogle helt andre kilder end før.

Hvor kilderne til tidligere epoker som krigen i 1864 eller besættelsestiden typisk består af aviser, memoranda og dagbøger, vil historikerne om nogle generationer ty til onlinenyheder, hjemmesideopdateringer og e-mail for at få en fornemmelse af, hvad der rørte sig i befolkningen i de mærkelige år 2020 og 2021.

Allerede inden covid-19 kom til Danmark, begyndte Net­arkivet, som hører under Det Kgl. Bibliotek, at indsamle offentligt tilgængeligt materiale på det danske internet om pandemien. Det er en massiv indsats, hvor alt lige fra officielle hjemmesider til facebookprofiler og konti på Twitter, Instagram og TikTok af relevans for coronaepidemien bliver gemt for eftertiden.

»Hvis jeg søger i Netarkivet på ’covid-19’, finder jeg 50 millioner steder, hvor det indgår. Det kan være en html-fil, det kan være en Weekendavisen-artikel, det kan være en pdf eller en podcast-episode med covid-19 i beskrivelsen,« siger Anders Klindt Myrvoll, faglig leder på Netarkivet.

Det er bare en lille del af det enorme materiale, som Det Kgl. Bibliotek med udgangspunkt i pligtafleveringsloven siden 2005 har indsamlet fra den danske del af internettet. Det er et nødvendigt arbejde, for indholdet på en hjemmeside holder sig i gennemsnit en måned eller to, og derefter er det væk for evigt.

Resultatet er en kæmpe bunke data om nyere danmarkshistorie. I de seneste 16 år har Det Kgl. Bibliotek indsamlet over 33 milliarder forskellige objekter omfattende i alt cirka 750 tera­byte. For at give en omtrentlig ide om, hvor meget det er, svarer bare en enkel terabyte til 20 hyldekilometer papirarkivalier.

Alligevel er det bare en lille del af det danske cyberspace, som på den måde bliver indfanget. Det hænger sammen med bibliotekernes traditionelle opgave, som er at indsamle offentliggjort materiale. I gamle dage var det bøger eller aviser, og senere blev det radio og tv. Derfor er det også den offentliggjorte del af det danske web, de gemmer.

Omvendt er det typisk arkiverne – Rigsarkivet, Erhvervsarkivet og lokalarkiverne – der har gemt alt det, der ikke er offentligt. Det kan være alt lige fra virksomheders regnskaber til interne blade og individuelle personers dagbøger. For eksempel e-mail falder også ind under den kategori, fortæller Niels Brügger, der er professor i medievidenskab ved Aarhus Universitet med speciale i blandt andet arkivering af internettet.

»På sin vis burde det være arkiverne, der skulle tage den opgave på sig. Det har de ikke rigtig gjort, og det er lidt en skam. På Det Kongelige Bibliotek kan man deponere sine e-mail, men det er kun kendte forfattere og andre fremtrædende personer,« siger han.

»Hvis det var mig, der skulle bestemme, skulle vi have en ordning, hvor man en gang om året i løbet af en bestemt uge kunne tage alle sine e-mail, alt, hvad man synes, der skal gemmes for eftertiden, og deponere det på Det Kongelige Bibliotek.«

En eksplosion af data

Det er et generelt problem for historikerne i Danmark og i udlandet, som har trængt sig på, siden internettet første gang for alvor meldte sin ankomst for 25 år siden:

Hvad stiller man op med eksplosionen af potentielt relevant samtidshistorisk data? Hvad skal man gemme og hvor meget? Og hvordan sikrer man, at det bliver opbevaret i en stand, så det stadig findes og kan anvendes om 10, 100 eller 500 år?

Når spørgsmålene dukker op nu, skyldes det blandt andet, at historikerne er begyndt at interessere sig for perioder, hvor digitalt materiale fylder ved siden af de traditionelle trykte kilder.

»Det er først inden for de seneste tre-fire år, at danske historikere er begyndt at interessere sig for digitalt materiale for alvor. Det passer meget godt med, at der skal gå 25 år, før historikerne begynder at synes, at noget er historie,« siger Niels Brügger.

Nogle forskere har pessimistisk talt om, at så meget essentielt materiale i utraditionelle formater risikerer at gå tabt, at man kan tale om »digitaliseringens mørke tidsalder«. De fleste vil ikke gå så langt, men peger på problemer.

Et af dem er, at en masse af de data, som fremtidens historikere og andre forskere kan tænkes at interessere sig for, muligvis ikke vil være tilgængelige for offentlige arkiver, fortæller Yennie Jun, en tidligere softwareingeniør ved Microsoft, der nu forsker ved Oxford Internet Institute.

Det gælder et socialt medie som TikTok, hvor brugerne deler korte videoer, som for eksempel indeholder en vigtig historie om, hvordan teenagere forholder sig til et emne som Black Lives Matter. Det kan ifølge Jun også være den personlige information, Google har indsamlet om sine brugere, eller Amazons reklamealgoritme.

»Alle disse interessante data, som fortæller noget om, hvordan vi interagerer med hinanden i samfundet, ender måske aldrig i nogen offentlige arkiver, fordi det er virksomhederne, der ejer oplysningerne. Og virksomhederne har ikke noget incitament til at beholde oplysningerne på langt sigt, for det er dyrt at gøre det. Det vil de kun indlade sig på, hvis det på en eller anden måde hjælper dem med at tjene penge,« siger hun.

Det omvendte problem, i form af uoverskuelig meget indhold, gør sig også gældende. I vores informationsmættede tidsalder er det kun en del af de eksisterende data, som vi rent faktisk kan se. Spørgsmålet er, hvor meget der skal gemmes til eftertiden, fortæller Jun:

»Der er bare så meget data. Hvis man bare tager e-mail som et eksempel, er der selve indholdet, men der er også de ekstra metadata, som Google har, for eksempel hvor lang tid jeg bruger på hver e-mail, hvor hurtigt jeg skriver, den rækkefølge, jeg læser mine e-mail i, e-mail, jeg vælger at arkivere eller slette. Er det vigtigt bare at gemme indholdet, eller skal vi også bevare konteksten og metadata? Hvilken del ønsker vi at bevare?«

Smuldrende teknologi

Beslutningen om udvælgelse og prioritering af data omfatter kun begyndelsen på de udfordringer, arkivarerne står over for. En anden og om muligt vigtigere og vanskeligere udfordring er at finde en metode, som forhindrer, at data over tid smuldrer mellem fingrene på os eller vores efterkommere.

Her er moderne teknologi en lumsk ven. Det er en udbredt opfattelse, at digitale formater hjælper til at bevare informa­tioner, som ellers ville forsvinde. Når man scanner gamle familiefotos, der ellers bliver krøllet eller blegner eller ryger ned bag sofaen, sikrer man vigtige minder for eftertiden – eller det tror man i det mindste.

Men ifølge Ian Milligan, der er historiker ved University of Waterloo i Canada, undervurderer vi ofte, hvor lang levetid traditionelle trykte formater i virkeligheden har. Man kan tage et foto og lægge det i en skotøjsæske, og 50 år senere vil det stadig være brugbart, selvom det måske er en anelse gulnet. Bøger trykt på syrefrit papir kan tilsvarende holde sig nærmest uendeligt.

»Hvis jeg alternativt får fat i en cd-rom, som jeg lavede for fem eller ti år siden, er der måske for det første det problem, at jeg ikke engang har et cd-rom-drev længere. Når jeg så finder et drev, opdager jeg, at fotografierne er i et nyt format. Jeg har måske taget mine fotos i iPhoto-format, og min opgraderede Mac-computer kan ikke læse dem,« siger han.

»Jo længere tid digital information ligger, uden at nogen arbejder med det, desto mere sandsynligt er det, at vi ender med en katastrofe, når vi på et eller andet tidspunkt har behov for at bruge den information.«

Formaterne bliver ved med at forandre sig. Måske bruger vi ikke længere jpg-formatet til at gemme fotografier med om ganske få årtier, for bare at tage et enkelt eksempel.

Som en del af digital opbevaring er man derfor også nødt til med nogle års mellemrum at tage det indhold, man har liggende på gammelt hardware og software, og flytte det til ny hardware og software – en proces, der ofte omtales som migration. Et eksempel er filmigration, når man ønsker at opbevare filer oprindelig gemt som Word 95-filer i Word 2010-format.

Skyen varer ikke evigt

Ifølge Ivan Szekely, leder af Vera and Donald Blinken Open Society Archives ved Det Centraleuropæiske Universitet i Budapest, er migration en kompliceret og dyr proces.

»Det er ikke nok bare at arkivere de gamle dokumenter i deres oprindelige formater. Vi skal migrere dem, hvis vi ønsker at bevare dem. Og desværre er migration en kumulativ proces. I dag skal vi migrere digitale dokumenter fra i går. I morgen skal vi migrere dokumenter fra i går og i forgårs. Og så videre,« siger han.

»De fleste arkiver og organisationer, som har at gøre med at bevare digitale dokumenter, planlægger ikke med det for øje, og de udarbejder ikke budgetter for den type kumulative processer. Men hvis man husker på, hvor kort levetid digitale medier og software har, bliver det ekstra vigtigt.«

Udfordringerne forbundet med at gemme historiske data i en form, der sikrer dem mod tidens tand, er ikke umiddelbare og intuitive. Det skyldes blandt andet, at en voksende del af det indhold, vi som brugere gemmer, bliver placeret i skyen, fortæller Yennie Jun.

»Skyen virker, som om den vil vare for evigt, fordi det faktiske hardware, som ligger til grund, er så fjernt fra os, at det bliver helt abstrakt. Min interface er Google Drive eller Dropbox, og jeg behøver ikke at tænke over, hvor mine data fysisk befinder sig henne – på gigantiske servere, som jeg ikke aner beliggenheden af rent geografisk,« siger hun.

»Problemet er bare, at skyen ikke eksisterer i al evighed. Om 50 år, for eksempel, hvis der sker noget med virksomheder som Google eller Amazon, så vil skyen forsvinde, og der vil ikke være nogen til at tage sig af de data, der er placeret der.«