Nyhetsarkiv fra de siste 150 år

tg_aftenposten1

I et omfattende digitaliseringsprosjekt er samtlige utgaver av Aftenposten skannet og OCR-lest. Alle årgangene fra 1860 ble i første omgang gjort tilgjengelig for Aftenpostens redaksjonelle medarbeidere i et eget internt arkiv. Nå skal hele det historiske arkivet overføres til Media Norges nye fellesarkiv som er basert på DC-X (Mediegalleri) fra Teknograd. Aftenposten er først ute med sitt historiske arkiv, deretter følger Stavanger Aftenblad. Prosjektleder Karen Thorshaug forteller at målet er å gi medarbeiderne i de fire mediehusene i Schibsted-eide Media Norge, tilgang til aktuelt og historisk stoff fra samtlige fire aviser.

Omfattende arkivprosjekt

Samarbeidsprosjektet mellom Aftenposten og Nasjonalbiblioteket har pågått gjennom flere år. De fleste sidene er skannet inn fra Nasjonalbibliotekets mikrofilmarkiv, mens enkelte utgaver og hele A-magasinet er skannet i farger fra de originale trykte utgavene. Kombinasjonen av PDF-dokumenter, XML-filer som beskriver sidene og OCR-leste tekstfiler, gir et digitalt arkiv som speiler samfunnet helt fra den første utgaven av Aftenposten kom ut av trykkpressen i 1860. Karen Thorshaug i Aftenposten har vært sentral i det store arkivprosjektet gjennom flere år. Nå holder hun og kolleger på å teste den nye løsningen i DC-X. Der viser hun oss hvordan gamle artikler og annonser er søkbare og tilgjengelig på et øyeblikk. I fritekstsøkene kombinerer hun enkeltord og tekst, og kan avgrense søket gjennom bruk av tidsrom, kun vise forsidesaker eller søke spesifikt i annonser eller bildetekst. . – I DC-X blir informasjonen tilrettelagt for redaksjonell bruk. Schibsteds IT-avdeling utfører selve konverteringen, mens Teknograd står for utvikling og tilpasning av systemet i DC-X.

Redaksjonelt verktøy

Karen Thorshaug viser hvordan et søk på ”Martin Luther King” umiddelbart henter frem avissider der den svarte borgerrettighetsforkjemperen er omtalt, ikke minst fra Nobelprisutdelingen i Oslo i 1964. På skjermen ser hun den opprinnelige avissiden samtidig som hun har tilgang til artikkelen som redigerbar tekst. Også samtlige annonser inngår i prosjektet, for eksempel gir søkeordet ”prince” umiddelbar visning av 70-årenes sigarettreklamer med tittelen ”Nå røker også jeg Prince”. A-magasinets tegnede og håndkolorerte forsider fra tidlige år ville vært en kunstutstilling verdig, og selv ikke tegneseriene er utelatt. Karen Thorshaug forteller om et spennende og svært lærerikt prosjekt, der det har dukket opp overraskelser underveis. – Vi var blant annet ikke klar over at Aftenposten produserte flere ulike daglige utgaver i tiden før andre verdenskrig. Det er lett å la seg rive med når man arbeider med artiklene, for dette er hele vår nære historie på ett brett, sier Karen Thorshaug og Ulla Hanssen Hellberg.

1,7 millioner avissider

Digitaliseringen av Aftenposten har altså vært et samarbeidsprosjekt mellom Aftenposten og Nasjonalbiblioteket, der totalt 1,7 millioner avissider er digitalisert.

– Enkelte huller finnes, men de er ikke mange, forsikrer Karen Thorshaug. Hun forteller at OCR-lesingen bød på mange utfordringer. – Frem til 1912 ble det benyttet gotiske skrifttyper som har vært vanskelige å tyde for OCR-programvaren.

Etter mange år med arkivprosjekter i Aftenposten, går Karen i disse dager ut av dørene i Akersgata for siste gang, i hvert fall som ansatt. Hun har takket ja til AFP-avtale, og forlater mediehuset samtidig som 1,7 millioner sider og 7 millioner artikler fra digitaliseringen importeres inn i DC-X. – Jeg er trygg på at dette kommer i havn, og at det blir verdifullt for redaksjonene. Så håper jeg at vi på sikt kan få like gode løsninger for avisenes abonnenter. Jeg er sikker på at dette stoffet er av stor interesse for våre lesere, sier hun.