Ett digitaliseringssystem för entomologiska insamlingsdagböcker

Följande är en kort tekniskt orienterad beskrivning av det digitaliseringssystem som för närvarande används för de entomologiska insamlingsdagböckerna vid Finlands Naturhistoriska centralmuseum.

Registreringen av data sker huvudsakligen som distansarbete över Internet, därför behövs en web-baserad plattform som grund för arbetet. Museet tillhandahåller en version av Centos Linux som används på en virtuell server. Digitaliseringsprojektet använder Drupal – en öppen programvara skriven i PHP. Flera av Drupals tilläggsmoduler har installerats för att underlätta arbetet, bl.a. Workflow, Faceted search, Book, OAI-PMH och Forum.

Arbetsgången sker i följande steg:
- fotografering
- katalogisering av bokinformation
- inskrivning av textinnehåll för varje sida i ett textfält i Drupal
- korrekturläsning
- strukturering av data
- XML konvertering

De entomologiska dagböckerna får ett eget nummer som t.ex. n1, n2 etc. Fotot av varje dubbelsida har också ett löpande nummer, som hör ihop med bokens nummer och bildar ett bildfilsnummer som t.ex. n1-001.jpg. Ett litet program skrivet i Perl används för att konvertera det bildnummer som görs av Canons kameraprogramvara till detta format.
Fotoutrustningen består av en Kaiser R1 RSX kameraställning med belysningsenheter och en Canon EOS 7 kopplad till en dator.

Bilderna syns i mindre format på Drupal-sidorna och en tumnagel-bild av pärmen görs också och visas på bokens första sida. Gratisprogrammet XnView används för att göra de mindre bilderna från stora JPG-filer eller från Canons RAW-bildformat. De stora JPG-bilderna flyttas till en separat web-server och de mindre bilderna inklusive ”tumnaglarna” flyttas till servermappar som är direkt åtkomliga via Drupal.
Namnet på bildfilerna används också som sidtitlar på Drupal. Detta gör det möjligt att automatiskt skapa ”tags” så att bilderna kan ses så fort de har flyttats till passande mappar på servern.

Med hjälp av Book-modulen struktureras sidorna i en hierarki på två nivåer: bokens metadata på toppnivå och dagbokssidornas innehåll under varje bok. Data skrivs in i två etapper. Först skrivs textinnehållet i varje bok in exakt på det sätt som det står i originalet. Sidlayouten kan inte alltid bibehållas, vissa saker som t.ex. pilar och en del streck och linjer kan inte återges i html.

En del av anteckningsböckerna innehåller maskinskriven text. Ett exempel är Stockmans samling av entomologiska dagböcker. För det materialet har vi använt programmet Abbyy FineReader som gör en optisk bokstavsavläsning (”optical character recognition”, OCR). Med detta program kan text i bildform överföras direkt till textfiler. Råtexten som man får fram kräver sedan alltid en viss manuell redigering.

Korrekturläsningen är också en del av processen och går till på så sätt att varje person som skriver in data också skickar över texten för korrekturläsning till någon av de andra i digitaliseringsteamet. Drupals ”Workflow”-module stöder detta och varje person får en lista på sidor som de har fått för korrekturläsning.

I den andra fasen struktureras de tidigare inskrivna uppgifterna. Detta görs med ett Excel-tabellblad skräddarsytt för detta ändamål. Fälten korresponderar med ABCD schema-element och dess lokala variant, FMNH2008-schemat. De färdiga tabellbladsfilerna laddas upp som bifogade filer på servern ihop med motsvarande boksida. Ett konverteringsprogram gör om dem till XML-filer och den tillhörande XML.filen syns som en länkad fil till boksidorna. Dessa XML-filer förs också över till muséets SVN-baserade datasystem.

User login

Languages