IBM i Sverige

Digitalisering av en litteraturskatt

Share this post:

Har du läst Karl von Eckartshausens Magic: Principles of Higher Knowledge? Nej, tänkte väl just det. Den kom ut 1788, men var på väg att förstöras vid en brand på bayerska statsbiblioteket i mars 1943. För att öka möjligheten att spara och tillgängliggöra unika bokverk samarbetar IBM med EU och ett flertal bibliotek, forskningsinstitutioner, universitet och företag i ett digitaliseringsprojekt kallat IMPACT (IMProving ACcess to Text). I projektet ingår att skapa digitala kopior av historiskt viktiga texter samt att göra dem tillgängliga och sökbara på nätet.

Bild_ImpactFoto: boltron

I IMPACT kombineras OCR-teknik (Optical Character Recognition), som gör att texter på papper kan scannas och översättas till digital text, med ”crowd computing”, som är en teknik för att dela kunskap för ökad förståelse och effektivitet. OCR är en etablerad teknik för samtida texter. Det blir dock mer komplicerat med gamla texter där typsnitten ofta är unika och ibland sirligt utsmyckade och texten med åren blivit suddig och blekt. En ytterligare komplicerande faktor är att stavningar och ord ändrats över tiden och därför behöver ytterligare intelligens för att kunna förstås och registreras. Den nya tekniken som används i IMPACT innebär att felen minskar med 35 procent.

IBMs forskare i Haifa har bland annat skapat ett sätt där stora mängder frivilliga verifierar korrektheten i de digitaliserade texterna, vilket givit systemet möjlighet att ”lära” sig av de rättningar som görs i texterna. Dessa tekniska landvinningar har gjort att digitaliseringsprocessen snabbats upp avsevärt. I genomsnitt tar det fyra timmar att skriva in en liten bok manuellt. Med vanlig OCR-teknik och manuella rättningar tar det ungefär en timme att skapa en digital text av samma bok. Med den teknik som IBM-forskarna adderat till projektet har tiden kommit ner till 30 minuter. Forskarna tror också att denna tid kan halveras när systemet ”lärt sig” mer.

More stories

Fem år med THINK-bloggen – nu skickas pennan vidare

Sedan jag tog över som chefredaktör för den svenska THINK-bloggen på hösten år 2016, har jag och framförallt mina kollegor tillika THINK-bloggare skrivit och postat drygt 230 blogginlägg. Ämnena har varierat stort, med den gemensamma nämnaren att de alltid handlat om tankar, metoder och lösningar för att göra världen lite bättre. Viljan att beskriva svåra […]

Läs mer

Vi på IBM i Sverige: möt Fredrik Alpen

Det här är Fredrik Alpen, en kreativ IBM:are i Sverige med ett brinnande intresse för att förbättra kundupplevelser och hållbarhet. Fredriks konsultkarriär startade efter att han tagit en MBA i Nederländerna, då han blev management-konsult på PwC Consulting, som år 2002 slogs samman med IBM. Idag har Fredrik två roller på IBM Global Business services: […]

Läs mer

Vi på IBM i Sverige: säg hej till Isabella Holmberg

Säg hej till Isabella Holmberg, Storage partner på IBM i Kista! Efter att ha tagit examen vid Luleå  Tekniska Universitet, och efter en ögon-öppnande studieresa med besök på flera tech-bolag i Asien, visste Isabella att hon ville arbeta på ett företag som ligger i framkant vad gäller teknisk innovation. Denna ledstjärna förde henne till IBM, […]

Läs mer