IBM & Vasaloppet

Hundra år av Vasaloppsdata, del två

Share this post:

Stavningsrättning av OCR-texten

På min YouTube-kanal finns en kort video där jag tränar OCH tänker på det här projektet, samtidigt:

Efter att jag tagit mig till etappsegern “Hundra år av Vasaloppsdata: Vad skrevs om loppet 1922?” i jakten på insikter från tidningsartiklar från när Vasaloppet var ungt, ville jag se om kvaliteten på texten som AI läste kunde bli bättre.

DN 3 mars 1922

Klipp ur Dagens Nyheter, 3 mars 1922

För att repetera stegen så utgick jag från denna inscannade originaltext från 3 mars 1922 i Dagens Nyheter. Med ett verktyg som kan läsa OCR fick jag ut innehållet i klartext, som såg ut så här (delar av hela artikeln):

STOR ENTUSIASM
FÖR”VASALOPPET”
I HELA DALARNA.

Ett svenskt Holmenkollen, tro
Morakamraterna.

Inte Mora—Sälen, utan Salen—
Mora, ett nytt förslag.

Sportnyheterna meddelado på sin
tid ett förslag av redaktör A. Pers i
Vestmanlands Liäns Tidning att oett
nationellt skidlopp skulle anordnas
don 8 mil långa och historiska sträc-
kan Mora—Sälen, som Morakarlarna
Engolbrokt från Morkarlby och Lars
i Kettilbo för drygt 400 år sedan ski-
dade för att hämta tillbaka Gustaf
Eriksson Vasa; ett för visso betydel-
enfullt skidlopp.

 

 

Om jag zoomar in på ett avsnitt i ursprungsartikeln kan vi se ett par utmaningar med texten:

Detalj från artikel i Dagens Nyheter 3 mars 1922

 

Från bild (jpeg format) till text med ocr-vertyget blir det:

 

mottagits medöversvallandeentusiasm,

och Morakamraterna, som skulle ligga

pirmast till hands -att arrangera, ha

redan dryftat saken ingående. Från

 

Via rättstavningsverktyget så blir några “stavfel” rätt men just här är det fortsatt problem:

  • medöversvallandeentusiasm {”type”:”spelling”,”offset”:614,”length”:25,”message”:”Stavfel”,”suggestions”:[]},
  • pirmast {”type”:”spelling”,”offset”:678,”length”:7,”message”:”Stavfel”,”suggestions”:[”Irmas”,”pirat”,”präst”]},

 

Raden som fått för små mellanslag för att passa in i kolumnen i tidningen, tolkas som ett enda ord av ocr. Vi ser att det ska vara “med översvallande entusiasm”, men varken ocr eller rättstavningskontrollen hittar det.

Nästa är ordet “pirmast” som beror på litet suddigt “n” i originalet. Vi ser sammanhanget “ligga °°rmast” är förstår att “närmast” är bästa alternativet. Rättstavningen går helt fel här och föreslår Irmas, pirat och präst, eftersom den inte tar hänsyn till “ligger”.

Slutsats av mitt test med att förbättra texten med rättstavningsprogram är att det inte ger så mycket mervärde. Dels för att svenskan i texten är något äldre (1920-tal), dels för att rättstavningen måste ta hänsyn till sammanhanget för att lyckas.

PS. Apropå rättstavning och träning så är stavgångspass i backe en mycket bra träningsform året om. Kolla här på min YouTube-kanal när jag och några kompisar tränar!

Data&AI Technical Specialist, IBM Technology Sales i Sverige

More IBM & Vasaloppet stories

Ett holistiskt perspektiv gjorde Region Blekinge till en effektivare organisation

Som många andra organisationer hade Region Blekinge en mängd olika IT-system och applikationer. Teamet som ansvarade för IT-infrastrukturen hade stora utmaningar med övervakning av systemen. Övervakningslösningar hade implementerats för varje enskilt system, men det fanns ingen överblick över hela IT-miljön. Dessutom saknades en integration mellan verktygen som användes, vilket ledde till dubbelarbete och längre ledtider […]

Läs mer

Två hundraåringar spekulerar – kommer AI att ta våra jobb?

När IBM nyligen blev inbjudna att hålla en traditionsenlig gästföreläsning på Stockholms Handelshögskola och kursen ”Humans vs. Algorithms: Judgment, Prediction and Nudges” var det AI & etik som stod på schemat, med extra fokus på interaktiva assistenter. Som du kanske anar saknades det hundraåringar både framför och bakom katedern denna dag. Dock fanns det gott […]

Läs mer

Lära för (arbets)livet – AI med New Minds

“Om du vill ge någon en bott, lär upp den först. Men om du vill ge någon en bott för livet, så lär denna någon hur man lär upp botten.” En av de trender som vi tror kommer fortsätta är att saker omkring oss blir mer och mer intelligenta. Vi kommer allt oftare stöta på […]

Läs mer