... Någon som har ett bättre program att tipsa om?
I en grå forntid körde jag Recognita. De som tillhandahöll Recognita fram till version 5 rekommenderar nu Omnipage (18). Kostnaden €99 är inte direkt avskräckande, men nuförtiden skall man väl kunna köra ett fåtal OCR-skott billigare via Molnet.
centralredaktion => centr allrodakt.ion champion (med uttalsanvisning) => champion kånipiän fam'pl .en • mästare
i sport; djur tes. hund som vunnit pris
OCR:en har problem redan med avstavningsanvisningarna och ett vanligt e. Plus för klarad mästare. Totalt sett värdelöst, dvs ägarna till SAOL kan sitta nöjda.
__________________
Senast redigerad av egon2b 2011-11-21 kl. 00:50.
Från ett screen-shot på mitt inlägg #11 här ovan blev OCR-resultatet nästan perfekt som teckenström i retur. Gott betyg. Enda missen var (JPG) som blev (3PG). Lite pinsamt om man är i OCR-branschen. Semantiskt känslig OCR kan vi bara drömma om.
Glöm inte välja Swedish som målspråk. Sajten har inte särskilt höga tankar om andras OCR-förmåga. Den grumlade kontrollkoden är ovanligt lite grumlad.
Adobe Acrobat 9 hade problem med samma text, trots att jag deklarerade svenska som målspråk. Acrobat 9 är inte gratis (som läsaren är). Här är resultatet av nettotexten i inlägg #11 via Adobe Acrobat:
Den tekniska formen är i princip foto (JPG) s~ det är ett massivt och rätt osäkert OCR-jobb att
knäcka SAOL-13 den vägen. JPG är för övrigt en ganska olämplig lagringsform) tekniskt sett.
Med en l?-gradig. gr~skala oc~ förlustfri komprimering blir sidorna tre V) g~nge.r mindre: .
Presentation av sidorna som bilder snarare än formaterad text) det är a andra sidan en nmllg
lösning eftersom kodning av uttalsanvisningar är s~pass osäker som den fortfarande är.
__________________
Senast redigerad av egon2b 2011-11-21 kl. 01:14.
Jag behöver också SAOL 13 som textfil, ett ord per rad, inklusive alla böjningar. Så om du sitter på filen, alternativt vet hur man får fram den, hjälper du många genom att dela med dig! Tack på förhand.
Det är ett jävla rån att man inte får ta del av frukten av forskningen. Vem är det egentligen som har finansierat den? VART HAR VÅRA PENGAR TAGIT VÄGEN?
__________________
Senast redigerad av scheutz 2013-03-29 kl. 21:51.
Hittade en legit SAOL, vet dock inte vilken årgång: saol.txt. Sedan kan man ju joina denna med DSSO och ta bort duplicates, så får man en ännu mer komplett ordlista.