2006-05-14, 13:29
  #1
Medlem
Vet någon var man kan få tag på en komplett ordlista, t.ex. SAOL eller NE i digital form. Jag är inte så intresserad av betydelser, utan vill bara ha alla uppradade, t.ex. i csv-format.
Citera
2006-05-14, 16:22
  #2
Medlem
dIRe_s avatar
Citat:
Ursprungligen postat av henkus
Vet någon var man kan få tag på en komplett ordlista, t.ex. SAOL eller NE i digital form. Jag är inte så intresserad av betydelser, utan vill bara ha alla uppradade, t.ex. i csv-format.
http://www.anst.uu.se/dapdo451/Gubbi/SSOO.txt

Från Saol 12 tror jag.
Citera
2006-05-14, 17:00
  #3
Bannlyst
Citat:
Ursprungligen postat av henkus
Vet någon var man kan få tag på en komplett ordlista, t.ex. SAOL eller NE i digital form. Jag är inte så intresserad av betydelser, utan vill bara ha alla uppradade, t.ex. i csv-format.
Nu råkar jag ha båda verken i min ägo, det vill säga
  • Nationalencyklopedins ordbok (NEO), eller Nationalencyklopedins ordbok på CD-ROM (NEOB) version 2.0 (1999) med ISBN-nummer 91-7133-636-2 som den också heter, samt

  • Svenska Akademiens ordlista (SAOL), eller Svenska Akademiens ordlista över svenska språket, 12:e upplagan (1999), CD-ROM, ISBN 91-7227-038-1.
Bägge finns på TPB: NEO (250 Mb), SAOL (19 Mb).

SAOL inryms även som sjätte (1889) och åttonde upplaga (1923) på Runeberg. Förvisso föråldrade, men sedan måste ju enligt upphovsrättslagen gå 70 år efter upphovsmannens död innan rättigheterna upphävs och verket blir allmängods.

Hur som helst har NEO sin databas i en mapp med namnet DATA (C:\Program\NEO\DATA). Detta är filerna i den:

Citat:
Cgmi.neo (747 kB)
DISC1 (0 kB)
Kat.nec (165 kB)
neo.cas (1 473 kB)
neo.cat (1 008 kB)
NEO.CIT (269 kB)
NEO.CIX (3 472 kB)
NEO.CPT (6 015 kB)
NEO.CSE (9 kB)
NEO.CTX (27 713 kB)
NEO.JPL (180 538 kB)
Neopc.ctb (2 kB)
Smedia.neo (3 785 kB)

Dessa är krypterade på något lurigt sätt, så det räcker inte med att döpa dem till .txt och öppna i Wordpad eller Excel.

Även i SAOL:s fall är filerna krypterade och ligger i C:\Program\BC31\BAS:

Citat:
SAO003NS.BAS (17 412 kB)
SAO103NS.BAS (2 909 kB)

Men... Du tänker företrädesvis använda ordlistorna i brute force- eller Scrabblesyfte, inte sant? Spara dig besväret och pröva något enklare i stället, det finns många svenska ordlistor i vanligt ASCII-/textformat på Internet. Om du inte skulle hitta några kan jag lägga ut ett par.
Citera
2006-05-14, 17:03
  #4
Medlem
Egon3s avatar
Citat:
Ursprungligen postat av dIRe_
http://www.anst.uu.se/dapdo451/Gubbi/SSOO.txt

Från Saol 12 tror jag.
Överensstämmelsen med SAOL-12 är god. Dock verkar en del långa sammanställningar som kabinettskammarherre vara uteslutna. Sorteringen är enligt SAOL-13 med W skilt från V.

I min hyggligt kraftfulla Windows-dator fick MS Internet Explorer problem med att visa de ca 90 000 raderna, medan Firefox fixar det på ett par sekunder. Det är inget problem att spara filen på ca 1 MB som *.txt.
Citera
2006-05-14, 19:42
  #5
Medlem
Tackar, det funkade bra.
Citera
2008-06-24, 20:42
  #6
Medlem
Citat:
Ursprungligen postat av dIRe_
http://www.anst.uu.se/dapdo451/Gubbi/SSOO.txt

Från Saol 12 tror jag.

Någon som har Saol 13 eller 12 i txt document? Den gamla länken till Saol 12 fungerar heller inte mer. Skulle bli mycket tacksamm ifall någon hade det liggandes
Citera
2008-06-25, 00:03
  #7
Medlem
Egon3s avatar
Citat:
Ursprungligen postat av thalll
Någon som har Saol 13 eller 12 i txt document? Den gamla länken till Saol 12 fungerar heller inte mer. Skulle bli mycket tacksam ifall någon hade det liggandes
Kanske kan följande vara ett tips: När man laddar ner svensk stavningskontroll
till Firefox får man en fil som heter \dictionaries\sv.dic. Den innehåller svenska
ord från A-aktie till övervälvning. Med lite byte-trixande kan den bli en ordlista.
Filen sv.aff innehåller regler för sammansättningar och böjningar tycks det.
Den behövs för att bland annat stryka genitiv-s i grundlistan tycks det.

Volymen är ca 800 kbyte vilket tyder på ca 50 000 ord.

Reservation: Filerna kan vara Copyright-skyddade.
__________________
Senast redigerad av Egon3 2008-06-25 kl. 00:07.
Citera
2008-06-25, 12:53
  #8
Medlem
Citat:
Ursprungligen postat av Egon3
Kanske kan följande vara ett tips: När man laddar ner svensk stavningskontroll
till Firefox får man en fil som heter \dictionaries\sv.dic. Den innehåller svenska
ord från A-aktie till övervälvning. Med lite byte-trixande kan den bli en ordlista.
Filen sv.aff innehåller regler för sammansättningar och böjningar tycks det.
Den behövs för att bland annat stryka genitiv-s i grundlistan tycks det.

Volymen är ca 800 kbyte vilket tyder på ca 50 000 ord.

Reservation: Filerna kan vara Copyright-skyddade.

Najs, har kollat igenom den nu ser riktigt bra ut faktiskt, fast förstod mig inte riktigt på hur sv.aff fungerade tillsammans med sv.dic. Men blir en baggis att ta ut alla orden från sv.dic . Tack ska du ha!
Citera
2011-11-19, 20:27
  #9
Medlem
Någon som har en nyare version?
Citera
2011-11-19, 20:47
  #10
Medlem
BreehcNicdolls avatar
Annars finns SAOL på saol.se.
Citera
2011-11-19, 23:05
  #11
Medlem
egon2bs avatar
Citat:
Ursprungligen postat av BreehcNicdoll
Annars finns SAOL på saol.se.
Den tekniska formen är i princip foto (JPG) så det är ett massivt och rätt osäkert OCR-jobb att knäcka SAOL-13 den vägen. JPG är för övrigt en ganska olämplig lagringsform, tekniskt sett. Med en 16-gradig gråskala och förlustfri komprimering blir sidorna tre (3) gånger mindre. Presentation av sidorna som bilder snarare än formaterad text, det är å andra sidan en rimlig lösning eftersom kodning av uttalsanvisningar är såpass osäker som den fortfarande är.
Citera
2011-11-20, 23:36
  #12
Medlem
Jonassons avatar
Citat:
Ursprungligen postat av egon2b
Den tekniska formen är i princip foto (JPG) så det är ett massivt och rätt osäkert OCR-jobb att knäcka SAOL-13 den vägen. JPG är för övrigt en ganska olämplig lagringsform, tekniskt sett. Med en 16-gradig gråskala och förlustfri komprimering blir sidorna tre (3) gånger mindre. Presentation av sidorna som bilder snarare än formaterad text, det är å andra sidan en rimlig lösning eftersom kodning av uttalsanvisningar är såpass osäker som den fortfarande är.
Jag testade att OCR:a ett par av bilderna med Adobe Acrobat Professional 9, och resultatet blev som du förutsåg dåligt.

Någon som har ett bättre program att tipsa om?
Citera
  • 1
  • 2

Skapa ett konto eller logga in för att kommentera

Du måste vara medlem för att kunna kommentera

Skapa ett konto

Det är enkelt att registrera ett nytt konto

Bli medlem

Logga in

Har du redan ett konto? Logga in här

Logga in