Citat:
Ursprungligen postat av JaneC
Jag kan inte förstå hur man kan komma fram till denna siffra utan att hamna i precis samma definitionsträsk som om man ger sig på att räkna det totala antalet ord i ett språk.
Utmärkt fråga, jag ska förklara.
Citat:
Ursprungligen postat av JaneC
Är "wallpaper" ett separat ord eller räcker det att kunna "wall" och "paper" var för sig för att det ska anses att man även förstår "wallpaper"?
Vad man gör är att man har en corpus för ett visst språk, och med dagens teknik kan använder man sig vanligen av mycket stora och varierande korpus med ca 20-50 miljoner ord. Steg ett är att rent tekniskt se hur många gånger olika ord förekommer, och gör man bara det blir det förstås strunt. Då är "bok", "boken", "böcker" och "böckerna" fyra olika ord, vilket de förstås inte är. Det är orsaken till att de listor som vissa glada och välmenande amatörer slänger upp på Internet helt saknar vetenskapligt värde. Datorn förenklar jobbet avsevärt, men det är fortfarande en heltidsjobb på flera månader för språkvetare att gå igenom listorna för att analysera dem.
Vad vi sedan ser är, per ord, hur stor del av vår sammanlagda corpus som just det ordet motsvarar. Om vi tar finska som exempel (bara för att jag råkar ha den liggande på bordet bredvid mig, jag är lat

) så ser vi att de tio vanligaste orden är
1. olla (att vara) , utgör 5,83% av orden i finska.
2. ja (och), 3,67%
3. se (den/det) 1,68%
4. ei (nej/inte) 1,34%
5. joka (som) 1,23%
6. että (att) 1,1%
7. tämä (denna) 0,8%
8. hän (han/hon) 0,79%
9. voida (kunna) 0,56%
10. saada (få) 0,53%
De här tio orden, de vanligaste i finska, utgör tillsammans 17,5% av en genomsnittlig finsk text. Sedan kan vi kolla hur många ord det behövs för att komma upp till olika nivåer. Fortfarande på finska så är det så att de
100 vanligaste orden utgör 35,1%
200 vanligaste = 42,9%
300 = 48%
400 = 51,7%
500 = 54,9%
1000 = 64,8%
5000 = 83,5%
10000 = 89,4%
Så om vi ser på engelska och tittar t.ex. på de 5000 vanligaste orden så beror det helt på hur ofta "wall", "paper" och "wallpaper" dyker upp. Nu har jag inte den boken till hands, men från minnet vågar jag garantera att både "wall" och "paper" finns med bland de 5000 vanligaste, för wallpaper är jag mer osäker.
Citat:
Ursprungligen postat av JaneC
Att det skulle vara en faktor tre till finskans favör låter fullkomligt osannolikt om det inte på något sätt handlar om att räkna in böjda former. Finns det en länk till hur metoden ser ut mer exakt?
Nej, böjda former räknas inte in, då blir det förstås meningslöst. Metoden är rätt standard, det finns knappt något europeiskt språk som inte har ett standardfrekvensordboksverk. (Se där ett ord som är ett tecken på hur vi kan bilda ord på svenska!) Det jag använde mig av för finska är Suomen kielen tajuussanasto av Saukkonen, Haipus, Niemikorpi och Sulkala. För engelska baserar jag mig på Teaching and Learning Vocabulary av Nation, som för övrigt visar att engelskans 1000 vanligaste ord utgör strax under 85%. Så för att kunna förstå 85% av en text på engelska räcker det med att kunna 1000 ord, på finska behövs 5000 ord, som du kan se här ovanför.