Word. Fattar inte varför en del använder 365 som variabel, ja det är så många dagar på ett år, men antalet mäniskor födda i mars är extremt överrepresenteret, helt enkelt eftersom deras föräldrar knullade föregående sommar.
Nu ska jag räkna lite och sen komma med en exakt siffra
Så jävla överrepresenterat är inte Mars, nu för tiden föds det ju till och med fler under sommarmånaderna.
Det förekommer en mycket kraftig överrepresentation av människor som är födda i mars, helt enkelt eftersom deras föräldrar knullade på sommaren innan.
Detta höjer kraftigt chansen att flera personer ska vara födda tex den 3e mars.
Detta måste man givetvis ha med ifrån början, och det har man inte om man har siffran 365 som variabel, av tidigare förklarad anledning, eftersom, ja....se min andra mening.
För att inte framstå som en fullständig idiot vill jag påpeka att jag råkade skicka mitt svar innan jag var färdig...
x0 = P(ingen fyller år en given dag) = (364/365)^20
x1 = P(exakt en fyller år en given dag) = (1/365) * (364/365)^19
x2 = P(exakt två fyller år en given dag) = 20*19 / 2 * (1^365)^2 * (364/365) ^ 18
x3 = P(tre eller fler fyller år en given dag) = 1 - x0 - x1 - x2
Eftersom detta är en given dag så är sannolikheten för en annan dag disjunkt och vi kan helt enkelt summera ihop sannolikheterna.
P = 365 * x3 = 0.82%
Jag har dock en gnagande känsla att jag gjort ngt fel...
__________________
Senast redigerad av frobozz 2011-03-03 kl. 23:18.
Jag har tenta imorgon men jag kan räkna ut ett korrekt svar i helgen. Det enda svåra är att var månad föds det olika många och statistik över detta får jag därför leta fram.
Vilket datum fyller de år?
Vilket år är de födda.
Vilken ort?
Ju mer information, ju noggrannare kalkyl kan jag göra givet att det finns statistik att tillgå.
Men du förutsätter ju likformig fördelning, så dina fina analytiska resultat är uppåt väggarna fel! I min simulering kan jag snabbt testa mer realistiska fördelningar.
Förvisso. Det var dock mer riktat till de som simulerade likformiga fördelningar. Dessutom så är ju "uppåt väggarna fel" en överdrift.
Problemet med simuleringar är just att de är simuleringar och ger alltså slumpmässiga resultat. För en sannolikhet på 1% och en miljon simuleringar är standdardavvikelsen för din skattning ca 0.005 procentenheter. Jag är inte övertygad om att mitt fel när jag antar likformig fördelning är större än så. Med en analytisk lösning är man i alla fall säker på att få exakt svar för den frågan man ställer.
(Sen kan ju faktiskt jag också räkna ut sannolikheter exakt med icke-likformiga fördelningar. Bara att man får summera fler termer i Mathematica. Ska klura lite på det.)
Problemet med simuleringar är just att de är simuleringar och ger alltså slumpmässiga resultat. För en sannolikhet på 1% och en miljon simuleringar är standdardavvikelsen för din skattning ca 0.005 procentenheter. Jag är inte övertygad om att mitt fel när jag antar likformig fördelning är större än så. Med en analytisk lösning är man i alla fall säker på att få exakt svar för den frågan man ställer.
Hm, efter att ha kollat på Kupos födelsestatistik-länk så börjar jag tro att du har rätt. Fördelningen verkar inte avvika jättemycket från likformig.
Hur räknar du ut standardavvikelsen för skattningen förresten (jag är rostig på det här känner jag)? 1-((1-0.01)^(sqrt(1000000))) ger ung. .00005, fast det kanske bara är ett sammanträffande?
__________________
Senast redigerad av löktårta 2011-03-03 kl. 23:57.
Anledning: Tillägg
Måste bara säga att det har varit en otroligt intressant tråd att följa. Personligen gillar jag matematik men tycker att matematisk statisik är rätt tråkigt. Däremot så finner jag det intressant hur pass komplicerat korrekt statistik är ibland och hur många olika sätt man kan finna rätt svar på och samtidigt hur många feltankar folk har som kan verka matematiskt korrekta.
Måste bara säga att det har varit en otroligt intressant tråd att följa. Personligen gillar jag matematik men tycker att matematisk statisik är rätt tråkigt. Däremot så finner jag det intressant hur pass komplicerat korrekt statistik är ibland och hur många olika sätt man kan finna rätt svar på och samtidigt hur många feltankar folk har som kan verka matematiskt korrekta.
Det förekommer en mycket kraftig överrepresentation av människor som är födda i mars, helt enkelt eftersom deras föräldrar knullade på sommaren innan.
Detta höjer kraftigt chansen att flera personer ska vara födda tex den 3e mars.
Detta måste man givetvis ha med ifrån början, och det har man inte om man har siffran 365 som variabel, av tidigare förklarad anledning, eftersom, ja....se min andra mening.
Men är inte flest människor födda i april? Det enskilda datum då flest människor är födda är i alla fall den 10 april. Därefter följt av några närliggande aprildatum.
Hur räknar du ut standardavvikelsen för skattningen förresten (jag är rostig på det här känner jag)? 1-((1-0.01)^(sqrt(1000000))) ger ung. .00005, fast det kanske bara är ett sammanträffande?
Variansen för en Bernoullivariabel med p = 0.01 blir
0.01*(1-0.01)/4.
Om man gör 1 miljon försök och tar medelvärdet, så divideras variansen med 1 miljon. För att få standardavvikelsen tar man kvadratroten, så det blir
sqrt(0.01*(1-0.01)/4000000).
Citat:
Ursprungligen postat av löktårta
Hm, efter att ha kollat på Kupos födelsestatistik-länk så börjar jag tro att du har rätt. Fördelningen verkar inte avvika jättemycket från likformig.
Nu tog jag SCB-statistiken som Kupo länkade till, tog antalet födda under 1991, och grupperade in månader in i 4 grupper, med grupper valda så att födelsesannolikheterna för olika dagar i en grupp ligger nära varandra.
Sedan antar jag att vilken grupp en persons födelsedag ligger i baseras på SCB-datan över hur många människor som faktiskt föddes inom den månadsgruppen, men att fördelningen är likformig inom grupperna.
Datan jag använder är att antalet födda i de två månaderna är
februari, mars, april, maj
januari, juni, juli
augusti, september
oktober, november, december
och fick då svaret att sannolikheten att minst 3 fyller år samma dag är 0.00980615.
Jag är faktiskt förvånad över hur stor skillnad det blev mot när jag antog likformig fördelning. Jag skulle dock gärna vilja be någon av er som har simuleringar framme att köra en simulering med samma fördelning som jag har beräknat, för att kolla att jag räknat rätt.
Man kan förstås ta fler grupper för att få ett bättre resultat, men med metoden jag använder nu kommer datorkraftsbegränsningar göra att man nog inte kan ta mer än 8-9 grupper innan det tar stopp.
Mathematica-kod:
Kod:
prob[n_, d_] :=
(*beräknar sannolikheten för att det i en grupp om n personer
_inte_ finns minst 3 med samma födelsedag, om personernas
födelsedagar är likformig fördelade på en mängd om d möjliga
dagar.*)
If[n < 3,
1,
If[n > 2*d,
0,
Sum[
Binomial[d, k]*Binomial[d - k, n - 2*k]*n!/2^k,
{k, 0, Floor[n/2]}
]/(d^n)
]
]
births = {10734,10285,11638,11640,11155,10288,10701,10334,9917,9237,8900,8908}
totalbirths = Total[births]
msizes = {31, 28, 31, 30, 31, 30, 31, 31, 30, 31, 30, 31}
groupsizes = {
msizes[[2]] + msizes[[3]] + msizes[[4]] + msizes[[5]],
msizes[[1]] + msizes[[6]] + msizes[[7]],
msizes[[8]] + msizes[[9]],
msizes[[10]] + msizes[[11]] + msizes[[12]]}
groupprobs = {
births[[2]] + births[[3]] + births[[4]] + births[[5]],
births[[1]] + births[[6]] + births[[7]],
births[[8]] + births[[9]],
births[[10]] + births[[11]] + births[[12]]
} / totalbirths
res = 1 - Sum[Sum[Sum[
With[{i4=21-i1-i2-i3},
Multinomial[i1,i2,i3,i4]
* groupprobs[[1]]^i1
* groupprobs[[2]]^i2
* groupprobs[[3]]^i3
* groupprobs[[4]]^i4
* prob[i1, groupsizes[[1]] ]
* prob[i2, groupsizes[[2]] ]
* prob[i3, groupsizes[[3]] ]
* prob[i4, groupsizes[[4]] ]
]
,{i3, 0, 21-i1-i2}]
,{i2, 0, 21-i1}]
,{i1, 0, 21}]
Flashback finansieras genom donationer från våra medlemmar och besökare. Det är med hjälp av dig vi kan fortsätta erbjuda en fri samhällsdebatt. Tack för ditt stöd!
Stöd Flashback
Swish: 123 536 99 96Bankgiro: 211-4106
Stöd Flashback
Flashback finansieras genom donationer från våra medlemmar och besökare. Det är med hjälp av dig vi kan fortsätta erbjuda en fri samhällsdebatt. Tack för ditt stöd!