Vinnaren i pepparkakshustävlingen!
2020-10-29, 19:33
  #1
Medlem
Hej!

Jag behöver lite hjälp med följande exempel:

Låt oss säga att jag vill skatta sannolikheten för att en Volvo-bil är inblandad i en olycka.

Till mitt förfogande har jag följande lågkvalitativa data:

Av 89 bilar inblandade i en olycka i en viss region under åren 2007-2008 var 27 stycken Volvo.

Sannolikheten att en Volvo-bil är inblandad i en olycka (inte statistiskt säkerställt) är väl då p = 27/89 = 0,303

Om jag vill ansätta en osäkerhetsfördelning för mitt p och även få fram ett konfidensintervall (90 %) för detta - hur bör jag då gå tillväga? Vilka antaganden måste jag göra?

Tack!
Citera
2020-11-01, 14:22
  #2
Medlem
Ingen som kan säga någonting om detta?
Citera
2020-11-01, 15:25
  #3
Medlem
nerdnerds avatar
Poissonfördelning är relevant.

Men jag har nog först och främst invändningar mot själva problemformuleringen här. Sannolikheten för att en viss Volvo ska vara med i en olycka är ju inte alls typ 30 %. Att en Volvo är inblandad i 30 % av alla olyckor är inte samma som att 30 % av alla Volvo är inblandade i olyckor.
Citera
2020-11-01, 17:36
  #4
Medlem
Citat:
Ursprungligen postat av nerdnerd
Poissonfördelning är relevant.

Men jag har nog först och främst invändningar mot själva problemformuleringen här. Sannolikheten för att en viss Volvo ska vara med i en olycka är ju inte alls typ 30 %. Att en Volvo är inblandad i 30 % av alla olyckor är inte samma som att 30 % av alla Volvo är inblandade i olyckor.

Tack! Hur kommer det sig att Poisson är relevant? Hur vi har ett högt p och ett ganska lågt n väl?

Fast, man skulle väl kunna dra en extremt osäker slutsats om att 30 % av bilar som är iblandade i olyckor i regionen är Volvo?

Givetvis vore ett bättre beslutsunderlag: De senaste 10 åren har 500 bilar varit inblandade i olyckor i regionen varav 120 stycken var Volvo.

Låt oss säga att jag har följande data:

2002 5 bilar i olycka, 2 Volvo
2003 20 bilar i olycka, 5 Volvo
2004 36 bilar i olycka, 10 Volvo
2005 9 bilar i olycka, 3 Volvo
2006 12 bilar i olycka, 3 Volvo
200.... .... ... ..
Upp till 15 datapunkter.

Det vore bättre att skatta en frekvens utifrån ovanstående data, men hur gör jag det rent praktiskt stegvis? Beräknar jag ut frekvensen för varje år - och beräknar fördelning på detta? Eller sätter jag fördelningar på bilar i olycka samt på antalet Volvo och utför frekvensberäkningen därefter? (och eventuellt Monte Carlo?)

En annan sak som är möjligt i dataunderlaget ovan är ju att ta summa(alla år; Volvo i olycka)/summa(alla år; Bilar i olycka). Men detta vore väl ett sämre alternativ eftersom vi ju då är tillbaka till en enda punktskattning vilket egentligen var min utgångsfråga?

Sorry om det blev lite flummigt, har lite svårt för att greppa möjligheterna.
Citera
2020-11-02, 12:24
  #5
Medlem
nerdnerds avatar
Citat:
Ursprungligen postat av Anvandarnamnett1
Tack! Hur kommer det sig att Poisson är relevant? Hur vi har ett högt p och ett ganska lågt n väl?

Fast, man skulle väl kunna dra en extremt osäker slutsats om att 30 % av bilar som är iblandade i olyckor i regionen är Volvo?

Givetvis vore ett bättre beslutsunderlag: De senaste 10 åren har 500 bilar varit inblandade i olyckor i regionen varav 120 stycken var Volvo.

Låt oss säga att jag har följande data:

2002 5 bilar i olycka, 2 Volvo
2003 20 bilar i olycka, 5 Volvo
2004 36 bilar i olycka, 10 Volvo
2005 9 bilar i olycka, 3 Volvo
2006 12 bilar i olycka, 3 Volvo
200.... .... ... ..
Upp till 15 datapunkter.

Det vore bättre att skatta en frekvens utifrån ovanstående data, men hur gör jag det rent praktiskt stegvis? Beräknar jag ut frekvensen för varje år - och beräknar fördelning på detta? Eller sätter jag fördelningar på bilar i olycka samt på antalet Volvo och utför frekvensberäkningen därefter? (och eventuellt Monte Carlo?)

En annan sak som är möjligt i dataunderlaget ovan är ju att ta summa(alla år; Volvo i olycka)/summa(alla år; Bilar i olycka). Men detta vore väl ett sämre alternativ eftersom vi ju då är tillbaka till en enda punktskattning vilket egentligen var min utgångsfråga?

Sorry om det blev lite flummigt, har lite svårt för att greppa möjligheterna.
Om Poisson...
Man skulle kunna tänka sig binomialfördelning, men det stämmer liksom inte, eftersom det ju inte finns något lämpligt max. Utom då kanske att ALLA bilar kraschar under ett år, men det är ju ganska osannolikt. För en given bil är sannolikheten låg, och därför är Poisson lämplig.

Så då kan man t ex skatta det förväntade antalet m som medel för några år. Sannolikheten för n krascher är då
P(n) = e^(-m)m^n/n!
Vilket gäller både för antalet Volvon som kraschar, och för antalet ickevolvon som kraschar, fast med olika m: m₁ och m₂. Dessa kan då också ansättas som oberoende slumptal, X₁ och X₂. Och då är även summan
X₁+X₂ Poissonfördelad med medel m₁+m₂.

MEN det jag anser blir lite trixigt är det du egentligen efterlyser, nämligen statistiken för X₁/(X₁+X₂). Detta GÅR att beräkna, och lite om det står här:

https://en.wikipedia.org/wiki/Ratio_distribution

Man skulle kunna tro att vi har svaret i Poisson and truncated Poisson distributions men det stämmer inte riktigt eftersom X₁ och X₁+X₂ är korrelerade.

Återkommer ev med något försök.

Och så måste jag ju förstås även medge att statistik inte är mitt starkaste område.
__________________
Senast redigerad av nerdnerd 2020-11-02 kl. 12:27.
Citera
2020-11-02, 13:29
  #6
Medlem
Citat:
Ursprungligen postat av nerdnerd
Om Poisson...
Man skulle kunna tänka sig binomialfördelning, men det stämmer liksom inte, eftersom det ju inte finns något lämpligt max. Utom då kanske att ALLA bilar kraschar under ett år, men det är ju ganska osannolikt. För en given bil är sannolikheten låg, och därför är Poisson lämplig.

Så då kan man t ex skatta det förväntade antalet m som medel för några år. Sannolikheten för n krascher är då
P(n) = e^(-m)m^n/n!
Vilket gäller både för antalet Volvon som kraschar, och för antalet ickevolvon som kraschar, fast med olika m: m₁ och m₂. Dessa kan då också ansättas som oberoende slumptal, X₁ och X₂. Och då är även summan
X₁+X₂ Poissonfördelad med medel m₁+m₂.

MEN det jag anser blir lite trixigt är det du egentligen efterlyser, nämligen statistiken för X₁/(X₁+X₂). Detta GÅR att beräkna, och lite om det står här:

https://en.wikipedia.org/wiki/Ratio_distribution

Man skulle kunna tro att vi har svaret i Poisson and truncated Poisson distributions men det stämmer inte riktigt eftersom X₁ och X₁+X₂ är korrelerade.

Återkommer ev med något försök.

Och så måste jag ju förstås även medge att statistik inte är mitt starkaste område.

Det är intressant det du säger. Kanske tänkte jag lite fel: Sannolikheten för att en bil som kraschar är en Volvo är relativt högt, men för att en given bil överhuvudtaget kraschar är väldigt lågt och därför är Poisson lämpligt.
Citera
2020-11-02, 13:35
  #7
Medlem
Sedan en annan sak:

Mitt exempel med Volvo-bilar är väl egentligen samma sak som att ändra det till följande exempel:

Av inrapporterade 89 arbetsplatsolyckor under 10 års tid slutade 27 stycken i dödsfall.

Dvs. Man kan ändra mitt första exempel till "Volvo: Ja eller Nej?", vi vet inte de andra bilmärkena.


Men ännu klurigare blir det väl om man stryker tidsperioden? D.v.s. jag har tillgång till ett statistiskt underlag med 89 olycksrapporter för arbetsplatsolyckor, men jag kan inte fastställa en specifik tidsperiod för dessa. Hur ska man då tolka en potentiell fördelning? För då är väl inte någon tidsperiod/sträcka given som är nödvändigt för att kunna använda Poisson?
__________________
Senast redigerad av Anvandarnamnett1 2020-11-02 kl. 13:49.
Citera
2020-11-02, 15:03
  #8
Medlem
nerdnerds avatar
Citat:
Ursprungligen postat av Anvandarnamnett1
Sedan en annan sak:

Mitt exempel med Volvo-bilar är väl egentligen samma sak som att ändra det till följande exempel:

Av inrapporterade 89 arbetsplatsolyckor under 10 års tid slutade 27 stycken i dödsfall.

Dvs. Man kan ändra mitt första exempel till "Volvo: Ja eller Nej?", vi vet inte de andra bilmärkena.


Men ännu klurigare blir det väl om man stryker tidsperioden? D.v.s. jag har tillgång till ett statistiskt underlag med 89 olycksrapporter för arbetsplatsolyckor, men jag kan inte fastställa en specifik tidsperiod för dessa. Hur ska man då tolka en potentiell fördelning? För då är väl inte någon tidsperiod/sträcka given som är nödvändigt för att kunna använda Poisson?
Frågan blir mer hur man ska estimera parametrarna. Om du har 89 olyckor under någon okänd period kan du ansätta att det också är väntevärdet. Det du då iaf får för det är en uppskattning av standardavvikelsen som blir √89=9.4...

Eller kanske bättre är att används Maximum likelihood-metoden för estimeringen.
https://sv.wikipedia.org/wiki/Maximu...lihood-metoden
Fast om jag inte räknar fel nu ger det samma resultat som ovanstående i detta fall.
Citera
2020-11-02, 15:14
  #9
Medlem
nerdnerds avatar
Citat:
Ursprungligen postat av Anvandarnamnett1
Hej!

Jag behöver lite hjälp med följande exempel:

Låt oss säga att jag vill skatta sannolikheten för att en Volvo-bil är inblandad i en olycka.

Till mitt förfogande har jag följande lågkvalitativa data:

Av 89 bilar inblandade i en olycka i en viss region under åren 2007-2008 var 27 stycken Volvo.

Sannolikheten att en Volvo-bil är inblandad i en olycka (inte statistiskt säkerställt) är väl då p = 27/89 = 0,303

Om jag vill ansätta en osäkerhetsfördelning för mitt p och även få fram ett konfidensintervall (90 %) för detta - hur bör jag då gå tillväga? Vilka antaganden måste jag göra?

Tack!
Den snabbaste metoden för att få fram något så när rimliga svar om konfidensintervallen är nog med Monte Carlo. Dvs skriv ett program (eller gör ganska många rader i Excel) som utgår från två Poissonfördelade slumptal X₁ och X₂ (en för Volvo och en för alla andra), med parametrarna uppskattade från dina data, och simulera sedan t ex 1000 (i Excel, med ett program kan du gärna köra minst 10⁶) utfall där X₁/(X₁+X₂) beräknas för vart och ett och studera hur detta fördelas.
Citera
2020-11-02, 16:24
  #10
Medlem
Citat:
Ursprungligen postat av nerdnerd
Den snabbaste metoden för att få fram något så när rimliga svar om konfidensintervallen är nog med Monte Carlo. Dvs skriv ett program (eller gör ganska många rader i Excel) som utgår från två Poissonfördelade slumptal X₁ och X₂ (en för Volvo och en för alla andra), med parametrarna uppskattade från dina data, och simulera sedan t ex 1000 (i Excel, med ett program kan du gärna köra minst 10⁶) utfall där X₁/(X₁+X₂) beräknas för vart och ett och studera hur detta fördelas.

Jag tycker det du skriver låter rimligt.

Fast utfallen jag är intresserad av är väl inte X1/(X1+X2) dvs. Volvo/(Volvo + Alla olyckor), utan X1/X2 (Volvo/Alla olyckor)?

Jag ansatte Poisson på X1 och X2 och Monte Carlo-simulerade. Resultatet visar att procenttalet jag får fram (X1/X2) bäst överrensstämmer med en Gamma eller LogNorm-fördelning. Huruvida detta är rimligt kan jag inte riktigt svara på, förutom att LogNorm inte har negativa tal vilket ju är givet.

Kan jag fortsätta beskriva min variabel som X1/X2 i Excel, eller bör jag "klistra in" min nya procentenhet baserat på Monte Carlo med den nya fördelningen? Blir det någon skillnad?
Citera
2020-11-02, 17:50
  #11
Medlem
nerdnerds avatar
Citat:
Ursprungligen postat av Anvandarnamnett1
Jag tycker det du skriver låter rimligt.

Fast utfallen jag är intresserad av är väl inte X1/(X1+X2) dvs. Volvo/(Volvo + Alla olyckor), utan X1/X2 (Volvo/Alla olyckor)?

Jag ansatte Poisson på X1 och X2 och Monte Carlo-simulerade. Resultatet visar att procenttalet jag får fram (X1/X2) bäst överrensstämmer med en Gamma eller LogNorm-fördelning. Huruvida detta är rimligt kan jag inte riktigt svara på, förutom att LogNorm inte har negativa tal vilket ju är givet.

Kan jag fortsätta beskriva min variabel som X1/X2 i Excel, eller bör jag "klistra in" min nya procentenhet baserat på Monte Carlo med den nya fördelningen? Blir det någon skillnad?
X2 är alla ANDRA olyckor utom X1, så för att få totalen måste du visst använda X1+X2. Varför på detta sätt istället för det sätt du föreslår? T ex därför att med ditt sätt så kan ju "totalen" råka bli mindre än antalet med bara Volvo. Rätt så orimligt.

I ö måste jag göra lite annat nu. Vi hörs!
Citera
2020-11-02, 18:31
  #12
Medlem
Citat:
Ursprungligen postat av nerdnerd
X2 är alla ANDRA olyckor utom X1, så för att få totalen måste du visst använda X1+X2. Varför på detta sätt istället för det sätt du föreslår? T ex därför att med ditt sätt så kan ju "totalen" råka bli mindre än antalet med bara Volvo. Rätt så orimligt.

I ö måste jag göra lite annat nu. Vi hörs!

Tack för diskussionen.
Citera

Stöd Flashback

Flashback finansieras genom donationer från våra medlemmar och besökare. Det är med hjälp av dig vi kan fortsätta erbjuda en fri samhällsdebatt. Tack för ditt stöd!

Stöd Flashback