Vinnaren i pepparkakshustävlingen!
2011-08-05, 10:44
  #1
Medlem
karloskars avatar
Hallojs!

Jag är inte i närheten av att vara matematiker, men sitter trots det med ett problem rörande statistik.

Jag skall bygga statistik på priser, och funderar lite över både vilka värden som är intressanta att visa, medel, nedre kvartil, övre kvartil.

Ett problem är dock de värden som "sticker ut" - antingen uppåt eller nedåt.

Det torde ju finnas nån formel för hur man skall "räkna bort" dem, så de inte stör statistiken.

Jag har varit inne på att plocka bort alla värden som avviker mer än 50% från medel, men känner att nån nog har en bättre ide.

Så, låt oss diskutera hur man bäst räknar ut och presenterar statistik på priser!
__________________
Senast redigerad av karloskar 2011-08-05 kl. 10:44. Anledning: Lagt till pluraländelser (norrlänning)
Citera
2011-08-05, 10:57
  #2
Medlem
ChristerNs avatar
Att plocka bort värden utan att ha mycket goda grunder, uppfattas som fusk.

Man kan däremot kommentera extrem-punkter, som kan störa analysen.

Förslag:
Bilda medelvärden, i diverse grupp-indelningar.
Gör grafer på mean +- Standardavikelse.
(Inom vetenskap kan konfidensintervall vara bättre än SD).

I vissa situationer kan flytande medelvärde motiveras, men bäst att inte krångla till nått.


Christer
Citera
2011-08-05, 11:06
  #3
Medlem
karloskars avatar
Citat:
Ursprungligen postat av ChristerN
Att plocka bort värden utan att ha mycket goda grunder, uppfattas som fusk.

Man kan däremot kommentera extrem-punkter, som kan störa analysen.
Christer

Till saken hör att statistiken skall genereras automatiskt.

Tänk dig tex. priset på en iPhone 4 utan abbonemang.

Om någon råkar stoppa in sitt "abbonemangsreducerade pris" på 1 kr under "utan abbonemang" så kommer ju medelvärdet att krascha nedåt.

Så grunderna är goda, och någon möjlighet att kommentera extrem-punkter finns inte, eftersom statistiken inte skapas av en människa.

Min tanke är även att presentera statistiken både med och utan dessa extrem-värden.

Så frågan handlar ju om HUR man skall identifiera och bli av med extrem-värdena.
Citera
2011-08-08, 11:54
  #4
Medlem
Faragons avatar
Median är ett ganska lämpligt typ av medelvärde som ger mindre effekt av dessa extremvärden. Det skulle jag använda om jag var du.
Citera
2011-08-08, 12:38
  #5
Medlem
apanlapans avatar
Citat:
Ursprungligen postat av karloskar
Jag skall bygga statistik på priser, och funderar lite över både vilka värden som är intressanta att visa, medel, nedre kvartil, övre kvartil.

Ett problem är dock de värden som "sticker ut" - antingen uppåt eller nedåt.

Det torde ju finnas nån formel för hur man skall "räkna bort" dem, så de inte stör statistiken.

Du kan anta att priserna antingen (med sannolikhet p) kommer från en viss fördelning (normal kanske?) eller är en störning (med sannolikhet 1-p). Om du nu får in ett nytt pris så kan du se om det är troligast att priset kommer från din fördelning eller är en störning. Du måste ha en aning om vad p skulle kunna vara för att det här ska fungera. I princip kan du använda Bayes formel för att uppdatera både fördelningen och p.

Priser är dessutom väldigt svåra att göra statistik på, de utvecklas med tiden på komplicerade sätt. Att använda medianen är inte helt problemfritt det heller. Tänk t.ex. om det kommer in en ny affär på marknaden så att du helt plötsligt har ett pris till att göra statistik på. Du kommer då se ett hopp i medianen som en funktion av tiden, utan att priserna egentligen har ändrats. På prisjakt visas lägstapris i statistiken, men det är väldigt känsligt för oseriösa affärer som sätter priserna väldigt lågt.
Citera
2011-08-09, 10:27
  #6
Medlem
ChristerNs avatar
Jag vet inte hur det skall presenteras mm.
Lite allmänt:

Ibland kan log-skalor i grafer presentera extremvärden bra.

Idealet är att man lätt kan tolka parametrarna och resultatet på rätt sätt.
Intellektuell ärlighet är bland det viktigaste inom statistik.
Det finns massor av exempel där man gör fel och tolkar resultaten fel.

Men om man både gör en analys med alla värden och ytterligare en utan extremvärden, så kanske ok.
Men det skall framgå med fullständig tydlighet att vissa värden är inte med, samt hur detta kan störa tolkningen. Men detta kan få kritik eller felaktig kritik.

Generellt skall man ha med allt i analysen.
Om man kan motivera det bra, så kan man dela upp siffer-mängnden i två mängnder och göra analys även på dessa två (delmängnder).

Christer
__________________
Senast redigerad av ChristerN 2011-08-09 kl. 10:36. Anledning: rättelse
Citera

Stöd Flashback

Flashback finansieras genom donationer från våra medlemmar och besökare. Det är med hjälp av dig vi kan fortsätta erbjuda en fri samhällsdebatt. Tack för ditt stöd!

Stöd Flashback