Vinnaren i pepparkakshustävlingen!
2017-01-05, 12:40
  #1
Medlem
Jag ska se hur två variabler, A och B, korrelerar mot varandra, dels som årliga tvärsnitt mellan varje län (1-21) och dels longitudinellt i riket.

Riket utgör i det här fallet summan av varje A och B för länen.

Det som uppstår är att jag för varje tvärsnitt får en korrelationsfaktor mellan 0.75-0.89, men för longituden för riket får jag istället en faktor på -0.40.

Mitt dataset:


Nu till min fundering.
Jag blir förbryllad av hur det kan komma sig att longituden på riket uppvisar så markant annorlunda resultat än vad tvärsnitten gör. Eftersom riket i detta fall per definition är summan av länen för varje A och B, och eftersom varje tvärsnitt för sig visar omkring +0.80-ish, så känns det kontraintuitivt att longituden blir -0.40.

Mitt enda resonemang kring hur dessa siffror ska tolkas är att tvärsnitten mäter sambandet mellan A och B under varje år, och rikets longitud egentligen mäter hur detta samband utvecklar sig med tiden. M.a.o. skulle det innebära att det finns en korrelation omkring 0.80 för A och B här och nu (eller där och då) men att den faktorn gradvis kommer bli lägre. Men det känns inte heller riktigt rätt eftersom tvärsnittskorrelationen inte verkar minska från ett år till ett annat om man ställer upp det i en graf.

Verkar det som et rimlig slutsats av det hela eller har jag missat något? Det kanske uppstår en skevhet i datan som jag inte ser när jag kliver upp från länsnivå till riksnivå.
__________________
Senast redigerad av tjodrick 2017-01-05 kl. 12:57.
Citera
2017-01-05, 15:03
  #2
Medlem
VonFanderblads avatar
Titta istället på:

Län 1:

År

1. A B
2. A B
3. A B
...

Län 2:

År

1. A B
2. A B
3. A B
...

Så upptäcker du kanske något.
Citera
2017-01-05, 22:17
  #3
Medlem
Det har jag redan gjort. Och jag begriper inte vad det i så fall är jag ska upptäcka. Korrelationerna inom varje län från år 1 till år 7 sprider sig från minst -0.90 till mest +0.75.
Jag testade att summera dessa 21 korrelationer rakt av för att testa och fick -0.58.
Jag förstår inte hur detta kan hjälpa mig.
Citera
2017-01-06, 01:26
  #4
Medlem
VonFanderblads avatar
Korrelationer är inte additiva, du kan inte ta summan eller genomsnittet av dem utan att först göra en transformation. Eller kan och kan, du får inte rätt värde. Hursomhelst framgår nog poängen, tittar man över tid så är det inte ett lika starkt samband. I många av länen varierar knappt alls a och b "över tid", men ibland med ingen, stark positiv eller stark negativ korrelation. Sedan tittar du på summan av dessa (o)korrelerade variabler och det är då inte alls konstigt att summan över tid inte beter sig som enskilda tvärsnitt, det är ju egentligen två skilda saker du tittar på. Det hela påminner lite om Simpsons paradox.
Citera
2017-01-07, 20:14
  #5
Medlem
Tack! Jag tror jag förstår hur det hänger ihop, läste också lite om just Simpson Paradox. Blev mest orolig över att det var någonting fel som spökade, men det är alltså korrekt att det ser ut på det här sättet.
Ja, tyvärr är vissa län väldigt skakiga i.o.m. sina små värden på B eftersom en ytterst liten ökning ger väldigt stor effekt av B där. I de länen blir vikten av B väldigt utsatt för slumpen. Det går dock inte att förändra, det är den faktiska empiriska datan som ser ut så.

Men tack igen!
Citera

Stöd Flashback

Flashback finansieras genom donationer från våra medlemmar och besökare. Det är med hjälp av dig vi kan fortsätta erbjuda en fri samhällsdebatt. Tack för ditt stöd!

Stöd Flashback