Hej Flashback!
Jag har följande tabell (länk) från Francis Galtons uppsats Regression towards mediocrity in hereditary stature” (1886).
Som ni kan se sammanfattar tabellen 928 observationer av längden hos olika personer i förhållande till deras föräldrars genomsnittliga längd ("Midparent height"), definierad som halva summan av mammans och pappans längd.
Tanken är att jag ska använda dessa observationer för att göra en regressionsanalys av människors längd i förhållande till deras föräldrars längd. Problemet är att Galton aldrig preciserade några värden för de personer som var kortare än 62.2 tum och de som var längre än 73.2 tum. Samma sak med föräldrar som var kortare än 64.5 tum och föräldrar som var längre än 72.5 tum. Dessa observationer heter i tabellen bara ”below” och ”above” det lägsta respektive högsta rapporterade längdvärdet.
Hur kan jag komma förbi detta problem? Går det bra att bara summera värdena på de observationer som det finns ett värde på, och sedan definiera ”below minimum height” som 1.96 standardavvikelser under genomsnittet, och ”above maximum height” som 1.96 standardavvikelser över genomsnittet?
Min nästa fråga gäller hur man kan använda dessa observationer för att testa teorin om regression mot medelvärdet ("regression to the mean")? Skulle det funka att först göra en regressionsanalys på personer vars föräldrar är långa, typ 1.96 standardavvikelser över genomsnittet, och se om koefficienten på foräldrarnas längd är negativ? Samma sak för personer med korta föräldrar – göra en regressionsanalys på de personer vars föräldrar är 1.96 standardavvikelser från genomsnittet, och därefter se om koefficienten på föräldrarnas längd är positiv?
Min sista fråga gäller hur man skulle kunna använda dessa observationer för att förutse längden hos en person vars föräldrar är långa efter 1,2,3…,Z generationer? Här har jag faktiskt ingen aning hur jag ska gå tillväga.
Jag har följande tabell (länk) från Francis Galtons uppsats Regression towards mediocrity in hereditary stature” (1886).
Som ni kan se sammanfattar tabellen 928 observationer av längden hos olika personer i förhållande till deras föräldrars genomsnittliga längd ("Midparent height"), definierad som halva summan av mammans och pappans längd.
Tanken är att jag ska använda dessa observationer för att göra en regressionsanalys av människors längd i förhållande till deras föräldrars längd. Problemet är att Galton aldrig preciserade några värden för de personer som var kortare än 62.2 tum och de som var längre än 73.2 tum. Samma sak med föräldrar som var kortare än 64.5 tum och föräldrar som var längre än 72.5 tum. Dessa observationer heter i tabellen bara ”below” och ”above” det lägsta respektive högsta rapporterade längdvärdet.
Hur kan jag komma förbi detta problem? Går det bra att bara summera värdena på de observationer som det finns ett värde på, och sedan definiera ”below minimum height” som 1.96 standardavvikelser under genomsnittet, och ”above maximum height” som 1.96 standardavvikelser över genomsnittet?
Min nästa fråga gäller hur man kan använda dessa observationer för att testa teorin om regression mot medelvärdet ("regression to the mean")? Skulle det funka att först göra en regressionsanalys på personer vars föräldrar är långa, typ 1.96 standardavvikelser över genomsnittet, och se om koefficienten på foräldrarnas längd är negativ? Samma sak för personer med korta föräldrar – göra en regressionsanalys på de personer vars föräldrar är 1.96 standardavvikelser från genomsnittet, och därefter se om koefficienten på föräldrarnas längd är positiv?
Min sista fråga gäller hur man skulle kunna använda dessa observationer för att förutse längden hos en person vars föräldrar är långa efter 1,2,3…,Z generationer? Här har jag faktiskt ingen aning hur jag ska gå tillväga.