Citat:
Ursprungligen postat av
Oantastlig
Kan inte du förklara för mig med ord varför resultaten blir missvisande om du lider av omitted variable bias? = )
Citat:
Ursprungligen postat av
Disciplina
Om en variabel som har kausal inverkan på responsvariabeln och korrelerar med en eller flera av de förklarande variablerna saknas i analysen så överskattas dessa förklarande variablers inverkan på responsvariabeln. Detta har alltså, som du skulle förstå om du bara hade besuttit grundläggande engelsk läsförståelse, ingenting att göra med kritiken mot Wennerås och Wold, eftersom deras mål inte är att förklara effekten av någon av de variabler de analyserar, utan en underliggande faktor som antas förorsaka skillnaderna i dessa variabler.
Citat:
Ursprungligen postat av
VonFanderblad
Nu har jag inte läst artikeln, men om det är som du säger så är det ännu värre än vad jag först trott och forskarnas kompetens måste verkligen ifrågasättas. En underliggande faktor, jag tackar jag.
Ursäkta bumpen, men jag hittade den här tråden via en annan tråd som länkade hit och lyckades även hitta själva artikeln som ni diskuterar här, på en sida där man inte behöver betala något till Nature för att läsa den. Man kan läsa artikeln gratis
här, och följande är min bedömning (baserat på min bakgrund inom matematisk statistik, ett ämne som jag har ett större antal högskolepoäng inom än åtminstone 99,99% av Sveriges befolkning):
Som jag utläser tabell 1 (sista sidan i PDF:en) och tillhörande beskrivning tidigare i artikeln så har författarna kört sex flervariabelregressioner på följande form.
Y = β₀ + β₁X₁ + β₂X₂ + β₃X₃ + β₄X₄ + ε
Här har variablerna följande innebörd:
Y är poängen som en sökande fått i kategorin "scientific competence" (ett tal mellan 0 och 4)
X₁ är ett av sex produktivitetsmått (man har alltså gjort en flervariabelregression per produktivitetsmått)
X₂ är en indikatorvariabel för den sökandes kön (av tabellen att döma har man troligen valt 0 = kvinna och 1 = man, men det gör ingen relevant skillnad för resultatet jämfört med att välja andra värden).
X₃ är en indikatorvariabel som har värdet 0 om den sökande inte har någon "affiliation" till någon i kommittén som sätter poängen och 1 annars.
X₄ är en indikatorvariabel som har värdet 1 om den sökande fått ett rekommendationsbrev som bifogas ansökan och 0 annars.
ε är feltermen.
De olika β-värdena är som vanligt koefficienterna i regressionen.
Läser man på sidan 3 i artikeln så ser man att det i själva verket använts 6 ytterligare X-variabler som även de är av indikatortyp (dvs kategoriska variabler av liknande typ som X₂, X₃ och X₄ ovan, snarare än variabler som kan anta många olika värden likt de sex olika produktivitetsmåtten som kallas X₁ ovan), men att dessa ej befunnits signifikanta i regressionerna.
De olika produktivitetsmåtten är som följer (sid 2):
1. Totalt antal publikationer där den sökande står som författare
2. Totalt antal publikationer där den sökande står som
första författare
3. Total "impact score" för alla publicerade artiklar där den sökande står som författare
4. Total "impact score" för alla publicerade artiklar där den sökande står som
första författare
5. Totalt antal citeringar i vetenskapliga sammanhang under 1994 av artiklar där den sökande står som författare
6. Totalt antal citeringar i vetenskapliga sammanhang under 1994 av artiklar där den sökande står som
första författare
För 3 och 4 så baseras "impact score" på siffror från Institute of Scientific Information’s Journal Citation Reports. Artikeln publicerades 1997, så att antal citeringar uppmätts för år 1994 förefaller hyfsat rimligt.
Det förefaller alltså
inte som att artikeln bygger på en rad envariabelregressioner (vilket hade varit ett gravt metodmisstag om så varit fallet), och med tanke på att det finns goda skäl att vänta sig hyfsat starka positiva korrelationer mellan de sex olika produktivitetsmåtten ovan så förefaller det även rimligt att inte ta med alla sex i samma ekvation då detta skulle bryta mot den generella principen om "parsimonious models" (att inte ha med för många variabler).
Detta gäller då i synnerhet mellan mått 1 och 2, mått 3 och 4 samt mått 5 och 6, medan man möjligen skulle kunna invända att det skulle kunna vara intressant att kombinera två av måtten (från olika par i så fall, dvs exempelvis mått 1 och 3) för att få en lite mer omfattande proxy för produktivitet.
TL;DR-version: Baserat på min analys ovan så ser jag inga grava fel vad gäller statistisk metodik, men det skulle förvisso kunna vara intressant att kombinera två eller kanske tre av produktivitetsmåtten.