Regression eller annan metod?

2013-08-30, 08:30 #1

Medlem

Reg: Mar 2008

Inlägg: 1 065

Låt oss anta att jag har två variabler där jag vill urskönja hur de höga värdena överensstämmer. De båda är viktade från 1 - 100 och jag antar att jag det är en linjär regression jag vill genomföra mellan responsvariabeln och den förklarande variabeln.

I en tabell har jag ett unikt ID för varje attribut samt dessa två nämnda variabler.

Hur går jag tillväga nu för att genomföra detta och är det korrekt val av analys?

__________________
Senast redigerad av SexyBeast 2013-08-30 kl. 08:33.

Citera

2013-08-31, 00:01 #2

Medlem

Reg: Jun 2013

Inlägg: 1 018

Citat:

Ursprungligen postat av SexyBeast

Låt oss anta att jag har två variabler där jag vill urskönja hur de höga värdena överensstämmer. De båda är viktade från 1 - 100 och jag antar att jag det är en linjär regression jag vill genomföra mellan responsvariabeln och den förklarande variabeln.

I en tabell har jag ett unikt ID för varje attribut samt dessa två nämnda variabler.

Hur går jag tillväga nu för att genomföra detta och är det korrekt val av analys?

Vad menar du med att du vill göra en regression för att se om värdena överensstämmer. Med en linjär regression kan du försöka förklara varför den beroende variabeln ser ut som den gör.

Om vi antar att du har data över evapotranspirationen i ett område så kan du plotta det mot nederbörden och finna att evapotranspirationen ökar med ökad nederbörd. Nedebörden är då den förklarande variabeln och evapotranspirationen den beroende variabeln. Men på motsatt sätt förklarar ju inte evapotranspirationen nederbördsnivåerna, du kan inte säga att nederbörden är hög för att evapotranspirationen är hög.

Jag vet inte riktigt vad du är ute efter. Är det kovarians snarare än regression du söker?

Jag överlämnar detta gärna åt någon som har mer kunskaper i statistik och sannolikhetslära.

Citera

2013-08-31, 10:41 #3

Medlem

Reg: Mar 2008

Inlägg: 1 065

Citat:

Ursprungligen postat av JohnniePuma

Vad menar du med att du vill göra en regression för att se om värdena överensstämmer. Med en linjär regression kan du försöka förklara varför den beroende variabeln ser ut som den gör.

Om vi antar att du har data över evapotranspirationen i ett område så kan du plotta det mot nederbörden och finna att evapotranspirationen ökar med ökad nederbörd. Nedebörden är då den förklarande variabeln och evapotranspirationen den beroende variabeln. Men på motsatt sätt förklarar ju inte evapotranspirationen nederbördsnivåerna, du kan inte säga att nederbörden är hög för att evapotranspirationen är hög.

Jag vet inte riktigt vad du är ute efter. Är det kovarians snarare än regression du söker?

Jag överlämnar detta gärna åt någon som har mer kunskaper i statistik och sannolikhetslära.

Jag bryr mig egentligen bara om de höga värdena. Jag förstår vad en linjär regression är men jag vill se hur de höga överensstämmer med varandra. Alltså om variabel X har värde 90-100 förefaller samvariera med höga värden i variabel Y. Kan du inte förklara det istället?

Citera

2013-08-31, 12:34 #4

Medlem

Reg: Jan 2012

Inlägg: 1 759

Citat:

Ursprungligen postat av SexyBeast

Jag bryr mig egentligen bara om de höga värdena. Jag förstår vad en linjär regression är men jag vill se hur de höga överensstämmer med varandra. Alltså om variabel X har värde 90-100 förefaller samvariera med höga värden i variabel Y. Kan du inte förklara det istället?

Korrelationsanalys är vad du verkar vara ute efter. Om du kan definiera vad som är ett högt värde för båda variablerna så kan du editera bort de låga värdena ur matrisen. På så vis kan du undersöka om de höga värdena samvarierar utan att analysen påverkas av variablernas låga värden.

Kom ihåg att göra ett Kolmogorov-Smirnov och ett Levene's test så du vet om variablerna är normalfördelade och variansen är homogen eller ej. Är variablernas varians homogen och värdena är normaldistribuerade samt att båda variabler minst är på intervallnivå så kan du använda parametriska (Pearson) istället för icke-parametriska korrelationer. Är variablerna inte på intervallnivå, variansen heterogen eller värdena inte normalfördelade så bör Spearman's rho användas såvida inte datauppsättningen är väldigt liten och många värden får samma rank för då bör Kendall's tau användas.

Citera

2013-08-31, 17:13 #5

Medlem

Reg: Mar 2008

Inlägg: 1 065

Citat:

Ursprungligen postat av Anonymvillvaradet

Korrelationsanalys är vad du verkar vara ute efter. Om du kan definiera vad som är ett högt värde för båda variablerna så kan du editera bort de låga värdena ur matrisen. På så vis kan du undersöka om de höga värdena samvarierar utan att analysen påverkas av variablernas låga värden.

Kom ihåg att göra ett Kolmogorov-Smirnov och ett Levene's test så du vet om variablerna är normalfördelade och variansen är homogen eller ej. Är variablernas varians homogen och värdena är normaldistribuerade samt att båda variabler minst är på intervallnivå så kan du använda parametriska (Pearson) istället för icke-parametriska korrelationer. Är variablerna inte på intervallnivå, variansen heterogen eller värdena inte normalfördelade så bör Spearman's rho användas såvida inte datauppsättningen är väldigt liten och många värden får samma rank för då bör Kendall's tau användas.

Okej, tack så mycket! Hyggligt av dig!

Hur rekommenderar du att jag genomför analysen? Rekommenderar du något specifikt och användarvänligt program? Matlab kanske tillhandahåller en ändamålsenlig toolbox? Eller fungerar något av gratisprogrammen?

Citera

2013-08-31, 18:41 #6

Medlem

Reg: Jan 2012

Inlägg: 1 759

Citat:

Ursprungligen postat av SexyBeast

Okej, tack så mycket! Hyggligt av dig!

Hur rekommenderar du att jag genomför analysen? Rekommenderar du något specifikt och användarvänligt program? Matlab kanske tillhandahåller en ändamålsenlig toolbox? Eller fungerar något av gratisprogrammen?

Studerar du vid universitet? De bör i sådana fall ha någon variant av SPSS. Gratisprogrammen brukar vara ganska skakiga eller ha småfel.

Hur mycket data rör det sig om och vad är det för variabler du vill undersöka?

Citera

2013-09-01, 08:19 #7

Medlem

Reg: Jul 2010

Inlägg: 2 138

Citat:

Ursprungligen postat av SexyBeast

...
Matlab kanske tillhandahåller en ändamålsenlig toolbox? Eller fungerar något av gratisprogrammen?

Gratisprogram med öppen källkod kan fungera utmärkt, en del är utvecklade eller förbättrade av universitet, stora företag mm. Open Office är som MS-office, men ibland ligger dyra MS-office något före.
Gnumeric har även multipel regression.
https://projects.gnome.org/gnumeric/
(Scilab är som äldre mathlab, obs dessa kan vara jobbiga att lära sig.)
Dessa med Öppen källkod saknar reklam, kräver ingen registrering. Man skall se upp med gratis-program från småställen som sprider reklam eller vill ha konstiga uppgifter. (Kolla gärna wiki först).

Om normalfördelningstest.
Om ett värde aldrig kan bli negativt, så vet man med 100% säkerhet att det är icke-normalfördelat. Man behöver då inte testa.
Enligt centrala gränsvärdessatsen går alltid medelvärdet mot normalfördelningen, då n ökar.
Detta betyder att regression mm fungerar utmärkt på andra fördelningar, t.ex. exponentialfördelning. Men antalet värden bör vara minst ca 10. Men OBS: detta gäller bara om man tolkar medelvärden, medel-lutnings-koefficienter mm.

En del Besserwissrar fattar inte centrala gränsvärdessatsen, och kräver en massa meningslösa saker i statistiken.

Det är viktigt att man tolkar sina resultat rätt.

Jag ger dig inga råd om vad som är bäst i ditt fall. Därför då måste man sätta sig in i hela problemet.

Christer

__________________
Senast redigerad av ChristerN 2013-09-01 kl. 08:52. Anledning: rättelse

Citera

2013-09-01, 20:35 #8

Medlem

Reg: Jan 2012

Inlägg: 1 759

Citat:

Ursprungligen postat av ChristerN

Gratisprogram med öppen källkod kan fungera utmärkt, en del är utvecklade eller förbättrade av universitet, stora företag mm. Open Office är som MS-office, men ibland ligger dyra MS-office något före.
Gnumeric har även multipel regression.
https://projects.gnome.org/gnumeric/
(Scilab är som äldre mathlab, obs dessa kan vara jobbiga att lära sig.)
Dessa med Öppen källkod saknar reklam, kräver ingen registrering. Man skall se upp med gratis-program från småställen som sprider reklam eller vill ha konstiga uppgifter. (Kolla gärna wiki först).

Om normalfördelningstest.
Om ett värde aldrig kan bli negativt, så vet man med 100% säkerhet att det är icke-normalfördelat. Man behöver då inte testa.
Enligt centrala gränsvärdessatsen går alltid medelvärdet mot normalfördelningen, då n ökar.
Detta betyder att regression mm fungerar utmärkt på andra fördelningar, t.ex. exponentialfördelning. Men antalet värden bör vara minst ca 10. Men OBS: detta gäller bara om man tolkar medelvärden, medel-lutnings-koefficienter mm.

En del Besserwissrar fattar inte centrala gränsvärdessatsen, och kräver en massa meningslösa saker i statistiken.

Det är viktigt att man tolkar sina resultat rätt.

Jag ger dig inga råd om vad som är bäst i ditt fall. Därför då måste man sätta sig in i hela problemet.

Christer

Eller så är det bara så att om TS skriver en uppsats så kommer TS vara tvungen att motivera sitt val av test. Det allra enklaste för att täppa till truten på opponent, seminarieledare samt examinator är att säga som det är - att K-S var signifikant eller att ena variabeln inte var på intervallnivå. Det tar 10 sekunder att få programmet att spotta fram testerna, en utläggning om gränsvärdessatsen tar 2 minuter och hälften i rummet bryr sig inte om det (tyvärr är det så inskränkt i många fall). I vilket fall måste TS kontrollera att variansen är homogen om ett parametriskt test ska användas, i SPSS ligger K-S och Levene's i samma meny.

Avslutningsvis verkar syftet vara att undersöka om höga värden i två variabler är relaterade till varandra snarare än om värden i den ena variabeln förutsäger värdena i den andra, TS verkar vara ute efter en korrelationsanalys. De rekommendationer jag gett TS är anpassade efter kraven för kvantitativa uppsatser på avancerad nivå hur inskränkta de än verkar vara.

__________________
Senast redigerad av Anonymvillvaradet 2013-09-01 kl. 20:37.

Citera

2013-09-03, 00:15 #9

Medlem

Reg: Jul 2010

Inlägg: 2 138

Citat:

Ursprungligen postat av Anonymvillvaradet

Eller så är det bara så att om TS skriver en uppsats så kommer TS vara tvungen att motivera sitt val av test. Det allra enklaste för att täppa till truten på opponent, seminarieledare samt examinator är att säga som det är - att K-S var signifikant eller att ena variabeln inte var på intervallnivå. Det tar 10 sekunder att få programmet att spotta fram testerna, en utläggning om gränsvärdessatsen tar 2 minuter och hälften i rummet bryr sig inte om det (tyvärr är det så inskränkt i många fall). I vilket fall måste TS kontrollera att variansen är homogen om ett parametriskt test ska användas, i SPSS ligger K-S och Levene's i samma meny.

Avslutningsvis verkar syftet vara att undersöka om höga värden i två variabler är relaterade till varandra snarare än om värden i den ena variabeln förutsäger värdena i den andra, TS verkar vara ute efter en korrelationsanalys. De rekommendationer jag gett TS är anpassade efter kraven för kvantitativa uppsatser på avancerad nivå hur inskränkta de än verkar vara.

Kanske du har rätt.
För karriärens skull, så skall man säga det de andra vill höra.
Man kan även säga nått obegripligt om nån super-hyper-power test, så kritikerna får hjärnsläpp. Det imponerar.
Jag är inte i karriären, så jag vill bara leta efter sanningen och förklara det enkelt.

Men många borde lära sig det fantastiska i centrala gränsvärdessatsen.

Christer

Citera

2013-09-03, 00:48 #10

Medlem

Reg: Aug 2013

Inlägg: 1 179

P(X > x | Y > y) + P(Y > y | X > x) - P(X > x && Y > y)

Citera

2013-09-03, 10:08 #11

Medlem

Reg: Jan 2012

Inlägg: 1 759

Citat:

Ursprungligen postat av ChristerN

Kanske du har rätt.
För karriärens skull, så skall man säga det de andra vill höra.
Man kan även säga nått obegripligt om nån super-hyper-power test, så kritikerna får hjärnsläpp. Det imponerar.
Jag är inte i karriären, så jag vill bara leta efter sanningen och förklara det enkelt.

Men många borde lära sig det fantastiska i centrala gränsvärdessatsen.

Christer

Finns inget som säger att man inte kan centrala gränsvärdessatsen bara för att man gör det enkelt för sig genom att använda rutinartat använda tester för fördelning och varians. Ofta rapporteras inte ens de testerna men att motivera den valda analysmetoden är mycket enklare än att riskera att trassla in sig i en teoretisk förklaring. Det handlar om effektivitet, inte att briljera.

Citera

2013-09-03, 18:31 #12

Medlem

Reg: Feb 2012

Inlägg: 4 606

Citat:

Ursprungligen postat av ChristerN

Om normalfördelningstest.
Om ett värde aldrig kan bli negativt, så vet man med 100% säkerhet att det är icke-normalfördelat. Man behöver då inte testa.
Enligt centrala gränsvärdessatsen går alltid medelvärdet mot normalfördelningen, då n ökar.
Detta betyder att regression mm fungerar utmärkt på andra fördelningar, t.ex. exponentialfördelning. Men antalet värden bör vara minst ca 10. Men OBS: detta gäller bara om man tolkar medelvärden, medel-lutnings-koefficienter mm

Nej, inte alltid. Jag håller dock med om att normalitetstester är relativt meningslösa.

Citera

Regression eller annan metod?

Skapa ett konto eller logga in för att kommentera

Skapa ett konto

Logga in