Vinnaren i pepparkakshustävlingen!
  • 1
  • 2
2013-03-16, 18:54
  #1
Medlem
Sitter med en fråga som egentligen inte är så svår att lösa, men jag har hamnat i en situation där jag är lite förvirrad. Frågan lyder så här: "I ett slumpmässigt urval av 1000 personer visade det sig att den genomsnittliga tid man besökt något socialt forum på internet senaste veckan var 1.22 timmar med standardavvikelsen 0.94 timmar."

Beräkna ett 95% konfidensintervall för genomsnittlig tid på socialt forum under en vecka i bakomliggande population.

Jag vet att oavsett vilket test man använder, z eller t test, så får man fram samma svar. Men, när man skriver svaret på en tenta (ja, detta är en tenta fråga) då ska man ju visa uträkningen och jag vill då veta vilket test de är ute efter. Svaret på denna fråga svarades med T-test, men jag personligen hade använt Z test. Känns som att det kvittar, eftersom utfallet blir likadant, man får samma Z värde som T värde med 95% konfidensintervall. Även den höga andelen får mig att tycka att det borde vara ett Z test. Skulle vara snällt om någon kunde förklara varför ett Z eller T test används

Tacksam för svar!
Citera
2013-03-16, 19:26
  #2
Medlem
Bananrepubliks avatar
Poängen med students T-test är att normalfördelning är annorlunda vid små sample sizes [tjockare svansar]. Metoden är ju ursprungligen framtagen för kvalitetskontroll vid väldigt små urval, typ under 5, vilket är vad som styr vilken av metoderna som används. Vid större urval ska det inte vara någon skillnad mellan Z- och T-test [om jag kommer ihåg rätt].
__________________
Senast redigerad av Bananrepublik 2013-03-16 kl. 19:32.
Citera
2013-03-16, 21:07
  #3
Medlem
Jrgens avatar
Du kan inte säga att de ger samma svar. Det är två olika fördelningar. t-fördelningen är dock asymptotiskt identisk med normalfördelningen. Så när urvalsstorleken går mot oändligheten så går t-fördelningen mot normalfördelningen. Anledningen till att du använder t-fördelningen och inte standardnormalfördelningen är att du inte känner till populationsvariansen. Du estimerar variansen utifrån ditt urval. Du måste då ersätta standardavvikelsen med en uppskattning, "s". Centrala gränsvärdessatsen säger att [X-E(X)]/[standardavvikelsen/(kvadratroten ur urvalsstorleken "n")] har standardnormalfördelningen. Men det innebär inte att [X-E(X)]/[s/(kvadratroten ur n)] har standardnormalfördelningen. Vi vet däremot att (n-1)*urvalsvariansen/populationsvariansen är Chikvadratfördelad med n-1 frihetsgrader. Och vi vet att en standardnormalfördelad variabel dividerad med roten ur [en Chikvadratfördelad variabel dividerad med sina frihetsgrader] alltid är t-fördelad. Och om vi slänger in båda uttrycken i den formeln så tar de båda populationsvarianserna/standardavvikelserna ut varandra och vi får ut uttrycket [X-E(X)]/[s/(kvadratroten ur n)], vilket innebär att variabeln, "t-statistiken", som definieras av det uttrycket är t-fördelad. Och det är därför du ska använda t-fördelningen och inte standardnormalfördelningen. Du använder ju en teststatistik som är t-fördelad under nollhypotesen.
__________________
Senast redigerad av Jrgen 2013-03-16 kl. 21:29.
Citera
2013-03-16, 22:46
  #4
Medlem
Citat:
Ursprungligen postat av Jrgen
Du kan inte säga att de ger samma svar. Det är två olika fördelningar. t-fördelningen är dock asymptotiskt identisk med normalfördelningen. Så när urvalsstorleken går mot oändligheten så går t-fördelningen mot normalfördelningen. Anledningen till att du använder t-fördelningen och inte standardnormalfördelningen är att du inte känner till populationsvariansen. Du estimerar variansen utifrån ditt urval. Du måste då ersätta standardavvikelsen med en uppskattning, "s". Centrala gränsvärdessatsen säger att [X-E(X)]/[standardavvikelsen/(kvadratroten ur urvalsstorleken "n")] har standardnormalfördelningen. Men det innebär inte att [X-E(X)]/[s/(kvadratroten ur n)] har standardnormalfördelningen. Vi vet däremot att (n-1)*urvalsvariansen/populationsvariansen är Chikvadratfördelad med n-1 frihetsgrader. Och vi vet att en standardnormalfördelad variabel dividerad med roten ur [en Chikvadratfördelad variabel dividerad med sina frihetsgrader] alltid är t-fördelad. Och om vi slänger in båda uttrycken i den formeln så tar de båda populationsvarianserna/standardavvikelserna ut varandra och vi får ut uttrycket [X-E(X)]/[s/(kvadratroten ur n)], vilket innebär att variabeln, "t-statistiken", som definieras av det uttrycket är t-fördelad. Och det är därför du ska använda t-fördelningen och inte standardnormalfördelningen. Du använder ju en teststatistik som är t-fördelad under nollhypotesen.

Men det står ju i frågan att standardavvikelsen är 0.94. Menar du att det borde stå "populationens standardavvikelse är 0.94" för att använda z test. Förlåt, men jag blev inte mer klokare av ditt svar.. Menar inte att det är fel, utan jag blev bara ännu mer förvirrad..
Citera
2013-03-16, 22:49
  #5
Medlem
Citat:
Ursprungligen postat av Bananrepublik
Poängen med students T-test är att normalfördelning är annorlunda vid små sample sizes [tjockare svansar]. Metoden är ju ursprungligen framtagen för kvalitetskontroll vid väldigt små urval, typ under 5, vilket är vad som styr vilken av metoderna som används. Vid större urval ska det inte vara någon skillnad mellan Z- och T-test [om jag kommer ihåg rätt].

Ja, det är lite så jag också tror, skillnaden blir nästan försumbar. I det här fallet så blir utfallet likadant, då känns det nästan som att det kvittar vad man väljer. Men, det gör det tydligen inte.
Citera
2013-03-16, 23:03
  #6
Medlem
Är det valfria hjälpmedel så kör T:
http://www.wolframalpha.com/input/?i...5th+percentile
Är det inte valfria hjälpmedel så hälsa din läraren välkommen till 2000talet.
Citera
2013-03-16, 23:14
  #7
Medlem
Jrgens avatar
Citat:
Ursprungligen postat av Thepokee
Men det står ju i frågan att standardavvikelsen är 0.94. Menar du att det borde stå "populationens standardavvikelse är 0.94" för att använda z test. Förlåt, men jag blev inte mer klokare av ditt svar.. Menar inte att det är fel, utan jag blev bara ännu mer förvirrad..
Ja, exakt så borde det stå för att få använda ett "z-test". Men i frågan framgår det tydligt att det handlar om siffror som man har räknat fram från urvalet.
Citera
2013-03-16, 23:27
  #8
Medlem
Citat:
Ursprungligen postat av Jrgen
Ja, exakt så borde det stå för att få använda ett "z-test". Men i frågan framgår det tydligt att det handlar om siffror som man har räknat fram från urvalet.

Tror jag har förstått det då, tack så hemskt mycket! En liten fråga, om testet sker på ett standardiserat sätt, det har väl ingen påverkan på om man använder z eller t test. Utan allt landar egentligen på om populations standardavvikelsen är känd?!
Citera
2013-03-17, 12:33
  #9
Medlem
Jrgens avatar
Citat:
Ursprungligen postat av Thepokee
Tror jag har förstått det då, tack så hemskt mycket! En liten fråga, om testet sker på ett standardiserat sätt, det har väl ingen påverkan på om man använder z eller t test. Utan allt landar egentligen på om populations standardavvikelsen är känd?!
Tänk dig att du har en slumpvariabel som är tagen ur en normalfördelning. Du kan då inte bara jämföra värdet på variabeln med någon statistisk tabell och få fram ett p-värde eller ett konfidensintervall eller vad du vill ha. Tabellerna för normalfördelningen anger alltid värden för standardnormalfördelningen. D.v.s. normalfördelningen med medelvärdet 0 och variansen 1. För att kunna använda dig av den tabellen måste du då ändra din variabel så att den också är standardnormalfördelad. Du gör så att den får medelvärdet 0 under nollhypotesen genom att subtrahera värdet som variabeln har under din nollhypotes. Och du ser till att variansen är 1 genom att dividera med kvadratroten ur variansen (kvadratroten eftersom Var(a*X)=a^2*Var(X)). På så vis modifierar du variabeln som du vill använda för hypotestestning så att den blir standardnormalfördelad, och så kan du använda standardnormaltabellerna i din statistikbok.

Så testet kommer alltid att vara "standardiserat". Du skulle kunna använda den ostandardiserade variabeln direkt, men då skulle du behöva använda dig av normalfördelningens täthetsfunktion och integrera över det relevanta intervallet. Det är mycket krångligare.

Du bör alltid ha i åtanke vad hypotestestning egentligen innebär. Man har en slumpvariabel, som är en funktion av variabeln man vill genomföra hypotestester på. Och man vet vilken fördelning den har under nollhypotesen. Om då variabeln antar ett värde som är väldigt osannolikt under den fördelningen så tolkar man det som att nollhypotesen förmodligen inte är sann. D.v.s. att man tolkar det som att fördelningen man har antagit inte stämmer. Du kan då alltså inte välja att göra att z-test om du inte har tillgång till populationsvariansen. Om du känner till den så kan du, under standardantaganden, visa att den standardiserade variabeln i mitt förra inlägg är standardnormalfördelad. Du kan då titta i en tabell för standardnormalfördelningen för att se hur sannolikt värdet du har observerat är. Om du däremot byter ut populationens standardavvikelse mot en uppskattning utifrån ditt urval så är den standardiserade variabeln du får fram inte längre standardnormalfördelad under nollhypotesen. Du kan därför inte välja att göra ett t-test i det första fallet, eller ett z-test i det andra fallet. Du har alltid en standardnormalfördelad variabel i första fallet och en t-fördelad variabel i det andra fallet. Det enda du kan välja att göra är att titta i fel tabell, och få fram fel siffror.

Så ja, det stämmer. Allt landar på om populationens standardavvikelse är känd (och att alla dina andra antaganden håller).
Citera
2013-03-17, 15:44
  #10
Medlem
Citat:
Ursprungligen postat av Jrgen
Tänk dig att du har en slumpvariabel som är tagen ur en normalfördelning. Du kan då inte bara jämföra värdet på variabeln med någon statistisk tabell och få fram ett p-värde eller ett konfidensintervall eller vad du vill ha. Tabellerna för normalfördelningen anger alltid värden för standardnormalfördelningen. D.v.s. normalfördelningen med medelvärdet 0 och variansen 1. För att kunna använda dig av den tabellen måste du då ändra din variabel så att den också är standardnormalfördelad. Du gör så att den får medelvärdet 0 under nollhypotesen genom att subtrahera värdet som variabeln har under din nollhypotes. Och du ser till att variansen är 1 genom att dividera med kvadratroten ur variansen (kvadratroten eftersom Var(a*X)=a^2*Var(X)). På så vis modifierar du variabeln som du vill använda för hypotestestning så att den blir standardnormalfördelad, och så kan du använda standardnormaltabellerna i din statistikbok.

Så testet kommer alltid att vara "standardiserat". Du skulle kunna använda den ostandardiserade variabeln direkt, men då skulle du behöva använda dig av normalfördelningens täthetsfunktion och integrera över det relevanta intervallet. Det är mycket krångligare.

Du bör alltid ha i åtanke vad hypotestestning egentligen innebär. Man har en slumpvariabel, som är en funktion av variabeln man vill genomföra hypotestester på. Och man vet vilken fördelning den har under nollhypotesen. Om då variabeln antar ett värde som är väldigt osannolikt under den fördelningen så tolkar man det som att nollhypotesen förmodligen inte är sann. D.v.s. att man tolkar det som att fördelningen man har antagit inte stämmer. Du kan då alltså inte välja att göra att z-test om du inte har tillgång till populationsvariansen. Om du känner till den så kan du, under standardantaganden, visa att den standardiserade variabeln i mitt förra inlägg är standardnormalfördelad. Du kan då titta i en tabell för standardnormalfördelningen för att se hur sannolikt värdet du har observerat är. Om du däremot byter ut populationens standardavvikelse mot en uppskattning utifrån ditt urval så är den standardiserade variabeln du får fram inte längre standardnormalfördelad under nollhypotesen. Du kan därför inte välja att göra ett t-test i det första fallet, eller ett z-test i det andra fallet. Du har alltid en standardnormalfördelad variabel i första fallet och en t-fördelad variabel i det andra fallet. Det enda du kan välja att göra är att titta i fel tabell, och få fram fel siffror.

Så ja, det stämmer. Allt landar på om populationens standardavvikelse är känd (och att alla dina andra antaganden håller).

Jag önskar att du var min föreläsare på universitet, hade inte varit fast med en omtenta då. Väldigt bra förklarat, tack så mycket!
Citera
2013-03-17, 23:39
  #11
Medlem
leprasjuklings avatar
Förtjänar väl också att påpeka att även när man gör en t-test så bygger det på normalfördelningen.

Har du ett ett stickprov X1,...Xn oberoende likafördelade med väntevärde 0 och ändlig varians sigma^2 så är T= X{bar}/(s/sqrt(n)) t(n-1)-fördelat endast om stickprovet från början är normalfördelat.

Däremot ger centrala gränsvärdessatsen och Slutskys sats att T konvergerar mot normalfördelningen när n går mot oändligheten och är approximativt t-fördelat när n är "halvstort"( beroende på hur skev och onormal fördelningen är)
(S^2 är en konsistent skattning av sigma^2 oavsett fördelning, eller på probabalistiska att den stokastiska variabeln S^2 konvergerar i sannolikhet mot konstanten sigma^2, vilket gör att vi kan använda Slutskys sats för att visa att T=Z/U, där X konvergerar i fördelning mot normal och U konvergerar i fördelning mot konstanten 1 och därmed T konvergerar mot normalfördelningen)
__________________
Senast redigerad av leprasjukling 2013-03-17 kl. 23:54.
Citera
2013-03-18, 01:09
  #12
Medlem
Galvestonens avatar
En enkel tumregel är att om n<30 eller om populationsvariansen inte är känd, använd t-fördelning av den anledning Jrgen beskrivit.

Fast det är statistisk inferensteori, inte NEK.
Citera
  • 1
  • 2

Stöd Flashback

Flashback finansieras genom donationer från våra medlemmar och besökare. Det är med hjälp av dig vi kan fortsätta erbjuda en fri samhällsdebatt. Tack för ditt stöd!

Stöd Flashback