Citat:
Ursprungligen postat av
CrawfordPepsiBoner
Nej nej, tackar för ett mycket ambitöst svar, men det var ju knappast lättförstått.
Jag fattar lika lite som innan.
Tänk dig att du vill ta reda på om kariesbakterier växer bättre om det finns mycket socker. Ta tre plastbehållare och ha samma antal kariesbakterier i varje behållare. Fyll sedan på med olika sockerlösningar i varje behållare där sockerkoncentrationen är X1,X2 och X3. Ha dessa behållare i samma värmeskåp i tre dagar.
När du tar ut behållarna och räknar bakterier för varje behållare så får du antalet. Kalla antalet Y1, Y2 och Y3.
Du antar att antalet bakterier borde öka linjärt med sockerkoncentrationen och antar därför modellen:
Y = alfa + betaX + ksi. ksi är här en slumpvariabel som täcker allt möjligt som tex att någon plastbehållare har en yta som gör att bakterier växer lättare där, ja allt som kan påverka men som man inte känner till.
I verkligheten vet man inte ksi så den ungefärliga modellen blir:
y = a +bX
a och b plockas fram med beräkningsprogram eller formler ur boken från dina mätvärden.
En residual är = (antal bakterier som du räknat) - antalet bakterier enligt din mattemodel)
Du får alltså olika residual beroende på vilken modell du använder, tex linjär eller medelvärde.
Tänk om man har fått modellen till att det borde vara 10000 ,20000 och 30000 bakterier för de tre olika sockerlösningarna.
Men dina verkliga värden är 9000, 20000, och 31000. Tar man summan av resiudalerna blir det :
-1000 +0 +1000 = 0. Det är ju konstigt, man ser ju att det finns variation mellan modell och verklighet. Därför tar man kvadraten på residualerna istället så att man får ett mått på variation där det inte spelar roll om värdena ligger under eller över det uppskattade värdet.
R2 är en sorts mått på hur bra din modell är jämfört med enklast tänkbara modell. Enklast tänkbara modell är att man helt enkelt tar medelvärdet av antalet kariesbakterier och utgår från att det är det "sanna" svaret.
Därför är TSS = summan över alla bakterievärden för: ( räknat antal - medelantal bakterier över alla behållare)^2
RSS = summan över alla bakterivärden för( räknat antal - antal enligt din ungefärliga modell)^2
R2 = (TSS-RSS)/ TSS
Om din modell ger ett svar som där varje mätvärde ligger precis på din modelllinje så kommer alla residualer för RSS vara noll. Då blir R2 = 1. Modellen är "perfekt" (vilket kan vara ren tur).
Om RSS = TSS så blir R2 = 0. Modellen ger inte ett bättre svar än den enklaste modellen (de varierar ju lika mycket) Alltså är det en rätt kass modell om man tror att det verkligen finns ett linjärt samband. Fast kanske kan det vara en indikation på att det inte finns ett linjärt samband?
Nu är jag inte statistiker så jag rekommenderar lärobok( jag inser att det är juni nu och att du och din bok kan finnas på olika platser men det finns även böcker på nätet).
Om någon som kan mer statistik kan förklara det här bättre så gör gärna det.