Vinnaren i pepparkakshustävlingen!
2013-03-18, 20:23
  #1
Medlem
evolutes avatar
Jag har en uppsättning säkringar som går vid strömmen I (okänd). Man testar dessa säkringar vid ett antal olika strömmar och får då data som i tabellen nedan.

Ström (A) | Går (JA/NEJ)
-----------------------
9 | J
8 | J
7 | J
6,2 | N
5,6 | J
5,8 | J
5,5 | N
6 | J
5 | N
4 | N
3 | N

Jag vill nu skatta den "verkliga" utlösningensströmmen. Vilken statistisk metod bör man använda?
Citera
2013-03-22, 11:59
  #2
Medlem
-taki-s avatar
Ett intressant problem.

Jag gissar att Bayesisk statistik skulle kunna användas och som skulle resultera i en täthetsfunktion som har en (förhoppningsvis smal) topp över den strömstyrka där omslaget sker. Jag håller på att försöka lära mig Bayesisk metodik men är inte där ännu.

En snarlikt problem är vinklingen mot diskriminantanalys där målet i det här fallet skulle vara att gruppera strömstyrkorna i två grupper - en för dem som orsakar att säkringarna går och en för dem som inte gör det. Inom det området finns det hur mycket gjort som helst.

En metodik som kvantifierar själva omslaget med vidhängande lull-lull i form av statistisk teori känner jag inte till (vad det uttalandet av en ickestatistiker nu är värt )

Ett metodik som är lite ad hoc men med viss förankring i statistisk teori är en användning av logistisk regression (LR). Där modelleras sannolikheten för ett visst utfall hos en binär beroende variabel. I den här modellen skulle strömstyrkan vara den enda oberoende variabeln.

I bilden nedan visas LR-modellen, beräknade sannolikheter för att säkringarna ska gå som funktion av vilken grupp de tillhör (går inte sönder=0/går sönder=1) och dito för en svep med strömstyrkor från 1-10 A.

http://i1061.photobucket.com/albums/...ps13be97ee.jpg

LR används ofta vid diskriminantanalys och med "cutten" 50 % blir bara två datapunkter feldiagnosticerade. Det undre diagrammet visar att omslaget predikteras ske vid 5,7 A. (Jag körde problemet i statistikprogrammet Minitab och med linjär diskriminantanalys (LDA) blev då tre datapunkter felplacerade.)

För LR finns det mycket statistisk teori kring utvärderingen av modellerna men jag har inte sett sådan för den här typen av analys varför jag inte kan bidra med någon form av feluppskattning för omslagsströmmen. Normalt vill man ju bara särskilja grupper och inte kvantifiera övergången mellan dem. För ren diskriminantanalys finns det förstås mer invecklad metodik med LR.

En sak som talar för metoden är att den är robust och asymptotisk mot låga och höga strömstyrkor. Man hade ju kunnat testa strömmen 20 A, t ex! Detta skulle inte påverka utfallet ovan. Löjligt höga strömmar påverkar diskriminantanalysen men inte omslagsströmmen.
Citera
2013-03-23, 19:48
  #3
Medlem
evolutes avatar
Tack för ett utmärkt svar. Logistisk regression får det bli även om det är, som du säger, lite ad hoc. Jag har dock ingen teori att stödja mig på (problemet handlar egentligen inte om säkringar). Schysst!
Citera
2013-03-25, 17:25
  #4
Medlem
James Deans avatar
Citat:
Ursprungligen postat av evolute
Jag har en uppsättning säkringar som går vid strömmen I (okänd). Man testar dessa säkringar vid ett antal olika strömmar och får då data som i tabellen nedan.

Ström (A) | Går (JA/NEJ)
-----------------------
9 | J
8 | J
7 | J
6,2 | N
5,6 | J
5,8 | J
5,5 | N
6 | J
5 | N
4 | N
3 | N

Jag vill nu skatta den "verkliga" utlösningensströmmen. Vilken statistisk metod bör man använda?

En lämpligare metod som ofta används inom medicinsk statistik i dessa sammanhang är ROC-kurvor (Receiver Operating Characteristic). ROC-kurvan ger oss en skattning av på vilken nivå säkringen i genomsnitt kan förväntas gå, medan den logistiska regressionen endast kommer att tala om hur mycket logoddset för att säkringen ska gå förändras när strömstyrkan ökar.
Citera
2013-03-25, 22:22
  #5
Medlem
-taki-s avatar
Som jag gjort uttrycket på bilden räknas den relativa risken ut. Inte logoddset. Men i vilket fall, är det inte så att ROC-kurvan används för att hitta optimal brytpunkt för den modell man har? Jag angav 50 % risk men med en ROC-kurva skulle man kunna optimera det värdet?

Det behövs väl iaf fortfarande en modell för datat - som t ex skulle kunna vara logistisk regression eller någon annan metod. Man måste ju ha en klassificerare för att kunna göra sin kontingenstabell.
Citera
2013-03-26, 14:40
  #6
Medlem
James Deans avatar
Citat:
Ursprungligen postat av -taki-
Som jag gjort uttrycket på bilden räknas den relativa risken ut. Inte logoddset. Men i vilket fall, är det inte så att ROC-kurvan används för att hitta optimal brytpunkt för den modell man har? Jag angav 50 % risk men med en ROC-kurva skulle man kunna optimera det värdet?

Det behövs väl iaf fortfarande en modell för datat - som t ex skulle kunna vara logistisk regression eller någon annan metod. Man måste ju ha en klassificerare för att kunna göra sin kontingenstabell.

Stämmer att ROC-kurvan ger oss den optimala brytpunkten. Däremot behövs ingen modell för att skatta kurvan, metoden är i sin enklaste form ickeparametrisk. ROC-kurvan bildas genom att man bildar korstabeller med alla möjliga brytpunktsvärden enligt stickprovet, och sedan beräknar sensitivitet och ett minus specificitet för varje tabell och plottar upp detta.
Citera
2013-03-26, 18:01
  #7
Medlem
-taki-s avatar
Oki, så här:

http://i1061.photobucket.com/albums/...ps5731b0fd.jpg

Nu är det ju få data i underlaget så ROC-kurvan blir lite yxig. För föreliggande data blir kurvan exakt lika om man gör den från resultaten från den logistiska regressionen.

Men om man då som TS vill hitta omslagsvärdet, ska man bara ta den punkt som har kortaste avståndet till hörnet 0,1 (som indikerar bäst klassning)? I det här fallet blir det punkten med 5.6 A, den jag markerat med ett kryss. Det känns lite grovt att bli låst till just de datapunkter man har.

Eller interpolerar man i ROC-kurvan för att hitta punkten som ligger närmast 0,1 och från denna tar reda på brytpunkten? Men detta är ju inte meningsfullt för föreliggande dataset.

Hehe, eller kör man logistisk regression och interpolerar den vägen ...
Citera
2013-03-27, 10:41
  #8
Medlem
-taki-s avatar
Tack filmstjärnan. Det här är något jag kan ha nytta av själv i mitt jobb.

I Fawcetts artikel

http://www.hpl.hp.com/techreports/2003/HPL-2003-4.pdf

ges en effektiv algoritm som utifrån data, t ex TS' tabell, skapar två vektorer från vilka man direkt kan rita upp ROC-kurvan (Algorithm 2).

I Hosmer & Lemeshows (jättebra) bok om logistisk regression nämns ett annat diagram än specifikt ROC-kurvan som kanske är lämpligare för att hitta just brytpunkten. Man plottar Sensitiviteten (FP/N i Fawcett) och Specificiteten (1-TP/P i Fawcett) mot de testade strömstyrkorna. Där kurvorna korsar varandra hittar man omslagsströmmen. (Hosmer & Lemeshow har stått i bokhyllan ett par år men jag har lyckats runda kapitlet om ROC)

http://i1061.photobucket.com/albums/...ps82c64c63.jpg

5.8 A.
Citera

Stöd Flashback

Flashback finansieras genom donationer från våra medlemmar och besökare. Det är med hjälp av dig vi kan fortsätta erbjuda en fri samhällsdebatt. Tack för ditt stöd!

Stöd Flashback