Vinnaren i pepparkakshustävlingen!
2007-01-20, 22:03
  #13
Medlem
Realizts avatar
Citat:
Ursprungligen postat av Oscar111
Nej, inte så, man börjar med en fnuttimeter och sen 20 % längre och sedan ytterligare 20 % längre. Då kommer man strax inom 20 % av den riktiga längden.
Jo, okej.

Men för att bli konkret om hur man kan dra fördel av Benfords lag:

Antag att jag arrangerar en frågesport hemma, vinnaren slipper diska. Tjejen får välja en flod vilken som helst i världen ur nån geografibok. Tävlingen går till så att hon läser upp alla siffror utom den mest signifikanta i flodens längd. Sen får jag göra tre gissningar på den mest signifikanta siffran. Hon tror att jag bara har 33% chans och accepterar ett spel som vore fair vid 50-50 odds. Jag gissar 1, 2 och 3 och får rätt med ca 62% sannolikhet!
Citera
2007-01-20, 22:03
  #14
Medlem
Balthazaer-s avatar
Citat:
Ursprungligen postat av Realizt
Som tur är har detta redan hänt! 1 km = 0.62 miles. Men begynnelse-1orna är tydligen vanligast för mätta avstånd i både USA och kontinentaleuropa.
0.62 != 0.5
Som sagt är nog de allra flesta standardenheter någon gång satta för att ge "bra" värden på vanliga sträckor.
Citera
2007-01-20, 22:31
  #15
Medlem
Realizts avatar
Citat:
Ursprungligen postat av Balthazaer-
Som sagt är nog de allra flesta standardenheter någon gång satta för att ge "bra" värden på vanliga sträckor.
Planeternas medelavstånd från Solen är inte på något sätt "vanliga sträckor" i den miljö och era när kilometer och miles definierades. Om vi betraktar de 9 planeternas medelavstånd i både miles och km så får vi 18 observationer. 5 av dem börjar med en 1:a, alltså ca 28% av fallen, mycket nära Bedfords lag. Bedfords lag är så extrem att det räcker med små stickpov för att kunna märka skillnaden mellan naivt förväntade 11% och bedfords 30% i 1ornas frekvens.

Bilda en serie med n stycken tal x^(n*y) för vilka värden som helst på x och y. Du ska finna att ungefär 30% av de talen börjar med en 1:a och bara ca 5% på en 9:a! För så verkar det ju vara. Men vad det sen har att göra med floders längder och städers invånare, är nog en mer filosofisk fråga. Men det hela ligger i vart fall långt bortom arbiträra val i skapandet av standardiserade måttsystem.
Citera
2007-01-21, 00:29
  #16
Medlem
Kivans avatar
Finns det nagon rimlig forklaring till detta fenomen? Fraktaler?

Citera
2007-01-21, 01:08
  #17
Medlem
Balthazaer-s avatar
Citat:
Ursprungligen postat av Realizt
Bilda en serie med n stycken tal x^(n*y) för vilka värden som helst på x och y. Du ska finna att ungefär 30% av de talen börjar med en 1:a och bara ca 5% på en 9:a! För så verkar det ju vara. Men vad det sen har att göra med floders längder och städers invånare, är nog en mer filosofisk fråga. Men det hela ligger i vart fall långt bortom arbiträra val i skapandet av standardiserade måttsystem.

Ja, du har rätt. Jag gjorde lite testserier på runt 10000 samples och kom också fram till att begynnelseetta var starkt överrepresenterad.

Klurade lite på varför... Tog man bara ett slumpmässigt tal så blev det i princip perfekt utspritt. Gjorde man däremot någon form av beräkning så blev det i princip alltid stark majoritet för ettan.

På addition var det extra tydligt:

Adderar man ett tal mellan 1 och 9 med ett annat tal mellan 1 och 9 så får man i över 55% (45/81) av fallen ett nytt tal som börjar på 1. Detta är ju rätt självklart då det nya talet i väldigt många fall hamnar mellan 10 och 18...

Å andra sidan, detta får ju konsekvenser för addition med två godtyckliga tal. Om vi adderar två slumpmässiga tal A och B, med begynnelsesiffrorna a och b, så är det ~41% sannolikhet att begynnelsesiffran på summan A+B är samma som begynnelsebokstaven för summan a+b.
Eftersom a och b båda är 1-9, så börjar a+b med 55% sannolikhet på 1. Det innebär det att en addition av två slumpmässiga tal A och B med ~23% sannolikhet kommer frambringa ett tal med ett som begynnelsesiffra.
Citera
2007-01-21, 01:41
  #18
Medlem
Citat:
Ursprungligen postat av Kivan
Finns det nagon rimlig forklaring till detta fenomen? Fraktaler?

Tänk på tallinjen från 10 och uppåt:

|10--------|20--------|30--------|40--------|50--------|--...

Säg att du mäter något som varierar kring 15 i någon godtycklig enhet; låt
oss säga plankor som ska vara 15 decimeter långa, men några är längre
och andra kortare.

Så länge plankorna inte är kortare än 10 dm eller tangerar 20 dm, så börjar
alla dina mätningar med "1". Du har 5/15 = 33% marginal åt båda hållen.

Antag nu att sågverket blir uppköpt av ett amerikanskt företag, och du
beordras att mäta i tum i stället. 15 dm är ungefär 59 tum. Nu har du bara
9/59 = 15% marginal nedåt och 1/59 = 2% uppåt om du ska hålla dig
till mätetal som börjar på "5". En gammal gränsplanka, 10 dm lång, mäts
i tum till c:a 39 -- en knappt 20 dm lång blir 78 tum. Där du förut höll dig
till 10-tal, rör du dig nu över 30-, 40-, 50-, 60- och 70-tal. Plankorna är
dock oförändrade.

------

5/15 = 33%
5/25 = 20%
5/35 = 14%
5/45 = 11%
5/55 = 9%
5/65 = 8%
5/75 = 7%
5/85 = 6%
5/95 = 5%

Är vi i stället på 100-tal så blir det 50/150 o.s.v. med oförändrade kvoter.

----------------------------------

Vidare, om det är något som räknas; typ invånare och grässtrån,
så kommer man till "ett" innan man kommer till "två", "tre" o.s.v,
på samma sätt som man passerar tio-, hundra- och tusental före
nittio-, niohundra- och niotusental. Räknar man upp till nittio så
har man garanterat avverkat tio, men räknar man till tio så kan
man sluta innan man kommer till nittio. De höga siffrorna kan
aldrig slå de låga, i bästa fall kan de nå oavgjort. Med slumpmässigt
varierande räknesträckor så vinner låga tal över högre.
Citera
2007-01-21, 02:16
  #19
Medlem
Citat:
Ursprungligen postat av Realizt
Men för vilka typer av tal gäller det här fenomenet? Det gäller tydligen för atomvikter i periodiska systemet och för gatunummer och för siffror som är tillgängliga från sökmotorn Google. Men det gäller förstås inte för slumptal som min miniräknare alstrar, eller decimalerna i pi. Hur vet man om Benfords lag gäller i ett visst fall eller inte?.
Citat:
The precise form of Benford's law can be explained if one assumes that the logarithms of the numbers are uniformly distributed; this means that a number is for instance just as likely to be between 100 and 1000 (logarithm between 2 and 3) as it is between 10,000 and 100,000 (logarithm between 4 and 5). For many sets of numbers, especially ones that grow exponentially such as incomes and stock prices, this is a reasonable assumption.

http://en.wikipedia.org/wiki/Benfords_law
Citera
2007-01-21, 02:24
  #20
Medlem
Citat:
Ursprungligen postat av Balthazaer-
Det bör den väl ha. Har du begynnelseettor överrepresenterat i tex "längd på något i meter" och definierar om enheten "meter" så den motsvarar 0,5 meter istället, så bör väl tvåan bli överrepresenterad som begynnelsesiffra?
Nej.

Om vi kallar denna enhet för fot så kommer de längder som har 1 som begynnelsesiffra mätt i meter att ha antingen 2 eller 3 som begynnelsesiffra mätt i fot. 1.0 - 1.499... transformeras till begynnelsesiffran 2. 1.5-1.999... transformeras till begynnelsesiffran 3. osv...

Multiplikation med en konstant ger bara en addition (förskjutning) av logaritmens värde, så om logartimen var likformigt fördelad innan man multiplicerade med en konstant så kommer den vara likformigt fördelad även efteråt. (Se mitt förra inlägg)
Citera
2007-01-21, 02:46
  #21
Medlem
Det här är nog ett bra sätt att förstå det hela...

Tänk på en kvantitet som ökar exponentiellt: y = 10^(k*x)
Exponentiell tillväxt är väldigt naturligt eftersom det bygger på att den relativa ökningen är konstant.
Tar vi 10-logaritmen får vi: log(y) = k*x

Plottar vi alltså log(y) mot x får vi alltså en rät linje.

Antag nu att vi startar på x=0. För enkelhets skull kan vi anta k=1, y=10^x.
Om vi säger att x representerar tid så kan vi nu undersöka under hur lång tid som y har olika begynnelsesiffror när x går från 0 till 1.
x=log(y)

y=1, x=0
y=2, x=0.301...
y=3, x=0.477...
y=4, x=0.602...
y=5, x=0.698...
y=6, x=0.778...
y=7, x=0.845...
y=8, x=0.903...
y=9, x=0.954...
y=10, x=1

Vi ser att avståndet mellan x-värdena där begynnelsesiffran i y byter värde minskar hela tiden, och är som störst mellan y=1 och y=2. Dvs 1 är den begynnelsesiffra som y har under längst tid när x ökar linjärt med tiden från 0 till 1.

Sen kan vi fortsätta och låta x gå från 1 till 2, men det blir samma sak, för 10^(1+x) = 10*10^x. En multiplikation med 10 ändrar inte begynnelsesiffran.

Det blir alltså:
y=10, x=1
y=20, x=1.301...
y=30, x=1.477...
y=40, x=1.602...
y=50, x=1.698...
y=60, x=1.778...
y=70, x=1.845...
y=80, x=1.903...
y=90, x=1.954...
y=100, x=2

y kommer ha begynnelsesiffra 1 under längst tid också när x går från 1 till 2. Osv...

Eftersom det är en större relativ (procentuell) ökning från 1 till 2 (100 % ökning) än från 2 till 3 (50 % ökning) så tar den första längre tid. Det är detta som gör begynnelsesiffran 1 vanligast.
Citera
2007-01-21, 03:24
  #22
Medlem
Prometeuss avatar
En väldigt, väldigt flummig beskrivning, är lite trött :P
Om någon mängd ökar på något vis (säg att vi räknar antalet flodet i ett land t.ex.), då kommer vi ju börja på 0, gå vidare mot 10, 20, 90, 100 osv
Tal som börjar på 1 kommer först, alltså är det ju mer sannolikt att hamna där!
Citera
2007-01-22, 02:27
  #23
Medlem
Realizts avatar
Citat:
Ursprungligen postat av Katalysator
Så länge plankorna inte är kortare än 10 dm eller tangerar 20 dm, så börjar alla dina mätningar med "1". Du har 5/15 = 33% marginal åt båda hållen.

[...]

5/15 = 33%
5/25 = 20%
5/35 = 14%
5/45 = 11%
5/55 = 9%
5/65 = 8%
5/75 = 7%
5/85 = 6%
5/95 = 5%
Om man nu ska gissa en plankas tjocklek, givet att den mest signifikanta siffran följer bedfords lag och att man vet att tjockleken är 1-9 mm, och vill minimera sitt relativa fel, vad bör man då gissa på för siffra som den mest signifikanta? 1:an är ju vanligast, men det relativa felet blir ju lätt väldigt stort. 9:an är mer sällsynt, men det relativa felet blir ju mindre. Nåt i stil med: Err(x) = Sum[(x-y)*Prob(y)]/x

Min egentliga fråga är om man verkligen har någon nytta av Bedfords lag när man ska gissa sig till värden, eller om det är nån slags illusion? Revisorer verkar ju använda det seriöst för att spåra förfalskningar, enligt tidigare länk till en artikel i Ny Teknik.

Alltså, när man ska gissa sig till svaret på frågan "How many roads must a man walk down?", vilken siffra bör man använda som mest signifikanta för att minimera det förväntade procentuella felet i ens gissning?
Citera
2007-01-22, 03:06
  #24
Medlem
Realizts avatar
Följande förväntade relativa fel får jag för respektive gissad siffra, när man ska gissa ett tal 1-9:
Kod:
1	 50% minimum
2	 60%
3	 88%
4	123%
5	164%
6	208%
7	255%
8	302%
9	352%
när man definierar som relativa felet som absolutvärdet av gissningen minus sanningen dividerat med sanningen.

och
Kod:
1	244%
2	102%
3	67%
4	55%
5	52% minimum
6	53%
7	55%
8	58%
9	62%
när man definierar som relativa felet som absolutvärdet av gissningen minus sanningen dividerat med gissningen.

Den förnuftigaste definitionen på det relativa felet är väl att använda sanningen som nämnare. Det vore ju inte rimligt att bedöma felet utifrån en referensram som gissaren bestämmer! Så då minimerar man det förväntade relativa felet, samtidigt som man ju maximerar sannolikheten för fullträff, genom att gissa på 1:an.

Förväntat absolut fel får jag till följande:
Kod:
1	2,44
2	2,04
3	2,00 minimum
4	2,20
5	2,60
6	3,15
7	3,85
8	4,65
9	5,56
Vill man minimera det förväntade absoluta felet med sin gissning, så bör man välja 3:an.

Allt med reservationer för räknefel, samt med frågan: bör man verkligen föredra att gissa på att den mest-signifikanta siffran i ett tal är en 1:a???

Jag har alltså använt mig av Bedfords påstående att det i sanning råder följande sannolikheter för repsektive tal:
Kod:
30,1%	1
17,6%	2
12,5%	3
 9,7%	4
 7,9%	5
 6,7%	6
 5,8%	7
 5,1%	8
 4,6%	9
Citera

Stöd Flashback

Flashback finansieras genom donationer från våra medlemmar och besökare. Det är med hjälp av dig vi kan fortsätta erbjuda en fri samhällsdebatt. Tack för ditt stöd!

Stöd Flashback