Benfords lag

Från Rilpedia

Hoppa till: navigering, sök
Wikipedia_letter_w.pngTexten från svenska WikipediaWikipedialogo_12pt.gif
rpsv.header.diskuteraikon2.gif

Benfords lag förklarar hur olika siffror är fördelade som förstasiffror i statistiska undersökningar. Lagen säger till exempel att siffran 1 bör vara förstasiffra i 30% av fallen, siffran 2 i 17.6% av fallen och siffran 9 i 4,6% av fallen. Som synes är inte sannolikheten för att en given siffra skulle vara första siffra en funktion som man ser direkt. Sanningen är den att Benfords lag säger att sannolikheterna är fördelade enligt en logaritmisk funktion.

Det som gör Benfords lag intressant är det faktum att den faktiskt visar sig stämma i väldigt många olika fall och för väldigt olika saker, som exempel kan nämnas prislistor, adresser och sportresultat.

Ytterliggare en intressant sak angående lagen är att den gäller oavsett vilken bas man räknar i, även om sannolikheterna givetvis ändras.

Innehåll

Matematiskt utseende

Benfords lag säger att sannolikheten för att förstasiffran är x i basen 10 (talen 0 till 9) ges av följande formel:

P(x)=\log(x+1)-\log x=\log(1-\frac{1}{x})

Om man använder formeln ovan för alla heltal mellan 0 och 9 får man följande resultat:

Sannolikhetsfördelningen enligt Benfords lag
x P
1 30.1%
2 17.6%
3 12.5%
4 9.7%
5 7.9%
6 6.7%
7 5.8%
8 5.1%
9 4.6%

Oberoende av bas

Benfords lag är sådan till naturen att oavsett vilken bas vi använder för att ange våra mätdata i så kommer resultatet att följa Benfords lag. Ett relativt enkelt exempel är att Benfords lag kommer gälla för längden av olika sträckor oavsett vilken enhet vi har valt att mäta dessa sträckor i.

Den allmänna formeln för Benfords lag, alltså formeln i basen b:

 \forall x\in\{1,...,b-1\} \qquad b\ge2
P(x)=\log_{b}(x + 1)-\log_{b}(x) = \log_{b}(1 + \frac{1}{x})

Benfords lag genom åren

Bilden illustrerar Benfords lag

Även om lagen heter Benfords lag så var den förste att uppmärksamma detta fenomen en matematiker vid namn Simon Newcomb, redan 1881 lade han märke till det fenomen som sedan Benford undersökte vidare.[1] Det Newcomb noterade var att logaritmtabeller med låga siffror var mer använda än övriga, han lade som förslag fram den formel som idag kallas Benfords lag.

Näste person att uppmärksamma denna något underliga sannolikhetsfördelning var fysikern Frank Benford. 60 år senare, 1938, visade han resultatet av en undersökning där han hade samlat listor såsom sportresultat, prislistor m.m. innehållande 20 229 olika tal. Han fann att nästan vart tredje tal började med siffran 1, mindre än vart femte tal började med siffran 2, och färre än en tjugondel av siffrorna började med siffran 9. Benfords resultat visade att Newcomb hade haft rätt i sitt antagande angående formelns utseende.

Man bör notera att varken Newcomb eller Benford bevisade de resultat de upptäckt, Benford nöjde sig med att visa att hans lag stämde för ett stort antal undersökningar. Den amerikanske matematikern Theodore Hill har bevisat Benfords lag för vissa "grupper" av statistiska siffror.

Användningsområden för Benfords lag

En logaritmisk skala. För slumpvis utvalda x längs linjen, kommer ungefär 30% av talen att börja med siffran 1 (det bredaste bandet för varje tiopotens).

Hal Varian föreslog 1972 att Benfords lag skulle kunna användas för att upptäcka skattefusk. Om man undersöker siffrorna i skattedeklarationer med mera bör man se att dessa följer Benfords lag, genom att jämföra de faktiska resultaten man får från deklarationerna med den sannolikhetsfördelning som Benfords lag visar bör gälla kan man således upptäcka eventuella skattefuskare. Detta bygger givetvis på att en skattefuskare hittar på siffror helt på måfå och att siffrorna i hans deklaration eller liknande därför är helt slumpvis fördelade.

Begränsningar för Benfords lag

Benfords lag gäller i många fall men det finns vissa gånger som den inte gäller. Det krävs nämligen att alla tal finns med som möjliga förstasiffror och att fördelningen av dem i alla fall verkar vara slumpvis, till exempel bör inte skostorlekar följa Benfords lag eftersom skostorlekar med förstasiffrorna 6, 7, 8 och 9 är väldigt sällsynta medan storlekar runt 30 och 40 är betydligt vanligare. På samma sätt fungerar det inte att mäta längden hos människor eftersom de flesta är mellan en och 2 meter långa, personer på 30 centimeter eller 3 meter är extremt sällsynta.

Man måste därför vara noga med att de data man utgår ifrån inte har uteslutit eller på annat sätt minskat sannolikheten för vissa siffror på förhand.

Se även

Referenser

  1. Simon Newcomb (1881). "Note on the frequency of use of the different digits in natural numbers". American Journal of Mathematics 4 (1/4): 39–40. DOI:10.2307/2369148.  (kräver prenumeration)
Delar av den här artikeln är hämtade från engelskspråkiga wikipedia
Personliga verktyg