<<< S53_Benford
>>>

Benford: niet alle cijfers komen even vaak voor!

Ieder getal bestaat uit cijfers. Als je de cijfers telt in een groot aantal verschillende getallen zullen alle cijfers 1 tot en met 9 ongeveer even vaak voorkomen. Het cijfer 0 (nul) komt bij de natuurlijke getallen natuurlijk iets minder vaak voor, omdat een van nul verschillend getal niet met een nul kan beginnen. De rest van dit verhaal gaat over de frequentie van het eerste cijfer van een groot aantal getallen. Cijfers die niet vooraan staan komen gemiddeld even vaak voor en zijn in dit verband niet interessant.
Tot zover is er nog niets schokkends gebeurd. Het is niet te geloven dat er aan dit ogenschijnlijk flauwe onderwerp nog iets zinnigs valt te beleven. Toch is dat wel zo. In het oude Binas boekje dat in mijn boekenkast staat vond ik de gegevens van een aantal diersoorten. In tabel nummer 86 staan daar 279 getallen (als ik de laatste kolom gemiddeld aantal eieren of jongen even weglaat). Ik telde op die bladzijden het aantal getallen dat met een "significante" 1 begint, dat zijn er 88. Significant wil zeggen dat een nul als eerste cijfer van een getal niet meetelt. Zo is het significante eerste cijfer van 427 en van 0,00427 in beide gevallen een 4. Aangezien er 9 mogelijkheden zijn voor het eerste cijfer van een willekeurig getal en deze mogelijkheden even waarschijnlijk zijn (schijnen te zijn) zou je verwachten dat in deze tabel ongeveer 279/9 = 31 van die getallen met een 1 beginnen en niet 88. Een enorm verschil tussen waarneming en verwachting! De voorlopige conclusie is dat niet alle negen cijfers even vaak voorkomen aan het begin van een getal. In deze kleine steekproef uit de Binas is het percentage enen 88/279 maar liefst 31.5 procent.Voor je het weet ben je hiermee verzeild in een onderzoek naar een uiterst merkwaardig en haast onverklaarbaar verschijnsel. De astronoom Simon Newcombe deed een zelfde onderzoek in 1881 nadat hij opgemerkt had dat tabellenboeken meer versleten waren op bladzijden met een laag begincijfer. Frank Benford verrichtte in 1938 opnieuw een uitgebreid onderzoek en vond een wetmatigheid die bekend staat als de wet van Benford (Benford's Law).
Wat is het verschil tussen het soort getalverzamelingen in de Binas tabellen en in Benfords tabellen enerzijds en een "gewone" random getalverzameling? De Benfords getallen zijn gekozen, samengeraapt, uit verschillende categorieën; het zijn getallen die elk een verschillende waarschijnlijkheid hebben. Neem het voorbeeld van de huisnummers uit een telefoonboek. Niet alle straten zijn even lang, duidelijk is dat er maar zeer weinig huisnummers voorkomen boven de 1000, terwijl een huisnummer als 12 daarentegen erg vaak voor zal komen. En daar zit 'm de kneep. De kans op een groot getal moet kleiner zijn dan de kans op een klein getal.

De wet van Benford kan gesimuleerd worden door uit te gaan van verzamelingen randomgetallen met randomgrenzen, zie voor een toelichting de helpbestanden van ORSTAT (het in deze huispagina gelinkte VU programma dat gratis te downloaden is). In het programma BENFORD2 is dat gebeurd:

De formule die hier bij hoort voor de kans P(b) op een begincijfer b, is:
P(b) = log (1+1/b)
met 10 als grondtal van de logaritme.