68-95-99 Regel - Normalfordeling forklaret på almindeligt engelsk

Mød Mason. Han er en gennemsnitlig amerikansk 40-årig: 5 fod 10 inches høj og tjener $ 47.000 om året før skat.

Hvor ofte forventer du at møde nogen, der tjener 10 gange så meget som Mason?

Og nu, hvor ofte ville du forvente at møde en person, der er 10 gange så høj som Mason?

Dine svar på de to spørgsmål ovenfor er forskellige, fordi fordelingen af ​​data er forskellig. I nogle tilfælde er 10 gange over gennemsnittet almindeligt. Mens det er i andre, er det slet ikke almindeligt.

Så hvad er normale fordelinger?

I dag er vi interesserede i normale distributioner. De er repræsenteret af en klokkekurve: de har en top i midten, der smalner mod hver kant. En masse ting følger denne fordeling, som din højde, vægt og IQ.

Denne distribution er spændende, fordi den er symmetrisk - hvilket gør det nemt at arbejde med. Du kan reducere masser af kompliceret matematik ned til et par tommelfingerregler, fordi du ikke behøver at bekymre dig om underlige kantsager.

For eksempel deler toppen altid fordelingen i halvdelen. Der er lige masse før og efter toppen.

En anden vigtig egenskab er, at vi ikke har brug for meget information for at beskrive en normalfordeling.

Faktisk har vi kun brug for to ting:

  1. Middelværdien. De fleste kalder dette bare "gennemsnittet". Det er hvad du får, hvis du sammenlægger værdien af ​​alle dine observationer og derefter dividerer dette antal med antallet af observationer. For eksempel er gennemsnittet af disse tre tal:1, 2, 3 = (1 + 2 + 3) / 3 = 2
  2. Og standardafvigelsen. Dette fortæller dig, hvor sjælden en observation ville være. De fleste observationer falder inden for en standardafvigelse af middelværdien. Færre observationer er to standardafvigelser fra gennemsnittet. Og endnu færre er tre standardafvigelser væk (eller længere).

Sammen udgør middelværdien og standardafvigelsen alt hvad du behøver at vide om en distribution.

68-95-99 reglen

68-95-99-reglen er baseret på middelværdien og standardafvigelsen. Det siger:

68% af befolkningen er inden for 1 standardafvigelse fra gennemsnittet.

95% af befolkningen er inden for 2 standardafvigelser fra gennemsnittet.

99,7% af befolkningen er inden for 3 standardafvigelser fra gennemsnittet.

Sådan beregnes normale fordelinger

For at fortsætte vores eksempel er den gennemsnitlige amerikanske mandlige højde 5 fod 10 tommer med en standardafvigelse på 4 tommer. Det betyder:

Nu til den sjove del: Lad os anvende det, vi lige har lært.

Hvad er chancen for at se nogen med en højde mellem 5 fod 10 tommer og 6 fod 2 tommer? (Det vil sige mellem 70 og 74 tommer.)

Det er 34%! Vi udnytter begge egenskaberne: fordelingen er symmetrisk, hvilket betyder chancer for (66-70) tommer og (70-74) tommer er begge 68/2 = 34%.

Lad os prøve en hårdere. Hvad er chancen for at se nogen med en højde mellem 62 og 66 inches?

Det er (95-68) / 2 = 13,5%. Begge ydre kanter har samme%.

Og nu din sidste (og sværeste test): Hvad er chancen for at se nogen med en højde på mere end 82 tommer?

Her bruger vi også den endelige egenskab: alt skal summe til 100%. Så de ydre kanter (dvs. højder under 58 og højder over 82) udgør sammen (100% - 99,7%) = 0,3%.

Husk, du kan anvende dette på enhver normalfordeling. Prøv at gøre det samme for kvindelige højder: gennemsnittet er 65 tommer, og standardafvigelsen er 3,5 tommer.

Så chancen for at se nogen med en højde mellem 65 og 68,5 tommer ville være: ___.

...

...

34%! Det er nøjagtigt det samme som vores første eksempel. Det er +1 standardafvigelse.

Konklusion

At kende denne regel gør det meget let at kalibrere dine sanser. Da alt hvad vi har brug for for at beskrive enhver normalfordeling er middelværdien og standardafvigelsen, gælder denne regel for enhver normalfordeling i verden!

Den udfordrende del er faktisk at finde ud af, om fordelingen er normal eller ej.

Vil du lære mere om at kalibrere dine sanser og tænke kritisk? Tjek Bayes sætning: En ramme for kritisk tænkning.