Hvorfor korrelation ikke indebærer årsag - betydningen af ​​denne almindelige ordsprog i statistikker

Du husker måske dette enkle mantra fra din statistikklasse:

"Korrelation betyder ikke årsagssammenhæng."

Så måske tror du, du ved, hvad denne sætning betyder.

Som hvis du studerede virkelig hårdt i statistik, fik en god karakter og derefter gik på college, må det betyde at du kom på college, fordi du gik til statistikklassen.

Mens denne karakter sammen med de færdigheder, du lærte, sandsynligvis hjalp, kan du ikke ignorere de andre faktorer, der spilles - og kan sandsynligvis ikke argumentere for, at din statistikkarakter var årsagen til din accept på college.

Første ting først - hvorfor fejler vi sammenhæng med årsagssammenhæng?

Det er let at tænke, at bare fordi to ting virker beslægtede, må den ene være årsagen til den anden. Men det kan være en tåbelig og undertiden farlig antagelse.

Antag for eksempel, at du prøver at finde ud af, hvad der gør folk mindre grinede. Du udfører en undersøgelse, der finder ud af, at når folk får mindst x timers søvn om natten, er de mindre grinede.

Men har du taget alle faktorer i betragtning her? Måske begyndte de også at træne mere som en konsekvens af at være udhvilet, og det var det, der ændrede deres humør.

Ikke alle eksempler er ret så godartede - og nogle er ligefrem meningsløse.

For at illustrere, hvor vildledende det kan være at antage, at sammenhæng indebærer årsagssammenhæng, skal du se på følgende graf fra Tyler Vigens Spurious Correlations:

Mens der tilfældigvis er en stærk sammenhæng mellem disse to faktorer, tvivler jeg på, at du effektivt kunne argumentere for, at den ene forårsagede den anden. Måske vil dette være en udfordring for folk at prøve at bevise.

Her er en anden perle fra Tylers samling:

Se på den smukke sammenhæng. Men du ville være hårdt presset for at argumentere for, at bare fordi nogen spiste mere ost, ville de være mere tilbøjelige til at fange sig selv i deres lagner.

Hvad er sammenhæng i statistikker?

Ifølge ordbogen er en sammenhæng et gensidigt forhold eller en forbindelse mellem to eller flere ting (eller variabler) - især en, der ikke forventes på baggrund af tilfældighed alene.

Lad os bruge det i en sætning: Den enorme størrelse af mine hjemmelavede tomater ser ud til at korrelere med den ekstra regn, vi havde i sommer.

Nu antager jeg her, at fordi det regnede lidt mere end normalt, blev mine tomatplanter nødder og producerede monstertomater.

Men er det den eneste faktor? Hvad med den næringsrige kompost, jeg brugte i mine hævede senge? Hvad med kvaliteten af ​​de planter, jeg købte fra planteskolen? Hvad med min omhyggelige beskæring og pleje?

Som du kan se, selv om der er sammenhæng mellem mine store tomater og vores regnfulde sommer, betyder det ikke nødvendigvis årsagssammenhæng.

Hvad er årsagssammenhæng i statistikker?

Tid til en anden definition. Årsag er ifølge ordbogen den handling eller agentur, der producerer en effekt.

Lad os blive lidt mere specifikke. Årsag betyder, at der er et forhold mellem to begivenheder, hvor den ene begivenhed påvirker den anden. I statistikker, når værdien af ​​en begivenhed - eller variabel - går op eller ned på grund af en anden begivenhed eller variabel, kan vi sige, at der var årsagssammenhæng. A fik B til at ske.

Hvad med et eksempel på denne? Måske freelance du for et magasin, der betaler efter ordet. Jo længere historien (og jo flere ord den indeholder), jo mere får du betalt.

Så der er en direkte sammenhæng mellem hvor mange ord du skriver og hvor meget du får betalt. Men der er også årsagssammenhæng (fordi du skrev mere, fik du mere betaling).

Hvorfor er det så let at få dette forkert?

Hvorfor er det så let at tro, at sammenhæng indebærer årsagssammenhæng? Nå, hvis to ting virker beslægtede, har vi en tendens til at forbinde dem og antage, at de påvirker hinanden. Når vejret er koldt, bruger folk mere tid indeni. Rundt om ferien er indkøbscentre pakket. Når du tager noget ibuprofen, forsvinder din hovedpine.

Mens disse omstændigheder bestemt er beslægtede - og nogle måske endda antyder årsagssammenhæng - står de ikke nødvendigvis op til videnskabelig analyse.

Der er et par grunde til, at vi fejlagtigt kan udlede årsagssammenhæng fra sammenhæng.

Hvad er en forvirrende variabel?

Først og fremmest har du måske en forvirrende variabel i blandingen. Dette er en variabel, der påvirker både de uafhængige og afhængige variabler i dit forhold - og så forvirrer din evne til at bestemme arten af ​​det forhold.

For eksempel, hvis en ny familie flytter ind i et kvarter, og kriminaliteten stiger, kan beboerne i dette område antage, at det er på grund af den nye familie. Men hvad hvis der samtidig blev åbnet et tilbageholdelsescenter i nærheden? Det er den mest sandsynlige årsag til den øgede kriminalitet.

Hvad er omvendt årsag?

For det andet har du måske at gøre med omvendt årsagssammenhæng . Dette sker, når du i stedet for korrekt antager, at A forårsager B, får dem blandet og antager, at B forårsager A.

Det kan være svært at forestille sig, hvordan dette sker, men tænk på, hvordan solpaneler fungerer. De producerer mere kraft, når solen er længere på himlen.

Men solen er ikke længere på himlen, fordi panelerne producerer mere kraft. Panelerne producerer mere kraft, fordi solen skinner i længere perioder.

Hvad er en tilfældighed?

For det tredje må vi ikke glemme tilfældighedens kraft . Når der sker to ting på samme tid, er det fristende at se årsagssammenhæng. Men ligesom den dumme graf ovenfor, med arkaderne og CS-graderne, er mange bare tilfældigheder.

I sidste ende - hvorfor er vi ligeglade?

Måske forsøger du at finde ud af, om et bestemt nyt lægemiddel får patienterne til at føle sig bedre. Eller du vil gerne vide, hvad der får folk til at købe et bestemt produkt.

Uanset din motivation er det ofte meget nyttigt at finde ud af, om A forårsager B sammen med hvordan og hvorfor.

Men som vi har set, er det ikke så let. Du er nødt til at kontrollere så mange faktorer som muligt, reducere sandsynligheden for forvirrende variabler og sammenfald og parere dataene til det, der er relevant.

Vi kommer ikke ind på det dybere filosofiske spørgsmål om, hvordan vi virkelig kan etablere årsagssammenhæng uden tvivl. Det er for en anden gang.

I det mindste ved du nu, at - selvom to begivenheder eller variabler kan virke beslægtede - betyder det ikke, at den ene har en direkte kausal indflydelse på den anden.