Hvad er statistisk betydning? P-værdi defineret og hvordan man beregner det

P-værdier er et af de mest anvendte begreber i statistisk analyse. De bruges af forskere, analytikere og statistikere til at få indsigt i data og træffe informerede beslutninger.

Sammen med statistisk betydning er de også et af de mest misbrugte og misforståede begreber i statistisk analyse.

Denne artikel forklarer:

  • hvordan en P-værdi bruges til at udlede statistisk signifikans
  • hvordan P-værdier beregnes
  • og hvordan man undgår nogle almindelige misforståelser

Resumé: Hypotesetest

Hypotesetest er en standard tilgang til at få indsigt fra data. Det bruges i næsten alle kvantitative discipliner og har en rig historie, der går tilbage i hundrede år.

Den sædvanlige tilgang til hypotesetest er at definere et spørgsmål med de variabler, du er interesseret i. Derefter kan du danne to modsatte hypoteser for at besvare det.

  • Den nulhypotesen hævder, at der ikke er nogen statistisk signifikant sammenhæng mellem variablerne
  • Den alternative hypotese hævder, at der er en statistisk signifikant sammenhæng mellem variablerne

Sig for eksempel, at du tester, om koffein påvirker programmeringens produktivitet. Der er to variabler, du er interesseret i - dosis af koffein og produktiviteten for en gruppe softwareudviklere.

Den nulhypotesen ville være:

  • "Koffeinindtag har ingen signifikant effekt på programmeringens produktivitet".

Den alternative hypotese ville være:

  • "Indtagelse af koffein har en betydelig effekt på produktiviteten".

Ordet 'signifikant' har en meget specifik betydning her. Det refererer til et forhold mellem eksisterende variabler på grund af noget mere end tilfældet alene .

I stedet eksisterer forholdet (i det mindste delvist) på grund af 'reelle' forskelle eller effekter mellem variablerne.

Det næste trin er at indsamle nogle data for at teste hypoteserne. Dette kan samles fra et eksperiment eller en undersøgelse eller fra et sæt data, du har adgang til.

Det sidste trin er at beregne en teststatistik ud fra dataene. Dette er et enkelt nummer, der repræsenterer nogle karakteristiske træk ved dine data. Eksempler inkluderer t-test, Chi-squared test og Kruskal-Wallis test - blandt mange andre.

Præcis hvilken der skal beregnes, afhænger af det spørgsmål, du stiller, strukturen af ​​dine data og fordelingen af ​​dine data.

Her er et praktisk cheatsheet til din reference.

I koffeineksemplet kan en passende test være en to-prøve t-test.

Du ender med en enkelt teststatistik fra dine data. Alt der er tilbage at gøre er at fortolke dette resultat for at afgøre, om det understøtter eller afviser nulhypotesen.

Det er her, P-værdier kommer i spil.

Hvor usandsynligt er denne statistik?

Husk, at du har beregnet en teststatistik, der repræsenterer noget kendetegn ved dine data. Du vil forstå, om det understøtter eller afviser nulhypotesen.

Den valgte tilgang er at antage, at nulhypotesen er sand. Antag, at der ikke er nogen signifikante sammenhænge mellem de variabler, du er interesseret i.

Se derefter på de data, du har indsamlet. Hvor sandsynligt ville din teststatistik være, hvis nulhypotesen virkelig er sand?

Lad os henvise til eksemplet med koffeinindtag fra før.

  • Sig, at produktivitetsniveauerne blev delt jævnt mellem udviklere, uanset om de drak koffein eller ej (graf A). Dette resultat vil sandsynligvis forekomme tilfældigt, hvis nulhypotesen var sand.
  • Antag dog, at næsten al den højeste produktivitet blev set hos udviklere, der drak koffein (graf B). Dette er et mere 'ekstremt' resultat og ville sandsynligvis ikke forekomme tilfældigt, hvis nulhypotesen var sand.

Men hvor 'ekstremt' skal et resultat være, før det anses for usandsynligt, at det understøtter nulhypotesen?

Dette er hvad en P-værdi lader dig estimere. Det giver et numerisk svar på spørgsmålet: "hvis nulhypotesen er sand, hvad er sandsynligheden for, at resultatet bliver dette ekstreme eller mere ekstreme?"

P-værdier er sandsynligheder, så de er altid mellem 0 og 1.

  • En høj P-værdi indikerer, at de observerede resultater sandsynligvis vil forekomme tilfældigt under nulhypotesen.
  • En lav P-værdi indikerer, at resultaterne er mindre tilbøjelige til at forekomme tilfældigt under nulhypotesen.

Normalt vælges en tærskel for at bestemme statistisk signifikans. Denne tærskel betegnes ofte α.

Hvis P-værdien er under tærsklen , er dine resultater ' statistisk signifikante '. Dette betyder, at du kan afvise nulhypotesen (og acceptere den alternative hypotese).

Der er ingen tærskel, der passer til alle, der passer til alle applikationer. Normalt anvendes en vilkårlig tærskel, der passer til konteksten.

For eksempel inden for områder som økologi og evolution er det vanskeligt at kontrollere eksperimentelle forhold, fordi mange faktorer kan påvirke resultatet. Det kan også være svært at indsamle meget store prøvestørrelser. I disse felter vil en tærskel på 0,05 ofte blive brugt.

I andre sammenhænge som fysik og teknik vil en tærskel på 0,01 eller endnu lavere være mere passende.

Chi-kvadrat eksempel

I dette eksempel er der to (fiktive) variabler: region og medlemskab af det politiske parti. Det bruger Chi-squared-testen for at se, om der er et forhold mellem region og politisk partimedlemskab.

Du kan ændre antallet af medlemmer for hver part.

  • Nul hypotese: "der er ingen signifikant sammenhæng mellem region og politisk partimedlemskab"
  • Alternativ hypotese: "der er en signifikant sammenhæng mellem region og medlemskab af politisk parti"

Tryk på "genkørsel" -knappen for at prøve forskellige scenarier.

Almindelige misforståelser og hvordan man undgår dem

Der er flere fejl, som selv erfarne praktikere ofte laver om brugen af ​​P-værdier og hypotesetest. Dette afsnit har til formål at rydde dem op.

Null Nulhypotesen er uinteressant - hvis dataene er gode, og analysen udføres rigtigt, er det en gyldig konklusion i sig selv.

Et spørgsmål, der er værd at besvare, skal have et interessant svar - uanset resultatet.

P-værdi er sandsynligheden for, at nulhypotesen er sand - en P-værdi repræsenterer "sandsynligheden for resultaterne, idet nulhypotesen er sand". Dette er ikke det samme som "sandsynligheden for, at nulhypotesen er sand, givet resultaterne".

P (data | hypotese) ≠ P (hypotese | data)

Dette betyder, at en lav P-værdi fortæller dig: "hvis nulhypotesen er sand, er disse resultater usandsynlige". Det behøver ikke fortælle dig: "Hvis disse resultater er sande, nulhypotesen er usandsynligt".

Du kan bruge den samme signifikansgrænse til flere sammenligninger - husk definitionen af ​​P-værdien. Det er sandsynligheden for at overholde en bestemt teststatistik tilfældigt alene.

Hvis du bruger en tærskel på α = 0,05 (eller 1-i-20), og du udfører, siger, 20 statistiske tests ... kan du ved en tilfældighed alene forvente at finde en lav P-værdi.

Du skal bruge en lavere tærskel, hvis du foretager flere sammenligninger. Der er korrektionsmetoder, der giver dig mulighed for at beregne, hvor meget lavere tærsklen skal være.

Betydningstærsklen betyder overhovedet alt - den er helt vilkårlig. 0,05 er bare en konvention. Forskellen mellem p = 0,049 og p = 0,051 er stort set den samme som mellem p = 0,039 og p = 0,041.

Dette er en af ​​de største svagheder ved hypotesetest på denne måde. Det tvinger dig til at tegne en streg i sandet, selvom ingen streg let kan trækkes.

Consider Overvej derfor altid betydningstærskler for hvad de er - helt vilkårlige.

Statistisk betydning betyder, at tilfældighed ikke spiller nogen rolle - langt fra den. Ofte er der mange årsager til et givet resultat. Nogle vil være tilfældige, andre mindre.

At finde en ikke-tilfældig årsag betyder ikke, at det forklarer alle forskellene mellem dine variabler. Det er vigtigt ikke at fejle statistisk signifikans med "effektstørrelse".

P-værdier er den eneste måde at bestemme statistisk signifikans på - der er andre tilgange, som nogle gange er bedre.

Ud over klassisk hypotesetest skal du overveje andre tilgange - såsom at bruge Bayes-faktorer eller False Positive Risk i stedet.