Sådan læses en regressionstabel

Hvad er regression?

Regression er en af ​​de vigtigste og mest anvendte dataanalyseprocesser. Kort sagt er det en statistisk metode, der forklarer styrken af ​​forholdet mellem en afhængig variabel og en eller flere uafhængige variabler.

En afhængig variabel kan være en variabel eller et felt, du prøver at forudsige eller forstå. En uafhængig variabel kan være de felter eller datapunkter, som du tror kan have indflydelse på den afhængige variabel.

Dermed besvares det på et par vigtige spørgsmål -

  • Hvilke variabler betyder noget?
  • I hvilket omfang betyder disse variabler noget?
  • Hvor sikker er vi på disse variabler?

Lad os tage et eksempel ...

For bedre at forklare tallene i regressionstabellen troede jeg, at det ville være nyttigt at bruge et eksempeldatasæt og gå gennem tallene og deres betydning.

Jeg bruger et lille datasæt, der indeholder GRE (en test, som studerende tager for at blive overvejet for optagelse i Grad-skoler i USA) på 500 studerende og deres chance for optagelse på et universitet.

Fordi chance of admittanceafhænger af GRE score, chance of admittanceer den afhængige variabel og GRE scoreer den uafhængige variabel.

Regression linje

Tegning af en lige linje, der bedst beskriver forholdet mellem studerendes GRE-scoringer og deres chancer for optagelse, giver os den lineære regressionslinie . Dette er kendt som trendlinjen i forskellige BI-værktøjer. Den grundlæggende idé bag at tegne denne linje er at minimere afstanden mellem datapunkterne ved en given x-koordinat og y-koordinaten, gennem hvilken regressionslinjen passerer.

Regressionslinjen gør det lettere for os at repræsentere forholdet. Det er baseret på en matematisk ligning, der forbinder x-koefficienten og y-skæringen.

Y-skæring er det punkt, hvor linjen skærer y-aksen ved x = 0. Det er også den værdi, modellen vil tage eller forudsige, når x er 0.

Koefficienter giver påvirkning eller vægt af en variabel i forhold til hele modellen. Med andre ord giver den mængden af ​​ændring i den afhængige variabel for en enhedsændring i den uafhængige variabel.

Beregning af regressionslinjeligningen

For at finde ud af modelens y-skæringspunkt udvider vi regressionslinjen langt nok, indtil den skærer y-aksen ved x = 0. Dette er vores y-skæringspunkt, og det er omkring -2,5. Antallet giver måske ikke rigtig mening for det datasæt, vi arbejder på, men hensigten er kun at vise beregningen af ​​y-skæringspunktet.

Koefficienten for denne model vil bare være hældningen på regressionslinjen og kan beregnes ved at få ændringen i optagelsen i forhold til ændringen i GRE-scorer.

I eksemplet ovenfor ville koefficienten bare være

m = (y2-y1) / (x2-x1)

Og i dette tilfælde ville det være tæt på 0,01.

Formlen y = m * x + b hjælper os med at beregne den matematiske ligning af vores regressionslinie. Ved at erstatte værdierne for y-skæringspunktet og hældningen, vi fik fra at udvide regressionslinjen, kan vi formulere ligningen -

y = 0,01x - 2,48

-2,48 er en mere nøjagtig y-skæringsværdi, jeg fik fra regressionstabellen som vist senere i dette indlæg.

Denne ligning giver os mulighed for at forudsige og forudsige chancen for optagelse af en studerende, når hans / hendes GRE-score er kendt.

Nu hvor vi har det grundlæggende, lad os springe videre til at læse og fortolke en regressionstabel.

Læsning af en regressionstabel

Regressionstabellen kan groft opdeles i tre komponenter -

  • Analyse af varians (ANOVA): giver analysen af ​​variansen i modellen, som navnet antyder.
  • regressionsstatistik: Giv numerisk information om variationen, og hvor godt modellen forklarer variationen for de givne data / observationer.
  • rest output: angiver den værdi, der er forudsagt af modellen og forskellen mellem den faktisk observerede værdi af den afhængige variabel og dens forudsagte værdi af regressionsmodellen for hvert datapunkt.

Analyse af varians (ANOVA)

Grader af frihed (df)

Regression df er antallet af uafhængige variabler i vores regressionsmodel. Da vi kun betragter GRE-score i dette eksempel, er det 1.

Restdf er det samlede antal observationer (rækker) i datasættet trukket af antallet af variabler, der estimeres. I dette eksempel estimeres både GRE-score-koefficienten og konstanten.

Restdf = 500-2 = 498

Total df - er summen af ​​regression og resterende frihedsgrader, som er lig med størrelsen på datasættet minus 1.

Summen af ​​firkanter (SS)

Regression SS er den samlede variation i den afhængige variabel, der forklares med regressionsmodellen. Det er summen af ​​kvadratet af forskellen mellem den forudsagte værdi og middelværdien af ​​alle datapunkter.

∑ (ŷ - ӯ) ²

Fra ANOVA-tabellen er regression SS 6,5, og den samlede SS er 9,9, hvilket betyder, at regressionsmodellen forklarer omkring 6,5 / 9,9 (omkring 65%) af al variation i datasættet.

Rest SS - er den samlede variation i den afhængige variabel, der ikke er forklaret af regressionsmodellen. Det kaldes også Fejlsummen af ​​firkanter og er summen af ​​kvadratet af forskellen mellem de faktiske og forudsagte værdier for alle datapunkterne.

∑ (y - ŷ) ²

Fra ANOVA-tabellen er den resterende SS ca. 3,4. Generelt, jo mindre fejlen er, jo bedre forklarer regressionsmodellen variationen i datasættet, og vi vil normalt gerne minimere denne fejl.

Total SS - er summen af ​​begge, regression og resterende SS, eller hvor meget chancen for optagelse vil variere, hvis GRE-score IKKE tages i betragtning.

Gennemsnitlige kvadrerede fejl (MS) - er gennemsnittet af summen af ​​kvadrater eller summen af ​​kvadrater divideret med frihedsgraderne for begge, regression og rester.

Regression MS = ∑ (ŷ - ӯ) ² / Reg. dfResterende MS = ∑ (y - ŷ) ² / Res. df

F - bruges til at teste hypotesen om, at hældningen af ​​den uafhængige variabel er nul. Matematisk kan det også beregnes som

F = Regression MS / Rest MS

Dette beregnes ellers ved at sammenligne F-statistikken med en F-fordeling med regression df i tællergrader og resterende df i nævnningsgrader.

Betydning F - er intet andet end p-værdien for nulhypotesen om, at koefficienten for den uafhængige variabel er nul, og som med enhver p-værdi indikerer en lav p-værdi, at der er en signifikant sammenhæng mellem afhængige og uafhængige variabler.

Standardfejl - giver den anslåede standardafvigelse for fordelingen af ​​koefficienter. Det er det beløb, hvormed koefficienten varierer på tværs af forskellige tilfælde. En koefficient, der er meget større end dens standardfejl, indebærer en sandsynlighed for, at koefficienten ikke er 0.

t-Stat - er testens t-statistik eller t-værdi, og dens værdi er lig med koefficienten divideret med standardfejlen.

t-Stat = Koefficienter / Standardfejl

Igen, jo større koefficienten i forhold til standardfejlen er, jo større er t-Stat og større sandsynlighed for, at koefficienten er væk fra 0.

p-værdi - t-statistikken sammenlignes med t-fordelingen for at bestemme p-værdien. Vi betragter normalt kun p-værdien af ​​den uafhængige variabel, som giver sandsynligheden for at opnå en prøve så tæt på den, der bruges til at udlede regressionsligningen og kontrollere, om hældningen på regressionslinjen faktisk er nul, eller koefficienten er tæt på opnået koefficient.

En p-værdi under 0,05 indikerer 95% tillid til, at hældningen på regressionslinjen ikke er nul, og der er derfor en signifikant lineær sammenhæng mellem de afhængige og uafhængige variabler.

En p-værdi større end 0,05 indikerer, at hældningen på regressionslinjen kan være nul, og at der ikke er tilstrækkelig dokumentation på 95% konfidensniveau for, at der er en signifikant lineær sammenhæng mellem de afhængige og uafhængige variabler.

Da p-værdien af ​​den uafhængige variabel GRE-score er meget tæt på 0, kan vi være meget sikre på, at der er en signifikant lineær sammenhæng mellem GRE-scoringer og chancen for optagelse.

Nedre og øvre 95% - Da vi for det meste bruger en stikprøve af data til at estimere regressionslinien og dens koefficienter, er de for det meste en tilnærmelse af de sande koefficienter og til gengæld den sande regressionslinje. De nedre og øvre 95% grænser giver det 95. konfidensinterval for nedre og øvre grænser for hver koefficient.

Da 95% konfidensintervallet for GRE-scoringer er 0,009 og 0,01, indeholder grænserne ikke nul og så, kan vi være 95% sikre på, at der er en signifikant lineær sammenhæng mellem GRE-scoringer og chancen for optagelse.

Bemærk, at et konfidensniveau på 95% er meget udbredt, men et andet niveau end 95% er muligt og kan indstilles under regressionsanalyse.

Regressionsstatistik

R² (R Square) - repræsenterer styrken af ​​en model. Det viser mængden af ​​variation i den afhængige variabel, som den uafhængige variabel forklarer og ligger altid mellem værdierne 0 og 1. Når R² øges, forklares mere variation i dataene af modellen og bedre bliver modellen ved forudsigelse. En lav R² vil indikere, at modellen ikke passer godt til dataene, og at en uafhængig variabel ikke forklarer variationen i den afhængige variabel godt.

R² = Regression Sum af kvadrater / Total sum af kvadrater

R-kvadrat kan imidlertid ikke bestemme, om koefficientestimaterne og forudsigelserne er forudindtaget, hvorfor du skal vurdere de resterende plots, som diskuteres senere i denne artikel.

R-firkant angiver heller ikke, om en regressionsmodel er tilstrækkelig. Du kan have en lav R-kvadratværdi for en god model eller en høj R-kvadratværdi for en model, der ikke passer til dataene.

R² er i dette tilfælde 65%, hvilket betyder, at GRE-scorerne kan forklare 65% af variationen i chancen for optagelse.

Justeret R² - er R2 ganget med en justeringsfaktor. Dette bruges, når man sammenligner forskellige regressionsmodeller med forskellige uafhængige variabler. Dette nummer er praktisk, når man beslutter om de rigtige uafhængige variabler i flere regressionsmodeller.

Multiple R - er den positive kvadratrod af R²

Standardfejl - adskiller sig fra koefficienternes standardfejl. Dette er den estimerede standardafvigelse for regressionsligningens fejl og er et godt mål for nøjagtigheden af ​​regressionslinjen. Det er kvadratroden af ​​de resterende middelkvadratiske fejl.

Std. Fejl = √ (Res.MS)

Restproduktion

Rester er forskellen mellem den aktuelle værdi og den forudsagte værdi af regressionsmodellen, og restoutput er den forudsagte værdi af den afhængige variabel ved regressionsmodellen og den rest for hvert datapunkt.

Og som navnet antyder, er et restdiagram et spredningsdiagram mellem den resterende og den uafhængige variabel, hvilket i dette tilfælde er GRE-scoren for hver elev.

Et restplot er vigtigt for at detektere ting som heteroscedasticitet , ikke-linearitet og outliers . Processen med at detektere dem diskuteres ikke som en del af denne artikel, men det faktum, at det resterende plot for vores eksempel har data spredt tilfældigt, hjælper os med at fastslå, at forholdet mellem variablerne i denne model er lineært.

Hensigt

Hensigten med denne artikel er ikke at opbygge en fungerende regressionsmodel, men at give en gennemgang af alle regressionsvariabler og deres betydning, når det er nødvendigt, med et eksempeldatasæt i en regressionstabel.

Selvom denne artikel giver en forklaring med en enkelt variabel lineær regression som et eksempel, skal du være opmærksom på, at nogle af disse variabler kan have større betydning i tilfælde af multivariabel eller andre situationer.

Referencer

  • Graduate Admissions Dataset
  • 10 ting ved at læse en regressionstabel
  • En opdatering på regressionsanalyse