Chi square test i r

Chi square test i r
“Chi-square-testen er en aritmetisk test som skaper en sammenligning mellom observerte og forventede utfall. Målet med denne testen er å finne ut om et avvik mellom faktiske og forutsagte data er et resultat av tilfeldigheter eller om det er på grunn av en kobling mellom variablene du jobber på. Som et resultat er en chi-square test et enestående alternativ for å hjelpe oss med bedre forståelse.

Derfor er en chi-square-test et enestående alternativ for å hjelpe oss med bedre forståelse, samt evaluere koblingen mellom de to kategoriske variablene. Begge variablene må komme fra en lignende populasjon og være kategoriske; Disse variablene blir deretter klassifisert som ja/nei, mann/kvinne, rød/grønn og så videre.

Når du evaluerer tallene og tellingene av kategoriserte svar blant flere uavhengige grupper, er chi-square-testen gunstig.”

Chi-square test i r

Når testen er fullført, er utfallet en "p" -verdi, som du bruker for å avgjøre om hypotesen din om uavhengighet er riktig eller ikke. "P" -nummeret representerer ganske enkelt sannsynligheten for at variablene dine er uavhengige.

Hvis “P” -verdien er mer enn 0.05, er sannsynligheten for uavhengighet ganske sterk og tilstrekkelig til å bestemme at faktorene ikke er relatert. På den annen side noe mindre enn 0.05, derimot, betegner en ubetydelig sjanse for uavhengighet, og det er en høy kobling mellom faktorene.

Du spør kanskje hvorfor 0.05 og ikke noen annen mengde. Dette tallet ble utviklet av statistiske forskere og er omfattende vedtatt bare fordi 0.05 brukes ofte som et avgjørende sted.

For å oppsummere hva som er blitt sagt ovenfor:

H0: Variablene er ikke assosiert med hverandre, og det er ingen sammenheng mellom dem.

H1: Variablene er assosiert med hverandre.

R -programmering gir oss en “Chisq.test()" Funksjon for å utføre chi-square testing og evaluere om det eksisterer noe sammenheng mellom begge variablene til de oppgitte dataene.

Chi-square-testingen fungerer i R ved hjelp av følgende syntaks:

# Chisq.Test (V1, V2)

Denne artikkelen vil lære deg hvordan du skal kjøre og forstå chi-square-testen i R med eksemplene gitt nedenfor.

Eksempel 1

Vi starter implementeringen av chi-square-testen med det enkleste og grunnleggende eksemplet.

I det første trinnet brukte vi funksjonen “RM ()” for å fjerne alle unødvendige objekter i tilfelle de allerede eksisterer. Nå starter hovedkoden. Vi har laget to objektvariabler; “X_Actual” og “X_Predict.”Tildel“ x_aktuell ”en liste over faktiske verdier ved å bruke“ c () ”-funksjonen i r. Mens du tildeler "X_Predict" en liste over forutsagte verdier. Ringer nå “Chisq.test () ”funksjon og passere både faktiske og forutsagte verdier som en parameter av den. Ved å bruke "Chi" -objektet som er lagret, er verdiene til chi-square-testen. Uttalelsen “Print ()” vil ganske enkelt skrive ut chi-square testresultatet.

Før vi tolker resultatet av chi-square-testen, la oss introdusere deg for noen terminologier som vil bli brukt i chi-square testresultatet.

“DF” er verdiene som står fritt til å endre seg fra de medfølgende variablene.

“X-Squared” er den vilkårlige variabelen i chi-square-testen som illustrerer gjennomsnittet av variabelenes observerte VS. forventede frekvens teller.

“P-verdi” uttrykker prøvenes utsikter.

Hvis p-verdien er mindre enn signifikansverdien, som er 0.05 Vanligvis kan vi tolke chi-square-testen. I så fall eliminerer vi nullhypotesen og erklærer at det eksisterer en sammenheng mellom de to variablene. Med andre ord, en variabel kan belyse den andre.

P-verdien i vårt scenario er større enn den uttalte betydningsverdien (0.05). Til syvende og sist aksepterer vi nullhypotese og antar at variablene er autonome for hverandre.

Eksempel nr. 2

I dette eksemplet vil vi bruke et innebygd datasett levert av R-basen og utføre en chi-square test på det. Datasettet vi skal bruke er “Kikervekt.”Det gir oss data om vekten av kyllinger basert på kostholdet og perioden etter fødselen.

Vi gjennomfører denne testen for å se om det er noe forhold mellom kyllingenes kosthold og kyllingens vekt. Rs innebygde funksjon “Chisq.test () ”elegant gir deg alt du trenger å vite om variablene uavhengighet i et datasett for å avgjøre om de er tilknyttet eller ikke.

Vi begynner med å importere datasettet til r.

Resultatet av chi-square-testene i bildet nedenfor viser at verdien “p-verdi” for denne testen er større enn den signifikante “p-verdien” som er 0.05, som indikerer at kyllingens vekt er uavhengig av kostholdet. Selv om dette kan virke rart med det første siden hver kyllings vekt bør bestemmes av hva kyllingen bruker. Skjønt, dette er kanskje ikke tilfelle i denne illustrasjonen.

Nå vil vi sammenligne vekten med en annen variabel, som er "tid.”Denne variabelen beregner hvor lenge den har gått helt siden kyllingen ble født.

I dette kodesegmentet erstattet vi nettopp "Kosthold" -kolonnen med "Time" -kolonnen, da vi nå sammenligner kyllinger som klekkes tid til vekten for Chi-square-testen.

I den resulterende chi-square-testen kan verdien av “P” sees, som er veldig liten. Det betyr at det er en sterk sammenheng mellom tiden fra kyllingene ble født og vekten av kyllingene. Dette betyr at de begynner å gå opp i vekt når de blir eldre.

Konklusjon

Dagens artikkel dreier seg om emnet for chi-square-testen i r. I introduksjonsdelen forklarte vi chi-square-testen, hvorfor den gjennomføres og hvordan den utføres. Vi diskuterte hele bare konsepter som er inkludert i dette emnet. Etter det utførte vi 2 praktiske kodingseksempler i RStudio i Ubuntu 20.04. Vårt første eksempel vil hjelpe deg å utføre en chi-square test på brukerdefinerte variabler, mens de 2nd Eksempelet utføres ved hjelp av den innebygde DataFrame fra R-basen. Vi forventer at dette forfatterskapet vil lette deg i å gjennomføre chi-square-testen i R-programmering.