Scipy chi-square

Scipy chi-square
Python er et kjent programmeringsspråk på høyt ytelse på høy ytelse som tillater forskjellige ingeniørfag, tekniske, objektorienterte og matematiske funksjoner og operasjoner. Python gir mange biblioteker for sine brukere, og et av de mest anerkjente programmeringsspråkene og open source-programmeringsspråk er “Scipy”. Scipy Library inneholder informasjon og bruker driften på forskjellige maskinlæringsmetoder e.g., Maskinlæringsalgoritmer og optimisatorene som vi bruker i kunstig intelligente systemer. Vi bruker en modul chi-square fra Scipy-biblioteket for å ta ut den forskjellige testen for kategoriske data.

Fremgangsmåte

I artikkelen vil vi bruke chi-square-funksjonen fra Scipy-biblioteket og vil ta ut flere tester for dataene. Informasjonen om bruken av denne funksjonen i Python -skriptet vil også bli diskutert og brukt på forskjellige eksempler i denne artikkelen.

Syntaks

Siden vi skal utføre de to testene for å se etter forholdet mellom variablene ved hjelp av chi-square-metoden, vil vi diskutere de to forskjellige syntaksene for denne funksjonen.

Chi Square Test -> $ Chisquare (F_OBS, DDOF = 1, F_EXP = ingen, Axis = 1)

Chi Square Independence Test -> $ chi2_contingency (observert, lambda_ = ingen korreksjon = falsk)

Returverdi

Denne funksjonen returnerer P-verdien og Chi Square teststatistikkverdien i sin produksjon.

Eksempel nr. 01

Vi vil gjennomføre den første testen ved hjelp av chi -plassen som vi har diskutert i syntaks som chi_square -testen. Denne testen forteller oss om forholdet mellom de kategoriske variablene. Denne funksjonen bruker attributtet “statistikk” -modul fra Scipy. Statistikk Beregn testen der vi må anta en nullhypotese og Chi Square -testene denne nullhypotesen om dataene inneholder de spesifiserte frekvensene eller ikke. Det tar de observerte og de forventede frekvensene som dens parametere, og hvis disse to frekvensene er mindre enn eller ikke minst "fem", blir testen ansett som ugyldig.

Vi vil utføre den samme testen i eksemplet, kompilatoren som vi vil bruke for å implementere eksemplet er "Google Collab" som fungerer som en åpen kildekompilator. Det kjører programmet uten noen avdrag av bibliotekpakkene siden det allerede har de installerte pakkene i seg. Etter å ha åpnet kompilatoren, lag bare et prosjekt med et unikt navn og deretter flytte til neste trinn der vi vil importere bibliotekpakkene for å kjøre Chi Square -testen.

Chi Square -testen er gitt i Python Scipy Statistikk -modulen, slik at vi importerer "statistikken" fra scipy til prosjektet vårt. Når vi har importert dette biblioteket, vil vi definere en matrise som har elementene som frekvensene minst større eller lik fem. Så vi kommer til å definere matrisen med navnet "Array" med de observerte frekvensene som "[3, 4, 6, 8, 10, 2]". Etter å ha opprettet denne matrisen, vil vi kalle Chi Square -funksjonen med prefikset "Statistikk" som "Statistikk. Chisquare () ”. Til inngangsargumentet til denne funksjonen, vil vi passere matrisen som er F_OBS (observert frekvens) Parameteren til Chi Square -funksjonen.

Etter å ha kjørt koden som er nevnt i utdraget nedenfor, vil vi få utdataene som Chi Square-statistikken og P-verdien. Denne Chisquare -testen vil være gyldig siden vi har definert minst fem observerte frekvenser i parameteren for denne funksjonen.

fra scipy importstatistikk
Array = [3,4,8,10,12]
statistikk.Chisquare (Array)

Eksempel # 02

Chi Square -funksjonen har en annen test for de kategoriske variablene med navnet “Chi_square -testen for uavhengigheten”. Nå er denne testen litt forskjellig fra chi-square-testen som vi har diskutert i eksemplet ovenfor, siden denne testen sjekker ut hvis det eksisterer noen signifikant sammenheng mellom de to variablene i den kategoriske klassen. For denne testen bruker CHI_Square statistikkmodulens funksjon “Chisquare Beredskap” fra Python Scipy. Testen utføres for å vise om variablene er uavhengige av hverandre eller ikke. For å jobbe med denne funksjonen, la oss lage en ny matrise. For å opprette og definere denne nye matrisen, må vi importere Numpy med navnet "NP" slik at vi kan ringe "NP" i koden senere i stedet for Numpy.

En annen viktig bibliotekpakke som må importeres for riktig arbeid av Chi Square beredskapstest er "statistikken". Vi vil importere statistikkmodulen fra Scipy -biblioteket fra Python -språket. Med vellykket import av de nødvendige bibliotekene for prosjektet eller Chi Square Independence -testen, i neste trinn, vil vi definere en matrise med navnet "obs_array". Vi vil bruke “NP. Array () ”-metode for å lage denne matrisen, og dimensjonene til matrisen vil bli satt til 2-dimensjonale, og elementene som denne matrisen vil inneholde vil være som“ ([2, 2, 2], [8, 8, 8] ) ”. Denne matrisen vil bli brukt som observasjon som er inngangsparameteren for CHI_2 -beredskapen () -funksjonen.

For å kalle beredskapstesten for uavhengigheten til de to variablene som tilhører de kategoriske klassene, vil vi bruke prefiksstatistikken og vil kalle funksjonen chi_2contingcy som “Stats.chi2_contingency (obs_array) “. Vi vil utføre følgende kode som vises i figuren for å få resultatene for uavhengighetstesten av Chi Square beredskapsfunksjon.

Importer numpy som NP
fra scipy importstatistikk
obs_array = np.Array ([[2, 2, 2], [8, 8, 8]])
statistikk.chi2_contingency (obs_array)

Denne funksjonen returnerer Chi Square Test Statistics-verdien, testens p-verdien og verdiene til de frekvensene som forventes for observasjonene som vi passerer i parametrene til funksjonen. Utgangen til funksjonen vises i figuren nedenfor.

Konklusjon

Artikkelen gir detaljert informasjon om Chi Square -metoden som bruker "Statistikk" -modulen fra Scipy -biblioteket. Vi har utført to typer tester for Chi Square -metodene ved å implementere de to forskjellige eksemplene i Python -skriptet og har vist hvordan utgangen eller returverdiene til denne funksjonen ser ut og hvordan de mener i sammenheng med Scipy Chi Square ( ) Metode.