Pandas samvariasjon

Pandas samvariasjon
Pandas Cov () -metoden beregner den sammenkoblede samvariasjonen mellom en DataFrames serie. DataFrame som er returnert er samvariasjonsmatrisen til DataFrames kolonner. Beregningen utelukker automatisk NA- og NULL -oppføringer. Denne teknikken brukes ofte til å evaluere tidsseriedataene for å bestemme assosiasjonen mellom forskjellige målinger over tid.

Syntaksen for denne metoden er som følger:

Her bestemmer "minperioder" minst antall forekomster som trengs for hvert par kolonner for å gi et gyldig utfall.

Du vil lære og forstå denne metoden gjennom den praktiske demonstrasjonen av koder i denne artikkelen.

Eksempel 1

Denne illustrasjonen handler om å finne samvariasjonen mellom kolonnene i en datafram. La oss begynne å lære den praktiske implementeringen.

Den første og mest nødvendige oppgaven er å finne et verktøy som er kompatibelt med maskinen din og støtter Python -språket. For våre krav er "Spyder" -verktøyet funnet det mest passende. Så vi må laste ned, installere og til slutt starte verktøyet. Når grensesnittet er vist, åpner vi en ny fil ved å klikke på "Fil" -knappen og velge alternativet "Ny fil". En ny fil med ".py ”utvidelse åpnes. “.PY ”refererer til“ Python ”-filen.

Begynn nå å skrive Python -koden. Før vi begynner med hovedkoden vår, må vi få noen nødvendige biblioteker på denne Python -filen. For det nåværende emnet trenger vi ikke mange biblioteker, men bare en enkelt pakke som er "Pandas". Så vi skriver koden “Importer Pandas som PD” som importerer alle funksjonene til Pandas i Python -filen vår. Vi kan få tilgang til dem ved å bruke "PD" i stedet for "pandaer" i hele manuset.

Siden vi må beregne samvariasjonen mellom kolonnene i en dataaframe, er vi pålagt å ha en pandas dataaframe der vi utøver denne metoden. For å konstruere en dataaframe, gir Pandas oss en "PD.DataFrame () ”-funksjon. Som vi allerede vet at "PD" er "Pandas", får vi tilgang til Pandas -metoden. "DataFrame ()" er nøkkelordet til denne funksjonen som, når den påkalles, skaper en DataFrame. Vi genererer en dataaframe ved hjelp av denne “PD.DataFrame () ”-metode og initialiserte den med tre kolonner -“ Alpha ”,“ Beta ”og“ Gamma ”.

Vår første kolonne “Alpha” lagrer seks verdier som er “3”, “4”, “1”, “10”, “5” og “7”. Den andre kolonnen “Beta” inneholder seks verdier som er “12”, “2”, “8”, “13”, “4” og “5”. Den tredje og den siste kolonnen “Gamma” har verdiene “4”, “6”, “12”, “9”, “3” og “10”. Alle disse kolonnene lagrer heltallet av verdier og har samme lengde som er 6.

Nå, for å lagre denne dataaframe, oppretter vi et DataFrame -objekt eller en "karakter" -variabel. Denne "karakteren" -variabelen tildeler utdataene som genereres fra å ringe Pandas “PD.DataFrame () ”-metode. Så når vi kaller “PD.DataFrame () ”-metode, en Pandas DataFrame opprettes og lagres i“ Grade ”. Vi har tilgang til DataFrame med dette objektet. Vi genererte DataFrame og lagret den. Hva med å vise det? For å vise DataFrame på terminalen, har vi en veldig enkel og hendig “print ()” -metode. Denne metoden tar variabelen, funksjonen eller uttalelsen som parameter og viser den ganske enkelt på terminalen. Vi skriver det som "trykk (karakter)", og det vil vise dataaframe.

Når vi klikker på "Kjør filen" -knappen på "Spyder" -verktøyet eller trykker på "Shift+Enter" -tastene, vises en DataFrame med tre kolonner og seks rader på terminalen.

Nå må vi utføre hovedoppgaven vår der vi opprettet denne DataFrame som beregner samvariasjonen. For å beregne samvariasjonen mellom alle kolonnene i denne Dataframe, har vi en Pandas-levert metode “COV ()”. For å bruke denne metoden, kalte vi ".Cov () ”-metode med DataFrame -navnet“ Grade.cov () ”. Dette beregner samvariasjonen på den medfølgende DataFrame. Deretter satte vi denne metoden mellom parentesene til "print ()" -metoden for å vise dataframet med beregnet samvariasjon på alle kolonnene. Ellers kan du opprette en variabel og lagre den beregnede samvariasjonen i den og vise den ved hjelp av “print ()” -metoden.

Utførelsen av skriptet som er forklart tidligere, får oss en matrise med beregnet samvariasjon mellom alle kolonnene i DataFrame “Grade”. Du kan se at alle samvariasjonsverdiene er positive.

Eksempel 2

Nå vil vi se hva som skjer når vi har noen "NAN" (ikke et tall) verdier i vår datafram, og vi må beregne samvariasjonen på den dataframmen. Når DataFrame har noen "NAN" -verdier, ignorerer "Cov ()" -funksjonen disse "NAN" -verdiene og beregner samvariasjonen mellom resten av verdiene.

For dette formålet benyttet vi oss. Vi endret en verdi fra hver kolonne i DataFrame til en "ingen" verdi. Den andre verdien av "alfa" -kolonnen blir endret til "ingen", "beta" -kolonens andre verdi blir endret til "ingen", og "gamma" -kolonens femte verdi blir også endret til "ingen". Deretter viste vi ganske enkelt den modifiserte DataFrame med "Print ()" -funksjonen.

Slik ser vår oppdaterte DataFrame ut med NAN -verdier.

Vi beregner samvariasjonen nå. Vi påkalte ganske enkelt “Cov ()” -funksjonen med navnet på DataFrame og passerte denne funksjonen som en parameter til “Print ()” -metoden for å vise den beregnede samvariasjonen med “NAN” verdier.

Når vi kjører det tidligere nevnte skriptet, viser det oss kovariansen beregnet for alle kolonnene i DataFrame der, etter å ha ignorert “NAN” -verdiene, samvariasjonen mellom de kolonnene som har “NAN” -verdier er negativ.

Eksempel 3

Du lærte hvordan du beregner samvariasjon mellom alle kolonnene i DataFrame med eller uten noen "NAN" -verdier. Her vil vi gjøre deg kjent med en annen teknikk for å bruke “Cov ()” -funksjonen. Denne teknikken beregner samvariasjonen mellom to Pandas -serier. Vi bruker DataFrame som vi opprettet i den første illustrasjonen av denne guiden. Fra denne DataFrame lager vi to Pandas -serier.

For å lage en serie, sysselsetter vi “PD.Serie () ”-funksjon. Mellom bukseseler kan du definere verdiene manuelt, men i vår illustrasjon lager vi serien fra den tidligere opprettet DataFrame “Grade”. Så vi gir kolonnenavnet DataFrame -navnet mellom “PD.Serie () ”-funksjon som“ PD.Serie (karakter ['alfa']) ”. Deretter lagrer vi denne serien i en variabel “V1”. Vi lager en annen serie med de samme trinnene ved å bruke "karakteren" DataFrames kolonne "Gamma" denne gangen som "PD.Serie (karakter ['gamma']) ”og lagre den i variabel“ V2 ”.

Vi bruker "print ()" -metoden for å skrive ut både seriene "V1" og "V2". I det siste trinnet beregner vi samvariasjonen ved å påkalle metoden “Cov ()”. Skriv tittelen på den første serien med ".Cov () ”-funksjonen og deretter den andre serien i seler som“ V1.Cov (v2) ”. Passer dette som en parameter til “print ()” -metoden for å vise den.

Dette gir oss følgende utgang med den beregnede samvariasjonen mellom Two Pandas -serien.

Konklusjon

Beregning av samvariasjonen mellom alle kolonnene i DataFrame eller mellom de to seriene som er opprettet fra DataFrame, kan utføres med en enkel og effektiv Pandas -funksjon - “Cov ()”. Denne artikkelen ga deg den praktiske implementeringen av Python -koder som ble utført på "Spyder" -verktøyet. Den første illustrasjonen ble forklart for deg å estimere samvariasjonen mellom Pandas DataFrames kolonner. Det andre eksemplet var basert på å lære samvariasjonsberegningen med "NAN" -verdier. Og det siste eksemplet fokuserte på å finne samvariasjonen blant to Pandas -serier. Vi utdypet alle mindre detaljer i denne artikkelen for å gjøre læring morsom for deg.