Pandas korrelasjonsmetode

Pandas korrelasjonsmetode
“Pandas” er et Python -bibliotek som vi bruker for å analysere data. Det er et raskt, kraftig, tilpasningsdyktig og brukervennlig open source-analyse og prosesseringsverktøy. Verdier holdes i et rad-og-kolonne-format ved hjelp av en todimensjonal datamodell kjent som en "Pandas dataFrame".

Nå kan pandaer hjelpe til med å produsere en rekke dataanalysekart. Korrelasjon er en teknikk. Korrelasjon er en veldig nyttig statistikk som indikerer hvordan to sett med data henger sammen med hverandre. Pandas “Dataframe.Corr () ”-metode kan brukes til å finne korrelasjonen mellom to eller enda flere kolonner i en dataaframe. En positiv korrelasjon betyr at verdiene i den ene gruppen fortsetter å stige med en økning i den andre, mens en negativ korrelasjon innebærer at verdiene i den ene gruppen fortsetter å falle med en økning i den andre.

Pandas Dataframe.corr () funksjon

Vi kan bruke pandaene “DataFrame.corr () ”-funksjon ved å følge syntaksen nedenfor:


Når du bruker "corr ()" -metoden for å beregne Pearsons korrelasjon mellom to pandas -kolonner, produserer den en enkelt figur som representerer Pearsons korrelasjon mellom de to kolonnene. Du kan også bruke metoden eksplisitt på en dataaframe for å generere en matrise av parvise korrelasjoner mellom forskjellige kolonner.

Eksempel 1

I dette eksemplet vil vi finne sammenhengen mellom tre kolonner i en dataaframe. For praktisk implementering av denne metoden i Python har vi brukt "Spyder" -verktøyet. Åpne en ny Python -fil i "Spyder" -verktøyet. Det viktigste kravet når du begynner å skrive skriptet er å importere relevante biblioteker. Ettersom vi må implementere en "pandas" -metode, så har vi "import pandaer som PD" for å få tilgang til funksjonene til "pandaer".

Så starter vi vår viktigste Python -kode. Vi har opprettet en dataaframe ved å bruke “PD.DataFrame () ”-metode. Dataframe initialiseres av tre kolonner “Computer”, “Chemistry” og “Math”. Alle DataFrames kolonner lagrer samme verdilengde. Den første kolonnen, "datamaskin", har åtte heltallverdier, som er "80", "75", "62", "89", "63", "41", "73" og "54". Den andre kolonnen, “Chemistry”, lagrer også åtte INT -verdier som er “87”, “67”, “53”, “54”, “66”, “82”, “58” og “66”. Den siste kolonnen, “Math”, har verdier “93”, “75”, “65”, “47”, “83”, “78”, “83” og “98”.

For å vise vår første DataFrame, brukte vi “Print ()” -metoden med DataFrames navn “Data” som parameter i skriptets endelige linje.


For å se utdataene på terminalen, bruk "Kjør fil" -knappen på "Spyder" -verktøyet eller trykker på "Shift+Enter" -tastene. Utgangen som vises på terminalen viser en dataaframe med tre kolonner som er opprettet med suksess.


Vi har opprettet vår grunnleggende DataFrame. Nå må vi finne sammenhengen mellom to kolonner i "dataene" DataFrame. For nevnte formål har vi brukt pandaer “Dataframe.Corr () ”-funksjon, som vil beregne korrelasjonen mellom de to spesifiserte kolonnene fra DataFrame. Vi må først gi tittelen på DataFrame med det første kolonnenavnet, deretter ".corr () ”-funksjon med den andre kolonnens navn mellom parentesene.

Her har vi brukt "datamaskin" -kolonnen og "matematikk" -kolonnen for å finne korrelasjonen mellom dem som "data [" datamaskin "].corr (data ['matematikk']) ”. Vi har laget et variabelt "resultat" og tildelt det utgangen av å kalle ".corr () ”-metode. Deretter kalles "print ()" -funksjonen for å vise korreksjon av begge kolonnene.


I utgangsbildet kan du se at den beregnede korrelasjonen mellom "datamaskinen" og "matematikk" -kolonnene er i en negativ figur som viser korrelasjonen mellom disse to kolonnene er negativ eller svak.


Tilsvarende kan vi sjekke sammenhengen mellom noen av de to kolonnene. For enkelhets skyld har vi funnet sammenhengen mellom to andre kolonner her. Denne gangen valgte vi den første kolonnen “Math” og den andre kolonnen “Chemistry” og påkalte “.corr () ”. Vi har lagret utdataene som vil bli generert fra denne funksjonens samtale, i.e., Korrelasjonen av "matematikk" og "kjemi". Nå kan vi få tilgang til denne utgangen ved å bruke variabelen "resultat". "Print ()" -funksjonen skriver ganske enkelt ut utdataene.


Utfallet som genereres fra dette skriptet kan sees på bildet nedenfor. Her er den beregnede korrelasjonen mellom "matematikk" og "kjemi" -kolonnene i en positiv verdi, noe som betyr at korrelasjonen deres er positiv eller sterk.

Eksempel nr. 2

Vi kan også finne korrelasjoner mellom alle kolonnene i en dataaframe ved å bruke pandaene “DataFrame.corr () ”-metode. I dette eksemplet vil du lære gjennom den praktiske implementeringen.

For demonstrasjon brukte vi “Spyder” -verktøyet, som vi allerede har installert i systemet vårt. Vi må først importere det essensielle biblioteket for denne metoden som er pandaer. Vi har brukt skriptet “Importer Pandas as PD” for å importere Pandas til Python -filen vår i “Spyder” -verktøyet, som lar oss få tilgang til Pandas -modulene ved å bruke “PD”. Vi brukte da “PD.DataFrame () ”-funksjon for å konstruere en DataFrame. Denne dataaframe har fire kolonner “Navn”, “Poeng”, “Assists” og “Tax”.

Hver kolonne lagrer seks verdier. Kolonnen "Navn" har strengverdier som er "A", "B", "C", "X", "Y" og "Z". Kolonnen "Poeng" har seks heltallverdier som er "17", "22", "15", "14", "24" og "21". Kolonnen “Assists” har seks heltallverdier “2”, “13”, “9”, “4”, “12” og “10”. Den siste kolonnen, “skatt”, har verdier “12”, “4”, “6”, “11”, “13” og “20”. Vi har opprettet et DataFrame -objekt “Info” og tildelt det utgangen av å påkalle “PD.DataFrame () ”-metode. Så den resulterende DataFrame -rammen generert fra “PD.DataFrame () ”vil bli lagret i“ Info ”.

Nå kan vi få tilgang til DataFrame ved å bruke dette objektet. For å se denne DataFrame har vi brukt “Print ()” -metoden med DataFrame -objektet “Info” som parameter.


I det forrige Python -programmet ville en dataaframe med fire kolonner vises på terminalen. Som du kan se i følgende bilde:


Nå må vi finne sammenhengen mellom alle kolonnene i DataFrame ved å bruke Pandas “DataFrame.corr () ”-metode. Vårt mål er å beregne korrelasjon mellom alle kolonnene, så vi må bare skrive navnet på DataFrame, som er "info", med ".corr () ”-metode. Vi har laget en variabel “R” for å lagre resultatet, som vi vil få ved å kalle “Info.corr () ”-metode. Vi har til slutt trykket innholdet som er lagret i "R" -variabelen ved å påkalle "Print ()" -funksjonen.


Her fikk vi vår utgangskorrelasjon mellom alle de tre numeriske kolonnene i "Info" DataFrame. Vi kan se i utgangen. "Hjelper" og "skatt" deler også en negativ korrelasjon, mens alle de andre parene har en positiv korrelasjon mellom dem. Du har kanskje observert at diagonalene har verdien “1”. Dette betyr at hver kolonne er nøyaktig koblet med seg selv.

Konklusjon

Vi har gjort en introduksjon til Pandas “Dataframe.corr () ”-metode. Denne metoden er veldig viktig i prosessen med å beregne forholdet mellom forskjellige kolonner. Vi har utført to praktiske eksempler på "Spyder" -verktøyet. I det første eksemplet utdypet vi og forklarte konseptet med å finne sammenhengen mellom to kolonner i dataframet, mens det andre eksemplet er basert på beregning av korrelasjonen mellom alle kolonnene i dataaframmen. Sørg for å følge alle trinnene som er utført i den praktiske implementeringsprosessen for å forstå Pandas korrelasjonsmetode.