Pandas frekvensantall

Simen Stensrud

Du lærer hvordan du kan telle forekomstene av data eller verdi i en kolonne i denne pandasopplæringen. I datavitenskap er det tilfeller der vi trenger å bestemme hvor ofte en spesifikk verdi oppstår i en spesifikk kolonne i en datafram. Dette kan for eksempel forekomme når du bare vil sammenligne et lite spekter av potensielle verdier. Hvis du vil telle mengden duplikat eller gjentatte verdier i en kolonne, er det et annet eksempel. I tillegg kan det hende vi må telle observasjonene som utgjør en faktor eller trenger å kjenne andelen menn og kvinner i datainnsamlingen for eksempel.

Hvordan bruke Pandas gjennomsnittsfunksjon

Vi må bestemme frekvenstellingene for data/verdier eller elementer i en eller flere av kolonnene i en Pandas DataFrame. Det er flere måter å oppnå dette på. Vi vil diskutere noen få metoder for å telle forekomster eller hyppighet av elementer eller verdier i kolonnen i en datafram.

Eksempel 1: Teller hyppigheten av kolonnen ved å bruke verdien av verdien_Counts ()

Value_Counts () -metoden i Pandas returnerer en serie med hyppigheten av unike verdier. Den resulterende serien er i synkende rekkefølge som standard og blottet for NA -verdier. “Pandaene.Serie ”objekt er egnet for bruk med denne funksjonen (Value_Counts ()). Frekvenstellingene for verdiene i en enkelt kolonne kan oppnås ved hjelp av denne metoden siden Pandas dataFrame -objekter er gruppen av serieobjekter. Vi må først lage et dataaframe for å demonstrere dette eksemplet. “Pandaene.DataFrame () ”-funksjon brukes til å generere DataFrame. Dermed må vi først importere Pandas -pakken.

Innen PD.DataFrame () -funksjonen, vi brukte en Python -ordbok for å generere vår DataFrame. Vi tildelte kolonnene i vår dataframe med "X" og "Y" -etikettene. Vi viser vår "DF" DataFrame ved hjelp av print () -metoden.

I den nyopprettede “DF” DataFrame er det to kolonner - “X” kolonne lagrer heltallverdiene (1, 1, 4, 3, 5, 1, 4, 3, 5, 4) og “Y” kolonne lagrer Strengverdier (“Q”, “R”, “T”, “Q”, “Q”, “T”, “R”, “Q”, “T”, “R”). Du kan observere at det er en repetisjon i dataene fra begge kolonnene. Vi kan bruke Value_Counts () -funksjonen for å beregne frekvensen av data i en spesifikk kolonne. La oss telle frekvensen av data i kolonnen "y".

Funksjonen returnerte en serie som har tellingene av distinkte verdier. "Q" -verdien oppstår 4 ganger og "R" og "T" -verdiene forekommer 3 ganger i "Y" -kolonnen. La oss også telle de unike verdiene i kolonne x.

Det kan sees at verdiene “1” og “4” forekommer 3 ganger i kolonnen “X”, mens verdiene “3” og “5” forekommer 2 ganger.

Eksempel 2: Teller hyppigheten av kolonnen ved hjelp av Groupby.Teller () funksjon

I dette eksemplet grupperer vi radene etter kolonne ved hjelp av Pandas DataFrame.GroupBy () -funksjon og bruk count () -metoden for å bestemme antall distinkte verdier for hver gruppe, ignorere ingen og NAN -verdiene. La oss opprette en dataaframe først der vi bruker Groupby.teller () funksjon.

Vi brukte en Pandas Dictionary for å lage vår DataFrame etter å ha importert Pandas -modulen. Kolonnens navn er spesifisert som "Col1" og "Col2".

I kolonnen “Col1” har vi heltalldataene (8, 6, 5, 8, 8, 7, 7, 9, 5, 7). I "Col2" -kolonnen har vi strengdataene ("gutt", "gutt", "jente", "gutt", "gutt", "jente", "jente", "jente", "gutt", " gutt"). Nå bruker vi Groupby.teller () -funksjon for å beregne hyppigheten av verdier i hver kolonne.

For å foreta beregninger delte vi dataene i forskjellige grupper ved å bruke GroupBy () -funksjonen. Deretter blir telling () -funksjonen brukt for å telle frekvensene av distinkte verdier i den spesifiserte kolonnen i DataFrame. "5" -verdien oppstår 2 ganger. Verdiene “6” og “9” oppstår en gang. Mens “7” og “8” verdiene forekommer 2 ganger i kolonnen “Col1”. La oss nå bruke Groupby.Count () Funksjon på "Col2" -kolonnen.

Funksjonen bestemte frekvensen av verdiene “gutt” og “jente” som henholdsvis 6 og 4 ganger.

Eksempel 3: Teller hyppigheten av kolonnen ved hjelp av Groupby.Størrelse () -funksjon

Hyppigheten av elementer i enkeltkolonnene kan telles ved hjelp av denne metoden. For å få et DataFrame -objekt med en frekvensantall, kan vi bruke Count () -metoden på et DataFrame -objekt som er gruppert etter en enkelt kolonne. For det første opprettes en dataaframe som inneholder minst en repeterende kolonne slik at vi kan bruke telling () -funksjonen for å bestemme hyppigheten av verdier. Vi importerer først Pandas -modulen før vi oppretter en DataFrame. Deretter bruker du PD.DataFrame () -funksjonen, vi lager vår DataFrame.

I forrige Dataframe har vi to kolonner - "Navn" -kolonnen med verdier ("Alex", "Jack", "Alex", "Ali", "Jack", "Jack", "Alex", "Alex", "Ali", "Alex", "Ali", "Ali", "Jack", "Alex") og "karakter" -kolonnen som inneholder karakterene til individer ("A", "A", "B", " B ”,“ B ”,“ B ”,“ A ”,“ C ”,“ A ”,“ C ”,“ C ”,“ C ”,“ A ”,“ B ”). Nå, for å finne frekvenstellingene til disse kolonnene, bruker vi Groupby.størrelse () -funksjon. En int som representerer antall elementer i dette objektet kan oppnås ved hjelp av størrelsesattributtet. Hvis serien gir antall rader, og hvis DataFrame returnerer de totale radene multiplisert med antall kolonner.

Det viser at det er to forekomster der “Alex” har en karakterverdi på “A”. Det er også to forekomster der "Alex" har en karakterverdi på "B" og "C". “Ali” skjedde 1 gang med karakterer “A” og “B”, mens 2 ganger med karakterverdien til “C”. “Jack” skjedde to ganger med karakterer “A” og “B”.

Eksempel 4: Teller hyppigheten av kolonnen ved å lage en frekvensbord for en bestemt rad

Vi kan bruke Crosstab () -metoden for å bestemme frekvensene i en Pandas DataFrame.

La oss anta at vi må lage en dataaframe med detaljer om kjønn, alder og bokstavkarakter på ti distinkte studenter.

Vi opprettet den nødvendige DataFrame med tre kolonner - karakterkolonnen ("A", "B", "A", "B", "C", "B", "B", "C", "A", " A ”), alderssøylen (17, 19, 18, 17, 19, 17, 18, 18, 17, 19), og kjønnskolonnen (“ F ”,“ M ”,“ F ”,“ M ”, “F”, “F”, “M”, “M”, “F”, “F”). Nå bruker vi Crosstab () -funksjonen for å lage en frekvensbord. En tverr-tabulasjonstabell opprettet av Crosstab () -metoden kan brukes til å vise frekvensen som de forskjellige dataene med data vises.

Inne i PD.Crosstab () -funksjon, spesifiserte vi "karakter" -kolonnen i indeksparameteren for å beregne frekvensen av data i kolonnen og spesifiserte kolonnens parameter som "frekvens" for å lagre returverdiene/frekvensene til gruppedata.

Konklusjon

I denne pandasopplæringen diskuterte vi hvordan vi kan telle forekomstene av data eller verdi i en kolonne med Pandas DataFrame. Vi prøvde å lære hvordan vi bruker "Value_Counts ()" og "Groupby ()" -funksjonene sammen med "Størrelse ()" og "Count ()" -attributter for å telle datafrekvensen i den spesifiserte kolonnen. Vi har også sett hvordan vi kan telle hyppigheten av en kolonne ved å lage en frekvensbord ved hjelp av Crosstab () -funksjonen.

Python

Konverter en streng til Json Python

JSON -modulen fungerer, AST -modulfunksjonen eller eval () -funksjonen brukes til å konvertere en st...

Erik Røed

Docker

Hva er forskjellen mellom Docker og Podman?

Docker bruker en klient-serverarkitektur, mens Podman er en demon mindre containermotor. Podman er s...

Daniel Johnsen

Oracle Database

Gjør oracle fusion ansett som bedre enn sap?

Oracle Fusion (skybasert ERP) har et brukervennlig grensesnitt, mens SAP (sky og på stedet ERP) er s...

Daniel Berntsen