Pandas teller

Det store økosystemet for informasjonsdrevne Python-pakker er en viktig faktor i hvorfor Python er en fantastisk plattform for å utføre dataforskning. En slik pakke, pandaer, forenkler å ta inn og analysere data.

Manglende verdier kan være problematisk under noen omstendigheter. Dermed trenger vi av og til å spesifisere objekter med ikke-mishandler verdier. En metode for å finne kolonner med mange manglende data er å bruke Pandas Count -metoden.

Pandas Count () -funksjonen er en metode for å beregne antall ikke-NA-celler i hvert segment eller kolonne. Dessuten er det også relevant å jobbe med ikke-skimming av data. Når du arbeider med datasett, er en enorm ferdighet muligheten til å presentere utfall forståelig nok. Å bruke en aksebasert graf er en vanlig måte å vise data. Python -funksjonstallet () returnerer antall ganger substringen vises i strengen, og antall verdier i kolonner eller rader i en dataaframe. Vi vil dermed gå over hvordan vi kan bruke tellefunksjonen på DataFrames i denne delen.

Syntaks for Pandas Count () -funksjonen

Tellemetoden har en relativt enkel syntaks; Imidlertid er det noen få forskjellige tilnærminger for å bruke det og noen alternativer som kan endre hvordan det fungerer. Du trenger bare å spesifisere DataFrames navn etterfulgt av ".Count () ”for å påkalle tellefunksjonen for en dataaframe. Forutsatt at DataFrame kalles “DataFrame”, kan du bruke skriptet “DataFrame.Count () ”for å bestemme mengden av ikke-sendt oppføringer for alle kolonnene. Inne i parentesene kan du også bruke noen få valgfrie argumenter som vi vil forklare litt.

Her betegner "nivået" aksenes forskjellige indeksering, og hvis aksen er hierarkisk, krasjer DataFrames count () -metode til slutt og slutter å svare på programanrop, og la programmet henge. Begrepet "numerisk" refererer til programmets kompatibilitet med numeriske data, inkludert heltall, float og logiske verdier. Siden det alltid må gå tilbake til DataFrame når nivået er gitt, tar det den falske verdien som standard. Programmets vurdering av radene og kolonnene er gitt på "aksen". Count () -metoden bruker Axis -argumentet for å spesifisere spesifikke kolonner og rader for å ta hensyn til når resultatet skal produseres av applikasjonen som bruker Pandas.

Etter å ha undersøkt syntaks, la oss se på noen demonstrasjoner av Pandas Count -tilnærmingen i praksis. Vi skal utforske noen forekomster av måter å telle verdiene i en datafram, telle oppføringene i en bestemt kolonne, og noen ytterligere applikasjoner.

Eksempel 1: Tell antall poster i alle kolonnene i en datafram ved bruk av Pandas Count () -metoden

Du blir pålagt å utføre noen forberedende kode før du kan samle alle tilfeller. Vi må importere de relevante bibliotekene og deretter laste/opprette en datafram, spesielt.

Først importerer vi Numpy Library som NP og Pandas Library og gir det navnet PD i forrige program. Vi kan nå begynne å konstruere vår grunnleggende DataFrame når vi får tilgjengeligheten til Pandas Library.

Fra og med hovedkoden, her kan du se at vi har brukt en NP.Nan -eiendom og gjorde det lik Nan. Forkortelsen Nan, som refererer til "ikke et tall", betegner tall som ikke er oppgitt. I tillegg er manglende oppføringer i et datasett representert ved hjelp av det.

Nå vil vi konstruere en dataaframe med noen nullverdier ved hjelp av Pandas dataaframe -funksjonen. Koden her opprettet en variabel som heter “DF” og utfallet av å påkalle PD.DataFrame () -funksjonen blir deretter tilordnet denne opprettede variabelen. Inne i parentesene til PD.DataFrame () -funksjonen, vi har brukt de krøllete seler og skriver navnene på kolonnene vi ønsker å ha i DataFrame. Vi har laget fire kolonner: navn, kjemi, engelsk og vitenskap. Deretter tildelte vi alle kolonnene med forskjellige verdier. Vi må beholde alle kolonnene i samme størrelse. Utskriftsfunksjonen påberopes for å skrive ut DataFrame.

Utgangen viser følgende DataFrame:

Nå, for hver kolonne i DataFrame, beregner vi mengden ikke-null-poster. Count () -funksjonen for en dataaframe brukes på denne måten i den mest enkle tilnærmingen.

I dette tilfellet bruker vi telling () her på den samlede "DF" DataFrame. For å oppnå dette kom vi inn i DataFrames navn, “DF”, etterfulgt av .Count () Funksjon.

Når vi utfører den forrige koden, vil den gi oss resultatet som vises i følgende bilde:

Du kan få den totale mengden ikke-sendt oppføringer for hver kolonne i resultatet.

Dataframe utgjør totalt seks rader. Du kan legge merke til at variabelen “Navnet” har seks verdier i dette tilfellet. Det er ingen tomme mellomrom i denne variabelen. Imidlertid inneholder spesifikke verdier mindre enn seks. For eksempel har vitenskapen fire ikke-savnende oppføringer, mens kjemi har fem. For dette tilfellet bruker den standardinnstillingene på parameteren.

Å ha denne kunnskapen kan være nyttig når du rydder opp i dataene. Å utvikle en maskinlæringsalgoritme kan også være fordelaktig fordi spesifikke modellkategorier ikke vil godta manglende data.

Eksempel 2: Tell antall poster i alle rader med en datafram ved bruk av Pandas Count () -metoden

La oss nå bestemme hvor mange ikke-savnende oppføringer det er i radene til den spesifiserte DataFrame.

Count () -metoden brukes vanligvis for å oppregne kolonners ikke-mishandler oppføringer. Imidlertid kan det være situasjoner der du bør se på radene i stedet. Vi bruker aksenes egenskap for å oppnå dette.

Etter DataFrame -konstruksjonen, DF.Count () Metode beregner antall verdier i hver rad mens du ignorerer null- eller nan -oppføringer. Rader er representert med akse = 1. Derfor instruerer vi koden til å stemme bare oppføringene i DataFrames rader.

Som et resultat vurderer dette programmet count () -metoden, sender ut DataFrame -raden som vist i skjermbildet nedenfor, og løkker deretter tilbake til Pandas -funksjonen.

Vi har gjennomgått dataene, så vi vet at fire kolonner er i Dataframe. Så en fullt befolket rad bør ha fire ikke-mishandler verdier. Imidlertid kan du observere at noen rader har tre eller to ikke-sendt data. Det er fire oppføringer i første, andre og siste rad. Dette indikerer at det mangler data i noen av radene. Det kan være greit, men kanskje ikke, avhengig av handlingene dine.

Innstilling av akse = “kolonner” vil i stedet oppnå samme resultat. Fordi aksen = 1 og Axis = “kolonner” er likeverdige, er mengden av ikke-gledende data for radene gitt når du velger Axis = “Kolonner.”

Dette vil gi samme utfall som det som tidligere er vist.

Imidlertid anbefaler vi sterkt å bruke denne alternative syntaksen og i stedet bruke Axis = 1 fordi det er ganske utfordrende å forstå og knapt er fornuftig hvis du er kjent med akser.

Konklusjon

I denne artikkelen har vi lært hvordan vi kan telle verdier i en Pandas Dataframe. Pandas dataaframe.Count () Metode hjelper i vår analyse av tallene i Python DataFrame. Vi opprettet først en DataFrame ved hjelp av Pandas DataFrame -funksjonen og brukte deretter DataFrames Count -metoden på den. Etterpå forklarte vi at du teller dataene i kolonner og rader. Vi håper denne artikkelen vil øke kunnskapen din.

Python

Matplotlib 2D -histogram

I Python, “PLT.hist2d () ”-funksjon av“ Pyplot ”-modulen i“ Matplotlib ”-biblioteket brukes til å pl...

Elias Krogh Svendsen

C skarp

Hva er system.Io navneområde i C#

System.IO er et navneområde i C# som gir et sett med klasser, strukturer, oppregninger og delegater ...

Daniel Berntsen

Docker

Hva er docker bind monteringer?

En Docker Bind Mount er en type montering som tillater brukere å kartlegge en katalog eller fil på v...

Alexander Sørlie