Pandas teller rader med tilstand

Pandas teller rader med tilstand
Pandaer er blant de mest vedtatte datavitenskap og maskinlæringsverktøy for rengjøring og behandling av data. Det kan hende du må skaffe flere rader som er til stede i DataFrame mens du bruker Pandas DataFrame for å lagre og analysere dataene dine. For databehandlingsprosessen kan det hende du raskt må telle forekomstene av de samme eller forskjellige oppføringer i hele datasettet eller spesielt rader som oppfyller en gitt tilstand.

Pandas lar oss bestemme formen på en dataaframe ved å telle antall rader så vel som kolonner i DataFrame. Du kan bruke en rekke metoder for å forstå konseptet for å telle antall rader og kolonner i pandaer. Disse inkluderer “Len ()”, “DF.form [0] ”,“ DF [DF.Kolonner [0]]].Count () ”,“ DF.Count () ”, og“ DF.størrelse () ”metoder. Det raskeste av disse metodene er len (), som vi skal se på i denne opplæringen.

La oss begynne å lære det ved praktisk talt implementering av eksemplene koder.

Bruke Pandas Len () -metoden

Teknikken vi vil implementere i denne illustrasjonen er "len ()" -metoden. La oss utforske hvordan det fungerer.

Alle eksemplene som vi vil bruke i denne opplæringen blir implementert og utført i Python ved å bruke “Spyder” -verktøyet. Den første oppgaven er å installere og kjøre "Spyder" -verktøyet på skrivebordet eller den bærbare datamaskinen. Når vi er ferdige med installasjonsprosessen, åpner vi verktøyet og åpner en ny fil som har en ".py ”utvidelse. Her representerer “Py” “Python”. Før vi begynner å skrive koden vår, må vi legge til noen forutsetninger. Som artikkelens tittel kort forteller oss at uansett teknikker vi vil bruke, må støttes av "Pandas" -biblioteket.

Derfor må vi legge til et Pandas -bibliotek ved å skrive skriptet "Importer Pandas som PD". Vi importerte nå Pandas -biblioteket og erklæres at Pandas nå kan nås ved å skrive “PD” i stedet for full skjema “Pandas” gjennom hele programmet. Fremover lager vi en Pandas Dataframe der vi utøver den valgte Pandas -teknikken. For konstruksjon av en dataaframe gir pandaer oss en veldig enkel og nyttig metode “PD.DataFrame () ”der“ PD ”refererer til“ Pandas ”og“ DataFrame ”er nøkkelordet som brukes til å lage DataFrame.

Vi benyttet denne metoden i skriptet vårt. Mellom parentesene initialiserte vi tre kolonner. Vår første kolonnes tittel er "Group" som lagrer åtte strengverdier som er "X", "X", "X", "X", "Y", "Y", "Y" og "Y". Den andre kolonnen i DataFrame er “POS” som også lagrer 8 strengverdier. Disse verdiene er “Au”, “Bo”, “Bo”, “Bo”, “Au”, “Au” og “Bu”. Den siste kolonnen her er "score" og den har åtte heltallverdier, i.e. “19”, “23”, “18”, “15”, “15”, “12”, “21” og “28”. Når vi genererer en dataaframe, må vi også lage en variabel eller et DataFrame -objekt for å lagre denne DataFrame.

Her er variabelen som vi opprettet for nevnte formål “res”. Deretter tildeler vi denne funksjonen til utgangen som genereres fra å påkalle “PD.DataFrame () ”-metode. Nå, for å se denne DataFrame, opprettet vi på terminalen at vi brukte "print ()" -funksjonen som viser utgangen. La oss utføre dette Python -skriptet:

For å få utdataene som vises på terminalen, klikker du på "Kjør filen" -knappen på "Spyder" -verktøyet. Her er vår første DataFrame:

Bruke Len () -metoden med en tilstand

Nå må vi telle radene i den spesifiserte kolonnen i DataFrame som oppfyller den oppgitte tilstanden. Vi vil først bruke tilstanden på en enkelt kolonne for å hente antall rader som samsvarer med tilstanden. Deretter bruker vi det på flere kolonner i DataFrame. For begge teknikker benyttet vi oss av "len ()" -metoden til pandas. Syntaks for denne metoden for å anvende forholdene på en enkelt kolonne er gitt i følgende:

I følge syntaksen påkalte vi metoden “len ()” som teller antall rader. Inne i selene spesifiserte vi en betingelse med navnet på DataFrame og DataFrame -kolonnenavn. Vi valgte "gruppe" -kolonnen fra vår dataaframe og spesifiserte en betingelse for den. Tilstanden sier å sjekke om noen verdi av "gruppen" -kolonnen er lik "x". Hver gang tilstanden samsvarer, teller metoden “len ()” raden som inneholder den.

For å lagre denne tellede verdien av rader som oppfylte tilstanden, opprettet vi en variabel "telling". Vi brukte metoden “Print ()” for å vise en tekst på terminalen før de tellede radene. For å se utdataene fra de viste tellede radene, benyttet vi oss igjen.

Vi har både DataFrame og de tellede radene som samsvarer med tilstanden som ble vist på terminalen. Vi kan merke oss at DataFrame har “4” rader som samsvarer med tilstanden. Du kan også bekrefte det ved å sammenligne det med forrige DataFrame. "Gruppe" -kolonnen har 4 "X" -verdier, så den beregnes med Pandas “Len ()” -metoden.

Bruke Len () -metoden med flere forhold

Vi telte antall rader med tilstanden for en enkelt kolonne i forrige eksempel. Nå lærer vi å telle radene for to kolonner. Syntaksen den følger er:

Å forklare denne syntaksen, "len ()" -funksjonen kalles for å telle antall rader som oppfyller forholdene. Deretter nevnte vi navnet på DataFrame hvis rader vi vil telle. Nå, navnet på den første kolonnen med den spesielle tilstanden, deretter navnet på DataFrames andre kolonne med den spesifiserte tilstanden. Mellom begge disse forholdene er "&" -operatøren. Denne operatøren kalles “og” -operatøren. Når det kommer mellom to betingede uttalelser, betyr det at radene bare vil bli talt hvis begge forholdene er oppfylt.

I vår illustrasjon valgte vi "Group" -kolonnen og "POS" -kolonnen. Vi brukte forholdene på begge disse kolonnene. Tilstanden på "gruppe" -kolonnen sjekker verdiene i denne spesielle kolonnen som er lik "y". Mens tilstanden på "POS" sjekker verdiene som er lik "Bo". "&" -Operatøren sjekker verdiene fra utgangen fra begge verdiene og verifiserer tilstanden. Så vi trenger antall rader som har "gruppe" -verdien "X" og "POS" lik "Bo".

Vi opprettet en annen variabel “cal”. Når forholdene kontrolleres "len ()" -funksjonen teller antall rader og lagrer den i "utfall" -variabelen. Til slutt benyttet vi to “Print ()” -metoder, den ene for å vise en tekst mens den andre for å skrive ut de tellede radene med “Len ()” -funksjonen som er lagret i “Cal” -variabelen.

Følgende vedlagte utgangsbilde viser oss at det bare er 3 rader i DataFrame som oppfyller den spesifiserte tilstanden. Fra "Group" og "POS" -kolonnen er bare tre rader hentet som har "X" "Group" og "POS" er "BO". Gi det noen sekunder for å bekrefte selv om den genererte utgangen er riktig ved å undersøke dataaframe som vises i følgende øyeblikksbilde:

Du lærte hvordan du bruker forholdene på to kolonner. Nå vil det ikke få deg i problemer med å bruke dem på flere kolonner. Vi bruker nå forholdene på alle de tre kolonnene i DataFrame og får bare tellingen på de radene som oppfyller alle de tre forholdene.

Den første tilstanden brukes på "gruppen" -kolonnen for å sjekke verdiene som er lik "y". Deretter er "gruppe" -verdiene som er "y" og "POS" "Bo". Og den siste tilstanden som inkluderer de komplette forholdene sier at "gruppen" lik "y" og "POS" er "Bo" og "score" er større enn "15". Hent disse postene fra DataFrame. "Len ()" teller radene og lagrer dem i "utfall" -variabelen. Bruk metoden “Print ()” for å vise utgangen.

Utgangen forteller oss at det er to rader i dataaframet som oppfyller alle tre forholdene.

Konklusjon

Pandas gir oss en rekke veldig nyttige og viktige funksjoner. Denne opplæringen er basert på Pandas-gitt metode. Dette er "len ()" -funksjonen for å telle antall rader i en gitt dataaframe. I denne læringen er vårt mål og mål å få deg til å forstå hvordan du kan telle antall rader som oppfyller en definert tilstand. Vi forklarte hvert trinn i denne teknikken eksplisitt verbalt så vel som ved hjelp av eksempelkoder som ble implementert på "Spyder" -verktøyet. Vi legger et oppriktig forsøk på å gjøre dette stykke skrivingen så enkelt og nyttig som mulig for deg å forstå konseptet.