Pandas får hyppigste verdi

Pandas får hyppigste verdi
Målet med denne artikkelen er å vise den hyppigste verdien i et sett med tall. For å oppsummere antall ganger et element eller antall vises, brukes Pythons verdi_count () -funksjonen. Mode () -metoden kan deretter brukes til å få det mest forekommende elementet. Hvis du vil ha forskjellige måter å få de hyppigste verdiene i Python, har denne artikkelen alle retningslinjene.

Hva er verdien_counts () -metoden i python?

Et Pandas -objekts unike verdier telles med metoden for verdier (). I Python bruker vi generelt denne teknikken for datakrangling samt datautforskning.

Value_Counts () -metoden kan fungere med en rekke Pandas -objekter. Pandas Series, Pandas DataFrames og DataFrame -kolonner er eksempler på disse (som er Pandas Series -objekter).

Avhengig av hva slags objekt du jobber med, vil hvordan du implementerer verdien_counts () -metoden avvike litt.

Andre valgfrie argumenter kan brukes til å endre funksjonaliteten til Value_Counts () -metoden.

Syntaks av Pandas Series Mode () -funksjon

I en Pandas -serie er den vanligste verdien ganske enkelt seriemodus. Pandas Series Mode () -metoden brukes til å skaffe informasjon om modus. Syntaksen er som følger. Modusene til serien returneres i sortert rekkefølge.

# df ['kolonne'].modus()

Syntaks av Pandas Value_Counts () -funksjon

For å hente den høyeste telleverdien, bruk Pandas Value_Counts () og IdxMax () -funksjonene samtidig. Syntaksen er som følger:

# df ['kolonne'].Value_Counts ().idxmax ()

La oss nå se på noen praktiske eksempler for å se hvordan du kan oppnå de hyppigste verdiene ved å følge som trinn.

Eksempel1:

Vi må først etablere DataFrame før vi fortsetter til trinnene for å bestemme den hyppigste verdien med modus (). Dette er et dataaframe med et kategorifelt som vi bruker for resten av opplæringen. Dataframe 'D_Frame' inneholder navnene ('Kim', 'Kourtney', 'Scott', 'Rob', 'Kendall', 'Gathie', 'Phill') og teaminformasjon ('A', 'B', ' C ',' d ',' e ',' a ',' b ',' a ',' b ',' a '). DataFrames “Team” -kolonne er et kategorifelt med verdier som betegner teamet som er tildelt hver student.

Pandas -modulen importeres i begynnelsen av koden i referansekoden nedenfor. DataFrame blir deretter generert og presentert på skjermen.

Importer pandaer
d_frame = pandas.Dataramme(
'Navn': ['Kim', 'Kourtney', 'Scott', 'Rob', 'Kendall', 'Gathie', 'Phill'],
'Team': ['A', 'B', 'C', 'D', 'E', 'A', 'B']
)
Print (D_Frame)

På bildet nedenfor vises studentenes navn sammen med teamets navn som de er tildelt.

Vi vil vise deg hvordan du bruker modus () -funksjonen for å bestemme den hyppigste verdien. Modus, som er en beskrivende statistikk, er i utgangspunktet den vanligste verdien i datasettet. Det vil gi deg informasjon om teamet som har flest studenter.

Vi har importert Pandas -modulen først og generert DataFrame, som du kan se i koden. Navnene på studentene og teamet er inkludert i DataFrame.

Importer pandaer
d_frame = pandas.Dataramme(
'Navn': ['Kim', 'Kourtney', 'Scott', 'Rob', 'Kendall', 'Gathie', 'Phill'],
'Team': ['A', 'B', 'C', 'D', 'E', 'A', 'B']
)
print (d_frame ['team'].modus())

Det gir en Pandas -serie pluss modus for kolonnen. Fordi "A" og "B" er de hyppigste verdiene i "Team" -feltet, oppnår vi "A" og "B" som modus.

Vær oppmerksom på at du kan skaffe modus for hver kolonne i en Pandas dataaframe ved å bruke Mode () -metoden.

Eksempel 2:

Vi vil vise deg hvordan du bruker Value_Counts () for å få den hyppigste verdien i dette eksemplet. Value_Counts () -funksjonen kan brukes til å oppnå tellinger, og deretter kan IDXMAX () -funksjonen brukes til å oppnå verdien med flest tellinger.

Resten av koden, bortsett fra den siste linjen, er identisk med den ovenfor. Den demonstrerer hvordan funksjonen (Value_Counts) brukes til å finne ut verdien med høyest antall.

Importer pandaer
d_frame = pandas.Dataramme(
'Navn': ['Kim', 'Kourtney', 'Scott', 'Rob', 'Kendall', 'Gathie', 'Phill'],
'Team': ['A', 'B', 'C', 'D', 'E', 'A', 'A']
)
print (d_frame ['team'].Value_Counts ().idxmax ())

Se den resulterende skjermen nedenfor. Vi får verdien i "team" -kolonnen med maksimal verdiskall.

Eksempel 3:

Dette eksemplet vil demonstrere hva som vil skje hvis DataFrame inneholder de hyppigst forekommende verdiene. La oss endre DataFrame slik at "team" -kolonnen inneholder gjentatte modus. Vi endrer "Rob's" "Team" -verdi fra "D" til "B" her.

Importer pandaer
d_frame = pandas.Dataramme(
'Navn': ['Kim', 'Kourtney', 'Scott', 'Rob', 'Kendall', 'Gathie', 'Phill'],
'Team': ['A', 'B', 'C', 'D', 'E', 'A', 'F']
)
d_frame.på [3, 'Team'] = 'B'
Print (D_Frame)

Vi har nå tilbakevendende moduser, som du kan se. “A” vises to ganger i "Team" -kolonnen i scenariet vårt.

Lagnavnet for studenten 'Rob' har blitt endret fra “D” til “A” i det medfølgende bildet.

Eksempel 4:

La oss se hva verdien teller () og idxmax () metoder returnerer. Vi har oppdatert DataFrame -verdiene i denne eksempelkoden. Legg merke til at teamet “A” og “B” vises to ganger. Etter det brukte vi verdien.teller () og idxmax () funksjoner for å bestemme den vanligste verdien i dataaframe. Her er referansekoden.

Importer pandaer
d_frame = pandas.Dataramme(
'Navn': ['Kim', 'Kourtney', 'Scott', 'Rob', 'Kendall', 'Gathie', 'Phill'],
'Team': ['A', 'B', 'C', 'D', 'E', 'A', 'B']
)
print (d_frame ['team'].Value_Counts ().idxmax ())

Vær oppmerksom på at selv om det er mange modus til stede, returnerer denne metoden bare en enkelt verdi. Dette skjedde fordi IdxMax () -funksjonen bare leverer ett resultat - “Hvis flere verdier stemmer overens.”For å hente den vanligste verdien i en Pandas -serie, må du bruke Pandas Series 'Mode ()' -funksjon.

Konklusjon:

I denne artikkelen så vi på hvordan vi kan finne den hyppigste verdien i en pandas -kolonne eller serie ved hjelp av visse eksempler. Vi har diskutert en rekke funksjoner som kan brukes til å oppnå dette målet. Modus (), verdiskall () og idxmax () er noen av disse metodene. Hvis du er ny på dette konseptet og trenger en trinn-for-trinns guide for å komme i gang, gå ikke lenger enn denne artikkelen.