Pandas kolonne unike verdier

Pandas kolonne unike verdier
Det mest populære Python Data Science Library heter Pandas. Det tilbyr høy ytelse, brukervennlige dataanalysedatastrukturer og verktøy for Python-programmerere. Når du har forstått de grunnleggende operasjonene og hvordan de kan brukes, er Pandas et nyttig verktøy for å endre data. La oss se på en slik operasjon i denne opplæringen, sammen med noen eksempler og output, for å få distinkte verdier i en kolonne i en Pandas dataaframe.

Hvordan trekke ut unike verdier fra Pandas -kolonnen?

Flere måter kan brukes til å finne unike verdier i pandaer. Den vanligste måten å trekke ut unike verdier fra en kolonne er å bruke den unike () -funksjonen og Drop_Duplicates () -funksjonen. Før du bruker disse funksjonene, la oss se syntaksen deres først.

Syntaks av unik () -funksjon: serie.unik ()

Returnerer: Ndarray eller ExtensionArray

Syntaks av drop_duplicate () -funksjon

Dataramme.drop_duplicates (subset = ingen, keep = 'first', inplace = falsk)


Parametere:

delett: En liste over kolonnetiketter eller en kolonne er påkrevd av undergruppen. Ingen er standardverdien for den. Etter å ha passert kolonner, vil det bare ta hensyn til duplikater.

beholde: For å kontrollere hvordan duplikatverdier blir vurdert. Vi kan bruke tre forskjellige verdier; det er 'først' som standard.

    1. Hvis 'først', vil den første verdien bli ansett som unik, og resten av det samme eller gjentatte verdier vil bli betraktet som en duplikat.
    2. Hvis 'sist', vil den siste verdien bli ansett som unik, og resten av det samme eller gjentatte verdier vil bli betraktet som en duplikat.
    3. Hvis de er falske, vil alle de samme verdiene bli betraktet som et duplikat.

på plass: Boolsk verdi. Hvis det er sant, fjerner dupliserte rader.

Returnerer: Avhengig av argumentene, vil returtypen være en datafram med dupliserte rader eliminert.

Som vi har sett syntaksen, la oss gå mot eksemplene for å lære å trekke ut unike verdier fra Pandas -kolonnen.

Eksempel # 01: Få unike verdier fra Pandas -kolonnene ved å bruke den unike () metoden

Når du jobber med en enkelt kolonne med en dataaframe, “Pandas.Dataramme.Unik () ”-metode brukes. Den returnerer alle unike komponenter i en kolonne. Metoden genererer et dataaframe som inkluderer de distinkte kolonneelementene og deres tilhørende indeksetiketter som utgang. La oss lage en dataaframe først, slik at vi kan bruke den unike () -funksjonen til å trekke ut unike verdier fra kolonnene sine.


Etter å ha importert Pandas -modulen, opprettet vi DataFrame ved hjelp av en Pandas -ordbok. Vi definerte nøklene til vår ordbok som "navn" og "kurs" og tildelte denne ordboken til variabelen "DIC". "DIC" -variabelen føres deretter i parameteren til PD.DataFrame () -metode som et argument for å lage “DF” DataFrame. Vi kan se vår DataFrame ved å bruke print () -funksjonen.


La oss anta at DataFrame vår består av studentnavn og kursene de er påmeldt. I en slik situasjon er det ganske vanskelig å telle hver rad i DataFrame for å identifisere den spesifikke kurskategorien for å bestemme det totale antallet kurs som er studert. I forrige Dataframe -kolonnen "Kurs" som inneholder navnet på kurs ('engelsk', 'Maths', 'Chemistry', 'Maths', 'Statistics', 'Maths', 'English', 'DataScience')). Mer enn én student studerer noen kurs. Så for å få de unike kursene fra "kurs" -kolonnen, vil vi bruke den unike () funksjonen.


I utgangen får vi en rekke elementer som inneholder de unike kursene i DataFrame. Anta at du vil telle det totale antallet distinkte elementer i stedet for å lete etter navnene på unike verdier i DataFrames kolonner. For dette formålet kan vi bruke nunique () -funksjonen. Det totale antallet distinkte verdier for hver kolonne returneres etter nunique () -metoden.


Nunique () -funksjonen har returnert “5”, noe som betyr at det er totalt 5 unike verdier i kolonnen 'Courses' i 'DF' DataFrame.

Eksempel # 02: Bruke unik () -metode Få unike verdier fra numeriske kolonner

For å lage en dataaframe, vil vi først importere Pandas -modulen. Deretter vil vi opprette vår dataaframe ved hjelp av PD.DataFrame () -funksjon.

Som sett ovenfor, har vi opprettet DataFrame ved å passere en ordbok inne i DataFrame () -funksjonen. For å visualisere det nyopprettede DataFrame, bruker vi PRINT () -funksjonen.


I denne Dataframe har vi to etiketter, "alder" og "lønn", med numeriske data. I kolonnen "Alder" har vi aldre av individer som ("20", "24", "20", "22", "21", "28", "31", "25"), mens "Lønn" -kolonnen lagrer lønnen til enkeltpersoner ('1000', '1000', '1300', '1100', '1400', '1000', '1100', '1400'). Nå vil vi bruke den unike () -funksjonen for å få de distinkte verdiene fra kolonnene i DataFrame.


Som det forrige skriptet viser, brukte vi den unike () funksjonen for å få distinkte verdier fra "lønn" -kolonnen. Funksjonen har returnert utdataene i form av en matrise ['1000', '1300', '1100', '1400'] som inneholder alle de unike verdiene fra "lønn" -kolonnen i DataFrame. Vi kan også bruke sort () -funksjonen for å sortere resultatdataene i stigende rekkefølge.


For å sortere utdata -matrisen (med unike verdier fra lønnskolonnen), tildelte vi matrisen til en variabel 'U'. Sorter () -funksjonen brukes på matrisen for å sortere verdiene til utgangsarrayen i stigende rekkefølge.

Eksempel # 03: Få unike verdier fra flere kolonner ved å bruke den unike () -metoden

Vi har lært hvordan vi kan trekke ut et sett med forskjellige verdier fra en enkelt kolonne med DataFrame. Men i noen situasjoner. Det kan hende du trenger å finne distinkte verdier på tvers av flere kolonner. Under slike omstendigheter, før vi bruker den unike () funksjonen på serien (kolonnen), vil vi kombinere verdiene til kolonnene vi ønsker å få de unike verdiene. Vi vil bruke den samme DataFrame, som vi har laget i eksempel nr. 2.


Anta at vi ønsker å få de distinkte verdiene fra kolonnene 'og' lønn '. Først vil vi slå sammen dataene fra begge kolonnene ved hjelp av følgende skript.


I forrige kode valgte vi dataene fra kolonnen 'Age' og brukte deretter vedlegget ('lønn') for å slå sammen dataene fra 'lønn' -kolonnen med dataene fra 'Age' -kolonnen. Etter å ha slått sammen dataene, brukte vi den unike () -funksjonen for å få de forskjellige verdiene fra begge kolonnene.


Som det kan sees, har vi vellykket trukket ut de unike verdiene fra begge kolonnene.

Eksempel nr. 04: Bruke Drop_Duplicates () -funksjonen for å få unike verdier fra Pandas kolonner

Drop_duplicates-funksjonen er en innebygd funksjon av Pandas Library. Den kan brukes til å fjerne gjentatte verdier eller dupliserte data fra DataFrames kolonne. Radene med dupliserte verdier fjernes mens datatypen til objektet eller dens delmengde forblir bevart. Drop_duplicate () -metoden er det raskere alternativet for å eliminere duplikatverdier når du jobber med en stor gruppe av data.


Nå vil vi bruke Drop_Duplicate () -funksjonen for å eliminere kolonnene med duplikatverdier.


Som du kan se, har alle radene blitt eliminert ved å vurdere duplikatdataene i "lønn" -kolonnen. Bare den første forekomsten av duplikatverdier er igjen i DataFrame.

Konklusjon

I denne artikkelen diskuterte vi hvordan du kan få unike verdier fra kolonnene i DataFrame i Pandas. Etter å ha gått gjennom denne opplæringen, kan du kanskje trekke ut unike verdier fra Pandas -kolonnen på egen hånd. Vi implementerte noen få eksempler for å lære deg hvordan du får unike verdier fra Pandas -kolonner og numeriske Pandas -kolonner ved å bruke den unike () funksjonen og Drop_Duplicates () -funksjonen.