Hvordan trekke ut unike verdier fra Pandas -kolonnen?
Flere måter kan brukes til å finne unike verdier i pandaer. Den vanligste måten å trekke ut unike verdier fra en kolonne er å bruke den unike () -funksjonen og Drop_Duplicates () -funksjonen. Før du bruker disse funksjonene, la oss se syntaksen deres først.
Syntaks av unik () -funksjon: serie.unik ()
Returnerer: Ndarray eller ExtensionArray
Syntaks av drop_duplicate () -funksjon
Dataramme.drop_duplicates (subset = ingen, keep = 'first', inplace = falsk)
Parametere:
delett: En liste over kolonnetiketter eller en kolonne er påkrevd av undergruppen. Ingen er standardverdien for den. Etter å ha passert kolonner, vil det bare ta hensyn til duplikater.
beholde: For å kontrollere hvordan duplikatverdier blir vurdert. Vi kan bruke tre forskjellige verdier; det er 'først' som standard.
på plass: Boolsk verdi. Hvis det er sant, fjerner dupliserte rader.
Returnerer: Avhengig av argumentene, vil returtypen være en datafram med dupliserte rader eliminert.
Som vi har sett syntaksen, la oss gå mot eksemplene for å lære å trekke ut unike verdier fra Pandas -kolonnen.
Eksempel # 01: Få unike verdier fra Pandas -kolonnene ved å bruke den unike () metoden
Når du jobber med en enkelt kolonne med en dataaframe, “Pandas.Dataramme.Unik () ”-metode brukes. Den returnerer alle unike komponenter i en kolonne. Metoden genererer et dataaframe som inkluderer de distinkte kolonneelementene og deres tilhørende indeksetiketter som utgang. La oss lage en dataaframe først, slik at vi kan bruke den unike () -funksjonen til å trekke ut unike verdier fra kolonnene sine.
Etter å ha importert Pandas -modulen, opprettet vi DataFrame ved hjelp av en Pandas -ordbok. Vi definerte nøklene til vår ordbok som "navn" og "kurs" og tildelte denne ordboken til variabelen "DIC". "DIC" -variabelen føres deretter i parameteren til PD.DataFrame () -metode som et argument for å lage “DF” DataFrame. Vi kan se vår DataFrame ved å bruke print () -funksjonen.
La oss anta at DataFrame vår består av studentnavn og kursene de er påmeldt. I en slik situasjon er det ganske vanskelig å telle hver rad i DataFrame for å identifisere den spesifikke kurskategorien for å bestemme det totale antallet kurs som er studert. I forrige Dataframe -kolonnen "Kurs" som inneholder navnet på kurs ('engelsk', 'Maths', 'Chemistry', 'Maths', 'Statistics', 'Maths', 'English', 'DataScience')). Mer enn én student studerer noen kurs. Så for å få de unike kursene fra "kurs" -kolonnen, vil vi bruke den unike () funksjonen.
I utgangen får vi en rekke elementer som inneholder de unike kursene i DataFrame. Anta at du vil telle det totale antallet distinkte elementer i stedet for å lete etter navnene på unike verdier i DataFrames kolonner. For dette formålet kan vi bruke nunique () -funksjonen. Det totale antallet distinkte verdier for hver kolonne returneres etter nunique () -metoden.
Nunique () -funksjonen har returnert “5”, noe som betyr at det er totalt 5 unike verdier i kolonnen 'Courses' i 'DF' DataFrame.
Eksempel # 02: Bruke unik () -metode Få unike verdier fra numeriske kolonner
For å lage en dataaframe, vil vi først importere Pandas -modulen. Deretter vil vi opprette vår dataaframe ved hjelp av PD.DataFrame () -funksjon.
Som sett ovenfor, har vi opprettet DataFrame ved å passere en ordbok inne i DataFrame () -funksjonen. For å visualisere det nyopprettede DataFrame, bruker vi PRINT () -funksjonen.
I denne Dataframe har vi to etiketter, "alder" og "lønn", med numeriske data. I kolonnen "Alder" har vi aldre av individer som ("20", "24", "20", "22", "21", "28", "31", "25"), mens "Lønn" -kolonnen lagrer lønnen til enkeltpersoner ('1000', '1000', '1300', '1100', '1400', '1000', '1100', '1400'). Nå vil vi bruke den unike () -funksjonen for å få de distinkte verdiene fra kolonnene i DataFrame.
Som det forrige skriptet viser, brukte vi den unike () funksjonen for å få distinkte verdier fra "lønn" -kolonnen. Funksjonen har returnert utdataene i form av en matrise ['1000', '1300', '1100', '1400'] som inneholder alle de unike verdiene fra "lønn" -kolonnen i DataFrame. Vi kan også bruke sort () -funksjonen for å sortere resultatdataene i stigende rekkefølge.
For å sortere utdata -matrisen (med unike verdier fra lønnskolonnen), tildelte vi matrisen til en variabel 'U'. Sorter () -funksjonen brukes på matrisen for å sortere verdiene til utgangsarrayen i stigende rekkefølge.
Eksempel # 03: Få unike verdier fra flere kolonner ved å bruke den unike () -metoden
Vi har lært hvordan vi kan trekke ut et sett med forskjellige verdier fra en enkelt kolonne med DataFrame. Men i noen situasjoner. Det kan hende du trenger å finne distinkte verdier på tvers av flere kolonner. Under slike omstendigheter, før vi bruker den unike () funksjonen på serien (kolonnen), vil vi kombinere verdiene til kolonnene vi ønsker å få de unike verdiene. Vi vil bruke den samme DataFrame, som vi har laget i eksempel nr. 2.
Anta at vi ønsker å få de distinkte verdiene fra kolonnene 'og' lønn '. Først vil vi slå sammen dataene fra begge kolonnene ved hjelp av følgende skript.
I forrige kode valgte vi dataene fra kolonnen 'Age' og brukte deretter vedlegget ('lønn') for å slå sammen dataene fra 'lønn' -kolonnen med dataene fra 'Age' -kolonnen. Etter å ha slått sammen dataene, brukte vi den unike () -funksjonen for å få de forskjellige verdiene fra begge kolonnene.
Som det kan sees, har vi vellykket trukket ut de unike verdiene fra begge kolonnene.
Eksempel nr. 04: Bruke Drop_Duplicates () -funksjonen for å få unike verdier fra Pandas kolonner
Drop_duplicates-funksjonen er en innebygd funksjon av Pandas Library. Den kan brukes til å fjerne gjentatte verdier eller dupliserte data fra DataFrames kolonne. Radene med dupliserte verdier fjernes mens datatypen til objektet eller dens delmengde forblir bevart. Drop_duplicate () -metoden er det raskere alternativet for å eliminere duplikatverdier når du jobber med en stor gruppe av data.
Nå vil vi bruke Drop_Duplicate () -funksjonen for å eliminere kolonnene med duplikatverdier.
Som du kan se, har alle radene blitt eliminert ved å vurdere duplikatdataene i "lønn" -kolonnen. Bare den første forekomsten av duplikatverdier er igjen i DataFrame.
Konklusjon
I denne artikkelen diskuterte vi hvordan du kan få unike verdier fra kolonnene i DataFrame i Pandas. Etter å ha gått gjennom denne opplæringen, kan du kanskje trekke ut unike verdier fra Pandas -kolonnen på egen hånd. Vi implementerte noen få eksempler for å lære deg hvordan du får unike verdier fra Pandas -kolonner og numeriske Pandas -kolonner ved å bruke den unike () funksjonen og Drop_Duplicates () -funksjonen.