Pandas slipp duplikatindeks

Simen Stensrud

Pandas har en metode som heter “Index.drop_duplicates () ”som lar oss slippe duplikatindeksene fra listen over indeksetiketter. “Indeksen.drop_duplicates () ”-funksjon i pandas returnerer en indeks med de kasserte duplikatoppføringene. Funksjonen gir brukeren med frihet til å velge hvilken duplikatverdi som skal holdes. Vi har to alternativer: enten fjern de første og siste duplikatoppføringene fra listen eller fjern alle duplikatdata fra listen.

Hvis du vil bruke denne funksjonen, må følgende syntaks følges:

Syntaks:

Pandas.Indeks.drop_duplicates (keep = 'first')

Parameter:
“Beholde”Parameter brukes til å regulere hvordan du håndterer duplikatverdiene. “Keep” er nødvendig. Som standard er verdien “først”.

Når verdien er “først”, Beager programmet det første elementet som distinkte og de andre identiske verdiene som duplikater. Dette, med unntak av første instans, eliminerer duplikatene.
Hvis verdien er satt til “siste”, Den behandler den siste oppføringen som unike og de andre identiske verdiene som duplikater. Det eliminerer da alle duplikater bortsett fra den siste forekomsten av den verdien.
Hvis "hold" -parameteren har "Falsk”Verdi, alle identiske verdier blir behandlet som duplikater. Den slipper alle duplikatverdiene fra listen.

Eksempel 1: Uten parametere
I dette eksemplet har vi en indeks som heter “Index1” som har 10 heltall. La oss fjerne duplikatene uten å sende noen parameter til Drop_Duplicates () -funksjonen.

Importer pandaer
# Opprett pandasindeks som har 10 verdier
Indeks1 = Pandas.Indeks ([45,67,45,89,45,89,12,34,67,89]))
Print ("Faktisk indeks:", indeks1)
Print ("Unique Index:", Index1.drop_duplicates ())

Produksjon:

Forklaring:
Unike indekser returneres ved å fjerne duplikatene.

Eksempel 2: med å holde meg som usant
La oss ha en indeks som har 5 strenger med duplikater. Sett nå "Keep" -parameteren til False.

Importer pandaer
# Opprett pandasindeks som har 5 strenger
Indeks1 = Pandas.Indeks (['i1', 'i1', 'i4', 'i5', 'i4'])
Print ("Faktisk indeks:", indeks1)
Print ("Unique Index:", Index1.drop_duplicates (hold = usant))

Produksjon:

Forklaring:
Det er bare en unik indeks - “I5”. Det returneres ved å fjerne alle duplikatene.

Eksempel 3: Med Keep som først
La oss ha “indeks1” med 10 verdier og “indeks2” med 5 strenger. Sett "hold" til "først" for å slippe duplikatene uten å fjerne den første forekomsten.

Importer pandaer
# Opprett pandasindeks som har 10 verdier
Indeks1 = Pandas.Indeks ([45,67,45,89,45,89,12,34,67,89]))
Print ("Faktisk indeks 1:", indeks1)
# Slipp duplikater uten å fjerne den første forekomsten
Print ("Unique Index 1:", Index1.drop_duplicates (keep = 'first'))
# Opprett pandasindeks som har 5 strenger
INDEX2 = PANDAS.Indeks (['i1', 'i1', 'i4', 'i5', 'i4'])
Print ("Faktisk indeks 2:", Index2)
# Slipp duplikater uten å fjerne den første forekomsten
Print ("Unique Index 2:", Index2.drop_duplicates (keep = 'first'))

Produksjon:

Forklaring:

I “Index1”, [45, 67, 89, 12, 34] er den første forekomsten av unike verdier.
I “Index2”, ['i1', 'i4', 'i5'] er den første forekomsten av unike verdier.

Eksempel 4: Med Keep som sist
La oss ha “indeks1” med 10 verdier og “indeks2” med 5 strenger. Sett "hold" til "først" for å slippe duplikatene uten å fjerne den første forekomsten.

Importer pandaer
# Opprett pandasindeks som har 10 verdier
Indeks1 = Pandas.Indeks ([45,67,45,89,45,89,12,34,67,89]))
Print ("Faktisk indeks 1:", indeks1)
# Slipp duplikater uten å fjerne den siste forekomsten
Print ("Unique Index 1:", Index1.drop_duplicates (keep = 'last'))
# Opprett pandasindeks som har 5 strenger
INDEX2 = PANDAS.Indeks (['i1', 'i1', 'i4', 'i5', 'i4'])
Print ("Faktisk indeks 2:", Index2)
# Slipp duplikater uten å fjerne den siste forekomsten
Print ("Unique Index 2:", Index2.drop_duplicates (keep = 'last'))

Produksjon:

Forklaring:

I “Index1”, [45, 12, 34, 67, 89] er den siste forekomsten av unike verdier.
I “Index2”, ['i1', 'i5', 'i4'] er den siste forekomsten av unike verdier.

Konklusjon

Denne opplæringen er basert på konseptet med å slippe duplikatindeksene ved hjelp av Pandas -modulen. Vi benyttet pandaene “indeksen.drop_duplicates () ”-metoden. Vi ga syntaks for bruk av denne metoden og beskrev også dens parametere. Denne metoden gir oss tre valg for å håndtere dupliserte verdier. Hvert trinn i denne artikkelen forklares veldig tydelig og enkelt.

Python

Python Ikke alle argumenter som er konvertert under strengformatering

Denne feilen kan fikses ved å korrigere syntaksen til % operatøren, ved å bruke format () -funksjone...

Simen Ødegård

Windows OS

Hva er forskjellen mellom Windows Top 10 Home og Pro

Pro -versjonen er for profesjonelle brukere og har mer administrative verktøy, mens Home -versjonen ...

Daniel Johnsen

Python

Matplotlib 2D -histogram

I Python, “PLT.hist2d () ”-funksjon av“ Pyplot ”-modulen i“ Matplotlib ”-biblioteket brukes til å pl...

Elias Krogh Svendsen