Pandas sjekk om to kolonner er like

Pandas sjekk om to kolonner er like
Ofte vil du sammenligne data i to kolonner i en Pandas DataFrame og vise resultatene i en tredje kolonne. Vi lærer alle retningslinjene for hvordan du kan sammenligne kolonnene i en Pandas DataFrame i dette innlegget. Pandas er en nyttig Python -pakke for dataanalyse, visualisering, datarensing og andre aktiviteter. Fortsett å lese denne artikkelen for å finne alle detaljene om å sammenligne to kolonner i en Pandas DataFrame med eksempler.

Pandas -modul i Python

Python Pandas -modulen er egentlig en gratis Python -pakke. Den har et bredt spekter av applikasjoner innen databehandling, dataanalyse, statistikk og andre felt.

Pandas -modulen benytter seg av Numpy -modulens kjernefunksjoner. Numpy er en datastruktur på lavt nivå. Det lar brukere manipulere flerdimensjonale matriser og bruke forskjellige matematiske operasjoner på dem. Pandas tilbyr et mer avansert brukergrensesnitt. Det inkluderer også robust tidsseriefunksjon og forbedret tabelldatajustering.

Dataframe er Pandas 'primære datastruktur. Det er en 2-D datastruktur som lar deg lagre og manipulere data som er i tabellform.

Pandas har mange funksjoner for DataFrame. Datajustering, skiver, datastatistikk, gruppering, sammenkoblingsdata, sammenslåing og så videre er eksempler.

Hvorfor sammenligne to kolonner i pandaer?

Når vi ønsker å sammenligne verdiene til to kolonner eller se hvor like de er, må vi sammenligne dem. For eksempel, hvis vi har to kolonner og ønsker å bestemme om kolonnen er mer eller mindre enn den andre kolonnen eller deres likhet, er det å sammenligne kolonnene den aktuelle måten å gjøre det.

For å knytte verdiene i Pandas og Numpy, er det en rekke tilnærminger. I denne redaksjonen vil vi gå gjennom en rekke strategier og handlingene som er involvert i å utføre dem i livet.

La oss anta at vi har to kolonner: Kolonne A inneholder forskjellige prosjekter, og kolonne B har tilhørende navn. I kolonne D har vi flere ikke -relaterte prosjekter. Basert på prosjektene i kolonne D, ønsker vi å returnere de tilknyttede navnene fra kolonne B. I Excel, hvordan kan du sammenligne kolonner A og D og få de relative verdiene fra kolonne B? La oss se på noen eksempler og forstå hvordan du kan oppnå dette.

Eksempel 1:

NP.hvor () teknikk vil bli brukt i dette eksemplet. Syntaksen er numpy.hvor (tilstand [, a, b]). Denne metoden mottar tilstanden, og hvis tilstanden er sann, vil verdien vi gir ('a' i syntaks) være verdien vi gir dem.

Vi importerer de nødvendige bibliotekene, pandaene og Numpy, i koden nedenfor. Vi konstruerte en ordbok og listet opp verdiene for hver kolonne.

Vi får tilstanden til å sammenligne kolonnene ved å bruke Where () -metoden i Numpy. Hvis 'First_Column' er mindre enn 'Second_Column' og 'First_Column' er mindre enn 'Third_Column, er' verdiene til 'First_Column' skrives ut. Hvis tilstanden mislykkes, er verdien satt til 'nan.'Disse resultatene lagres i DataFrames nye kolonne. Endelig presenteres DataFrame på skjermen.

Importer pandaer
Importer numpy
data =
'First_column': [2, 3, 40, 5],
'Second_column': [8, 5, 30, 10],
'Third_column': [4, 9, 12, 40]

d_frame = pandas.DataFrame (data)
d_frame ['new'] = numpy.hvor ((d_frame ['first_column'] <= d_frame['Second_Column']) & (
d_frame ['first_column'] <= d_frame['Third_Column']), d_frame['First_Column'], numpy.nan)
Print (D_Frame)

Utgangen vises nedenfor. Her kan du se First_Column, Second_Column og Third_Column. Den 'nye' kolonnen viser de resulterende verdiene etter å ha utført kommandoen.

Eksempel 2:

Dette eksemplet viser hvordan du bruker Equals () -metoden for å sammenligne to kolonner og returnere resultatet i den tredje kolonnen. Dataramme.like (annet) er syntaks. Denne metoden sjekker om to kolonner har de samme elementene.

Vi bruker den samme metoden i koden nedenfor, som innebærer å importere biblioteker og bygge en DataFrame. Vi har opprettet en ny kolonne (kalt: fjerde_column) i denne dataaframe. Denne nye kolonnen tilsvarer 'Second_column' for å vise hva funksjonen utfører i denne dataaframe.

Importer pandaer
Importer numpy
data =
'First_column': [2, 3, 40, 5],
'Second_column': [8, 5, 30, 10],
'Third_column': [4, 9, 12, 40],
'Fourth_column': [8, 5, 30, 10],

d_frame = pandas.DataFrame (data)
print (d_frame ['fjerde_column'].lik (d_frame ['Second_column']))

Når vi kjører prøvekoden gitt ovenfor, returnerer den 'sant', som du kan se i det vedlagte bildet.

Eksempel 3:

Denne metoden lar oss passere metoden og ellers forholdene i vår artikkelens endelige eksempel og få den samme funksjonen utført på tvers av Pandas DataFrame -serien. Ved hjelp av denne strategien minimerer vi tid og kode.

Den samme koden brukes også i dette eksemplet for å lage en dataaframe i pandaer. Vi lager en midlertidig anonym funksjon i Apply () i seg selv ved å bruke lambda ved hjelp av Apply () -metoden. Den bestemmer om 'kolonne1' er mindre enn 'kolonne2' og 'kolonne1' er mindre enn 'kolonne3'. Hvis sant, blir verdien 'kolonne1' returnert. Den vil vise Nan hvis det er usant. Den nye kolonnen brukes til å holde disse verdiene. Som et resultat ble kolonnene sammenlignet.

Importer pandaer
Importer numpy
data =
'First_column': [2, 3, 40, 5],
'Second_column': [8, 5, 30, 10],
'Third_column': [4, 9, 12, 40],

d_frame = pandas.DataFrame (data)
d_frame ['new'] = d_frame.Bruk (lambda x: x ['first_column'] hvis x ['first_column'] <=
x ['Second_column'] og x ['first_column']
<= x['Third_Column'] else numpy.nan, axis=1)
Print (D_Frame)

Det vedlagte bildet viser sammenligning av to kolonner.

Konklusjon:

Dette var et kort innlegg om å bruke Pandas og Python for å sammenligne en eller flere kolonner med to Dataframes. Vi har gått over lik () -funksjonen (som sjekker om to Pandas -objekter har de samme elementene), NP.hvor () metode (som returnerer elementer fra x eller y avhengig av kriteriene), og Apply () -metoden (som godtar en funksjon og bruker den på alle verdier i en Pandas -serie). Hvis du ikke er kjent med konseptet, kan du bruke denne guiden. For enkelhets skyld inkluderer innlegget alle detaljene så vel som mange prøver.