Pandas smelter sammen på flere kolonner

Daniel Johnsen

Pandas er egentlig en Python -pakke som ofte brukes til å jobbe med datasamlinger. Det er en åpen kildekode som kan brukes i nøyaktige maskinlæringsoppgaver. I tillegg støttes de flerdimensjonale matriserene. Hovedegenskapene til Pandaer er dataketting og datasett omforming. Det kan være konstruert på toppen av Python -programmeringsspråket som brukes med åpen kildekode.

Fett sammen med flere () kolonne metode

Det er forskjellige teknikker for å betjene datasettene. Merge -metoden er en av dem. Flere kolonner med to eller flere to dataframmer kan slås sammen for å opprettholde dataene på en god måte. Hver gang vi trenger å slå sammen to Pandas Dataframes på flere kolonner, bruker vi “Pandas.Merge () ”-metode. Det er en effektiv måte for dataforskeren, da det kan spare tid på å opprettholde databasen på en bedre måte. For å forbedre kodenes troskap, må vi slå sammen våre dataframmer i pandaer fordi to dataframmer kan ha forskjellige typer informasjon om det samme elementet og de kan ha store like segmenter.

I vår artikkel vil vi se på hvordan vi kan slå sammen de flere kolonnene med dataframmer ved å bruke “Pandas.Merge () ”-metode. Hvis vi vil slå sammen DataFrame -settene uten noen nøkkelkolonne, fusjonerer den alle vanlige kolonnene i DataFrame. Men den erstatter hver felles kolonne med en enkelt kolonne fra begge datasettene.

Syntaks:

Eksempel 1: Viser merge () -metoden på flere kolonner med en lignende kolonne i pandaer av to dataframmer

Her ser vi på sammenslåing av flere kolonner i DataFrames. Sjelden bruker vi “Merge” -teknikken for å kombinere to dataframmer. Nå lager vi våre to dataframmer. Først importerer vi open source-pandaene som "KD". Deretter oppretter vi vår første DataFrame ved hjelp av “KD.DataFrame ”og kalte den“ CD1 ”som erklærer de tre variablene som er“ M ”,“ K ”og“ A ”.

I utgangspunktet “M”, “K” og “A” er de tre kolonnene i “CD1” DataFrame. Verdiene som er tilordnet “M” kolonnevariabel er “10”, “10”, “20”, “20” og “30”. Verdiene som er tilordnet “K” er “10”, “10”, “20”, “20” og “20”. Verdiene som er tilordnet variabel “A” er “130”, “90”, “120”, “50” og “50”. Her opprettes vår første DataFrame “CD1”. Nå, kom til det andre DataFrame som heter “CD2” som har tre kolonner ved å erklære tre variabler “M”, “K” og “N”. Verdiene som er tilordnet “M” er “10”, “20”, “20”, “20” og “30”. Verdiene som er tilordnet variabel “k” er “10”, “10”, “10” “20” og “20”. Og de tildelte verdiene til “n” er “150”, “160”, “170”, “180” og “130”. Her opprettes vår dataaframe “CD2”.

Nå kommer vi til hovedfunksjonen vår “KD.Merge () ”som vi brukte for å slå sammen de flere kolonnene i DataFrame. Her bruker vi "Venstre" -parameteren på kolonnene våre "M" og "K", da de er like i begge DataFrames. Etter det bruker vi ganske enkelt vår "print ()" -funksjon for å vise "sammenslåingen" av to kolonner. I dette eksemplet diskuterer vi "fusjonen" av to kolonner i "CD1" og "CD2" dataframmer med lignende kolonner som er "M" og "K". Det fusjonerer ganske enkelt begge lignende kolonnene i de forskjellige dataframene.

Nå diskuterer vi utdataene fra koden vår. Den første kolonnen som starter fra “0” til “4” er indeksnumrene. Ettersom "M" -kolonnen er lik i begge DataFrames, blir den slått sammen og vises en gang med verdier som er "10", "10", "20", "20" og "30". Etter det er den neste kolonnen som vises “K” som også er en lignende kolonne. Den blir også slått sammen og vist bare en gang sammen med dataene fra "10", "10", "20", "20" og "20". De forskjellige kolonnene til begge dataframene er “A” og “N” som vises langs dem. Verdiene til denne lignende kolonnen “A” som vises er “130”, “90”, “120”, “50” og “50”. Den siste kolonnen som vises i utgangen er "N" sammen med data som er "150", "150", "180", "180" og "130".

Lignende kolonner blir slått sammen på venstre side på grunn av å bruke "venstre" -metoden. Resten av de ikke-vanlige kolonnene vises til høyre som standard. Ettersom "M" og "K" -kolonnene var like i begge dataframene, kan de vises en gang i utgangen etter implementeringen av “Pandas.Merge () ”-metode sammen med de gjenværende kolonnene“ A ”og“ N ”.

Eksempel 2: Vise fletting () på flere kolonner med distinkte navn i to dataframmer

Nå diskuterer vi sammenslåingen av flere kolonner som har forskjellige kolonnenavn i dette eksemplet. I dette tilfellet importerer vi pandas bibliotek som "FB". Først av alt lager vi våre dataframmer som "PK1" og "PK2". DataFrame “PK1” erklærer med tre variabelnavn som er “fag”, “ladninger” og “time_period” som fungerer som kolonner. Verdiene som er lagret i "fag" er "nett", "grammatikk", "sosial", "elektronisk" og "IKT". Dataverdiene som er lagret i kolonne “Charges” er “10000”, “20000”, “30000”, “40000” og “50000”. Den siste kolonnen i "PK1" DataFrame er "TIME_PERIOD" som lagrer verdiene til "4 timer", "5 timer", "6 timer", "5.5 timer ”og“ 5 timer ”.

Den andre DataFrame som heter “PK2” har tre kolonner som er “fag”, “Charges” og “Prosentil”. Verdien som vi tildeler "fag" er "IKT", "Grammatikk", "Sosial", "elektronisk" og "database". I den andre kolonnen “Charges” av DataFrame, tildeler vi verdiene til “10000”, “20000”, “30000”, “40000” og “50000”. Den siste kolonnen "Prosentil" lagrer verdiene som er "5%", "10%", "20%", "10%" og "5%". Etter å ha opprettet Dataframes, viser vi dem bare ved å bruke "print ()" -funksjonen.

Når våre DataFrames er opprettet, bruker vi implementeringen av “Pandas.Merge () ”-funksjon. Vi slår sammen den første dataaframet “PK1” sammen med den andre DataFrame “PK2”. Her ønsker vi å slå sammen de forskjellige kolonnene med DataFrames, så vi bruker parametrene til “Left_on” og “Right_on”. Vi bruker disse parametrene på kolonnen med "emner" i begge dataframene. Etter det er begge dataframene slått sammen, og vi viser det bare etter "Print ()" -funksjonen.

Nå, ta en titt på utdataene våre fra den respektive koden. Som vi kan se i vår output -visning fra den første indeksen til “0” til “4”, viser den vår første dataframme av “PK1” av de første kolonnene “Emner” som inneholder “Web”, “Grammar”, “Social” , “Elektronisk” og “IKT”. Den andre kolonnen “Charges” inneholder de numeriske verdiene til “10000”, “20000”, “30000”, “40000” og “50000. Tredje kolonne “Time_Period” inneholder verdiene “4 timer”, “5 timer”, “6 timer”, “5.5 timer ”og“ 5 timer ”.

Deretter viser den dataene fra "PK2" DataFrame som også inneholder tre kolonner: "Fag", "Ladninger" og "Prosentil". Kolonnen “Emne” viser “IKT”, “GRAMMER”, “SOSIAL”, “ELEKTRONISK” og “DATABASE”. Kolonnen “Charges” viser verdiene sine på “10000”, “20000”, “30000”, “40000” og “50000”. Den tredje kolonnen “Percentile” viser data om “5%”, “10%”, “20%”, “10%” og “5%”.

Til slutt, etter å ha brukt “Pandas.Fusjon () ”-funksjonen, den kombinerer dataene fra begge rammene. Som standard fusjonerer den "Emne" -kolonnen til begge dataframene med lignende verdier og viser dem sammen med de flere forskjellige kolonnene i begge DataFrames. Etter sammenslåingen av begge DataFrames, viser vi de fem forskjellige kolonnene som er slått.

Konklusjon

Vi beskrev hvordan vi kan kombinere flere kolonner i denne artikkelen. Vi diskuterte det ved å bruke eksemplene på å slå sammen to dataframmer som inneholder både lignende og forskjellige kolonner. For å slå sammen de lignende kolonnene, bruker vi bare den enkle “KD.Fusjon () ”-funksjonen og den fusjonerer den lignende kolonnen som standard av funksjonen. For å slå sammen de forskjellige flere kolonnene, bruker vi “FB.Merge () ”sammen med" venstre_on "og" høyre_on "-parametere.

Python

Matplotlib fet tekst

Parametrene Fontweight og Vekt brukes til å fete en tekst i matplotlib. Det brukes til å legge vekt ...

Alexander Sørlie

Python

Konverter streng til å stille python

For å konvertere den gitte strengen til et sett, kan forskjellige metoder som SET () -funksjon, legg...

Alexander Sørlie

Python

Hvordan bruke Xrange i Python

Xrange () -funksjonen i Python 2.x eller rekkevidde () -funksjon i python 3.x brukes til effektiv it...

Simen Stensrud