Pandas fusjonerer etter indeks

Daniel Johnsen

Prosedyren for å kombinere to datasett i ett og justere radene i henhold til delte attributter eller kolonner er kjent som "Pandas Merge ()". Ved hjelp av en Database-stil sammenføyningsoperasjon, kombineres to DataFrames-objekter ved hjelp av Pandas DataFrame “Merge ()” -funksjon. En todimensjonal datastruktur kalt en Pandas DataFrame er justert i et tabellformat. Det er mange måter å integrere disse dataframene på, inkludert "join ()" og "fusjon ()". Pandas 'fullverdige sammenføyningsprosedyrer og enestående ytelse er sammenlignbare med de fra en SQL-relasjonsdatabase. Bli med i operasjonene mellom DataFrames -objekter kan oppnås ved å bruke "Merge ()" -funksjonen. På kolonner eller indekser er sammenføyningen gjort. Indekser tas ikke i betraktning når du går sammen med kolonner. Kilden DataFrame -objekter er uberørt og en ny DataFrame returneres av denne funksjonen.

Selv om de brukes i distinkte situasjoner, brukes pandaer "Join" og "Merge" til å gjennomføre sammenføyninger på Pandas Dataframes. Mens "Merge ()" -prosedyren er mer fleksibel og lar deg bli med i dataframmer på både indekser og kolonner, brukes join () -funksjonen typisk til å bli med i dataframmer på indeksen. "Left_index" brukes som sammenføyningstasten og "høyre _index", som bruker indeksen fra "Right DataFrame", brukes som den andre koblingsnøkkelen. "Join ()" -teknikken kan benyttes for å bli med venstre datafram til en kolonne, men høyre DataFrame krever at den blir festet til indeksen.

Syntaksen for å kombinere to dataframmer ved å indeks ved hjelp av merge () -metoden

Ved hjelp av denne syntaksen kan to dataframmer kombineres basert på indeksene deres.

Syntaksen for å bli med i to DataFrames etter indeks ved hjelp av Join () -metoden

Eksempel 1: Ved å bruke indeksen deres, kan fusjonsfunksjonen () brukes til å bli med i to dataframmer.

Panda er en modul for databehandling. Tabelldata kan lagres i Python ved å bruke en dataaframe. Du kan raskt lagre og jobbe med tabelldata, for eksempel rader og kolonner ved å bruke DataFrame. Panda.

I dette eksemplet bruker vi "Fusjon ()" -funksjonen for å bli med i to dataframmer ved å matche indeksverdiene. I dette eksemplet opprettes to datarammer. Den første DataFrame har to kolonner og heter “Data1”. “Alder” og “Navn” er kolonnene til “Data1”. Vi har en liste over verdier i hver kolonne. Verdiene for "alder" vi har "28", "37", "29" og "32" og for kolonnen "Navn" har vi "George", "James", "Arthur" og "Henry". I denne dataaframe er størrelsen på indeksen “4”. Indeksen “ID” er “1”, “2”, “3” og “4”. Dataframets indeksinformasjon returneres gjennom indeksegenskapen. Etikettene for radene er inneholdt i indeksinformasjonen. Indeksegenskapen produserer et interindeksobjekt med start-, slutt- og faseverdiene hvis radene ikke har noen navngitte indekser.

Deretter oppretter vi en annen DataFrame “Data2”. Den har to kolonner “id” og “yrke”. I disse to kolonnene har vi en liste over verdier. I kolonnen “ID” har vi “1”, “2”, “3” og “4” . Kolonnen "yrke" har "lege" og "lærer" og "ingeniør". Deretter nevner vi indeksen her som er "1", "2", "3", "6" og "7".

Nå bruker vi "Merge ()" -funksjonen for å bli med i de to datarammene, "Data1" og "Data2". To parametere for fusjonsfunksjonen brukes: “venstre_index = true” og “right_index = true. Visse rader og kolonner med data må velges fra en dataaframe. Som den kombinerte tasten brukes "venstre indeks" fra venstre dataframe og annen tilkoblingstast. "Right _index" bruker indeksen fra riktig dataaframe.

Indeksering er prosessen med å velge alle radene og noen av kolonnene, noen av radene og alle kolonnene, eller et stykke av hver rad og hver kolonne. Et annet navn for indeksering er valg av undergruppe. “Merge ()” er funksjonen du trenger når du vil slå sammen dataelementer basert på en eller flere nøkler, omtrent som du vil i en relasjonsdatabase. Slå sammen rader, spesielt med lignende data, er best oppnådd med "Merge ()" -funksjonen. Nå vil det sammenkoble de to DataFrames ved å matche indeksadressen og vise dem på skjermen ved å bruke "print ()" -funksjonen.

En dataaframe vises i utgangsbildet i dette eksemplet. Så når flettefunksjonen blir sammen med de to datarammene, kan vi se at bare verdiene hvis indeksadresser matchet ble vist. De to siste radene i den andre dataaframe og den fjerde raden i den første DataFrame kunne ikke vises fordi indeksadressene deres ikke stemte overens. Størrelsen på datarammen vi har nå er tre etter å ha brukt sammenslåing på indeksen.

Eksempel 2: For å kombinere to dataframmer avhengig av indeksene deres, bruk FEM () -funksjonen.

Det er situasjoner når du slår sammen to DataFrames produserer et DataFrame med et indeksmønster som ikke oppfyller våre krav. Vi ønsker å endre indeksen som er resultatet av sammenslåingen. Når vi slår sammen DataFrames, skal vi tilbakestille indeksen av denne grunn. Den minste kontrollmengden er mulig med denne funksjonen basert på en delt kolonne eller indeks, radene fra de to tabellene vil bli sammenføyd.

For vårt andre eksempel, som ligner på det første, har dette programmet to datarammer “DF1” og “DF2”. Vi har to kolonner “Navn” og “Marks” i den første DataFrame. Verdiene vi har i den første kolonnen er “Emma”, “Watson”, “Jhon”, “Lilly”, “Edward”, “Noah”, “Smith” og “Enna” og verdiene i kolonnen “Marks” er “25”, “20”, “14”, “16”, “27”, “20”, “12” og “15”. Etter det hadde vi en indeksliste “A”, “B”, “C”, “D”, “E”, “F”, “G” og “H”. På samme måte er det to kolonner i det andre DataFrame “Emne” og “Merknader”. I kolonnen "Emne" har vi en liste over emner som inkluderer "OOP", "PF", "Python", "Java", "PHP" og "Calculus", og vi har en liste over kommentarer i "Merknader" -kolonnen som enten er "pass" eller "mislykkes". Indekslisten for andre DataFrame er “A” “C”, “D”, “G”, “M” og “N”.

Deretter, basert på indeksene til de to Dataframes, smelter vi dem sammen med å bruke "Join ()" -teknikken. Forbindelsesstrategien fungerer best når vi kobler DataFrames på indeksene sine, selv om vi kan velge en annen kolonne for at venstre DataFrame skal bli med. I tillegg til å la oss gi andre kolonner enn indeksen for å bli med på begge DataFrames, er sammenslåingsteknikken mer fleksibel. Den vil slå sammen DF1 og DF2 etter å ha samsvarende DF2s indeks med DF1s indeks.

Tre Dataframes kan sees i det resulterende bildet. De to første DataFrame “DF1” og ”DF2”, er de som vi har opprettet. Vi kan se at den tredje DataFrame bruker "Join ()" -funksjonen for å kombinere de øvre og nedre DataFrames basert på deres indekser. De som indeksen ikke stemte overens, ble vist “Nan” der.

Konklusjon

DataFrame er kombinert med Pandas “Merge ()” -teknikk. Kolonnene fra begge DataFrames er kombinert under sammenføyningsprosessen kjent som sammenslåing. Sammenføyning, indekser eller en kombinasjon av de to støttes også av sammenslåing. Denne artikkelen har dekket driften av "sammenføyninger ()" og "fusjon ()" -funksjonene i Pandas Python -biblioteket. Du kan enkelt bli med i to DataFrames ved å bruke indeksplasseringene deres ved å bruke metodene som er nevnt ovenfor, og du lærte også hvordan du implementerer Join -prosedyrene.

Golang

Introduksjon til Golang -programmeringsspråk

Golang er et åpen kildekode-programmeringsspråk utviklet av Google. Følg denne artikkelen for å lære...

Oskar Fossum

Sqlite

Hvordan bruke SQLite Viewer Web App

SQLite Viewer Web App gir utmerkede funksjoner for å se SQLite -databasene online i nettleseren. Les...

Alexander Sørlie

Salesforce

Salesforce Apex - liste

Praktisk opplæring om List -samlingen i Apex -programmeringsspråk og dets metoder og hvordan du sett...

Elias Aalerud Aasen