Pandas concatenate to dataframes

Pandas concatenate to dataframes
Informasjonen vi trenger vises ofte i mange kilder i virkelighetsscenarier. For å evaluere statistikken, krever vi ofte integrering av flere filer i en enhetlig DataFrame. Ved hjelp av pandaer er det mulig å raskt kombinere serien så vel som DataFrame med de forskjellige typene forhåndsdefinerte logikk for indeksene pluss relasjonelle algebrafunksjoner for Funge- og sammenslåingsfunksjonene. I tillegg har pandaer verktøy som lar deg sammenligne to serier eller dataframmer og liste opp noen avvik. Du kan kreve å kombinere dataene ved hjelp av en rekke tilnærminger. For eksempel kan du sammenkoble datasettene for å slå dem sammen. Sammenkobling av datasettene kan gjøres i en rekke metoder.

Concatenation -handlinger over aksen håndteres ved Concat () -metoden, og den ekstra innstillingslogikken for indeksene på tilstøtende plan utføres også. Vi må vurdere visse valg mens vi sammenkobler eller legger til DataFrames. Slike valg kan innebære ting som om vi ønsker å beholde de originale indeksene, legge til mer fordelaktige nøkler og mer.

Å bruke Pandas concatenate -metoden krever følgende syntaks:

Vi har en belastning med mange innstillinger til disposisjon med denne metoden for å skreddersy concatenation av dataene ytterligere. Du trenger ikke nødvendigvis å helt forstå hver av disse for å navigere. Likevel er det viktig å være klar over deres eksistens så vel som hva de utfører hvis brukssaken din krever dem.

Eksempel 1: Concatenate lignende kolonner av to dataframmer ved bruk av pandas concatenate -funksjon

Det mest enkle og enkleste eksemplet å starte med er å sammenkoble de samme kolonnene i de to forskjellige dataframene.

Som vi vet, krever det å jobbe med Pythons Pandas -modul import av Pandas Library. Så vi begynner vår praktiske implementering av eksemplekodene ved å importere Pandas -biblioteket i Python som PD.

Når vi er ferdig, er vi nå klare til å begynne å jobbe med hovedskriptet vårt, da Pandas -funksjonene for øyeblikket er tilgjengelige for oss.

Vi lager deretter våre grunnleggende dataframmer. Vi trenger to dataframmer her, da vi må utføre sammenkoblingen.

Variablene “D1” og “D2” ble generert og er vist i det gitte eksemplet. Vi benyttet Pandas DataFrame -funksjonen for å konstruere DataFrames. PD.DataFrame () -metoden påkalles. Inne i selene har vi gitt det 2 verdier - id og navn. Verdiene for begge kolonnene i DataFrames er tildelt. Vi benyttet metoden Print () for å vise både Dataframes D1 og D2.

Følgende utgangsbilde viser 2 dataframmer med de samme kolonnene:

Vi har laget våre Dataframes. Neste trinn er å sammenkoble dem. For dette formålet bruker vi Pandas Concatenate -metoden - PD.konkat (). Denne metoden slår sammen dataene for de samme kolonnene i både Dataframes D1 og D2.

Vi konstruerte en variabel “con_output” som lagrer resultatet av å påkalle PD.Concat () -funksjon. Du trenger bare å levere PD.Concat () -funksjon med objektene du ønsker å sammenfatte, slik at listen over variabler ganske enkelt kan sendes inn. Med tanke på dette kan vi gå inn i [D1, D2]. Forsikre deg om at hvis du direkte legger listen inne i PD.konkat () -funksjonen, du må bruke "[]" -brakettene. Ellers gir det en feilprompt. Vi påkaller på trykket () -metoden og passerer den "con_output" -variabelen for å vise hva vi lagret i den.

De sammenkoblede DataFrames som inneholder lignende kolonner oppnås ved å kjøre det nevnte programmet.

Dataframene er slått sammen som om de var siden vi ikke la inn noen parametere. På grunn av disse faktorene er de faktiske indeksinnstillingene inkludert. Indeksen kan av og til kreve en justering. Ignore Index = True Parameter kan brukes til å gjøre dette.

Som et resultat endres indeksene fra og går helt til sluttpunktet for størrelsen. De modifiserte indeksverdiene er vist i følgende øyeblikksbilde:

Eksempel 2: Concatenate forskjellige kolonner med to dataframmer ved bruk av pandas concatenate -funksjon med sammenføyningsparameter

Vi legger ut dataframene våre til hverandre, vertikalt, for å sammenkoble dem. Å bruke kolonnene fra hvert datasett som har lignende verdier som en delt unik ID er en ytterligere metode for å kombinere DataFrames. “Joining” er prosessen med å slå sammen dataframene ved å bruke et delt felt. "Join -tasten (e)" refererer til kolonnene som inkluderer delte data. Denne metoden for å kombinere DataFrames er ofte fordelaktig der en dataaframe fungerer som et "oppslagstabell" for det supplerende innholdet som vi har tenkt å integrere i den andre tabellen. Identisk med hvordan vi kobler sammen tabellene i en relasjonsdatabase, blir denne metoden sammen med mange datasett sammen.

Du har fleksibilitet på måter å behandle de ekstra aksene når vi binder mange dataframmer helt, unntatt den som blir kombinert.

Det er to tilnærminger for å oppnå dette. Den første tilnærmingen er å gå inn i join = "ytre" for å oppnå kombinasjonen av alle disse. Nevnte innstilling er standardinnstillingen fordi ingen data er kompromittert. Den andre strategien er å gjøre krysset i betraktning med join = "indre".

La oss vurdere følgende illustrasjon:

Her opprettet vi to dataframmer med forskjellige kolonner. Den første DataFrame “D1” består av 2 kolonner - ID og navn. Mens den andre DataFrame “D3” har 2 kolonner - by og alder. Vi opprettet et variabelt "utfall" for å lagre utgangen ved å ringe PD.Concat () -funksjon.

Mellom parentesene til Pandas concatenate -funksjonen spesifiserte vi navnet på Dataframes som D1 og D3. Skriptets endelige linje kaller metoden Print ().

Dette gir oss følgende utgang:

De to dataframene i den tidligere nevnte forekomsten er slått sammen. Ikke desto mindre, ettersom noen kolonner var fraværende fra begge dataframene, ble de levert ved hjelp av de blanke oppføringene. Disse oppføringene settes inn siden "join =" argumentets standardverdi er "ytre", noe som forklarer deres inkludering. Som et resultat beholdes alle dataene mellom enhetene.

“Inner” er et annet levedyktig argument for metoden.

Vi benyttet argumentene "bli med" og "akse" i dette tilfellet. For argumentet "bli med", setter vi verdien "indre", mens det for "aksen" -argumentet er satt til "1". "Axis" er aksen som vi sammenkobler våre Dataframes. Den er satt til 0 som standard. De ekstra kolonnene blir introdusert hvis det er krav om å øke antall objekter over aksen = 1. PD.concat () utfører en ytre sammenføyning over radene som standard. Nå endret vi standardverdiene slik at den utfører kolonnemessig indre-join på Dataframes for sammenkobling.

Utgangen vi får fra den tidligere utførte koden vises i følgende:

Konklusjon

Denne diskusjonen fokuserte på Pandas concatenate -funksjonen. Vi ga en detaljert introduksjon til Pandas Concatenate -funksjonen og behovet for å bruke denne metoden. Syntaksen for bruk av denne teknikken er gitt i begynnelsen, og alle parametrene du kan bruke i denne funksjonen er identifisert. Vi utdypet sammenkoblingen av de to dataframene med en praktisk demonstrasjon av eksemplene koder. Å kombinere de samme kolonnene i de forskjellige dataframene, samt kombinere DataFrame med forskjellige kolonner, er forklart i dette forfatterskapet. Lære å jobbe med pandaene.Concat () -funksjonen imøtekommer deg i håndtering og analyse av dataene.