Pandas øvelser for læring

Erik Røed

"Pandas" -modulen er det viktigste verktøyet som er tilgjengelig for Python -dataanalytikere og forskere i dag. Python Data Analysis Library Pandas fokuserer mest på tabelldata. Det er et gratis og åpen kildekode-bibliotek distribuert under BSD-lisensen. Pandas har så mange applikasjoner at det kan være lettere å liste opp hva de ikke kan oppnå enn hva de kan.

Den har først og fremst to former: serier og dataaframe. "Serien" inneholder data om en enkelt variabel og kan sees på som en vektor med indeksert info, mens "DataFrame" er en tabelldatastruktur.

I denne opplæringen vil vi kort gå gjennom noen av de hyppigst benyttede pandasøvelsene for nybegynnere. Du vil få et øyeblikksbilde av Python -skriptet med tilsvarende utgang for hver øvelse.

Importer bibliotek

For å begynne å jobbe med Pandas -øvelser, må vi først laste "Pandas" -biblioteket i prosjektfilen vår. Verktøyet vi bruker for implementering av Pandas -øvelsene er “Spyder”. Vi har lansert verktøyet og lastet Pandas -biblioteket inn i Python -filen ved å skrive skriptet “Importer Pandas som PD”. Vi har aliaserte pandaer som "PD". Nå kan “PD” brukes i stedet for “Pandas” gjennom hele programmet.

Oppgave 1: Konvertere en liste til serie

Den første øvelsen vi har valgt å undervise er å generere Pandas -serier fra en liste.

Vi har laget en variabel "dummy" og tildelt den en liste over verdier som "1", "2", "3", "4", "5", "6" og "7". Vi har påkalt “PD.Serie () ”-funksjon og passerte listen“ Dummy ”som en parameter til den. Den resulterende serien vil bli lagret i "konvertitt" -variabelen. For å stille ut innholdet på skjermen, gir pandaer oss en metode for "print ()". Vi har vist "Konverter" -serien som bruker "Print ()" -funksjonen.

Det tilsvarende utgangssnapshot viser at en serie er generert med standardindekser.

Oppgave 2: Konvertere en liste til en serie ved hjelp av spesifiserte indekser

Den første øvelsen demonstrerte nøyaktig konvertering av en liste til en Pandas -serie. Vi har sett i utgangsbildet at listen har blitt presentert med standardlisten over indekser. Hvis du ikke vil at serien din skal vises med disse indeksene, kan du endre den ved å gi spesifiserte indekser.

Vi har brukt listen fra ovennevnte forekomst. For å konvertere listen til serier og definere indeksene, har vi kalt “PD.Serie () ”-funksjon. To parametere er gitt videre til denne funksjonen: list_navn og indeks. Navnet på listen “Dummy” leveres. "Indeks" -argumentet brukes til å endre standardindekslisten med den brukeren har gitt. Vi har tilpasset indekslisten med verdiene “A”, “B”, “C”, “D”, “E”, “F” og “G”. Serien med en oppdatert indeksliste lagres i "konvertitt" -variabelen og ble deretter utstilt gjennom "Print ()" -funksjonen.

I det resulterende bildet er standardindeksene blitt erstattet av den brukerforsøkede listen over indekser.

Øvelse nr. 3: Konverteringslister til en dataaframe

I den første øvelsen lærte vi å konvertere en liste til en Pandas -serie. Nå vil vi se hvordan du konverterer lister til en pandas dataaframe.

Tre lister er generert i skriptet. Disse listene har verdier “['Harry', 25, 'Engineer']”, “['Roma', 32, 'Doctor']” og “['Elizia', 22, 'Artist']”. Vi har lagret disse listene i et 2D -listeobjekt “L1”. For å konvertere “L1” til en Pandas dataaframe, har vi en Pandas -funksjon “PD.Dataramme()". Denne funksjonen er påberopt og 2D -listen er gitt som en parameter sammen med en annen parameter “Kolonner”. DataFrame viser data i form av tabeller som har rader og kolonner, slik at "kolonnene" -parameteren vil sette etikettene til kolonnene i DataFrame. Hver liste har 3 verdier som betyr, vi vil ha 3 kolonner i DataFrame. Vi har spesifisert etikettene som "navn", "alder" og "yrke". DataFrame er lagret i DataFrame -objektet “Demo”.

Å utføre programmet gir oss en dataaframe med 3 kolonner med de spesifiserte etikettene og verdiene som er generert fra den medfølgende 2D -listen.

Oppgave 4: Konvertere en ordbok til DataFrame

En Pandas Dictionary er en samling av lister. For å lære konvertering av et dikter til en dataaframe, må vi først lage en ordbok. Det er opprettet en ordbok "Sample_dict" med 3 lister med verdier. Den første listen “Col1” har verdier “Harry”, “Roma” og “Elizia”. Listen “COL2” lagrer data “25”, “32” og “22”. "Col3" -listen har oppføringer "Engineer", "Doctor" og "Artist". For å konstruere en dataaframe fra dikten “Sample_dict”, har vi påkalt “PD.DataFrame () ”-metoden og passerte ordboken som en parameter. Når “PD.DataFrame () ”-metoden utfører, den vil ta innholdet i ordboken og endre den til DataFrame. Det konverterte DataFrame lagres i DataFrame -objektet “Endring” og vises på konsollen ved å bruke metoden “Print ()”.

Dette programmet når det utføres, gir oss utgangen som vises i øyeblikksbildet nedenfor.

Oppgave 5: Spesifisere indeks i DataFrame

Når vi viser DataFrame eller en serie på terminalen, er den først og fremst utstyrt med standardindekslisten som starter fra “0” opp til datasettets lengde. Vi har lært å endre den i serien, og du kan også endre den i DataFrame.

Vi har brukt DataFrame generert i øvelsen ovenfor. Du kan se at DataFrame har en indeks på “0”, “1” og “2”. Vi vil endre denne standardoppførselen ved å tilby indekslisten vår. Mellom seler av “PD.DataFrame () ”-metode, navnet på ordboken“ Sample_dict ”og“ Index ”er gitt. Indeksene er spesifisert som "x", "y" og "z".

DataFrame med den oppdaterte indekslisten vises på skjermen.

Oppgave 6: Ekstrahering av spesifisert kolonne i en DataFrame

For å velge en bestemt kolonne i en DataFrame, vil vi bruke den forrige DataFrame med standardindeksene. Etter å ha skrevet ut den første DataFrame, brukte vi “DF.loc [indeks, kolonne] ”-metode. Som vi ønsker å velge en kolonne, forlot vi "indeksen" -stedet ved å levere ":" I den og har gitt kolonnenavnet "COL2" mellom parentesene. Den valgte kolonnen er bevart i variabelen “Select” og presenteres med hjelp av "Print ()" -funksjonen.

Dette er resultatet av ovennevnte skript:

Øvelse nr. 7: Å trekke ut bestemte rader i en dataaframe

Enkelte rader kan også velges i en dataaframe ved å følge den samme teknikken som vi gjorde for kolonnevalg med bare ett unntak. For radvalg må vi gi indeksen i “PD.loc [] "-metode og sette kolon“: ”på kolonnestedet. Radene vi valgte er “1” og “2”.

De to utvalgte radene er blitt stilt ut.

Øvelse nr. 8: Fylle manglende verdier i en dataaframe

Vi har opprettet en dataaframe med noen manglende verdier og skrevet den ut på skjermen. For å fylle disse verdiene har vi påkalt oss “DF.Fillna () ”-metode. Verdien vi ønsker å bli erstattet med NULL -oppføringene er “0”. Så vi plasserte den i “DF.Fillna () ”-funksjonens bukseseler. Variabelen “Fyll” lagrer utfallet og “Print ()” -metoden vil vise den.

Her kan du se at nullverdiene nå er erstattet med 0.

Konklusjon

Pandaer gir oss et stort utvalg av valg for å løse problemer med dataanalyse. Det fungerer stort sett med Dataframes og serier. Noen vanligste øvelser har blitt diskutert i denne artikkelen om seriefunksjonene til Pandas samt DataFrame -funksjonene til Pandas. Vi har utdypet 8 grunnleggende læringsteknikker for pandaer. Konseptene blir forstått gjennom den praktiske demonstrasjonen av Python -skriptet på Spyder Tool. Alle disse øvelsene er den beste nybegynnerguiden for å starte med Python Pandas Dataframes og Series.

Docker

Hva er formålet med en Docker-komponering.YML -fil i Docker?

Hovedformålet med en “Docker-Compose.YML ”-filen er å forenkle prosessen med å distribuere og admini...

Elias Krogh Svendsen

Python

Konverter en streng til Json Python

JSON -modulen fungerer, AST -modulfunksjonen eller eval () -funksjonen brukes til å konvertere en st...

Erik Røed

Hvordan lage en tom dataramme r

Opplæring om de forskjellige tilnærmingene for å lage et tomt dataaframe ved hjelp av dataene.Frame ...

Daniel Berntsen