Pandas faktoriserer

Oskar Fossum

“Pandas” er det kraftigste Python -biblioteket for å jobbe med Dataframes. Det tjener et mangfold av formål. En av disse er Pandas “Factorize ()” -funksjonen. Vi trenger ofte å konvertere en gitt variabel til tall, spesielt før vi sender den til algoritmer som bare aksepterer numeriske innganger. Pandas “factorize ()” -metoden lar deg enkelt konvertere strenger til tall. Den identifiserer matrisens distinkte verdier og returnerer dem som et numerisk tall. I pandaer transformerer "factorize ()" -funksjonen et objekt til en kategorisk variabel. Dette er nyttig for å identifisere unike verdier.”

Syntaksen for å bruke Pandas “factorize ()” -metoden er gitt nedenfor:

Syntaksen viser oss fire parametere for denne funksjonen. La oss kort beskrive disse parametrene.

Parameteren “Verdier” innebærer en endimensjonal matrise, for eksempel en liste. De "sortere" Parameter brukes til å holde assosiasjonen, sortere distinkte verdier og byttekoder. Den godtar en boolverdi. Det er satt til falsk som standard. De “Na_sentinel” refererer til verdien som skal merkes som "ikke funnet". Hvis ingen, vil NAN ikke bli eliminert fra dataens egenart. De “Size_hint” gir et hint for hashingstørrelsen.

For å bruke "factorize ()" -funksjonen, er det eneste obligatoriske argumentet "verdier". Alle andre funksjoner er valgfrie.

To objekter, “Koder” og "unik", blir returnert av "factorize ()" -funksjonen. Begrepet "koder" gjelder en numerisk ndarray som fungerer som en indekser for "unik", mens de gyldige unike verdiene blir referert til som "unik".

I artikkelen hans skal vi utforske konseptet med å lage faktorer i Python -programmering ved hjelp av Pandas “Factorize ()” -metoden med noen av dens mest utøvde parametere.

Eksempel 1: Bruke Pandas “Factorize ()” -metode

Den praktiske implementeringen av Python -programmet for å utføre Pandas “factorize ()” -metoden vil bli utført i denne illustrasjonen.

Verktøyet vi bruker her til sammenstilling av Python -kodene er “Spyder”. Dette verktøyet oppfyller best systemkravene våre. Vi har lansert verktøyet. Brukergrensesnittet har dukket opp, og vi begynner å skrive python -skriptet vårt på det. Det første vi gjorde på Python -filen var å laste biblioteket, som vi trenger å kunne få tilgang til metodene. For kravene til saken vår, må vi laste Pythons bibliotek "Pandas". Vi har skrevet manuset til dette biblioteket som "Importer Pandas som PD". Aliaset “PD” vil arbeide for å skaffe oss “Pandas” -metodene ved å skrive forkortelsen i stedet for hele skjemaet.

Pandas verktøysett lastes inn i Python -filen; Nå må vi gå til neste trinn. I den neste linjen i skriptet har vi generert en liste over strenger. Vi opprettet en variabel "myList" for å lagre innholdet på denne listen i den, slik at vi kan få tilgang til den senere. Strengene vi har lagret på denne listen er “y”, “y”, “x”, “z”, “y”, “x”, “z” og “z”. Du kan se at denne listen har tilbakevendende verdier. Totalt har det åtte verdier i den. For å vise denne listen over strenger på skjermen, har vi brukt Pythons "print ()" -funksjon. Vi ga først teksten "Dette er vår liste over strenger:" til "Print ()" -metoden for å vises, og den neste "print ()" -funksjonen viste "MyList" -innholdet på Spyder -konsollen.

For å kompilere skriptet vi skrev ovenfor, trykker du på "Run File" -knappen. Du vil se en liste presentert på terminalen med åtte verdier.

Nå for å finne faktoriseringen av denne listen, har vi en Pandas -metode “PD.faktorisere () ”. Denne metoden vil returnere oss to matriser. Den første vil være av koder, mens den andre vil utvise de unike verdiene i listen.

Vi har laget to variabler '"COD" og "Uniq". "COD" vil lagre kodene som genereres av “PD.Factorize () ”-metode for den oppgitte listen. "Uniq" vil inneholde verdiene som er unike på listen. Vi har påkalt “PD.Factorize () ”-metoden og passerte listen vi har opprettet ovenfor,“ MyList ”som en parameter til denne funksjonen. Denne funksjonen vil generere koder for hver verdi i listen og lagre den i "COD" -variabelen. Og det vil trekke ut de unike verdiene fra listen og plassere dem i "uniq" -variabelen. Så kalte vi metoden “Print ()” for først å vise teksten "Kodene for den oppgitte listen er:" og deretter innholdet i "COD" -variabelen. Den neste "print ()" -funksjonen brukes til å vise teksten "Uniques for den medfølgende listen er:" og deretter dataene fra "Uniq" -variabelen.

Utgangen som genereres på terminalen viser oss to matriser. Den første matrisen har verdier som "0", "0", "1", "2", "0", "1", "2" og "2". "Factorize ()" -metoden konverterte strengene til numeriske verdier. “Y” erstattes av “0”, “X” erstattes av “1”, og “Z” erstattes av “2”. Den andre matrisen den returnerte er en rekke unike verdier, som er "y", "x" og "z".

Eksempel nr. 2: Bruke Pandas “Factorize ()” -metoden for å sortere verdiene

Denne demonstrasjonen er for å lære teknikken for sorteringsverdier i de resulterende matriser generert fra “PD.Factorize () ”-metode.

Vi har brukt den ovennevnte listen for å forklare sortering og stokkingsteknikk for denne funksjonen. Her har vi laget to variabler, “Shuffle” og “Sortering”. Variabelen "Shuffle" vil lagre de blandede kodene fra "MyList" -variabelen, mens "sortering" -variabelen vil ha de sorterte unike verdiene til den medfølgende listen. Vi har tildelt disse variablene utgangen av å påkalle “PD.Factorize () ”-metode.

“PD.Factorize () ”-metode kalles med to parametere. Den første parameteren er "Verdier" som er navnet på listen "MyList" og den andre parameteren er "Sorter". "Sorter" -parameteren vil sortere de unike verdiene og deretter blande kodene deretter. Som standard er det satt til “False”, vi har endret innstillingene og satt den til “True” for å utføre sortering. Vi har ansatt to “Print ()” -funksjoner. Den første som viser teksten "de blandede kodene for den medfølgende listen er:" og deretter dataene i "shuffle" -variabelen. Den andre "print ()" -metoden må stille ut teksten "de sorterte unikene for den medfølgende listen er:" etterfulgt av "sortering" -variabelenes innhold.

Når utfallet blir presentert på terminalen, får vi nye matriser. Den første matrisen har listen over numeriske blandede verdier som "1", "1", "0", "2", "1", "0", "2" og "2". For enkelhets skyld har vi også skrevet ut de ikke-stakkede kodene, slik at du lett kan forstå forskjellen. Den andre matrisen har sortert unike verdier som "x", "y" og "z". De unike verdiene i listen er nå sortert i alfabetisk rekkefølge. Du kan sammenligne det med den usorterte matrisen, som har unikene som "y", "x" og "z".

Konklusjon

I denne artikkelen har vi fokusert på å lære teknikken for å faktorisere strengene til tall. For dette formålet har vi brukt pandaene “PD.Factorize () ”-metode. Denne tilnærmingen er ganske nyttig når du grupperer data og oversetter dem til numeriske verdier. Vi utdypet prosedyren for å bruke denne metoden og beskrev de forskjellige parametrene som kan utøves når det er nødvendig. Vi har utført den praktiske implementeringen av Python -skriptene for å forstå anvendelsen av denne metoden. Vi har gjengitt prøvekodene så vel som utdataene deres i denne opplæringen. Vi anbefaler den praktiske utøvelsen av disse teknikkene som begynner fra grunnleggende til komplekse programmer for å oppnå den beste forståelsen av Pandas -teknikkene.

Python

Matplotlib fet tekst

Parametrene Fontweight og Vekt brukes til å fete en tekst i matplotlib. Det brukes til å legge vekt ...

Alexander Sørlie

Python

Hvordan bruke Xrange i Python

Xrange () -funksjonen i Python 2.x eller rekkevidde () -funksjon i python 3.x brukes til effektiv it...

Simen Stensrud

Python

Seaborn Axis -etiketter

“Aksene.set () ”-funksjon, matplotlib bibliotekfunksjoner, eller“ set_xlabel () ”og“ set_ylabel () ”...

Daniel Johnsen