Pandas dropper na

Pandas, et open source-bibliotek for Python, er uten tvil den mest populære verktøysettet for dataforskning og evaluering. Det er også et godt valg for ad-hoc datatransformasjonsoppgaver. På grunn av sin usedvanlig fleksible datarrepresentasjon som bruker dataframmer og mengden av metoder som er tilgjengelige for å endre data lagret i disse datarammene. Eventuelle problemer i den virkelige verden kan føre til manglende data, og disse datasettene må håndteres riktig. Dataene kan mangle av mange grunner. Det er ikke uvanlig når du arbeider med alvorlig rotete data. Å forstå hvordan man takler manglende verdier er en essensiell kompetanse for enhver datapersonell. I denne opplæringen lærer du hvordan du skal takle nullverdier som bruker pandaene “DataFrame.Dropna () ”-metode.

Pandas dropna () -metode

I en Pandas dataaframe kan det hende du må fjerne rader med NAN -verdier. Heldigvis ville dette være enkelt å oppnå med Pandas “dropna ()” -metoden. Syntaksen for bruk av “dropna ()” -metoden er som følger:

Den første parameteren er "aksen". For kolonner og rader godtar "Axis" INT- eller strengverdier. Heltallinnganger kan være 1 eller 0 og strenginnganger kan være 'kolonner' eller 'indeks'. Parameteren "hvordan" Godtar bare strengverdier av to typer (enten 'hvilken som helst' eller 'alle'). 'Hvilken som helst' fjerner raden/kolonnen hvis noen verdi er null og 'alle' fjerner raden/kolonnen når alle oppføringer er null. De “Tersk” aksepterer en heltallverdi som spesifiserer minimum antall NA -oppføringer som skal slippes. De “Undergruppe” er en matrise som begrenser slippoperasjonen til radene/kolonnene gitt gjennom listen. Den siste parameteren "på plass" er en boolsk som, hvis sant, endrer selve datarammen.

Eksempel nr. 1: Bruke Pandas dropna () -metode for å slippe rader med noen nullverdier

I denne illustrasjonen vil vi se hvordan du slipper alle nullverdier i radene til en dataaframe ved å bruke Pandas “dropna ()” -metoden.

Vi har lansert “Spyder” -verktøyet og begynner programmet. I Python -filen importerer vi de to nødvendige bibliotekene. Det første verktøysettet vi laster inn i filen er Pandas som "PD", og den andre pakken er Numpy -biblioteket som "NP". Vi aliaset nå begge disse bibliotekene og har tilgang til dem ved å bruke disse forkortelsene. Pandas -biblioteket importeres for å kunne bruke Pandas -metoder, mens Numpy -biblioteket vil hjelpe til med å håndtere NAN -verdier i DataFrame.

Vi må lage en dataaframe med noen nullverdier. For dette gir Pandas oss en metode “PD.Dataramme()". Vi påkaller denne metoden for å lage en dataaframe med fire kolonner “First”, “Second”, “Third” og “Fjerde”. Kolonnen “First” har disse verdiene “NP.Nan ”,“ 98 ”,“ 66 ”,“ NP.Nan ”,“ 14 ”,“ 30 ”,“ 26 ”,“ 79 ”og“ 11 ”. Kolonnen “Second” lagrer verdier “NP.Nan ”,“ 29 ”,“ 14 ”,“ 16 ”,“ 27 ”,“ 10 ”,“ 32 ”,“ 19 ”og“ 21 ”. Kolonnen “tredje” holder verdier som er “10”, “45”, “7”, “13”, “5”, “7”, “8”, “9” og “18”. Den siste kolonnen “Fjerde” har oppføringer “16”, “7”, “10”, “NP.Nan ”,“ 6 ”,“ 7 ”,“ 9 ”,“ 20 ”og“ 30 ”. Alle kolonnene holder ni oppføringer.

Vi konstruerer et DataFrame -objekt “teller” og tildeler det resultatet av å påkalle “PD.DataFrame () ”-funksjon. Så DataFrame lagres i "telleren" -variabelen. Vi viser DataFrame på Python -konsollen ved å bruke “Print ()” -metoden til Python.

For å utføre programmet treffer vi alternativet "Kjør fil" på Spyder Tool. Den resulterende dataframmen som vises på terminalen viser oss kolonnen "First" har to NAN -verdier, kolonnen "Second" og "Fjerde" har en NAN -verdi i hver, mens kolonnen "tredje" ikke har noen NAN -verdier.

Vi lærer nå teknikken for å slippe radene med NAN -verdiene i en dataaframe ved hjelp av pandaer “DataFrame.Dropna () ”-metode.

Vi kaller Pandas “dropna ()” -metoden med navnet på DataFrame “Counter”. Her gir vi to parametere til denne funksjonen “Axis” og “How”. Verdiene for "Axis" -parameteren er satt til "0" som indikerer radene, mens "hvordan" er spesifisert i verdiene "noen" fordi vi ønsker å slippe rader som har noen NAN -verdi i dem. En variabel "manglende" opprettes for å lagre utgangen fra "dropna ()" -metoden. Til slutt påkaller vi metoden “Print ()” for å utvise innholdet i "manglende" variabel.

Her har vi ut resulterende dataaframe. I denne DataFrame kan vi observere at radene som inneholder nullverdier blir kastet fra DataFrame. Radene med indeksene 0 og 3 blir droppet fordi disse har NAN -verdier.

Vi kan også sjekke størrelsen på DataFrame ved å bruke "len ()" -metoden. Vi påkaller metoden “Print ()” og gir “Len ()” -funksjonen som parameter. I den første "len ()" -funksjonen fant vi størrelsen på "telleren" Dataframe og i den neste "len ()" -funksjonen er lengden på den "manglende" DataFrame beregnet. Så, til slutt, trakk vi begge lengdene for å finne antall rader med nullverdier.

Her kan vi se at den gamle "Dataframe" -disken "hadde 9 rader, mens den nye DataFrame" Mangler "har 7 rader. Og antall rader som har nullverdier er 2.

Eksempel nr. 2: Bruke Pandas dropna () -metode for å slippe rader med nullverdier under en spesifisert terskel

For dette tilfellet benyttet vi DataFrame som ble opprettet i forrige eksempel. Vi bruker en annen eiendom levert av "dropna ()" -funksjonen.

Vi påkaller “DataFrame.Dropna () ”-metode. Som syntaksen sier, er DataFrame -navnet levert med "dropna ()" -funksjonen som "teller.dropna () ”. Parametrene vi bruker her er “Axis” og “Thresh”. Vi setter "aksen" til "0" for radmessig dråpe og "tersken" er satt til "4", noe som betyr at "dropna ()" -funksjonen vil sjekke for rader der antallet ikke-nullverdier er Mindre enn 4. Uansett hvilken rad har antall ikke-nullverdier under fire, vil den slippe dem. Vi lagrer utdataene i "manglende" variabelen og viser den ganske enkelt ved å bruke "print ()" -metoden.

I utgangsbildet vises en dataaframe. Her blir rad 0 og rad 3 kastet fordi disse hadde en telling av ikke-nullverdier under 4.

Eksempel nr. 3: Bruke Pandas dropna () -metode for å slippe rader med nullverdier for en spesifisert kolonne

Ved å bruke DataFrame fra den første illustrasjonen, påkaller vi metoden “dropna ()”. Denne gangen bruker vi den til å slippe rader i en bestemt kolonne. For å eliminere rader med nullverdier i en spesifisert kolonne, har vi en parameter "undergruppe" av "Dropna ()" -funksjonen. Egenskapen "undergruppe" passerer den medfølgende kolonnen eller raden som en liste til metoden “dropna ()”. Her har vi valgt kolonnen “Second” for denne parameteren. Deretter viser vi ganske enkelt den nye DataFrame på konsollen.

Kolonnen "Second" har den første raden som inneholder NAN -verdien, slik at den kastes i den nye DataFrame.

Konklusjon

Å jobbe med dataframes og møte problemet med å finne manglende verdier gjør ting rotete. Å håndtere disse manglende verdiene er en kjernelæringsferdighet. Hver gang vi sitter fast i en slik utfordring kommer pandaer inn. Pandas gir oss funksjonen “DataFrame.dropna () ”for å håndtere disse nulloppføringene. Denne opplæringen demonstrerte syntaks for denne funksjonen med alle dens parametere. Vi utførte praktisk implementering av Python -eksempler på koder for å slippe nullverdier ved bruk av “dropna ()” -metoden med forskjellige argumenter.

Python

Hvordan bruke Xrange i Python

Xrange () -funksjonen i Python 2.x eller rekkevidde () -funksjon i python 3.x brukes til effektiv it...

Simen Stensrud

PostgreSql

Hvordan kopiere en tabell fra en database til en annen i PostgreSQL

Opplæring om trinn-for-trinn-prosessen om hvordan du kopierer tabeller fra en database til en annen ...

Oskar Fossum

Python

Pandas read_csv multiprocessing

For å forbedre databelastningshastigheten, inkludert fordelene og begrensningene PD.read_csv () ”-fu...

Daniel Berntsen