Pandas ffill -funksjon

Pandas ffill -funksjon
Å håndtere de manglende dataene er en integrert komponent i hver datavitenskapsstrategi. Vanlige måter å håndtere manglende data innebærer å ignorere de manglende verdiene, slippe oppføringer med manglende poster og fylle ut de manglende dataene. I denne opplæringen vil vi se på Pandas -funksjonen “DataFrame.ffill () ”for å fylle ut manglende data.

Pandas ffill () -metode

Pandas ffill () -metoden gjør oss i stand til å fylle ut NAN -verdien i datarammen. Filla står for å videresende fyll, noe som betyr at nullverdiene erstattes med dataene fra forrige kolonne eller rad.

Syntaks for bruk av denne metoden er gitt her:


"Axis" er aksen som skal fylle NAN -verdier. Standardverdien er 0. Denne parameteren vil bli brukt i våre eksempler her.

Ved hjelp av Python -programkodeeksempler vil vi gå over hvordan du bruker “ffill ()” for å fylle ut manglende verdier i alle kolonner i en Pandas DataFrame i denne artikkelen.

Eksempel 1: Bruke FFILL () -metoden for å fylle verdiene langs radene

I denne illustrasjonen vil du se hvordan vi vil fylle ut NAN -verdiene i en dataramme langs indeksaksen ved å bruke “ffill ()” -metoden.

Den praktiske implementeringen av ethvert program begynner med valg av et passende utførelsesverktøy. For denne opplæringen har vi valgt "Spyder" -verktøyet for å utføre eksemplet Python -skriptet. Lasting av Pandas -biblioteket i Python -filen vår vil gjøre oss i stand til å bruke alle funksjonene som leveres av Pandas. “PD” vil bli brukt i koden uansett hvor vi trenger å bruke “Pandas” som dets alias.

Den andre delen av koden har to operasjoner; For å lage en dataramme med noen NAN -verdier ved hjelp av Pandas “PD.DataFrame () ”-metode og fyll deretter opp disse NAN -verdiene ved å bruke Pandas“ ffill () ”-funksjonen. Når vi tar hendene på den første operasjonen, som er å lage en dataramme med noen NAN -verdier, har vi påkalt Pandas “PD.DataFrame () ”-metode her. Denne metoden vil generere en dataramme med spesifiserte verdier eller en CSV -fil.

Her konstruerer vi datarammen med brukerdefinerte data i stedet for å importere en CSV-fil. Datarammen initialiseres av fire kolonner med titler som nevnt: “Grønn”, “Hvit”, “Brown” og “Orange.”Lengden på hver kolonne vi har laget her er fire. Vi er pålagt å lage alle kolonnene i samme størrelse for en dataaframe. Vår første datarramme -kolonne, "Green", inneholder verdiene "7", "1", "Ingen" og "3". Den "hvite" kolonnen inneholder oppføringer som er "7", "2", "1" og "9". Den "brune" kolonnen har verdier "2", "6", "8" og "ingen", mens "oransje" kolonne lagrer "ingen", "6", "9" og "2".

For å bevare denne datarammen, trenger vi et datarammeobjekt. Så vi opprettet det med navnet “Visual” og fikk det til å lagre datarammen som vi konstruerte fra “PD.DataFrame () ”-metode. Nå for å vise denne datarammen har vi nettopp lagret den i “Visual” datarammeobjektet, som vi har kalt “Print ()” -metoden for Python -programmering.


Når vi utfører dette Python -skriptet, som vi har utdypet ovenfor, ved å treffe alternativet "Run File", vises en DataFrame på fire kolonner på konsollen. Her kan du se at denne DataFrame har tre NAN -verdier.


Vi har fullført den første operasjonen med å generere datarammen. Nå vil vi flytte til den andre delen, som er å fylle disse NAN -verdiene. Vi vil gjøre det ved å bruke Pandas “ffill” -metoden.

Vi har påkalt “DataFrame.ffill () ”for å fylle alle NAN -verdiene i DataFrame. Vi ga navnet på Dataframe som vi nettopp opprettet over “Visual” med “.Fill () ”-metoden. Mellom parentesene i denne funksjonen brukes en parameter "akse". Vi har satt den til “0”, som representerer rad- eller indeksaksen. Fordi vi har brukt “Fill ()” -metoden for å fylle ut NAN -verdiene langs radaksen for denne illustrasjonen. Så vi skrev alt dette som “visuelt.FFILL (Axis = 0) ”og plasserte dette deretter i“ Print () ”-metoden for å skrive ut datarammen med de fylte NAN -verdiene langs radaksen.


Her er utdata -rammen. Hver NAN -verdi er befolket ved å bruke den tilsvarende verdien fra forrige rad når FFILL () utføres over indeksen eller radaksen. Du har observert at oppføringene i den aller første raden fremdeles er NAN-verdier fordi det ikke er en rad over den, hvorav ikke-NA-verdiene vil forplante seg. Alle de andre NAN -verdiene erstattes vellykket ved å kopiere de tilsvarende radverdiene i den.

Eksempel 1: Bruke FFILL () -metoden for å fylle verdiene langs kolonnene

Denne illustrasjonen vil fortelle deg hvordan du fyller NAN -verdiene i en dataramme langs kolonneaksen ved å bruke Pandas “Fill ()” -metoden. La oss begynne å jobbe med denne teknikken.

Vi har lansert “Spyder” -verktøyet og begynte å skrive Python -koden. Først må vi få forutsetningen for programmet, som laster Pandas Library. Vi må importere dette biblioteket til en Python -fil fordi vi skal bruke Pandas “PD.DataFrame () ”og“ DataFrame.ffill () ”metoder i denne illustrasjonen, som bare kan brukes hvis vi har tilgang til dette biblioteket.

Vi må generere en dataramme ved å bruke Pandas “PD.DataFrame () ”-metode. Metoden kalles og initialiseres med fire kolonner, som er "P1", "P2", "P3" og "P4". Den første kolonnen her, “P1” har verdier på “1”, “12”, “7”, “4” og “Ingen”. “P2” -poster er “13”, “9”, “Ingen”, “4” og “3”. “P3” har oppføringer “Ingen”, “14”, “1”, “8” og “7”. Verdiene som er lagret i “P4” er “11”, “3”, “16”, “8” og “Ingen”. Vi lagret denne datarammen i datarammeobjektet "Score". Nå for å vise denne DataFrame på konsollen, har vi kalt “Print ()” -metoden.


Dette kodebiten utføres for å se den opprettede datarammen. Her kan du observere at datarammen har fire kolonner, og i hver kolonne har vi funnet en NAN -verdi. I det hele tatt har vi fire nulloppføringer i datarammen.


For å fylle disse nullverdiene langs kolonneaksen i datarammen, har vi brukt pandaene “DataFrame.ffill () ”-metode. Vi påkalte “DataFrame.ffill () ”-funksjon. Her har vi brukt den med "Axis" -parameteren og satt den til "1", som refererer til kolonneaksen fordi vi fyller nullverdiene langs kolonnene for denne demonstrasjonen. Hele skriptlinjen er skrevet som “Score.FFILL (Axis = 1) ”og så, for behovet for å vise denne resulterende fylte DataFrame på konsollen, har vi lagt denne funksjonen mellom“ Print () ”-metoden.


Dette får oss DataFrame knipset nedenfor. Som du kan se, er verdien av den første kolonnen Nan, siden det ikke er noen kolonne igjen for å fylle den med verdien fra forrige kolonne langs kolonneaksen.

Konklusjon:

Å jobbe med datarammer og håndtere nullverdiene i dem er et kjerne og grunnleggende behov i dataanalyseprosesser. I denne opplæringen har vi lært pandaene gitt “Dataframe.ffill () ”-metode for å fylle NAN -postene i datarammen. Vi har gjort deg kjent med de to teknikkene for å fylle datarammen. Hver strategi blir utdypet med praktisk implementert eksempel Python -skript utført ved hjelp av "Spyder" -verktøyet. Du kan bruke hver teknikk i henhold til dine behov.