Pyspark - Pandas DataFrame representerer Pandas DataFrame, men den holder Pyspark DataFrame internt.
Pandas støtter dataframdatastruktur, og Pandas importeres fra Pyspark -modulen.
Før det må du installere Pyspark -modulen.”
Kommando
PIP installer pysparkSyntaks for å importere
Fra Pyspark Import PandasEtter det kan vi opprette eller bruke DataFrame fra Pandas -modulen.
Syntaks for å lage Pandas dataaframe:
Pyspark.Pandas.Dataramme()Vi kan passere en ordbok eller liste over lister med verdier.
La oss lage en Pandas dataaframe gjennom Pyspark som har fire søyler og fem rader.
#import pandaer fra pyspark -modulenProduksjon
Nå vil vi gå inn på opplæringen vår.
ISNA (), Notna () og NotNull () funksjoner brukes til å sjekke om ingen verdier har skjedd i Pyspark Pandas DataFrame. De er representert av Nan (ikke et tall); I Python kan vi lage dem ved å bruke ingen.
La oss se dem en etter en.
Pyspark.Pandas.Dataramme.isna
isna brukes til å sjekke om verdien er null. Hvis det er null, vil det komme tilbake til den verdien. Ellers returnerer det falskt. Det tar ingen parametere.
Syntaks
pyspark_pandas.isnaHvor pyspark_pandas er pyspark pandas dataaframe.
Vi kan også sjekke i bestemte kolonner.
Syntaks
pyspark_pandas.kolonne.isnaHvor kolonnen er kolonnenavnet.
Eksempel 1
I dette eksemplet vil vi sjekke for NAN -verdier i Mark1 -kolonnen ved hjelp av ISNA.
Produksjon
0 FalskVi kan se at i andre og tredje rad - Nan er tilgjengelig, så på disse stillingene returnerte ISNA sann. I andre tilfeller returnerte det falskt.
Eksempel 2
I dette eksemplet vil vi sjekke for NAN -verdier i hele Pyspark Pandas DataFrame ved bruk av ISNA.
Produksjon
Student_lastname Mark1 Mark2 Mark3Vi kan se at ISNA returnerer sant uansett hvor nan eksisterer.
Pyspark.Pandas.Dataramme.Notna
Notna brukes til å sjekke om verdien ikke er null. Hvis det er null, vil det komme tilbake til den verdien. Ellers returnerer det sant. Det tar ingen parametere.
Syntaks
pyspark_pandas.NotnaHvor pyspark_pandas er pyspark pandas dataaframe.
Vi kan også sjekke i bestemte kolonner.
Syntaks
pyspark_pandas.kolonne.NotnaHvor kolonnen er kolonnenavnet.
Eksempel 1
I dette eksemplet vil vi sjekke for NAN -verdier i Mark1 -kolonnen ved hjelp av Notna.
Produksjon
0 TrueVi kan se at i andre og tredje rad - Nan ikke er tilgjengelig, så på disse stillingene returnerte Notna False. I andre tilfeller returnerte det sant.
Eksempel 2
I dette eksemplet vil vi sjekke for NAN -verdier i hele Pyspark Pandas DataFrame ved bruk av ISNA.
Produksjon
Student_lastname Mark1 Mark2 Mark3Vi kan se at Notna returnerer falsk uansett hvor nan eksisterer.
Pyspark.Pandas.Dataramme.ikke null
Notnull ligner Notna som brukes til å sjekke om verdien ikke er null. Hvis det er null, vil det komme tilbake til den verdien. Ellers returnerer det sant. Det tar ingen parametere.
Syntaks
pyspark_pandas.ikke nullHvor pyspark_pandas er pyspark pandas dataaframe.
Vi kan også sjekke i bestemte kolonner.
Syntaks
pyspark_pandas.kolonne.ikke nullHvor kolonnen er kolonnenavnet.
Eksempel 1
I dette eksemplet vil vi sjekke for NAN -verdier i Mark1 -kolonnen ved hjelp av Notnull.
Produksjon
0 TrueVi kan se at i andre og tredje rad - Nan ikke er tilgjengelig, så på disse stillingene returnerte Notnull False. I andre tilfeller returnerte det sant.
Eksempel 2
I dette eksemplet vil vi sjekke for NAN -verdier i hele Pyspark Pandas DataFrame ved hjelp av Notnull.
Produksjon
Student_lastname Mark1 Mark2 Mark3Vi kan se at Notnull returnerer falsk uansett hvor nan eksisterer.
Konklusjon
I denne Pyspark Pandas DataFrame -opplæringen så vi hvordan vi skulle sjekke NAN -verdiene i DataFrame. ISNA brukes til å returnere sant hvis det er Nan, og Notna og Notnull vil fungere på samme måte ved å returnere sant hvis verdien ikke er nan.