Pyspark - Pandas DataFrame Isna, Notna, Notnull

Pyspark - Pandas DataFrame Isna, Notna, Notnull
“I Python er Pyspark en Spark -modul som brukes til å gi en lignende type prosessering som Spark ved hjelp av DataFrame, som vil lagre de gitte dataene i rad- og kolonneformat.

Pyspark - Pandas DataFrame representerer Pandas DataFrame, men den holder Pyspark DataFrame internt.

Pandas støtter dataframdatastruktur, og Pandas importeres fra Pyspark -modulen.

Før det må du installere Pyspark -modulen.”

Kommando

PIP installer pyspark

Syntaks for å importere

Fra Pyspark Import Pandas

Etter det kan vi opprette eller bruke DataFrame fra Pandas -modulen.

Syntaks for å lage Pandas dataaframe:

Pyspark.Pandas.Dataramme()

Vi kan passere en ordbok eller liste over lister med verdier.

La oss lage en Pandas dataaframe gjennom Pyspark som har fire søyler og fem rader.

#import pandaer fra pyspark -modulen
Fra Pyspark Import Pandas
#Create DataFrame fra Pandas Pyspark
pyspark_pandas = pandas.DataFrame ('student_lastname': ['manasa', ingen, 'lehara', 'Kapila', 'Hyna'], 'Mark1': [90, ingen, ingen, 54,67], 'Mark2': [100, 67,96,89, ingen], 'Mark3': [91,92,98,97,87])
print (pyspark_pandas)

Produksjon

Nå vil vi gå inn på opplæringen vår.

ISNA (), Notna () og NotNull () funksjoner brukes til å sjekke om ingen verdier har skjedd i Pyspark Pandas DataFrame. De er representert av Nan (ikke et tall); I Python kan vi lage dem ved å bruke ingen.

La oss se dem en etter en.

Pyspark.Pandas.Dataramme.isna

isna brukes til å sjekke om verdien er null. Hvis det er null, vil det komme tilbake til den verdien. Ellers returnerer det falskt. Det tar ingen parametere.

Syntaks

pyspark_pandas.isna

Hvor pyspark_pandas er pyspark pandas dataaframe.

Vi kan også sjekke i bestemte kolonner.

Syntaks

pyspark_pandas.kolonne.isna

Hvor kolonnen er kolonnenavnet.

Eksempel 1
I dette eksemplet vil vi sjekke for NAN -verdier i Mark1 -kolonnen ved hjelp av ISNA.

#import pandaer fra pyspark -modulen
Fra Pyspark Import Pandas
#Create DataFrame fra Pandas Pyspark
pyspark_pandas = pandas.DataFrame ('student_lastname': ['manasa', ingen, 'lehara', 'Kapila', 'Hyna'], 'Mark1': [90, ingen, ingen, 54,67], 'Mark2': [100, 67,96,89, ingen], 'Mark3': [91,92,98,97,87])
#Check for ingen verdier i Mark1 -kolonnen
trykk (pyspark_pandas.Mark1.isna ())

Produksjon

0 Falsk
1 sant
2 True
3 falsk
4 falsk
Navn: Mark1, dtype: bool

Vi kan se at i andre og tredje rad - Nan er tilgjengelig, så på disse stillingene returnerte ISNA sann. I andre tilfeller returnerte det falskt.

Eksempel 2
I dette eksemplet vil vi sjekke for NAN -verdier i hele Pyspark Pandas DataFrame ved bruk av ISNA.

#import pandaer fra pyspark -modulen
Fra Pyspark Import Pandas
#Create DataFrame fra Pandas Pyspark
pyspark_pandas = pandas.DataFrame ('student_lastname': ['manasa', ingen, 'lehara', 'Kapila', 'Hyna'], 'Mark1': [90, ingen, ingen, 54,67], 'Mark2': [100, 67,96,89, ingen], 'Mark3': [91,92,98,97,87])
#sjekk for ingen verdier i hele DataFrame
trykk (pyspark_pandas.isna ())

Produksjon

Student_lastname Mark1 Mark2 Mark3
0 falskt falskt falskt
1 True True False False
2 FALSE True False False
3 falskt falskt falsk
4 Falske falske sannere falske

Vi kan se at ISNA returnerer sant uansett hvor nan eksisterer.

Pyspark.Pandas.Dataramme.Notna

Notna brukes til å sjekke om verdien ikke er null. Hvis det er null, vil det komme tilbake til den verdien. Ellers returnerer det sant. Det tar ingen parametere.

Syntaks

pyspark_pandas.Notna

Hvor pyspark_pandas er pyspark pandas dataaframe.

Vi kan også sjekke i bestemte kolonner.

Syntaks

pyspark_pandas.kolonne.Notna

Hvor kolonnen er kolonnenavnet.

Eksempel 1
I dette eksemplet vil vi sjekke for NAN -verdier i Mark1 -kolonnen ved hjelp av Notna.

#import pandaer fra pyspark -modulen
Fra Pyspark Import Pandas
#Create DataFrame fra Pandas Pyspark
pyspark_pandas = pandas.DataFrame ('student_lastname': ['manasa', ingen, 'lehara', 'Kapila', 'Hyna'], 'Mark1': [90, ingen, ingen, 54,67], 'Mark2': [100, 67,96,89, ingen], 'Mark3': [91,92,98,97,87])
#Check for ingen verdier i Mark1 -kolonnen
trykk (pyspark_pandas.Mark1.Notna ())

Produksjon

0 True
1 falsk
2 falsk
3 True
4 sant
Navn: Mark1, dtype: bool

Vi kan se at i andre og tredje rad - Nan ikke er tilgjengelig, så på disse stillingene returnerte Notna False. I andre tilfeller returnerte det sant.

Eksempel 2
I dette eksemplet vil vi sjekke for NAN -verdier i hele Pyspark Pandas DataFrame ved bruk av ISNA.

#import pandaer fra pyspark -modulen
Fra Pyspark Import Pandas
#Create DataFrame fra Pandas Pyspark
pyspark_pandas = pandas.DataFrame ('student_lastname': ['manasa', ingen, 'lehara', 'Kapila', 'Hyna'], 'Mark1': [90, ingen, ingen, 54,67], 'Mark2': [100, 67,96,89, ingen], 'Mark3': [91,92,98,97,87])
#sjekk for ingen verdier i hele DataFrame
trykk (pyspark_pandas.Notna ())

Produksjon

Student_lastname Mark1 Mark2 Mark3
0 sann sann sann sann sann
1 False False True True
2 True False True True
3 Sann sann sann sant
4 True True False True

Vi kan se at Notna returnerer falsk uansett hvor nan eksisterer.

Pyspark.Pandas.Dataramme.ikke null

Notnull ligner Notna som brukes til å sjekke om verdien ikke er null. Hvis det er null, vil det komme tilbake til den verdien. Ellers returnerer det sant. Det tar ingen parametere.

Syntaks

pyspark_pandas.ikke null

Hvor pyspark_pandas er pyspark pandas dataaframe.

Vi kan også sjekke i bestemte kolonner.

Syntaks

pyspark_pandas.kolonne.ikke null

Hvor kolonnen er kolonnenavnet.

Eksempel 1
I dette eksemplet vil vi sjekke for NAN -verdier i Mark1 -kolonnen ved hjelp av Notnull.

#import pandaer fra pyspark -modulen
Fra Pyspark Import Pandas
#Create DataFrame fra Pandas Pyspark
pyspark_pandas = pandas.DataFrame ('student_lastname': ['manasa', ingen, 'lehara', 'Kapila', 'Hyna'], 'Mark1': [90, ingen, ingen, 54,67], 'Mark2': [100, 67,96,89, ingen], 'Mark3': [91,92,98,97,87])
#Check for ingen verdier i Mark1 -kolonnen
trykk (pyspark_pandas.Mark1.ikke null())

Produksjon

0 True
1 falsk
2 falsk
3 True
4 sant
Navn: Mark1, dtype: bool

Vi kan se at i andre og tredje rad - Nan ikke er tilgjengelig, så på disse stillingene returnerte Notnull False. I andre tilfeller returnerte det sant.

Eksempel 2
I dette eksemplet vil vi sjekke for NAN -verdier i hele Pyspark Pandas DataFrame ved hjelp av Notnull.

#import pandaer fra pyspark -modulen
Fra Pyspark Import Pandas
#Create DataFrame fra Pandas Pyspark
pyspark_pandas = pandas.DataFrame ('student_lastname': ['manasa', ingen, 'lehara', 'Kapila', 'Hyna'], 'Mark1': [90, ingen, ingen, 54,67], 'Mark2': [100, 67,96,89, ingen], 'Mark3': [91,92,98,97,87])
#sjekk for ingen verdier i hele DataFrame
trykk (pyspark_pandas.ikke null())

Produksjon

Student_lastname Mark1 Mark2 Mark3
0 sann sann sann sann sann
1 False False True True
2 True False True True
3 Sann sann sann sant
4 True True False True

Vi kan se at Notnull returnerer falsk uansett hvor nan eksisterer.

Konklusjon

I denne Pyspark Pandas DataFrame -opplæringen så vi hvordan vi skulle sjekke NAN -verdiene i DataFrame. ISNA brukes til å returnere sant hvis det er Nan, og Notna og Notnull vil fungere på samme måte ved å returnere sant hvis verdien ikke er nan.