Pyspark - Pandas DataFrame sammenligningsoperatører

Pyspark - Pandas DataFrame sammenligningsoperatører
I Python er Pyspark en Spark -modul som gir en lignende type prosessering som Spark ved hjelp av DataFrame, som vil lagre de gitte dataene i rad- og kolonneformat. Pyspark - Pandas DataFrame representerer Pandas DataFrame, men den holder Pyspark DataFrame internt. Pandas støtter dataframdatastruktur, og Pandas importeres fra Pyspark -modulen.

I denne artikkelen vil vi demonstrere Pandas DataFrame -sammenligningsoperatører og hvordan de kan brukes i Pyspark. Før det må du installere PySpark -modulen som vist nedenfor:

Kommando

PIP installer pyspark

Syntaks for å importere

Fra Pyspark Import Pandas

Etter det kan vi opprette eller bruke DataFrame fra Pandas -modulen.

Syntaks for å lage pandas dataaframe

Pyspark.Pandas.Dataramme()

Vi kan passere en ordbok eller liste over lister med verdier. La oss lage en Pandas dataaframe gjennom Pyspark med tre kolonner og fem rader.

#import pandaer fra pyspark -modulen
Fra Pyspark Import Pandas
#Create DataFrame fra Pandas Pyspark
pyspark_pandas = pandas.Dataframe ('Mark1': [90,78,90,54,67], 'Mark2': [100,67,96,89,77], 'Mark3': [91,92,98,97,87] )
#vise
print (pyspark_pandas)

Produksjon

Nå vil vi gå inn på opplæringen vår.

Sammenligningsoperatører brukes til å sammenligne alle verdiene i Pyspark Pandas DataFrame med en verdi. Det returnerer sant hvis tilstanden er fornøyd; Ellers vil komme tilbake usant for alle verdier i en dataaframe.

La oss se dem en etter en.

Pyspark.Pandas.Dataramme.LT (mindre enn operatør)

Denne sammenligningsoperatøren brukes til å sjekke om alle verdiene i den gitte Pyspark Pandas DataFrame er mindre enn den gitte verdien. Hvis ja, vil det komme tilbake for den verdien; Ellers blir falsk returnert.

Det er også mulig å bruke '<' - less than operator.

Syntaks

pyspark_pandas.LT (verdi)
pyspark_pandasHvor pyspark_pandas er pyspark pandas dataaframe.

Parameter
Det tar verdien som en parameter som refererer til en numerisk verdi.

EksempelI dette eksemplet vil vi sammenligne ovennevnte opprettet DataFrame med verdi - 75 ved hjelp av LT og < operators.

#import pandaer fra pyspark -modulen
Fra Pyspark Import Pandas
#Create DataFrame fra Pandas Pyspark
pyspark_pandas = pandas.Dataframe ('Mark1': [90,78,90,54,67], 'Mark2': [100,67,96,89,77], 'Mark3': [91,92,98,97,87] )
#Check Alle verdiene i ovennevnte DataFrame er mindre enn 75
trykk (pyspark_pandas.LT (75))
skrive ut()
#Check Alle verdiene i ovennevnte DataFrame er mindre enn 75
trykk (pyspark_pandas<75)

Produksjon

Begge operatørene returnerte det samme, og i henhold til tilstanden returnerte verdiene mindre enn 75 sann, og i andre tilfeller returnerte den falsk.

Pyspark.Pandas.Dataramme.le (mindre enn eller lik operatør)

LE er sammenligningsoperatøren som brukes til å sjekke om alle verdiene i den gitte Pyspark Pandas DataFrame er mindre enn eller lik den gitte verdien. Hvis ja, vil det komme tilbake for den verdien; Ellers blir falsk returnert.

Det er også mulig å bruke '<=' - less than or equal to operator.

Syntaks

pyspark_pandas.le (verdi)
pyspark_pandas<=value

Hvor pyspark_pandas er pyspark pandas dataaframe.

Parameter
Det tar verdien som en parameter som refererer til en numerisk verdi.

Eksempel
I dette eksemplet vil vi sammenligne ovennevnte opprettet DataFrame med verdi - 75 ved hjelp av LE og <= operators.

#import pandaer fra pyspark -modulen
Fra Pyspark Import Pandas
#Create DataFrame fra Pandas Pyspark
pyspark_pandas = pandas.Dataframe ('Mark1': [90,78,90,54,67], 'Mark2': [100,67,96,89,77], 'Mark3': [91,92,98,97,87] )
#Check Alle verdiene i ovennevnte DataFrame er mindre enn eller lik 75
trykk (pyspark_pandas.Le (75))
skrive ut()
#Check Alle verdiene i ovennevnte DataFrame er mindre enn eller lik 75
trykk (pyspark_pandas<=75)

Produksjon

Begge operatørene returnerte det samme, og i henhold til tilstanden returnerte verdier mindre enn eller lik 75 sann, og i andre tilfeller returnerte den falsk.

Pyspark.Pandas.Dataramme.GT (større enn operatør)

Denne sammenligningsoperatøren brukes til å sjekke om alle verdiene i den gitte Pyspark Pandas DataFrame er større enn den gitte verdien. Hvis ja, vil det komme tilbake for den verdien; Ellers blir falsk returnert.

Det er også mulig å bruke '>' - større enn operatøren.

Syntaks

pyspark_pandas.gt (verdi)
pyspark_pandas> verdi

Hvor pyspark_pandas er pyspark pandas dataaframe.

Parameter
Det tar verdien som en parameter som refererer til en numerisk verdi.

Eksempel
I dette eksemplet vil vi sammenligne ovennevnte DataFrame med verdi - 75 ved hjelp av GT og> Operatører.

#import pandaer fra pyspark -modulen
Fra Pyspark Import Pandas
#Create DataFrame fra Pandas Pyspark
pyspark_pandas = pandas.Dataframe ('Mark1': [90,78,90,54,67], 'Mark2': [100,67,96,89,77], 'Mark3': [91,92,98,97,87] )
#Check Alle verdiene i ovennevnte DataFrame er større enn 75
trykk (pyspark_pandas.GT (75))
skrive ut()
#Check Alle verdiene i ovennevnte DataFrame er større enn 75
trykk (pyspark_pandas> 75)

Produksjon

Begge operatørene returnerte det samme, og i henhold til tilstanden returnerte verdier større enn 75 sann, og i andre tilfeller returnerte den falsk.

Pyspark.Pandas.Dataramme.ge (større enn eller lik operatør)

GE er sammenligningsoperatøren som brukes til å sjekke om alle verdiene i den gitte Pyspark Pandas DataFrame er større enn eller lik den gitte verdien. Hvis ja, vil det komme tilbake for den verdien; Ellers blir falsk returnert.

Det er også mulig å bruke '> =' - større enn eller lik operatøren.

Syntaks

pyspark_pandas.ge (verdi)
pyspark_pandas> = verdi

Hvor pyspark_pandas er pyspark pandas dataaframe.

Parameter
Det tar verdien som en parameter som refererer til en numerisk verdi.

Eksempel
I dette eksemplet vil vi sammenligne ovennevnte DataFrame med verdi - 75 ved hjelp av GE og> = operatører.

#import pandaer fra pyspark -modulen
Fra Pyspark Import Pandas
#Create DataFrame fra Pandas Pyspark
pyspark_pandas = pandas.Dataframe ('Mark1': [90,78,90,54,67], 'Mark2': [100,67,96,89,77], 'Mark3': [91,92,98,97,87] )
#Check Alle verdiene i ovennevnte DataFrame er større enn eller lik 75
trykk (pyspark_pandas.GE (75))
skrive ut()
#Check Alle verdiene i ovennevnte DataFrame er større enn eller lik 75
Print (pyspark_pandas> = 75)

Produksjon

Begge operatørene returnerte det samme, og i henhold til tilstanden returnerte verdier som er større enn eller lik 75, og i andre tilfeller returnerte den falsk.

Pyspark.Pandas.Dataramme.EQ (Likestilling Logisk operatør)

EQ er sammenligningsoperatøren som brukes til å sjekke om alle verdiene i den gitte Pyspark Pandas DataFrame er lik den gitte verdien. Hvis ja, vil det komme tilbake for den verdien; Ellers blir falsk returnert.

Det er også mulig å bruke '==' - lik operatøren.

Syntaks

pyspark_pandas.Eq (verdi)
pyspark_pandas == verdi

Hvor pyspark_pandas er pyspark pandas dataaframe.

Parameter
Det tar verdien som en parameter som refererer til en numerisk verdi.

Eksempel
I dette eksemplet vil vi sammenligne ovennevnte DataFrame med verdi - 97 ved hjelp av EQ og == Operatører.

#import pandaer fra pyspark -modulen
Fra Pyspark Import Pandas
#Create DataFrame fra Pandas Pyspark
pyspark_pandas = pandas.Dataframe ('Mark1': [90,78,90,54,67], 'Mark2': [100,67,96,89,77], 'Mark3': [91,92,98,97,87] )
#Check Alle verdiene i ovennevnte DataFrame er lik 97
trykk (pyspark_pandas.Eq (97))
skrive ut()
#Check Alle verdiene i ovennevnte DataFrame er lik 97
print (pyspark_pandas == 97)

Produksjon

Begge operatørene returnerte det samme, og i henhold til tilstanden returnerte verdier som var lik 97 sann, og i andre tilfeller returnerte den falsk.

Pyspark.Pandas.Dataramme.NE (ikke lik operatøren)

NE er sammenligningsoperatøren som brukes til å sjekke om alle verdiene i den gitte Pyspark Pandas DataFrame ikke er lik den gitte verdien. Hvis ja, vil det komme tilbake for den verdien; Ellers blir falsk returnert.

Det er også mulig å bruke '!= ' - ikke lik operatøren.

Syntaks

pyspark_pandas.ne (verdi)
pyspark_pandas!= verdi

Hvor pyspark_pandas er pyspark pandas dataaframe.

Parameter
Det tar verdien som en parameter som refererer til en numerisk verdi.

Eksempel
I dette eksemplet vil vi sammenligne ovennevnte opprettet DataFrame med verdi - 97 ved hjelp av NE og != operatører.

#import pandaer fra pyspark -modulen
Fra Pyspark Import Pandas
#Create DataFrame fra Pandas Pyspark
pyspark_pandas = pandas.Dataframe ('Mark1': [90,78,90,54,67], 'Mark2': [100,67,96,89,77], 'Mark3': [91,92,98,97,87] )
#Check Alle verdiene i ovennevnte DataFrame er ikke lik 97
trykk (pyspark_pandas.NE (97))
skrive ut()
#Check Alle verdiene i ovennevnte DataFrame er ikke lik 97
trykk (pyspark_pandas!= 97)

Produksjon

Begge operatørene returnerte det samme, og i henhold til tilstanden returnerte verdier som ikke er lik 97, og i andre tilfeller returnerte den falsk.

Konklusjon

I denne PySpark Pandas-artikkelen ser vi hvordan du bruker forskjellige sammenligningsoperatører på DataFrame gjennom innebygde operatører og normale operatører. Hver operatør returnerer en boolsk verdi i Pyspark Pandas DataFrame Element Wise. Sammenligningsoperatørene som vi brukte er: Eq (), NE (), Lt (), Gt (), Le () og GE ().