I denne artikkelen vil vi demonstrere Pandas DataFrame -sammenligningsoperatører og hvordan de kan brukes i Pyspark. Før det må du installere PySpark -modulen som vist nedenfor:
Kommando
PIP installer pysparkSyntaks for å importere
Fra Pyspark Import PandasEtter det kan vi opprette eller bruke DataFrame fra Pandas -modulen.
Syntaks for å lage pandas dataaframe
Pyspark.Pandas.Dataramme()Vi kan passere en ordbok eller liste over lister med verdier. La oss lage en Pandas dataaframe gjennom Pyspark med tre kolonner og fem rader.
#import pandaer fra pyspark -modulenProduksjon
Nå vil vi gå inn på opplæringen vår.
Sammenligningsoperatører brukes til å sammenligne alle verdiene i Pyspark Pandas DataFrame med en verdi. Det returnerer sant hvis tilstanden er fornøyd; Ellers vil komme tilbake usant for alle verdier i en dataaframe.
La oss se dem en etter en.
Pyspark.Pandas.Dataramme.LT (mindre enn operatør)
Denne sammenligningsoperatøren brukes til å sjekke om alle verdiene i den gitte Pyspark Pandas DataFrame er mindre enn den gitte verdien. Hvis ja, vil det komme tilbake for den verdien; Ellers blir falsk returnert.
Det er også mulig å bruke '<' - less than operator.
Syntaks
pyspark_pandas.LT (verdi)Parameter
Det tar verdien som en parameter som refererer til en numerisk verdi.
EksempelI dette eksemplet vil vi sammenligne ovennevnte opprettet DataFrame med verdi - 75 ved hjelp av LT og < operators.
#import pandaer fra pyspark -modulenProduksjon
Begge operatørene returnerte det samme, og i henhold til tilstanden returnerte verdiene mindre enn 75 sann, og i andre tilfeller returnerte den falsk.
Pyspark.Pandas.Dataramme.le (mindre enn eller lik operatør)
LE er sammenligningsoperatøren som brukes til å sjekke om alle verdiene i den gitte Pyspark Pandas DataFrame er mindre enn eller lik den gitte verdien. Hvis ja, vil det komme tilbake for den verdien; Ellers blir falsk returnert.
Det er også mulig å bruke '<=' - less than or equal to operator.
Syntaks
pyspark_pandas.le (verdi)Hvor pyspark_pandas er pyspark pandas dataaframe.
Parameter
Det tar verdien som en parameter som refererer til en numerisk verdi.
Eksempel
I dette eksemplet vil vi sammenligne ovennevnte opprettet DataFrame med verdi - 75 ved hjelp av LE og <= operators.
Produksjon
Begge operatørene returnerte det samme, og i henhold til tilstanden returnerte verdier mindre enn eller lik 75 sann, og i andre tilfeller returnerte den falsk.
Pyspark.Pandas.Dataramme.GT (større enn operatør)
Denne sammenligningsoperatøren brukes til å sjekke om alle verdiene i den gitte Pyspark Pandas DataFrame er større enn den gitte verdien. Hvis ja, vil det komme tilbake for den verdien; Ellers blir falsk returnert.
Det er også mulig å bruke '>' - større enn operatøren.
Syntaks
pyspark_pandas.gt (verdi)Hvor pyspark_pandas er pyspark pandas dataaframe.
Parameter
Det tar verdien som en parameter som refererer til en numerisk verdi.
Eksempel
I dette eksemplet vil vi sammenligne ovennevnte DataFrame med verdi - 75 ved hjelp av GT og> Operatører.
Produksjon
Begge operatørene returnerte det samme, og i henhold til tilstanden returnerte verdier større enn 75 sann, og i andre tilfeller returnerte den falsk.
Pyspark.Pandas.Dataramme.ge (større enn eller lik operatør)
GE er sammenligningsoperatøren som brukes til å sjekke om alle verdiene i den gitte Pyspark Pandas DataFrame er større enn eller lik den gitte verdien. Hvis ja, vil det komme tilbake for den verdien; Ellers blir falsk returnert.
Det er også mulig å bruke '> =' - større enn eller lik operatøren.
Syntaks
pyspark_pandas.ge (verdi)Hvor pyspark_pandas er pyspark pandas dataaframe.
Parameter
Det tar verdien som en parameter som refererer til en numerisk verdi.
Eksempel
I dette eksemplet vil vi sammenligne ovennevnte DataFrame med verdi - 75 ved hjelp av GE og> = operatører.
Produksjon
Begge operatørene returnerte det samme, og i henhold til tilstanden returnerte verdier som er større enn eller lik 75, og i andre tilfeller returnerte den falsk.
Pyspark.Pandas.Dataramme.EQ (Likestilling Logisk operatør)
EQ er sammenligningsoperatøren som brukes til å sjekke om alle verdiene i den gitte Pyspark Pandas DataFrame er lik den gitte verdien. Hvis ja, vil det komme tilbake for den verdien; Ellers blir falsk returnert.
Det er også mulig å bruke '==' - lik operatøren.
Syntaks
pyspark_pandas.Eq (verdi)Hvor pyspark_pandas er pyspark pandas dataaframe.
Parameter
Det tar verdien som en parameter som refererer til en numerisk verdi.
Eksempel
I dette eksemplet vil vi sammenligne ovennevnte DataFrame med verdi - 97 ved hjelp av EQ og == Operatører.
Produksjon
Begge operatørene returnerte det samme, og i henhold til tilstanden returnerte verdier som var lik 97 sann, og i andre tilfeller returnerte den falsk.
Pyspark.Pandas.Dataramme.NE (ikke lik operatøren)
NE er sammenligningsoperatøren som brukes til å sjekke om alle verdiene i den gitte Pyspark Pandas DataFrame ikke er lik den gitte verdien. Hvis ja, vil det komme tilbake for den verdien; Ellers blir falsk returnert.
Det er også mulig å bruke '!= ' - ikke lik operatøren.
Syntaks
pyspark_pandas.ne (verdi)Hvor pyspark_pandas er pyspark pandas dataaframe.
Parameter
Det tar verdien som en parameter som refererer til en numerisk verdi.
Eksempel
I dette eksemplet vil vi sammenligne ovennevnte opprettet DataFrame med verdi - 97 ved hjelp av NE og != operatører.
Produksjon
Begge operatørene returnerte det samme, og i henhold til tilstanden returnerte verdier som ikke er lik 97, og i andre tilfeller returnerte den falsk.
Konklusjon
I denne PySpark Pandas-artikkelen ser vi hvordan du bruker forskjellige sammenligningsoperatører på DataFrame gjennom innebygde operatører og normale operatører. Hver operatør returnerer en boolsk verdi i Pyspark Pandas DataFrame Element Wise. Sammenligningsoperatørene som vi brukte er: Eq (), NE (), Lt (), Gt (), Le () og GE ().