Pyspark mellom funksjonen

Pyspark mellom funksjonen
Mellom () -funksjonen i Pyspark brukes til å velge verdiene innenfor det angitte området. Det kan brukes med Select () -metoden.

Det vil returnere sant på tvers av alle verdiene innenfor det spesifiserte området.

For verdiene som ikke er i det spesifiserte området, returneres FALSE.

Syntaks
DataFrame_obj.Velg (DataFrame_OBJ.alder.mellom (lav, høy))

Hvor,
DataFrame_Object er Pyspark DataFrame.

Parametere:
Det tar to parametere.

  1. Det lave vil være startområdet
  2. Det høye vil være sluttområdet.

Komme tilbake:
Den returnerer alle radene med boolske verdier (True/False).

Vi vil se på forskjellige eksempler.

Eksempel 1
Her vil vi få verdiene i alderssøylen som er i området 10 til 21.

Importer pyspark
Fra Pyspark.SQL import *
Spark_app = SparkSession.bygger.AppName ('_').getorCreate ()
Studenter = [(4, 'Sravan', 23, 'PHP', 'Testing'),
(2, 'Sravan', 23, 'Oracle', 'Testing'),
(46, 'Mounika', 22, '.Nett ',' html '),
(12, 'Deepika', 21, 'Oracle', 'Html'),
(46, 'Mounika', 22, 'Oracle', 'Testing'),
(12, 'Chandrika', 23, 'Hadoop', 'C#'),
(12, 'Chandrika', 22, 'Oracle', 'Testing'),
(45, 'Sravan', 23, 'Oracle', 'C#'),
(4, 'Deepika', 21, 'PHP', 'C#'),
(46, 'Mounika', 22, '.Nett ',' testing ')
]
DataFrame_OBJ = Spark_App.CreateTataFrame (Studenter, ['Subject_id', 'Name', 'Age', 'Technology1', 'Technology2'])
print ("--- faktisk DataFrame ---")
DataFrame_obj.forestilling()
Print ("--- Verdiene i alderskolonnen mellom 10 og 21 ---")
DataFrame_obj.Velg (DataFrame_OBJ.Alder, DataFrame_OBJ.alder.mellom (10, 21)).forestilling()

Produksjon:

Du kan se at verdiene i alderskolonnen returnerte mellom 10 og 21. Resten av verdiene returnerte falsk.

Eksempel 2
Her vil vi ha verdiene i emn_id -kolonnen som er i området 40 til 46.

Importer pyspark
Fra Pyspark.SQL import *
Spark_app = SparkSession.bygger.AppName ('_').getorCreate ()
Studenter = [(4, 'Sravan', 23, 'PHP', 'Testing'),
(2, 'Sravan', 23, 'Oracle', 'Testing'),
(46, 'Mounika', 22, '.Nett ',' html '),
(12, 'Deepika', 21, 'Oracle', 'Html'),
(46, 'Mounika', 22, 'Oracle', 'Testing'),
(12, 'Chandrika', 23, 'Hadoop', 'C#'),
(12, 'Chandrika', 22, 'Oracle', 'Testing'),
(45, 'Sravan', 23, 'Oracle', 'C#'),
(4, 'Deepika', 21, 'PHP', 'C#'),
(46, 'Mounika', 22, '.Nett ',' testing ')
]
DataFrame_OBJ = Spark_App.CreateTataFrame (Studenter, ['Subject_id', 'Name', 'Age', 'Technology1', 'Technology2'])
print ("--- faktisk DataFrame ---")
DataFrame_obj.forestilling()
print ("--- verdiene i emnet_id-kolonnen mellom 40 og 46 ---")
DataFrame_obj.Velg (DataFrame_OBJ.emne_id, dataaframe_obj.emne_id.mellom (40,46))).forestilling()

Produksjon:

Du kan se at verdiene i Subject_id -kolonnen returnerte sann som er mellom 40 og 46. Resten av verdiene blir returnert falske.

Eksempel 3
Her vil vi få verdiene i emn_id -kolonnen som er i området 60 til 100.

Importer pyspark
Fra Pyspark.SQL import *
Spark_app = SparkSession.bygger.AppName ('_').getorCreate ()
Studenter = [(4, 'Sravan', 23, 'PHP', 'Testing'),
(2, 'Sravan', 23, 'Oracle', 'Testing'),
(46, 'Mounika', 22, '.Nett ',' html '),
(12, 'Deepika', 21, 'Oracle', 'Html'),
(46, 'Mounika', 22, 'Oracle', 'Testing'),
(12, 'Chandrika', 23, 'Hadoop', 'C#'),
(12, 'Chandrika', 22, 'Oracle', 'Testing'),
(45, 'Sravan', 23, 'Oracle', 'C#'),
(4, 'Deepika', 21, 'PHP', 'C#'),
(46, 'Mounika', 22, '.Nett ',' testing ')
]
DataFrame_OBJ = Spark_App.CreateTataFrame (Studenter, ['Subject_id', 'Name', 'Age', 'Technology1', 'Technology2'])
print ("--- faktisk DataFrame ---")
DataFrame_obj.forestilling()
print ("--- verdiene i emnet_id-kolonnen mellom 60 og 100 ---")
DataFrame_obj.Velg (DataFrame_OBJ.emne_id, dataaframe_obj.emne_id.mellom (60.100))).forestilling()

Produksjon:

Du kan se at NO -verdiene i Subject_ID -kolonnen ikke er i det angitte området. Så for alle rader blir falsk returnert.

Konklusjon

I denne pyspark -opplæringen diskuterte vi mellom () -funksjonen. Hvor mellom () -funksjonen velger verdiene innenfor det spesifiserte området. Det kan brukes med Select () -metoden. Det vil returnere sant på tvers av alle verdiene som er inne i det angitte området. For verdiene som ikke er i det spesifiserte området, returneres FALSE.