Mellom () -funksjonen i Pyspark brukes til å velge verdiene innenfor det angitte området. Det kan brukes med Select () -metoden.
Det vil returnere sant på tvers av alle verdiene innenfor det spesifiserte området.
For verdiene som ikke er i det spesifiserte området, returneres FALSE.
Syntaks
DataFrame_obj.Velg (DataFrame_OBJ.alder.mellom (lav, høy))
Hvor,
DataFrame_Object er Pyspark DataFrame.
Parametere:
Det tar to parametere.
- Det lave vil være startområdet
- Det høye vil være sluttområdet.
Komme tilbake:
Den returnerer alle radene med boolske verdier (True/False).
Vi vil se på forskjellige eksempler.
Eksempel 1
Her vil vi få verdiene i alderssøylen som er i området 10 til 21.
Importer pyspark
Fra Pyspark.SQL import *
Spark_app = SparkSession.bygger.AppName ('_').getorCreate ()
Studenter = [(4, 'Sravan', 23, 'PHP', 'Testing'),
(2, 'Sravan', 23, 'Oracle', 'Testing'),
(46, 'Mounika', 22, '.Nett ',' html '),
(12, 'Deepika', 21, 'Oracle', 'Html'),
(46, 'Mounika', 22, 'Oracle', 'Testing'),
(12, 'Chandrika', 23, 'Hadoop', 'C#'),
(12, 'Chandrika', 22, 'Oracle', 'Testing'),
(45, 'Sravan', 23, 'Oracle', 'C#'),
(4, 'Deepika', 21, 'PHP', 'C#'),
(46, 'Mounika', 22, '.Nett ',' testing ')
]
DataFrame_OBJ = Spark_App.CreateTataFrame (Studenter, ['Subject_id', 'Name', 'Age', 'Technology1', 'Technology2'])
print ("--- faktisk DataFrame ---")
DataFrame_obj.forestilling()
Print ("--- Verdiene i alderskolonnen mellom 10 og 21 ---")
DataFrame_obj.Velg (DataFrame_OBJ.Alder, DataFrame_OBJ.alder.mellom (10, 21)).forestilling()
Produksjon:
Du kan se at verdiene i alderskolonnen returnerte mellom 10 og 21. Resten av verdiene returnerte falsk.
Eksempel 2
Her vil vi ha verdiene i emn_id -kolonnen som er i området 40 til 46.
Importer pyspark
Fra Pyspark.SQL import *
Spark_app = SparkSession.bygger.AppName ('_').getorCreate ()
Studenter = [(4, 'Sravan', 23, 'PHP', 'Testing'),
(2, 'Sravan', 23, 'Oracle', 'Testing'),
(46, 'Mounika', 22, '.Nett ',' html '),
(12, 'Deepika', 21, 'Oracle', 'Html'),
(46, 'Mounika', 22, 'Oracle', 'Testing'),
(12, 'Chandrika', 23, 'Hadoop', 'C#'),
(12, 'Chandrika', 22, 'Oracle', 'Testing'),
(45, 'Sravan', 23, 'Oracle', 'C#'),
(4, 'Deepika', 21, 'PHP', 'C#'),
(46, 'Mounika', 22, '.Nett ',' testing ')
]
DataFrame_OBJ = Spark_App.CreateTataFrame (Studenter, ['Subject_id', 'Name', 'Age', 'Technology1', 'Technology2'])
print ("--- faktisk DataFrame ---")
DataFrame_obj.forestilling()
print ("--- verdiene i emnet_id-kolonnen mellom 40 og 46 ---")
DataFrame_obj.Velg (DataFrame_OBJ.emne_id, dataaframe_obj.emne_id.mellom (40,46))).forestilling()
Produksjon:
Du kan se at verdiene i Subject_id -kolonnen returnerte sann som er mellom 40 og 46. Resten av verdiene blir returnert falske.
Eksempel 3
Her vil vi få verdiene i emn_id -kolonnen som er i området 60 til 100.
Importer pyspark
Fra Pyspark.SQL import *
Spark_app = SparkSession.bygger.AppName ('_').getorCreate ()
Studenter = [(4, 'Sravan', 23, 'PHP', 'Testing'),
(2, 'Sravan', 23, 'Oracle', 'Testing'),
(46, 'Mounika', 22, '.Nett ',' html '),
(12, 'Deepika', 21, 'Oracle', 'Html'),
(46, 'Mounika', 22, 'Oracle', 'Testing'),
(12, 'Chandrika', 23, 'Hadoop', 'C#'),
(12, 'Chandrika', 22, 'Oracle', 'Testing'),
(45, 'Sravan', 23, 'Oracle', 'C#'),
(4, 'Deepika', 21, 'PHP', 'C#'),
(46, 'Mounika', 22, '.Nett ',' testing ')
]
DataFrame_OBJ = Spark_App.CreateTataFrame (Studenter, ['Subject_id', 'Name', 'Age', 'Technology1', 'Technology2'])
print ("--- faktisk DataFrame ---")
DataFrame_obj.forestilling()
print ("--- verdiene i emnet_id-kolonnen mellom 60 og 100 ---")
DataFrame_obj.Velg (DataFrame_OBJ.emne_id, dataaframe_obj.emne_id.mellom (60.100))).forestilling()
Produksjon:
Du kan se at NO -verdiene i Subject_ID -kolonnen ikke er i det angitte området. Så for alle rader blir falsk returnert.
Konklusjon
I denne pyspark -opplæringen diskuterte vi mellom () -funksjonen. Hvor mellom () -funksjonen velger verdiene innenfor det spesifiserte området. Det kan brukes med Select () -metoden. Det vil returnere sant på tvers av alle verdiene som er inne i det angitte området. For verdiene som ikke er i det spesifiserte området, returneres FALSE.