Før vi diskuterer disse funksjonene, vil vi lage et eksempel på Pyspark DataFrame.
Data
Importer pyspark
Fra Pyspark.SQL Import SparkSession
Spark_app = SparkSession.bygger.AppName ('_').getorCreate ()
Studenter = [(4, 'Sravan', 23, ingen, ingen),
(4, 'Chandana', 23, 'CSS', 'Pyspark'),
(46, 'Mounika', 22, ingen, '.NETT'),
(4, 'Deepika', 21, 'html', ingen),
]
DataFrame_OBJ = Spark_App.CreateTataFrame (Studenter, ['Subject_id', 'Name', 'Age', 'Technology1', 'Technology2'])
DataFrame_obj.forestilling()
Produksjon:
Nå er det 5 kolonner og 4 rader.
asc_nulls_first () funksjon
ASC_NULLS_FIRST () -funksjonen sorterer verdiene i en kolonne i stigende rekkefølge, men den vil plassere de eksisterende nullverdiene i en kolonne først.
Den kan brukes med Select () -metoden for å velge de bestilte kolonnene. Det er veldig viktig å bruke OrderBy () fordi det viktigste her er å sortere.Orderby () og tar ASC_NULLS_FIRST () som parameter.
Syntaks
DataFrame_obj.Velg (DataFrame_OBJ.kolonne).Orderby (DataFrame_OBJ.kolonne.asc_nulls_
først())
Der DataFrame_OBJ er DataFrame og kolonnen er kolonnenavnet som verdiene er sortert, vil alle nullverdiene bli plassert først.
Så Dataframe er klar. La oss demonstrere ASC_NULLS_FIRST () -funksjonen.
Eksempel 1
Nå vil vi sortere verdiene i Technology1 -kolonnen med ingen/nullverdier i stigende rekkefølge ved å bruke ASC_NULLS_FIRST () -funksjonen.
#Sort Technology1 -kolonnen i stigende rekkefølge og få nullverdiene først.
DataFrame_obj.Velg (DataFrame_OBJ.teknologi1).Orderby (DataFrame_OBJ.Teknologi1.ASC_
nulls_first ()).forestilling()
Produksjon:
Egentlig er det to nullverdier. Først blir de plassert, og senere blir CSS og HTML sortert i stigende rekkefølge.
Eksempel 2
Nå vil vi sortere verdiene i Technology2 -kolonnen som ikke har noen/nullverdier i stigende rekkefølge ved å bruke ASC_NULLS_FIRST () -funksjonen.
#Sort Technology2 -kolonnen i stigende rekkefølge og få nullverdiene først.
DataFrame_obj.Velg (DataFrame_OBJ.Technology2).Orderby (DataFrame_OBJ.Technology2.ASC_
nulls_first ()).forestilling()
Produksjon:
Egentlig er det to nullverdier. Først er de plassert, og senere, .Net og Pyspark er sortert i stigende rekkefølge.
asc_nulls_last () funksjon
ASC_NULLS_LAST () -funksjonen sorterer verdiene i en kolonne i stigende rekkefølge, men den vil plassere de eksisterende nullverdiene i en kolonne sist.
Den kan brukes med Select () -metoden for å velge de bestilte kolonnene. Det er veldig viktig å bruke OrderBy () fordi det viktigste her er å sortere.orderby () som det tar asc_nulls_first () som en parameter.
Syntaks
DataFrame_obj.Velg (DataFrame_OBJ.kolonne).Orderby (DataFrame_OBJ.kolonne.asc_nulls_last ())
Der DataFrame_OBJ er DataFrame og kolonnen er kolonnenavnet som verdiene er sortert, vil alle nullverdiene til slutt plasseres.
Så Dataframe er klar. La oss demonstrere ASC_NULLS_LAST () -funksjonen.
Eksempel 1
Nå vil vi sortere verdiene i Technology2 -kolonnen som ikke har noen/nullverdier i stigende rekkefølge ved å bruke ASC_NULLS_LAST () -funksjonen.
#Sort Technology1 -kolonnen i stigende rekkefølge og få nullverdiene sist.
DataFrame_obj.Velg (DataFrame_OBJ.teknologi1).Orderby (DataFrame_OBJ.Teknologi1.ASC_
nulls_last ()).forestilling()
Produksjon:
Egentlig er det to nullverdier. For det første blir CSS og HTML sortert i stigende rekkefølge, og to nullverdier er plassert sist.
Eksempel 2
Nå vil vi sortere verdiene i Technology2 -kolonnen som ikke har noen/nullverdier i stigende rekkefølge ved å bruke ASC_NULLS_LAST () -funksjonen.
#Sort Technology2 -kolonnen i stigende rekkefølge og få nullverdiene sist.
DataFrame_obj.Velg (DataFrame_OBJ.Technology2).Orderby (DataFrame_OBJ.Technology2.ASC_
nulls_last ()).forestilling()
Produksjon:
Egentlig er det to nullverdier. Først, .Net og Pyspark er sortert i stigende rekkefølge og to nullverdier er plassert sist.
Generelt kode
Importer pyspark
Fra Pyspark.SQL Import SparkSession
Spark_app = SparkSession.bygger.AppName ('_').getorCreate ()
Studenter = [(4, 'Sravan', 23, ingen, ingen),
(4, 'Chandana', 23, 'CSS', 'Pyspark'),
(46, 'Mounika', 22, ingen, '.NETT'),
(4, 'Deepika', 21, 'html', ingen),
]
DataFrame_OBJ = Spark_App.CreateTataFrame (Studenter, ['Subject_id', 'Name', 'Age', 'Technology1', 'Technology2'])
DataFrame_obj.forestilling()
#Sort Technology1 -kolonnen i stigende rekkefølge og få nullverdiene først.
DataFrame_obj.Velg (DataFrame_OBJ.teknologi1).Orderby (DataFrame_OBJ.Teknologi1.ASC_
nulls_first ()).forestilling()
#Sort Technology2 -kolonnen i stigende rekkefølge og få nullverdiene først.
DataFrame_obj.Velg (DataFrame_OBJ.Technology2).Orderby (DataFrame_OBJ.Technology2.ASC_
nulls_first ()).forestilling()
#Sort Technology1 -kolonnen i stigende rekkefølge og få nullverdiene sist.
DataFrame_obj.Velg (DataFrame_OBJ.teknologi1).Orderby (DataFrame_OBJ.Teknologi1.ASC_
nulls_last ()).forestilling()
#Sort Technology2 -kolonnen i stigende rekkefølge og få nullverdiene sist.
DataFrame_obj.Velg (DataFrame_OBJ.Technology2).Orderby (DataFrame_OBJ.Technology2.ASC_
nulls_last ()).forestilling()
Konklusjon
Mot slutten av denne pyspark -opplæringen lærte vi at det er mulig å håndtere null mens vi sorterer verdiene i en dataaFrame ved hjelp av ASC_NULLS_FIRST () og ASC_NULLS_LAST () -funksjonene. ASC_NULLS_FIRST () -funksjonen sorterer verdiene i en kolonne i stigende rekkefølge, men den vil plassere de eksisterende nullverdiene i en kolonne først. ASC_NULLS_LAST () -funksjonen sorterer verdiene i en kolonne i stigende rekkefølge, men den vil plassere de eksisterende nullverdiene i en kolonne sist. Du kan kjøre hele koden som er spesifisert i den siste delen av opplæringen.