Pyspark desc_nulls_first og desc_nulls_last funksjoner

Pyspark desc_nulls_first og desc_nulls_last funksjoner
Hvis du vil sortere verdiene i en kolonne i Pyspark DataFrame som har null i synkende rekkefølge, kan du gå med DESC_NULLS_FIRST () og DESC_NULLS_LAST () -funksjonene.

Før vi diskuterer disse funksjonene, vil vi lage et eksempel på Pyspark DataFrame.

Data

Importer pyspark
Fra Pyspark.SQL Import SparkSession
Spark_app = SparkSession.bygger.AppName ('_').getorCreate ()
Studenter = [(4, 'Sravan', 23, ingen, ingen),
(4, 'Chandana', 23, 'CSS', 'Pyspark'),
(46, 'Mounika', 22, ingen, '.NETT'),
(4, 'Deepika', 21, 'html', ingen),
]
DataFrame_OBJ = Spark_App.CreateTataFrame (Studenter, ['Subject_id', 'Name', 'Age', 'Technology1', 'Technology2'])
DataFrame_obj.forestilling()


Produksjon:


Nå er det 5 kolonner og 4 rader.

desc_nulls_first () funksjon

Desc_nulls_first () -funksjonen sorterer verdiene i en kolonne i synkende rekkefølge, men den vil plassere de eksisterende nullverdiene i en kolonne.

Den kan brukes med Select () -metoden for å velge de bestilte kolonnene. Det er veldig viktig å bruke OrderBy () -funksjonen fordi det viktigste her er sorteringen.OrderBy () tar DESC_NULLS_FIRST () -funksjonen som en parameter.

Syntaks

DataFrame_obj.Velg (DataFrame_OBJ.kolonne).Orderby (DataFrame_OBJ.kolonne.desc_nulls_
først())


Der DataFrame_OBJ er DataFrame og kolonnen er kolonnenavnet som verdiene er sortert, vil alle nullverdiene bli plassert først.

Så Dataframe er klar. La oss demonstrere DESC_NULLS_FIRST () -funksjonen.

Eksempel 1

Nå vil vi sortere verdiene i Technology1 -kolonnen som ikke har noen/nullverdier i synkende rekkefølge ved å bruke DESC_NULLS_FIRST () -funksjonen.

#Sort Technology1 -kolonnen i synkende rekkefølge og få nullverdiene først.
DataFrame_obj.Velg (DataFrame_OBJ.teknologi1).Orderby (DataFrame_OBJ.Teknologi1.desc_
nulls_first ()).forestilling()


Produksjon:


Egentlig er det to nullverdier. Først blir de plassert, og senere blir HTML og CSS sortert i synkende rekkefølge.

Eksempel 2

Nå vil vi sortere verdiene i Technology2 -kolonnen som ikke har noen/nullverdier i synkende rekkefølge ved å bruke DESC_NULLS_FIRST () -funksjonen.

#Sort Technology2 -kolonnen i synkende rekkefølge og få nullverdiene først.
DataFrame_obj.Velg (DataFrame_OBJ.Technology2).Orderby (DataFrame_OBJ.Technology2.desc_
nulls_first ()).forestilling()


Produksjon:


Egentlig er det to nullverdier. Først blir de plassert og senere, pyspark og .Nettet er sortert i synkende rekkefølge.

desc_nulls_last () funksjon

Desc_nulls_last () -funksjonen sorterer verdiene i en kolonne i synkende rekkefølge, men den vil plassere de eksisterende nullverdiene i en kolonne.

Den kan brukes med Select () -metoden for å velge de bestilte kolonnene. Det er veldig viktig å bruke OrderBy () fordi det viktigste her er sorteringen.Orderby () tar DESC_NULLS_FIRST () som en parameter.

Syntaks

DataFrame_obj.Velg (DataFrame_OBJ.kolonne).Orderby (DataFrame_OBJ.kolonne.desc_nulls_
siste())


Hvor, dataaframe_obj er dataaframe og kolonnen er kolonnenavnet som verdiene er sortert slik at alle nullverdiene vil bli plassert som sist.

Så Dataframe er klar. La oss demonstrere DESC_NULLS_LAST () -funksjonen.

Eksempel 1

Nå vil vi sortere verdiene i Technology2 -kolonnen med ingen/nullverdier i synkende rekkefølge ved å bruke DESC_NULLS_LAST () -funksjonen.

#sort Technology1 -kolonnen i synkende rekkefølge og få nullverdiene sist.
DataFrame_obj.Velg (DataFrame_OBJ.teknologi1).Orderby (DataFrame_OBJ.Teknologi1.desc_
nulls_last ()).forestilling()


Produksjon:


Egentlig er det to nullverdier. For det første er HTML og CSS sortert i synkende rekkefølge, og to nullverdier er plassert sist.

Eksempel 2

Nå vil vi sortere verdiene i Technology2 -kolonnen som ikke har noen/nullverdier i synkende rekkefølge ved å bruke DESC_NULLS_LAST () -funksjonen.

#Sort Technology2 -kolonnen i synkende rekkefølge og få nullverdiene sist.
DataFrame_obj.Velg (DataFrame_OBJ.Technology2).Orderby (DataFrame_OBJ.Technology2.desc_
nulls_last ()).forestilling()


Produksjon:


Egentlig er det to nullverdier. Først, .Net og pyspark er sortert i synkende rekkefølge, og to nullverdier er plassert sist.

Generelt kode

Importer pyspark
Fra Pyspark.SQL Import SparkSession
Spark_app = SparkSession.bygger.AppName ('_').getorCreate ()
Studenter = [(4, 'Sravan', 23, ingen, ingen),
(4, 'Chandana', 23, 'CSS', 'Pyspark'),
(46, 'Mounika', 22, ingen, '.NETT'),
(4, 'Deepika', 21, 'html', ingen),
]
DataFrame_OBJ = Spark_App.CreateTataFrame (Studenter, ['Subject_id', 'Name', 'Age', 'Technology1', 'Technology2'])
DataFrame_obj.forestilling()
#Sort Technology1 -kolonnen i synkende rekkefølge og få nullverdiene først.
DataFrame_obj.Velg (DataFrame_OBJ.teknologi1).Orderby (DataFrame_OBJ.Teknologi1.desc_
nulls_first ()).forestilling()
#Sort Technology2 -kolonnen i synkende rekkefølge og få nullverdiene først.
DataFrame_obj.Velg (DataFrame_OBJ.Technology2).Orderby (DataFrame_OBJ.Technology2.desc_
nulls_first ()).forestilling()
#sort Technology1 -kolonnen i synkende rekkefølge og få nullverdiene sist.
DataFrame_obj.Velg (DataFrame_OBJ.teknologi1).Orderby (DataFrame_OBJ.Teknologi1.desc_
nulls_last ()).forestilling()
#sort Technology1 -kolonnen i synkende rekkefølge og få nullverdiene sist.
DataFrame_obj.Velg (DataFrame_OBJ.teknologi1).Orderby (DataFrame_OBJ.Teknologi1.desc_
nulls_last ()).forestilling()

Konklusjon

Mot slutten av denne pyspark -opplæringen lærte vi at det er mulig å håndtere null mens vi sorterer verdiene i en dataaFrame ved hjelp av DESC_NULLS_FIRST () og DESC_NULLS_LAST () -funksjonene. Desc_nulls_first () -funksjonen sorterer verdiene i en kolonne i synkende rekkefølge, men den vil ordne de eksisterende nullverdiene i en kolonne først. Desc_nulls_last () -funksjonen sorterer verdiene i en kolonne i synkende rekkefølge, men den vil ordne de eksisterende nullverdiene i en kolonne sist. Du kan kjøre hele koden som er spesifisert i den siste delen av opplæringen.