Før vi diskuterer disse funksjonene, vil vi lage et eksempel på Pyspark DataFrame.
Data
Importer pyspark
Fra Pyspark.SQL Import SparkSession
Spark_app = SparkSession.bygger.AppName ('_').getorCreate ()
Studenter = [(4, 'Sravan', 23, ingen, ingen),
(4, 'Chandana', 23, 'CSS', 'Pyspark'),
(46, 'Mounika', 22, ingen, '.NETT'),
(4, 'Deepika', 21, 'html', ingen),
]
DataFrame_OBJ = Spark_App.CreateTataFrame (Studenter, ['Subject_id', 'Name', 'Age', 'Technology1', 'Technology2'])
DataFrame_obj.forestilling()
Produksjon:
Nå er det 5 kolonner og 4 rader.
desc_nulls_first () funksjon
Desc_nulls_first () -funksjonen sorterer verdiene i en kolonne i synkende rekkefølge, men den vil plassere de eksisterende nullverdiene i en kolonne.
Den kan brukes med Select () -metoden for å velge de bestilte kolonnene. Det er veldig viktig å bruke OrderBy () -funksjonen fordi det viktigste her er sorteringen.OrderBy () tar DESC_NULLS_FIRST () -funksjonen som en parameter.
Syntaks
DataFrame_obj.Velg (DataFrame_OBJ.kolonne).Orderby (DataFrame_OBJ.kolonne.desc_nulls_
først())
Der DataFrame_OBJ er DataFrame og kolonnen er kolonnenavnet som verdiene er sortert, vil alle nullverdiene bli plassert først.
Så Dataframe er klar. La oss demonstrere DESC_NULLS_FIRST () -funksjonen.
Eksempel 1
Nå vil vi sortere verdiene i Technology1 -kolonnen som ikke har noen/nullverdier i synkende rekkefølge ved å bruke DESC_NULLS_FIRST () -funksjonen.
#Sort Technology1 -kolonnen i synkende rekkefølge og få nullverdiene først.
DataFrame_obj.Velg (DataFrame_OBJ.teknologi1).Orderby (DataFrame_OBJ.Teknologi1.desc_
nulls_first ()).forestilling()
Produksjon:
Egentlig er det to nullverdier. Først blir de plassert, og senere blir HTML og CSS sortert i synkende rekkefølge.
Eksempel 2
Nå vil vi sortere verdiene i Technology2 -kolonnen som ikke har noen/nullverdier i synkende rekkefølge ved å bruke DESC_NULLS_FIRST () -funksjonen.
#Sort Technology2 -kolonnen i synkende rekkefølge og få nullverdiene først.
DataFrame_obj.Velg (DataFrame_OBJ.Technology2).Orderby (DataFrame_OBJ.Technology2.desc_
nulls_first ()).forestilling()
Produksjon:
Egentlig er det to nullverdier. Først blir de plassert og senere, pyspark og .Nettet er sortert i synkende rekkefølge.
desc_nulls_last () funksjon
Desc_nulls_last () -funksjonen sorterer verdiene i en kolonne i synkende rekkefølge, men den vil plassere de eksisterende nullverdiene i en kolonne.
Den kan brukes med Select () -metoden for å velge de bestilte kolonnene. Det er veldig viktig å bruke OrderBy () fordi det viktigste her er sorteringen.Orderby () tar DESC_NULLS_FIRST () som en parameter.
Syntaks
DataFrame_obj.Velg (DataFrame_OBJ.kolonne).Orderby (DataFrame_OBJ.kolonne.desc_nulls_
siste())
Hvor, dataaframe_obj er dataaframe og kolonnen er kolonnenavnet som verdiene er sortert slik at alle nullverdiene vil bli plassert som sist.
Så Dataframe er klar. La oss demonstrere DESC_NULLS_LAST () -funksjonen.
Eksempel 1
Nå vil vi sortere verdiene i Technology2 -kolonnen med ingen/nullverdier i synkende rekkefølge ved å bruke DESC_NULLS_LAST () -funksjonen.
#sort Technology1 -kolonnen i synkende rekkefølge og få nullverdiene sist.
DataFrame_obj.Velg (DataFrame_OBJ.teknologi1).Orderby (DataFrame_OBJ.Teknologi1.desc_
nulls_last ()).forestilling()
Produksjon:
Egentlig er det to nullverdier. For det første er HTML og CSS sortert i synkende rekkefølge, og to nullverdier er plassert sist.
Eksempel 2
Nå vil vi sortere verdiene i Technology2 -kolonnen som ikke har noen/nullverdier i synkende rekkefølge ved å bruke DESC_NULLS_LAST () -funksjonen.
#Sort Technology2 -kolonnen i synkende rekkefølge og få nullverdiene sist.
DataFrame_obj.Velg (DataFrame_OBJ.Technology2).Orderby (DataFrame_OBJ.Technology2.desc_
nulls_last ()).forestilling()
Produksjon:
Egentlig er det to nullverdier. Først, .Net og pyspark er sortert i synkende rekkefølge, og to nullverdier er plassert sist.
Generelt kode
Importer pyspark
Fra Pyspark.SQL Import SparkSession
Spark_app = SparkSession.bygger.AppName ('_').getorCreate ()
Studenter = [(4, 'Sravan', 23, ingen, ingen),
(4, 'Chandana', 23, 'CSS', 'Pyspark'),
(46, 'Mounika', 22, ingen, '.NETT'),
(4, 'Deepika', 21, 'html', ingen),
]
DataFrame_OBJ = Spark_App.CreateTataFrame (Studenter, ['Subject_id', 'Name', 'Age', 'Technology1', 'Technology2'])
DataFrame_obj.forestilling()
#Sort Technology1 -kolonnen i synkende rekkefølge og få nullverdiene først.
DataFrame_obj.Velg (DataFrame_OBJ.teknologi1).Orderby (DataFrame_OBJ.Teknologi1.desc_
nulls_first ()).forestilling()
#Sort Technology2 -kolonnen i synkende rekkefølge og få nullverdiene først.
DataFrame_obj.Velg (DataFrame_OBJ.Technology2).Orderby (DataFrame_OBJ.Technology2.desc_
nulls_first ()).forestilling()
#sort Technology1 -kolonnen i synkende rekkefølge og få nullverdiene sist.
DataFrame_obj.Velg (DataFrame_OBJ.teknologi1).Orderby (DataFrame_OBJ.Teknologi1.desc_
nulls_last ()).forestilling()
#sort Technology1 -kolonnen i synkende rekkefølge og få nullverdiene sist.
DataFrame_obj.Velg (DataFrame_OBJ.teknologi1).Orderby (DataFrame_OBJ.Teknologi1.desc_
nulls_last ()).forestilling()
Konklusjon
Mot slutten av denne pyspark -opplæringen lærte vi at det er mulig å håndtere null mens vi sorterer verdiene i en dataaFrame ved hjelp av DESC_NULLS_FIRST () og DESC_NULLS_LAST () -funksjonene. Desc_nulls_first () -funksjonen sorterer verdiene i en kolonne i synkende rekkefølge, men den vil ordne de eksisterende nullverdiene i en kolonne først. Desc_nulls_last () -funksjonen sorterer verdiene i en kolonne i synkende rekkefølge, men den vil ordne de eksisterende nullverdiene i en kolonne sist. Du kan kjøre hele koden som er spesifisert i den siste delen av opplæringen.