Pyspark asc_nulls_first og asc_nulls_last funksjoner

Hvis du vil sortere verdiene i en kolonne i Pyspark DataFrame med å ha null i stigende rekkefølge, kan du gå med ASC_NULLS_FIRST () og ASC_NULLS_LAST () -funksjonene.

Før vi diskuterer disse funksjonene, vil vi lage et eksempel på Pyspark DataFrame.

Data

Importer pyspark
Fra Pyspark.SQL Import SparkSession
Spark_app = SparkSession.bygger.AppName ('_').getorCreate ()
Studenter = [(4, 'Sravan', 23, ingen, ingen),
(4, 'Chandana', 23, 'CSS', 'Pyspark'),
(46, 'Mounika', 22, ingen, '.NETT'),
(4, 'Deepika', 21, 'html', ingen),
]
DataFrame_OBJ = Spark_App.CreateTataFrame (Studenter, ['Subject_id', 'Name', 'Age', 'Technology1', 'Technology2'])
DataFrame_obj.forestilling()

Produksjon:

Nå er det 5 kolonner og 4 rader.

asc_nulls_first () funksjon

ASC_NULLS_FIRST () -funksjonen sorterer verdiene i en kolonne i stigende rekkefølge, men den vil plassere de eksisterende nullverdiene i en kolonne først.

Den kan brukes med Select () -metoden for å velge de bestilte kolonnene. Det er veldig viktig å bruke OrderBy () fordi det viktigste her er å sortere.Orderby () og tar ASC_NULLS_FIRST () som parameter.

Syntaks

DataFrame_obj.Velg (DataFrame_OBJ.kolonne).Orderby (DataFrame_OBJ.kolonne.asc_nulls_
først())

Der DataFrame_OBJ er DataFrame og kolonnen er kolonnenavnet som verdiene er sortert, vil alle nullverdiene bli plassert først.

Så Dataframe er klar. La oss demonstrere ASC_NULLS_FIRST () -funksjonen.

Eksempel 1

Nå vil vi sortere verdiene i Technology1 -kolonnen med ingen/nullverdier i stigende rekkefølge ved å bruke ASC_NULLS_FIRST () -funksjonen.

#Sort Technology1 -kolonnen i stigende rekkefølge og få nullverdiene først.
DataFrame_obj.Velg (DataFrame_OBJ.teknologi1).Orderby (DataFrame_OBJ.Teknologi1.ASC_
nulls_first ()).forestilling()

Produksjon:

Egentlig er det to nullverdier. Først blir de plassert, og senere blir CSS og HTML sortert i stigende rekkefølge.

Eksempel 2

Nå vil vi sortere verdiene i Technology2 -kolonnen som ikke har noen/nullverdier i stigende rekkefølge ved å bruke ASC_NULLS_FIRST () -funksjonen.

#Sort Technology2 -kolonnen i stigende rekkefølge og få nullverdiene først.
DataFrame_obj.Velg (DataFrame_OBJ.Technology2).Orderby (DataFrame_OBJ.Technology2.ASC_
nulls_first ()).forestilling()

Produksjon:

Egentlig er det to nullverdier. Først er de plassert, og senere, .Net og Pyspark er sortert i stigende rekkefølge.

asc_nulls_last () funksjon

ASC_NULLS_LAST () -funksjonen sorterer verdiene i en kolonne i stigende rekkefølge, men den vil plassere de eksisterende nullverdiene i en kolonne sist.

Den kan brukes med Select () -metoden for å velge de bestilte kolonnene. Det er veldig viktig å bruke OrderBy () fordi det viktigste her er å sortere.orderby () som det tar asc_nulls_first () som en parameter.

Syntaks

DataFrame_obj.Velg (DataFrame_OBJ.kolonne).Orderby (DataFrame_OBJ.kolonne.asc_nulls_last ())

Der DataFrame_OBJ er DataFrame og kolonnen er kolonnenavnet som verdiene er sortert, vil alle nullverdiene til slutt plasseres.

Så Dataframe er klar. La oss demonstrere ASC_NULLS_LAST () -funksjonen.

Eksempel 1

Nå vil vi sortere verdiene i Technology2 -kolonnen som ikke har noen/nullverdier i stigende rekkefølge ved å bruke ASC_NULLS_LAST () -funksjonen.

#Sort Technology1 -kolonnen i stigende rekkefølge og få nullverdiene sist.
DataFrame_obj.Velg (DataFrame_OBJ.teknologi1).Orderby (DataFrame_OBJ.Teknologi1.ASC_
nulls_last ()).forestilling()

Produksjon:

Egentlig er det to nullverdier. For det første blir CSS og HTML sortert i stigende rekkefølge, og to nullverdier er plassert sist.

Eksempel 2

Nå vil vi sortere verdiene i Technology2 -kolonnen som ikke har noen/nullverdier i stigende rekkefølge ved å bruke ASC_NULLS_LAST () -funksjonen.

#Sort Technology2 -kolonnen i stigende rekkefølge og få nullverdiene sist.
DataFrame_obj.Velg (DataFrame_OBJ.Technology2).Orderby (DataFrame_OBJ.Technology2.ASC_
nulls_last ()).forestilling()

Produksjon:

Egentlig er det to nullverdier. Først, .Net og Pyspark er sortert i stigende rekkefølge og to nullverdier er plassert sist.

Generelt kode

Importer pyspark
Fra Pyspark.SQL Import SparkSession
Spark_app = SparkSession.bygger.AppName ('_').getorCreate ()
Studenter = [(4, 'Sravan', 23, ingen, ingen),
(4, 'Chandana', 23, 'CSS', 'Pyspark'),
(46, 'Mounika', 22, ingen, '.NETT'),
(4, 'Deepika', 21, 'html', ingen),
]
DataFrame_OBJ = Spark_App.CreateTataFrame (Studenter, ['Subject_id', 'Name', 'Age', 'Technology1', 'Technology2'])
DataFrame_obj.forestilling()
#Sort Technology1 -kolonnen i stigende rekkefølge og få nullverdiene først.
DataFrame_obj.Velg (DataFrame_OBJ.teknologi1).Orderby (DataFrame_OBJ.Teknologi1.ASC_
nulls_first ()).forestilling()
#Sort Technology2 -kolonnen i stigende rekkefølge og få nullverdiene først.
DataFrame_obj.Velg (DataFrame_OBJ.Technology2).Orderby (DataFrame_OBJ.Technology2.ASC_
nulls_first ()).forestilling()
#Sort Technology1 -kolonnen i stigende rekkefølge og få nullverdiene sist.
DataFrame_obj.Velg (DataFrame_OBJ.teknologi1).Orderby (DataFrame_OBJ.Teknologi1.ASC_
nulls_last ()).forestilling()
#Sort Technology2 -kolonnen i stigende rekkefølge og få nullverdiene sist.
DataFrame_obj.Velg (DataFrame_OBJ.Technology2).Orderby (DataFrame_OBJ.Technology2.ASC_
nulls_last ()).forestilling()

Konklusjon

Mot slutten av denne pyspark -opplæringen lærte vi at det er mulig å håndtere null mens vi sorterer verdiene i en dataaFrame ved hjelp av ASC_NULLS_FIRST () og ASC_NULLS_LAST () -funksjonene. ASC_NULLS_FIRST () -funksjonen sorterer verdiene i en kolonne i stigende rekkefølge, men den vil plassere de eksisterende nullverdiene i en kolonne først. ASC_NULLS_LAST () -funksjonen sorterer verdiene i en kolonne i stigende rekkefølge, men den vil plassere de eksisterende nullverdiene i en kolonne sist. Du kan kjøre hele koden som er spesifisert i den siste delen av opplæringen.

Python

Seaborn Axis -etiketter

“Aksene.set () ”-funksjon, matplotlib bibliotekfunksjoner, eller“ set_xlabel () ”og“ set_ylabel () ”...

Daniel Johnsen

Python

Python Ikke alle argumenter som er konvertert under strengformatering

Denne feilen kan fikses ved å korrigere syntaksen til % operatøren, ved å bruke format () -funksjone...

Simen Ødegård

Python

Seaborn Tsplot

I Python, “Seaborn.LinePlot () ”-metode brukes til å plotte flere linjer i et enkelt plott, tilpasse...

Oskar Fossum