Pyspark - ASC & Desc

Martin Berge

I Python er Pyspark en Spark -modul som brukes til å gi en lignende type prosessering som Spark ved hjelp av DataFrame. La oss lage en Pyspark DataFrame.

Eksempel:

I dette eksemplet skal vi lage Pyspark DataFrame med 5 rader og 6 kolonner og vise ved hjelp av show () -metoden.

#import Pyspark -modulen
Importer pyspark
#import SparkSession for å lage en økt
Fra Pyspark.SQL Import SparkSession
#Create en app som heter Linuxhint
Spark_app = SparkSession.bygger.AppName ('Linuxhint').getorCreate ()
# Lag studentdata med 5 rader og 6 attributter
Studenter = ['Rollno': '001', 'Navn': 'Sravan', 'Age': 23, 'Height': 5.79, 'vekt': 67, 'adresse': 'guntur',
'Rollno': '002', 'Navn': 'Ojaswi', 'Age': 16, 'Height': 3.79, 'vekt': 34, 'adresse': 'hyd',
'Rollno': '003', 'Navn': 'Gnanesh Chowdary', 'Age': 7, 'Height': 2.79, 'vekt': 17,
'adresse': 'patna',
'Rollno': '004', 'Navn': 'Rohith', 'Age': 9, 'Height': 3.69, 'vekt': 28, 'adresse': 'hyd',
'Rollno': '005', 'Navn': 'Sridevi', 'Age': 37, 'Height': 5.59, 'vekt': 54, 'adresse': 'hyd']]
# Lag DataFrame
df = spark_app.CreateTataFrame (studenter)
#Display DataFrame
df.forestilling()

Produksjon:

Pyspark - ASC ()

I Pyspark brukes ASC () til å ordne radene i stigende rekkefølge i DataFrame.

Det vil returnere den nye DataFrame ved å ordne radene i det eksisterende DataFrame. Det brukes med sorter () eller OrderBy () -funksjoner.

Metode - 1: Bruke ASC () med COL -funksjon

Her bruker vi OrderBy () eller Sort () -funksjonene for å sortere Pyspark DataFrame basert på kolonnene i stigende rekkefølge. Vi må spesifisere kolonnenavnene/s inne i OrderBy ()/Sort () -funksjonen gjennom COL -funksjonen. Vi må importere denne funksjonen fra Pyspark.SQL.Funksjonsmodul. Dette brukes til å lese en kolonne fra Pyspark DataFrame.

Syntaks:

Dataramme.Orderby (Col (“Column_name”).ASC (),…, col (“Column_name”).ASC ())
Dataramme.Sorter (Col (“Column_name”).ASC (),…, col (“Column_name”).ASC ())

Her,

DataFrame er inngangen Pyspark DataFrame.
kolonne_navn er kolonnen der sortering brukes gjennom COL -funksjonen.

Eksempel:

I dette eksemplet skal vi sortere DataFrame i stigende rekkefølge basert på adresse- og alderskolonner med OrderBy () og Sort () -funksjonene og vise den sorterte DataFrame ved hjelp av Collect () -metoden.

#import Pyspark -modulen
Importer pyspark
#import SparkSession for å lage en økt
Fra Pyspark.SQL Import SparkSession
#import col -funksjonen
Fra Pyspark.SQL.Funksjoner importerer col
#Create en app som heter Linuxhint
Spark_app = SparkSession.bygger.AppName ('Linuxhint').getorCreate ()
# Lag studentdata med 5 rader og 6 attributter
Studenter = ['Rollno': '001', 'Navn': 'Sravan', 'Age': 23, 'Height': 5.79, 'vekt': 67, 'adresse': 'guntur',
'Rollno': '002', 'Navn': 'Ojaswi', 'Age': 16, 'Height': 3.79, 'vekt': 34, 'adresse': 'hyd',
'Rollno': '003', 'Navn': 'Gnanesh Chowdary', 'Age': 7, 'Height': 2.79, 'vekt': 17,
'adresse': 'patna',
'Rollno': '004', 'Navn': 'Rohith', 'Age': 9, 'Height': 3.69, 'vekt': 28, 'adresse': 'hyd',
'Rollno': '005', 'Navn': 'Sridevi', 'Age': 37, 'Height': 5.59, 'vekt': 54, 'adresse': 'hyd']]
# Lag DataFrame
df = spark_app.CreateTataFrame (studenter)
# Sorter DataFrame basert på adresse- og alderssøyler
# og vise den sorterte dataaframe
trykk (df.Orderby (Col ("Adresse").ASC (), Col ("Alder").ASC ()).samle inn())
skrive ut()
trykk (df.Sorter (col ("adresse").ASC (), Col ("Alder").ASC ()).samle inn())

Produksjon:

[Rad (adresse = 'guntur', alder = 23, høyde = 5.79, navn = 'Sravan', Rollno = '001', vekt = 67),
Rad (adresse = 'hyd', alder = 9, høyde = 3.69, navn = 'Rohith', rollno = '004', vekt = 28),
Rad (adresse = 'hyd', alder = 16, høyde = 3.79, navn = 'Ojaswi', rollno = '002', vekt = 34),
Rad (adresse = 'hyd', alder = 37, høyde = 5.59, navn = 'Sridevi', Rollno = '005', vekt = 54),
Rad (adresse = 'patna', alder = 7, høyde = 2.79, navn = 'Gnanesh Chowdary', Rollno = '003', vekt = 17)]
[Rad (adresse = 'guntur', alder = 23, høyde = 5.79, navn = 'Sravan', Rollno = '001', vekt = 67),
Rad (adresse = 'hyd', alder = 9, høyde = 3.69, navn = 'Rohith', rollno = '004', vekt = 28),
Rad (adresse = 'hyd', alder = 16, høyde = 3.79, navn = 'Ojaswi', rollno = '002', vekt = 34),
Rad (adresse = 'hyd', alder = 37, høyde = 5.59, navn = 'Sridevi', Rollno = '005', vekt = 54),
Rad (adresse = 'patna', alder = 7, høyde = 2.79, navn = 'Gnanesh Chowdary', Rollno = '003', vekt = 17)]

Metode - 2: Bruke ASC () med DataFrame -etiketten

Her bruker vi OrderBy () eller Sort () -funksjonene for å sortere Pyspark DataFrame basert på kolonnene i stigende rekkefølge. Vi må spesifisere kolonnenavn/etiketter i OrderBy ()/Sort () -funksjonen gjennom DataFrame -kolonnenavnet/etiketten.

Syntaks:

Dataramme.Orderby (DataFrame.kolonne_navn.ASC (), ..., DataFrame.kolonne_navn.ASC ())
Dataramme.Sorter (DataFrame.kolonne_navn.ASC (), ..., DataFrame.kolonne_navn.ASC ())

Her,

DataFrame er inngangen Pyspark DataFrame.
kolonne_navn er kolonnen der sortering brukes.

Eksempel:

I dette eksemplet skal vi sortere DataFrame i stigende rekkefølge basert på adresse- og alderssøyler med OrderBy () og Sort () -funksjonen og vise den sorterte DataFrame ved hjelp av Collect () -metoden.

Produksjon:

Metode - 3: Bruke ASC () med DataFrame Index

Her bruker vi OrderBy () eller Sort () -funksjonene for å sortere Pyspark DataFrame basert på kolonnene i stigende rekkefølge. Vi må spesifisere kolonneindeksen/indeksene i OrderBy ()/Sort () -funksjonen gjennom DataFrame Column Index/Position. I Dataframe starter indeksering med '0'.

Syntaks:

Dataramme.Orderby (DataFrame [Column_Index].ASC (), ..., DataFrame [Column_Index].ASC ())
Dataramme.Sorter (DataFrame [Column_Index].ASC (), ..., DataFrame [Column_Index].ASC ())

Her,

DataFrame er inngangen Pyspark DataFrame.
kolonne_index er kolonneposisjonen der sortering brukes.

Eksempel:

Produksjon:

Pyspark - Desc ()

I Pyspark brukes Desc () til å ordne radene i synkende rekkefølge i DataFrame.

Det vil returnere den nye DataFrame ved å ordne radene i det eksisterende DataFrame. Det brukes med sorter () eller OrderBy () -funksjoner.

Metode - 1: Bruke DESC () med COL -funksjon

Her bruker vi OrderBy () eller Sort () -funksjonene for å sortere Pyspark DataFrame basert på kolonnene for å sortere Pyspark DataFrame i synkende rekkefølge. Vi må spesifisere kolonnenavnene/s inne i OrderBy ()/Sort () -funksjonen gjennom COL -funksjonen. Vi må importere denne funksjonen fra Pyspark.SQL.Funksjonsmodul. Dette brukes til å lese en kolonne fra Pyspark DataFrame.

Syntaks:

Dataramme.Orderby (Col (“Column_name”).desc (),…, col (“Column_name”).desc ())
Dataramme.Sorter (Col (“Column_name”).desc (),…, col (“Column_name”).desc ())

Her,

DataFrame er inngangen Pyspark DataFrame.
kolonne_navn er kolonnen der sortering brukes gjennom COL -funksjonen.

Eksempel:

I dette eksemplet skal vi sortere DataFrame i synkende rekkefølge basert på adresse- og alderskolonner med OrderBy () og Sort () -funksjonene og vise den sorterte DataFrame ved hjelp av Collect () -metoden.

#import Pyspark -modulen
Importer pyspark
#import SparkSession for å lage en økt
Fra Pyspark.SQL Import SparkSession
#import col -funksjonen
Fra Pyspark.SQL.Funksjoner importerer col
#Create en app som heter Linuxhint
Spark_app = SparkSession.bygger.AppName ('Linuxhint').getorCreate ()
# Lag studentdata med 5 rader og 6 attributter
Studenter = ['Rollno': '001', 'Navn': 'Sravan', 'Age': 23, 'Height': 5.79, 'vekt': 67, 'adresse': 'guntur',
'Rollno': '002', 'Navn': 'Ojaswi', 'Age': 16, 'Height': 3.79, 'vekt': 34, 'adresse': 'hyd',
'Rollno': '003', 'Navn': 'Gnanesh Chowdary', 'Age': 7, 'Height': 2.79, 'vekt': 17,
'adresse': 'patna',
'Rollno': '004', 'Navn': 'Rohith', 'Age': 9, 'Height': 3.69, 'vekt': 28, 'adresse': 'hyd',
'Rollno': '005', 'Navn': 'Sridevi', 'Age': 37, 'Height': 5.59, 'vekt': 54, 'adresse': 'hyd']]
# Lag DataFrame
df = spark_app.CreateTataFrame (studenter)
# Sorter DataFrame basert på adresse- og alderssøyler
# og vise den sorterte dataaframe
trykk (df.Orderby (Col ("Adresse").desc (), col ("alder").desc ()).samle inn())
skrive ut()
trykk (df.Sorter (col ("adresse").desc (), col ("alder").desc ()).samle inn())

Produksjon:

[Rad (adresse = 'patna', alder = 7, høyde = 2.79, navn = 'Gnanesh Chowdary', Rollno = '003', vekt = 17),
Rad (adresse = 'hyd', alder = 37, høyde = 5.59, navn = 'Sridevi', Rollno = '005', vekt = 54),
Rad (adresse = 'hyd', alder = 16, høyde = 3.79, navn = 'Ojaswi', rollno = '002', vekt = 34),
Rad (adresse = 'hyd', alder = 9, høyde = 3.69, navn = 'Rohith', rollno = '004', vekt = 28),
Rad (adresse = 'guntur', alder = 23, høyde = 5.79, name = 'Sravan', rollno = '001', vekt = 67)]
[Rad (adresse = 'patna', alder = 7, høyde = 2.79, navn = 'Gnanesh Chowdary', Rollno = '003', vekt = 17),
Rad (adresse = 'hyd', alder = 37, høyde = 5.59, navn = 'Sridevi', Rollno = '005', vekt = 54),
Rad (adresse = 'hyd', alder = 16, høyde = 3.79, navn = 'Ojaswi', rollno = '002', vekt = 34),
Rad (adresse = 'hyd', alder = 9, høyde = 3.69, navn = 'Rohith', rollno = '004', vekt = 28),
Rad (adresse = 'guntur', alder = 23, høyde = 5.79, name = 'Sravan', rollno = '001', vekt = 67)]

Metode - 2: Bruke DESC () med DataFrame -etiketten

Her bruker vi OrderBy () eller Sort () -funksjonene for å sortere Pyspark DataFrame basert på kolonnene for å sortere Pyspark DataFrame i synkende rekkefølge. Vi må spesifisere kolonnenavn/etiketter i OrderBy ()/Sort () -funksjonen gjennom DataFrame -kolonnenavnet/etiketten.

Syntaks:

Dataramme.Orderby (DataFrame.kolonne_navn.desc (), ..., dataaframe.kolonne_navn.desc ())
Dataramme.Sorter (DataFrame.kolonne_navn.desc (), ..., dataaframe.kolonne_navn.desc ())

Her,

DataFrame er inngangen Pyspark DataFrame.
kolonne_navn er kolonnen der sortering brukes.

Eksempel:

I dette eksemplet skal vi sortere DataFrame i synkende rekkefølge basert på adresse- og alderssøyler med OrderBy () og Sort () -funksjonen og vise den sorterte DataFrame ved hjelp av Collect () -metoden.

Produksjon:

Metode - 3: Bruke ASC () med DataFrame Index

Her bruker vi OrderBy () eller Sort () -funksjonene for å sortere Pyspark DataFrame basert på kolonnene i synkende rekkefølge. Vi må spesifisere kolonneindeksen/indeksene i OrderBy ()/Sort () -funksjonen gjennom DataFrame Column Index/Position. I Dataframe starter indeksering med '0'.

Syntaks:

Dataramme.Orderby (DataFrame [Column_Index].Desc (), ..., DataFrame [Column_Index].desc ())
Dataramme.Sorter (DataFrame [Column_Index].Desc (), ..., DataFrame [Column_Index].desc ())

Her,

DataFrame er inngangen Pyspark DataFrame.
kolonne_index er kolonneposisjonen der sortering brukes.

Eksempel:

Produksjon:

Diverse

Vi kan også bruke begge funksjonene på forskjellige kolonner i Pyspark DataFrame om gangen.

Eksempel:

#import Pyspark -modulen
Importer pyspark
#import SparkSession for å lage en økt
Fra Pyspark.SQL Import SparkSession
#import col -funksjonen
Fra Pyspark.SQL.Funksjoner importerer col
#Create en app som heter Linuxhint
Spark_app = SparkSession.bygger.AppName ('Linuxhint').getorCreate ()
# Lag studentdata med 5 rader og 6 attributter
Studenter = ['Rollno': '001', 'Navn': 'Sravan', 'Age': 23, 'Height': 5.79, 'vekt': 67, 'adresse': 'guntur',
'Rollno': '002', 'Navn': 'Ojaswi', 'Age': 16, 'Height': 3.79, 'vekt': 34, 'adresse': 'hyd',
'Rollno': '003', 'Navn': 'Gnanesh Chowdary', 'Age': 7, 'Height': 2.79, 'vekt': 17,
'adresse': 'patna',
'Rollno': '004', 'Navn': 'Rohith', 'Age': 9, 'Height': 3.69, 'vekt': 28, 'adresse': 'hyd',
'Rollno': '005', 'Navn': 'Sridevi', 'Age': 37, 'Height': 5.59, 'vekt': 54, 'adresse': 'hyd']]
# Lag DataFrame
df = spark_app.CreateTataFrame (studenter)
# Sorter DataFrame basert på adresse- og alderssøyler
# og vise den sorterte dataaframe
trykk (df.Orderby (Col ("Adresse").desc (), col ("alder").ASC ()).samle inn())
skrive ut()
trykk (df.Sorter (col ("adresse").ASC (), Col ("Alder").desc ()).samle inn())

Produksjon:

[Rad (adresse = 'patna', alder = 7, høyde = 2.79, navn = 'Gnanesh Chowdary', Rollno = '003', vekt = 17), rad (adresse = 'Hyd', alder = 9, høyde = 3.69, navn = 'Rohith', rollno = '004', vekt = 28), rad (adresse = 'hyd', alder = 16, høyde = 3.79, navn = 'ojaswi', rollno = '002', vekt = 34), rad (adresse = 'hyd', alder = 37, høyde = 5.59, navn = 'Sridevi', rollno = '005', vekt = 54), rad (adresse = 'guntur', alder = 23, høyde = 5.79, name = 'Sravan', rollno = '001', vekt = 67)]
[Rad (adresse = 'guntur', alder = 23, høyde = 5.79, navn = 'Sravan', rollno = '001', vekt = 67), rad (adresse = 'hyd', alder = 37, høyde = 5.59, name = 'Sridevi', rollno = '005', vekt = 54), rad (adresse = 'hyd', alder = 16, høyde = 3.79, navn = 'Ojaswi', rollno = '002', vekt = 34), rad (adresse = 'hyd', alder = 9, høyde = 3.69, name = 'Rohith', rollno = '004', vekt = 28), rad (adresse = 'patna', alder = 7, høyde = 2.79, navn = 'Gnanesh Chowdary', Rollno = '003', vekt = 17)]

Konklusjon

I denne artikkelen diskuterer vi hvordan du bruker ASC () -funksjonen ved å bruke tre scenarier med sort () og OrderBy () -funksjoner på Pyspark DataFrame i Python. Til slutt kom vi til et punkt der vi kan sortere dataene i stigende rekkefølge ved hjelp av ASC () og synkende rekkefølge ved bruk av DESC () i Pyspark DataFrame basert på kolonnene som er til stede i DataFrame.

Windows OS

Hva er Windows Package Manager

Windows Package Manager eller Winget er et kraftig verktøy for å installere og administrere programv...

Alexander Sørlie

Python

Python Chmod

“OS.CHMOD () ”-funksjonen til OS -modulen brukes til å endre eierskapet til Python -filen ved å godt...

Anders Fjeld Moe

Docker

Hva er formålet med en Docker-komponering.YML -fil i Docker?

Hovedformålet med en “Docker-Compose.YML ”-filen er å forenkle prosessen med å distribuere og admini...

Elias Krogh Svendsen