I Python er Pyspark en Spark -modul som brukes til å gi en lignende type prosessering som Spark ved hjelp av DataFrame. La oss lage en Pyspark DataFrame.
Eksempel:
I dette eksemplet skal vi lage Pyspark DataFrame med 5 rader og 6 kolonner og vise ved hjelp av show () -metoden.
#import Pyspark -modulen
Importer pyspark
#import SparkSession for å lage en økt
Fra Pyspark.SQL Import SparkSession
#Create en app som heter Linuxhint
Spark_app = SparkSession.bygger.AppName ('Linuxhint').getorCreate ()
# Lag studentdata med 5 rader og 6 attributter
Studenter = ['Rollno': '001', 'Navn': 'Sravan', 'Age': 23, 'Height': 5.79, 'vekt': 67, 'adresse': 'guntur',
'Rollno': '002', 'Navn': 'Ojaswi', 'Age': 16, 'Height': 3.79, 'vekt': 34, 'adresse': 'hyd',
'Rollno': '003', 'Navn': 'Gnanesh Chowdary', 'Age': 7, 'Height': 2.79, 'vekt': 17,
'adresse': 'patna',
'Rollno': '004', 'Navn': 'Rohith', 'Age': 9, 'Height': 3.69, 'vekt': 28, 'adresse': 'hyd',
'Rollno': '005', 'Navn': 'Sridevi', 'Age': 37, 'Height': 5.59, 'vekt': 54, 'adresse': 'hyd']]
# Lag DataFrame
df = spark_app.CreateTataFrame (studenter)
#Display DataFrame
df.forestilling()
Produksjon:
Pyspark - ASC ()
I Pyspark brukes ASC () til å ordne radene i stigende rekkefølge i DataFrame.
Det vil returnere den nye DataFrame ved å ordne radene i det eksisterende DataFrame. Det brukes med sorter () eller OrderBy () -funksjoner.
Metode - 1: Bruke ASC () med COL -funksjon
Her bruker vi OrderBy () eller Sort () -funksjonene for å sortere Pyspark DataFrame basert på kolonnene i stigende rekkefølge. Vi må spesifisere kolonnenavnene/s inne i OrderBy ()/Sort () -funksjonen gjennom COL -funksjonen. Vi må importere denne funksjonen fra Pyspark.SQL.Funksjonsmodul. Dette brukes til å lese en kolonne fra Pyspark DataFrame.
Syntaks:
Dataramme.Orderby (Col (“Column_name”).ASC (),…, col (“Column_name”).ASC ())
Dataramme.Sorter (Col (“Column_name”).ASC (),…, col (“Column_name”).ASC ())
Her,
- DataFrame er inngangen Pyspark DataFrame.
- kolonne_navn er kolonnen der sortering brukes gjennom COL -funksjonen.
Eksempel:
I dette eksemplet skal vi sortere DataFrame i stigende rekkefølge basert på adresse- og alderskolonner med OrderBy () og Sort () -funksjonene og vise den sorterte DataFrame ved hjelp av Collect () -metoden.
#import Pyspark -modulen
Importer pyspark
#import SparkSession for å lage en økt
Fra Pyspark.SQL Import SparkSession
#import col -funksjonen
Fra Pyspark.SQL.Funksjoner importerer col
#Create en app som heter Linuxhint
Spark_app = SparkSession.bygger.AppName ('Linuxhint').getorCreate ()
# Lag studentdata med 5 rader og 6 attributter
Studenter = ['Rollno': '001', 'Navn': 'Sravan', 'Age': 23, 'Height': 5.79, 'vekt': 67, 'adresse': 'guntur',
'Rollno': '002', 'Navn': 'Ojaswi', 'Age': 16, 'Height': 3.79, 'vekt': 34, 'adresse': 'hyd',
'Rollno': '003', 'Navn': 'Gnanesh Chowdary', 'Age': 7, 'Height': 2.79, 'vekt': 17,
'adresse': 'patna',
'Rollno': '004', 'Navn': 'Rohith', 'Age': 9, 'Height': 3.69, 'vekt': 28, 'adresse': 'hyd',
'Rollno': '005', 'Navn': 'Sridevi', 'Age': 37, 'Height': 5.59, 'vekt': 54, 'adresse': 'hyd']]
# Lag DataFrame
df = spark_app.CreateTataFrame (studenter)
# Sorter DataFrame basert på adresse- og alderssøyler
# og vise den sorterte dataaframe
trykk (df.Orderby (Col ("Adresse").ASC (), Col ("Alder").ASC ()).samle inn())
skrive ut()
trykk (df.Sorter (col ("adresse").ASC (), Col ("Alder").ASC ()).samle inn())
Produksjon:
[Rad (adresse = 'guntur', alder = 23, høyde = 5.79, navn = 'Sravan', Rollno = '001', vekt = 67),
Rad (adresse = 'hyd', alder = 9, høyde = 3.69, navn = 'Rohith', rollno = '004', vekt = 28),
Rad (adresse = 'hyd', alder = 16, høyde = 3.79, navn = 'Ojaswi', rollno = '002', vekt = 34),
Rad (adresse = 'hyd', alder = 37, høyde = 5.59, navn = 'Sridevi', Rollno = '005', vekt = 54),
Rad (adresse = 'patna', alder = 7, høyde = 2.79, navn = 'Gnanesh Chowdary', Rollno = '003', vekt = 17)]
[Rad (adresse = 'guntur', alder = 23, høyde = 5.79, navn = 'Sravan', Rollno = '001', vekt = 67),
Rad (adresse = 'hyd', alder = 9, høyde = 3.69, navn = 'Rohith', rollno = '004', vekt = 28),
Rad (adresse = 'hyd', alder = 16, høyde = 3.79, navn = 'Ojaswi', rollno = '002', vekt = 34),
Rad (adresse = 'hyd', alder = 37, høyde = 5.59, navn = 'Sridevi', Rollno = '005', vekt = 54),
Rad (adresse = 'patna', alder = 7, høyde = 2.79, navn = 'Gnanesh Chowdary', Rollno = '003', vekt = 17)]
Metode - 2: Bruke ASC () med DataFrame -etiketten
Her bruker vi OrderBy () eller Sort () -funksjonene for å sortere Pyspark DataFrame basert på kolonnene i stigende rekkefølge. Vi må spesifisere kolonnenavn/etiketter i OrderBy ()/Sort () -funksjonen gjennom DataFrame -kolonnenavnet/etiketten.
Syntaks:
Dataramme.Orderby (DataFrame.kolonne_navn.ASC (), ..., DataFrame.kolonne_navn.ASC ())
Dataramme.Sorter (DataFrame.kolonne_navn.ASC (), ..., DataFrame.kolonne_navn.ASC ())
Her,
- DataFrame er inngangen Pyspark DataFrame.
- kolonne_navn er kolonnen der sortering brukes.
Eksempel:
I dette eksemplet skal vi sortere DataFrame i stigende rekkefølge basert på adresse- og alderssøyler med OrderBy () og Sort () -funksjonen og vise den sorterte DataFrame ved hjelp av Collect () -metoden.
#import Pyspark -modulen
Importer pyspark
#import SparkSession for å lage en økt
Fra Pyspark.SQL Import SparkSession
#Create en app som heter Linuxhint
Spark_app = SparkSession.bygger.AppName ('Linuxhint').getorCreate ()
# Lag studentdata med 5 rader og 6 attributter
Studenter = ['Rollno': '001', 'Navn': 'Sravan', 'Age': 23, 'Height': 5.79, 'vekt': 67, 'adresse': 'guntur',
'Rollno': '002', 'Navn': 'Ojaswi', 'Age': 16, 'Height': 3.79, 'vekt': 34, 'adresse': 'hyd',
'Rollno': '003', 'Navn': 'Gnanesh Chowdary', 'Age': 7, 'Height': 2.79, 'vekt': 17,
'adresse': 'patna',
'Rollno': '004', 'Navn': 'Rohith', 'Age': 9, 'Height': 3.69, 'vekt': 28, 'adresse': 'hyd',
'Rollno': '005', 'Navn': 'Sridevi', 'Age': 37, 'Height': 5.59, 'vekt': 54, 'adresse': 'hyd']]
# Lag DataFrame
df = spark_app.CreateTataFrame (studenter)
# Sorter DataFrame basert på adresse- og alderssøyler
# og vise den sorterte dataaframe
trykk (df.Orderby (DF.adresse.ASC (), DF.alder.ASC ()).samle inn())
skrive ut()
trykk (df.Sorter (DF.adresse.ASC (), DF.alder.ASC ()).samle inn())
Produksjon:
[Rad (adresse = 'guntur', alder = 23, høyde = 5.79, navn = 'Sravan', Rollno = '001', vekt = 67),
Rad (adresse = 'hyd', alder = 9, høyde = 3.69, navn = 'Rohith', rollno = '004', vekt = 28),
Rad (adresse = 'hyd', alder = 16, høyde = 3.79, navn = 'Ojaswi', rollno = '002', vekt = 34),
Rad (adresse = 'hyd', alder = 37, høyde = 5.59, navn = 'Sridevi', Rollno = '005', vekt = 54),
Rad (adresse = 'patna', alder = 7, høyde = 2.79, navn = 'Gnanesh Chowdary', Rollno = '003', vekt = 17)]
[Rad (adresse = 'guntur', alder = 23, høyde = 5.79, navn = 'Sravan', Rollno = '001', vekt = 67),
Rad (adresse = 'hyd', alder = 9, høyde = 3.69, navn = 'Rohith', rollno = '004', vekt = 28),
Rad (adresse = 'hyd', alder = 16, høyde = 3.79, navn = 'Ojaswi', rollno = '002', vekt = 34),
Rad (adresse = 'hyd', alder = 37, høyde = 5.59, navn = 'Sridevi', Rollno = '005', vekt = 54),
Rad (adresse = 'patna', alder = 7, høyde = 2.79, navn = 'Gnanesh Chowdary', Rollno = '003', vekt = 17)]
Metode - 3: Bruke ASC () med DataFrame Index
Her bruker vi OrderBy () eller Sort () -funksjonene for å sortere Pyspark DataFrame basert på kolonnene i stigende rekkefølge. Vi må spesifisere kolonneindeksen/indeksene i OrderBy ()/Sort () -funksjonen gjennom DataFrame Column Index/Position. I Dataframe starter indeksering med '0'.
Syntaks:
Dataramme.Orderby (DataFrame [Column_Index].ASC (), ..., DataFrame [Column_Index].ASC ())
Dataramme.Sorter (DataFrame [Column_Index].ASC (), ..., DataFrame [Column_Index].ASC ())
Her,
- DataFrame er inngangen Pyspark DataFrame.
- kolonne_index er kolonneposisjonen der sortering brukes.
Eksempel:
I dette eksemplet skal vi sortere DataFrame i stigende rekkefølge basert på adresse- og alderssøyler med OrderBy () og Sort () -funksjonen og vise den sorterte DataFrame ved hjelp av Collect () -metoden.
#import Pyspark -modulen
Importer pyspark
#import SparkSession for å lage en økt
Fra Pyspark.SQL Import SparkSession
#Create en app som heter Linuxhint
Spark_app = SparkSession.bygger.AppName ('Linuxhint').getorCreate ()
# Lag studentdata med 5 rader og 6 attributter
Studenter = ['Rollno': '001', 'Navn': 'Sravan', 'Age': 23, 'Height': 5.79, 'vekt': 67, 'adresse': 'guntur',
'Rollno': '002', 'Navn': 'Ojaswi', 'Age': 16, 'Height': 3.79, 'vekt': 34, 'adresse': 'hyd',
'Rollno': '003', 'Navn': 'Gnanesh Chowdary', 'Age': 7, 'Height': 2.79, 'vekt': 17,
'adresse': 'patna',
'Rollno': '004', 'Navn': 'Rohith', 'Age': 9, 'Height': 3.69, 'vekt': 28, 'adresse': 'hyd',
'Rollno': '005', 'Navn': 'Sridevi', 'Age': 37, 'Height': 5.59, 'vekt': 54, 'adresse': 'hyd']]
# Lag DataFrame
df = spark_app.CreateTataFrame (studenter)
# Sorter DataFrame basert på adresse- og alderssøyler
# og vise den sorterte dataaframe
trykk (df.Orderby (DF [0].ASC (), DF [1].ASC ()).samle inn())
skrive ut()
trykk (df.Sorter (DF [0].ASC (), DF [1].ASC ()).samle inn())
Produksjon:
[Rad (adresse = 'guntur', alder = 23, høyde = 5.79, navn = 'Sravan', Rollno = '001', vekt = 67),
Rad (adresse = 'hyd', alder = 9, høyde = 3.69, navn = 'Rohith', rollno = '004', vekt = 28),
Rad (adresse = 'hyd', alder = 16, høyde = 3.79, navn = 'Ojaswi', rollno = '002', vekt = 34),
Rad (adresse = 'hyd', alder = 37, høyde = 5.59, navn = 'Sridevi', Rollno = '005', vekt = 54),
Rad (adresse = 'patna', alder = 7, høyde = 2.79, navn = 'Gnanesh Chowdary', Rollno = '003', vekt = 17)]
[Rad (adresse = 'guntur', alder = 23, høyde = 5.79, navn = 'Sravan', Rollno = '001', vekt = 67),
Rad (adresse = 'hyd', alder = 9, høyde = 3.69, navn = 'Rohith', rollno = '004', vekt = 28),
Rad (adresse = 'hyd', alder = 16, høyde = 3.79, navn = 'Ojaswi', rollno = '002', vekt = 34),
Rad (adresse = 'hyd', alder = 37, høyde = 5.59, navn = 'Sridevi', Rollno = '005', vekt = 54),
Rad (adresse = 'patna', alder = 7, høyde = 2.79, navn = 'Gnanesh Chowdary', Rollno = '003', vekt = 17)]
Pyspark - Desc ()
I Pyspark brukes Desc () til å ordne radene i synkende rekkefølge i DataFrame.
Det vil returnere den nye DataFrame ved å ordne radene i det eksisterende DataFrame. Det brukes med sorter () eller OrderBy () -funksjoner.
Metode - 1: Bruke DESC () med COL -funksjon
Her bruker vi OrderBy () eller Sort () -funksjonene for å sortere Pyspark DataFrame basert på kolonnene for å sortere Pyspark DataFrame i synkende rekkefølge. Vi må spesifisere kolonnenavnene/s inne i OrderBy ()/Sort () -funksjonen gjennom COL -funksjonen. Vi må importere denne funksjonen fra Pyspark.SQL.Funksjonsmodul. Dette brukes til å lese en kolonne fra Pyspark DataFrame.
Syntaks:
Dataramme.Orderby (Col (“Column_name”).desc (),…, col (“Column_name”).desc ())
Dataramme.Sorter (Col (“Column_name”).desc (),…, col (“Column_name”).desc ())
Her,
- DataFrame er inngangen Pyspark DataFrame.
- kolonne_navn er kolonnen der sortering brukes gjennom COL -funksjonen.
Eksempel:
I dette eksemplet skal vi sortere DataFrame i synkende rekkefølge basert på adresse- og alderskolonner med OrderBy () og Sort () -funksjonene og vise den sorterte DataFrame ved hjelp av Collect () -metoden.
#import Pyspark -modulen
Importer pyspark
#import SparkSession for å lage en økt
Fra Pyspark.SQL Import SparkSession
#import col -funksjonen
Fra Pyspark.SQL.Funksjoner importerer col
#Create en app som heter Linuxhint
Spark_app = SparkSession.bygger.AppName ('Linuxhint').getorCreate ()
# Lag studentdata med 5 rader og 6 attributter
Studenter = ['Rollno': '001', 'Navn': 'Sravan', 'Age': 23, 'Height': 5.79, 'vekt': 67, 'adresse': 'guntur',
'Rollno': '002', 'Navn': 'Ojaswi', 'Age': 16, 'Height': 3.79, 'vekt': 34, 'adresse': 'hyd',
'Rollno': '003', 'Navn': 'Gnanesh Chowdary', 'Age': 7, 'Height': 2.79, 'vekt': 17,
'adresse': 'patna',
'Rollno': '004', 'Navn': 'Rohith', 'Age': 9, 'Height': 3.69, 'vekt': 28, 'adresse': 'hyd',
'Rollno': '005', 'Navn': 'Sridevi', 'Age': 37, 'Height': 5.59, 'vekt': 54, 'adresse': 'hyd']]
# Lag DataFrame
df = spark_app.CreateTataFrame (studenter)
# Sorter DataFrame basert på adresse- og alderssøyler
# og vise den sorterte dataaframe
trykk (df.Orderby (Col ("Adresse").desc (), col ("alder").desc ()).samle inn())
skrive ut()
trykk (df.Sorter (col ("adresse").desc (), col ("alder").desc ()).samle inn())
Produksjon:
[Rad (adresse = 'patna', alder = 7, høyde = 2.79, navn = 'Gnanesh Chowdary', Rollno = '003', vekt = 17),
Rad (adresse = 'hyd', alder = 37, høyde = 5.59, navn = 'Sridevi', Rollno = '005', vekt = 54),
Rad (adresse = 'hyd', alder = 16, høyde = 3.79, navn = 'Ojaswi', rollno = '002', vekt = 34),
Rad (adresse = 'hyd', alder = 9, høyde = 3.69, navn = 'Rohith', rollno = '004', vekt = 28),
Rad (adresse = 'guntur', alder = 23, høyde = 5.79, name = 'Sravan', rollno = '001', vekt = 67)]
[Rad (adresse = 'patna', alder = 7, høyde = 2.79, navn = 'Gnanesh Chowdary', Rollno = '003', vekt = 17),
Rad (adresse = 'hyd', alder = 37, høyde = 5.59, navn = 'Sridevi', Rollno = '005', vekt = 54),
Rad (adresse = 'hyd', alder = 16, høyde = 3.79, navn = 'Ojaswi', rollno = '002', vekt = 34),
Rad (adresse = 'hyd', alder = 9, høyde = 3.69, navn = 'Rohith', rollno = '004', vekt = 28),
Rad (adresse = 'guntur', alder = 23, høyde = 5.79, name = 'Sravan', rollno = '001', vekt = 67)]
Metode - 2: Bruke DESC () med DataFrame -etiketten
Her bruker vi OrderBy () eller Sort () -funksjonene for å sortere Pyspark DataFrame basert på kolonnene for å sortere Pyspark DataFrame i synkende rekkefølge. Vi må spesifisere kolonnenavn/etiketter i OrderBy ()/Sort () -funksjonen gjennom DataFrame -kolonnenavnet/etiketten.
Syntaks:
Dataramme.Orderby (DataFrame.kolonne_navn.desc (), ..., dataaframe.kolonne_navn.desc ())
Dataramme.Sorter (DataFrame.kolonne_navn.desc (), ..., dataaframe.kolonne_navn.desc ())
Her,
- DataFrame er inngangen Pyspark DataFrame.
- kolonne_navn er kolonnen der sortering brukes.
Eksempel:
I dette eksemplet skal vi sortere DataFrame i synkende rekkefølge basert på adresse- og alderssøyler med OrderBy () og Sort () -funksjonen og vise den sorterte DataFrame ved hjelp av Collect () -metoden.
#import Pyspark -modulen
Importer pyspark
#import SparkSession for å lage en økt
Fra Pyspark.SQL Import SparkSession
#Create en app som heter Linuxhint
Spark_app = SparkSession.bygger.AppName ('Linuxhint').getorCreate ()
# Lag studentdata med 5 rader og 6 attributter
Studenter = ['Rollno': '001', 'Navn': 'Sravan', 'Age': 23, 'Height': 5.79, 'vekt': 67, 'adresse': 'guntur',
'Rollno': '002', 'Navn': 'Ojaswi', 'Age': 16, 'Height': 3.79, 'vekt': 34, 'adresse': 'hyd',
'Rollno': '003', 'Navn': 'Gnanesh Chowdary', 'Age': 7, 'Height': 2.79, 'vekt': 17,
'adresse': 'patna',
'Rollno': '004', 'Navn': 'Rohith', 'Age': 9, 'Height': 3.69, 'vekt': 28, 'adresse': 'hyd',
'Rollno': '005', 'Navn': 'Sridevi', 'Age': 37, 'Height': 5.59, 'vekt': 54, 'adresse': 'hyd']]
# Lag DataFrame
df = spark_app.CreateTataFrame (studenter)
# Sorter DataFrame basert på adresse- og alderssøyler
# og vise den sorterte dataaframe
trykk (df.Orderby (DF.adresse.desc (), df.alder.desc ()).samle inn())
skrive ut()
trykk (df.Sorter (DF.adresse.desc (), df.alder.desc ()).samle inn())
Produksjon:
[Rad (adresse = 'patna', alder = 7, høyde = 2.79, navn = 'Gnanesh Chowdary', Rollno = '003', vekt = 17),
Rad (adresse = 'hyd', alder = 37, høyde = 5.59, navn = 'Sridevi', Rollno = '005', vekt = 54),
Rad (adresse = 'hyd', alder = 16, høyde = 3.79, navn = 'Ojaswi', rollno = '002', vekt = 34),
Rad (adresse = 'hyd', alder = 9, høyde = 3.69, navn = 'Rohith', rollno = '004', vekt = 28),
Rad (adresse = 'guntur', alder = 23, høyde = 5.79, name = 'Sravan', rollno = '001', vekt = 67)]
[Rad (adresse = 'patna', alder = 7, høyde = 2.79, navn = 'Gnanesh Chowdary', Rollno = '003', vekt = 17),
Rad (adresse = 'hyd', alder = 37, høyde = 5.59, navn = 'Sridevi', Rollno = '005', vekt = 54),
Rad (adresse = 'hyd', alder = 16, høyde = 3.79, navn = 'Ojaswi', rollno = '002', vekt = 34),
Rad (adresse = 'hyd', alder = 9, høyde = 3.69, navn = 'Rohith', rollno = '004', vekt = 28),
Rad (adresse = 'guntur', alder = 23, høyde = 5.79, name = 'Sravan', rollno = '001', vekt = 67)]
Metode - 3: Bruke ASC () med DataFrame Index
Her bruker vi OrderBy () eller Sort () -funksjonene for å sortere Pyspark DataFrame basert på kolonnene i synkende rekkefølge. Vi må spesifisere kolonneindeksen/indeksene i OrderBy ()/Sort () -funksjonen gjennom DataFrame Column Index/Position. I Dataframe starter indeksering med '0'.
Syntaks:
Dataramme.Orderby (DataFrame [Column_Index].Desc (), ..., DataFrame [Column_Index].desc ())
Dataramme.Sorter (DataFrame [Column_Index].Desc (), ..., DataFrame [Column_Index].desc ())
Her,
- DataFrame er inngangen Pyspark DataFrame.
- kolonne_index er kolonneposisjonen der sortering brukes.
Eksempel:
I dette eksemplet skal vi sortere DataFrame i synkende rekkefølge basert på adresse- og alderssøyler med OrderBy () og Sort () -funksjonen og vise den sorterte DataFrame ved hjelp av Collect () -metoden.
#import Pyspark -modulen
Importer pyspark
#import SparkSession for å lage en økt
Fra Pyspark.SQL Import SparkSession
#Create en app som heter Linuxhint
Spark_app = SparkSession.bygger.AppName ('Linuxhint').getorCreate ()
# Lag studentdata med 5 rader og 6 attributter
Studenter = ['Rollno': '001', 'Navn': 'Sravan', 'Age': 23, 'Height': 5.79, 'vekt': 67, 'adresse': 'guntur',
'Rollno': '002', 'Navn': 'Ojaswi', 'Age': 16, 'Height': 3.79, 'vekt': 34, 'adresse': 'hyd',
'Rollno': '003', 'Navn': 'Gnanesh Chowdary', 'Age': 7, 'Height': 2.79, 'vekt': 17,
'adresse': 'patna',
'Rollno': '004', 'Navn': 'Rohith', 'Age': 9, 'Height': 3.69, 'vekt': 28, 'adresse': 'hyd',
'Rollno': '005', 'Navn': 'Sridevi', 'Age': 37, 'Height': 5.59, 'vekt': 54, 'adresse': 'hyd']]
# Lag DataFrame
df = spark_app.CreateTataFrame (studenter)
# Sorter DataFrame basert på adresse- og alderssøyler
# og vise den sorterte dataaframe
trykk (df.Orderby (DF [0].ASC (), DF [1].ASC ()).samle inn())
skrive ut()
trykk (df.Sorter (DF [0].ASC (), DF [1].ASC ()).samle inn())
Produksjon:
[Rad (adresse = 'patna', alder = 7, høyde = 2.79, navn = 'Gnanesh Chowdary', Rollno = '003', vekt = 17),
Rad (adresse = 'hyd', alder = 37, høyde = 5.59, navn = 'Sridevi', Rollno = '005', vekt = 54),
Rad (adresse = 'hyd', alder = 16, høyde = 3.79, navn = 'Ojaswi', rollno = '002', vekt = 34),
Rad (adresse = 'hyd', alder = 9, høyde = 3.69, navn = 'Rohith', rollno = '004', vekt = 28),
Rad (adresse = 'guntur', alder = 23, høyde = 5.79, name = 'Sravan', rollno = '001', vekt = 67)]
[Rad (adresse = 'patna', alder = 7, høyde = 2.79, navn = 'Gnanesh Chowdary', Rollno = '003', vekt = 17),
Rad (adresse = 'hyd', alder = 37, høyde = 5.59, navn = 'Sridevi', Rollno = '005', vekt = 54),
Rad (adresse = 'hyd', alder = 16, høyde = 3.79, navn = 'Ojaswi', rollno = '002', vekt = 34),
Rad (adresse = 'hyd', alder = 9, høyde = 3.69, navn = 'Rohith', rollno = '004', vekt = 28),
Rad (adresse = 'guntur', alder = 23, høyde = 5.79, name = 'Sravan', rollno = '001', vekt = 67)]
Diverse
Vi kan også bruke begge funksjonene på forskjellige kolonner i Pyspark DataFrame om gangen.
Eksempel:
#import Pyspark -modulen
Importer pyspark
#import SparkSession for å lage en økt
Fra Pyspark.SQL Import SparkSession
#import col -funksjonen
Fra Pyspark.SQL.Funksjoner importerer col
#Create en app som heter Linuxhint
Spark_app = SparkSession.bygger.AppName ('Linuxhint').getorCreate ()
# Lag studentdata med 5 rader og 6 attributter
Studenter = ['Rollno': '001', 'Navn': 'Sravan', 'Age': 23, 'Height': 5.79, 'vekt': 67, 'adresse': 'guntur',
'Rollno': '002', 'Navn': 'Ojaswi', 'Age': 16, 'Height': 3.79, 'vekt': 34, 'adresse': 'hyd',
'Rollno': '003', 'Navn': 'Gnanesh Chowdary', 'Age': 7, 'Height': 2.79, 'vekt': 17,
'adresse': 'patna',
'Rollno': '004', 'Navn': 'Rohith', 'Age': 9, 'Height': 3.69, 'vekt': 28, 'adresse': 'hyd',
'Rollno': '005', 'Navn': 'Sridevi', 'Age': 37, 'Height': 5.59, 'vekt': 54, 'adresse': 'hyd']]
# Lag DataFrame
df = spark_app.CreateTataFrame (studenter)
# Sorter DataFrame basert på adresse- og alderssøyler
# og vise den sorterte dataaframe
trykk (df.Orderby (Col ("Adresse").desc (), col ("alder").ASC ()).samle inn())
skrive ut()
trykk (df.Sorter (col ("adresse").ASC (), Col ("Alder").desc ()).samle inn())
Produksjon:
[Rad (adresse = 'patna', alder = 7, høyde = 2.79, navn = 'Gnanesh Chowdary', Rollno = '003', vekt = 17), rad (adresse = 'Hyd', alder = 9, høyde = 3.69, navn = 'Rohith', rollno = '004', vekt = 28), rad (adresse = 'hyd', alder = 16, høyde = 3.79, navn = 'ojaswi', rollno = '002', vekt = 34), rad (adresse = 'hyd', alder = 37, høyde = 5.59, navn = 'Sridevi', rollno = '005', vekt = 54), rad (adresse = 'guntur', alder = 23, høyde = 5.79, name = 'Sravan', rollno = '001', vekt = 67)]
[Rad (adresse = 'guntur', alder = 23, høyde = 5.79, navn = 'Sravan', rollno = '001', vekt = 67), rad (adresse = 'hyd', alder = 37, høyde = 5.59, name = 'Sridevi', rollno = '005', vekt = 54), rad (adresse = 'hyd', alder = 16, høyde = 3.79, navn = 'Ojaswi', rollno = '002', vekt = 34), rad (adresse = 'hyd', alder = 9, høyde = 3.69, name = 'Rohith', rollno = '004', vekt = 28), rad (adresse = 'patna', alder = 7, høyde = 2.79, navn = 'Gnanesh Chowdary', Rollno = '003', vekt = 17)]
Konklusjon
I denne artikkelen diskuterer vi hvordan du bruker ASC () -funksjonen ved å bruke tre scenarier med sort () og OrderBy () -funksjoner på Pyspark DataFrame i Python. Til slutt kom vi til et punkt der vi kan sortere dataene i stigende rekkefølge ved hjelp av ASC () og synkende rekkefølge ved bruk av DESC () i Pyspark DataFrame basert på kolonnene som er til stede i DataFrame.