Vi vil diskutere forskjellige scenarier for å endre rekkefølgen på kolonner i Pyspark DataFrame.
For alle scenariene bruker vi Select () -metode. Før vi flytter til scenariene, vil vi lage Pyspark DataFrame først.
Eksempel:
Her skal vi lage Pyspark DataFrame med 5 rader og 6 kolonner.
#import Pyspark -modulen
Importer pyspark
#import SparkSession for å lage en økt
Fra Pyspark.SQL Import SparkSession
#Create en app som heter Linuxhint
Spark_app = SparkSession.bygger.AppName ('Linuxhint').getorCreate ()
# Lag studentdata med 5 rader og 6 attributter
Studenter = ['Rollno': '001', 'Navn': 'Sravan', 'Age': 23, 'Height': 5.79, 'vekt': 67, 'adresse': 'guntur',
'Rollno': '002', 'Navn': 'Ojaswi', 'Age': 16, 'Height': 3.79, 'vekt': 34, 'adresse': 'hyd',
'Rollno': '003', 'Navn': 'Gnanesh Chowdary', 'Age': 7, 'Height': 2.79, 'Vekt': 17, 'Adresse': 'Patna',
'Rollno': '004', 'Navn': 'Rohith', 'Age': 9, 'Height': 3.69, 'vekt': 28, 'adresse': 'hyd',
'Rollno': '005', 'Navn': 'Sridevi', 'Age': 37, 'Height': 5.59, 'vekt': 54, 'adresse': 'hyd']]
# Lag DataFrame
df = spark_app.CreateTataFrame (studenter)
#Display DataFrame
df.forestilling()
Produksjon:
Scenario 1: Omorganiser kolonnene
I dette scenariet vil vi bare bruke Select () -metode for å bestille/omorganisere kolonnene i den gitte PySpark DataFrame ved å gi en etter en kolonne i metoden.
Syntaks:
Dataramme.Velg (“Kolonne1”,…, ”kolonne”)
Hvor:
Eksempel:
I dette eksemplet skal vi omorganisere kolonnene i denne rekkefølgen - "adresse", "høyde", "Rollno", "navn", "vekt" og "alder". Vis deretter DataFrame ved hjelp av Show () -metoden.
#import Pyspark -modulen
Importer pyspark
#import SparkSession for å lage en økt
Fra Pyspark.SQL Import SparkSession
#Create en app som heter Linuxhint
Spark_app = SparkSession.bygger.AppName ('Linuxhint').getorCreate ()
# Lag studentdata med 5 rader og 6 attributter
Studenter = ['Rollno': '001', 'Navn': 'Sravan', 'Age': 23, 'Height': 5.79, 'vekt': 67, 'adresse': 'guntur',
'Rollno': '002', 'Navn': 'Ojaswi', 'Age': 16, 'Height': 3.79, 'vekt': 34, 'adresse': 'hyd',
'Rollno': '003', 'Navn': 'Gnanesh Chowdary', 'Age': 7, 'Height': 2.79, 'Vekt': 17, 'Adresse': 'Patna',
'Rollno': '004', 'Navn': 'Rohith', 'Age': 9, 'Height': 3.69, 'vekt': 28, 'adresse': 'hyd',
'Rollno': '005', 'Navn': 'Sridevi', 'Age': 37, 'Height': 5.59, 'vekt': 54, 'adresse': 'hyd']]
# Lag DataFrame
df = spark_app.CreateTataFrame (studenter)
#RearRange kolonnene i rekkefølgen - "Adresse", "Høyde", "Rollno", "Navn", "Vekt", "Alder"
df = df.Velg ("Adresse", "Høyde", "Rollno", "Navn", "Vekt", "Alder")
#Dispay DataFrame
df.forestilling()
Produksjon:
Scenario 2: Omorganiser kolonnene i stigende rekkefølge
I dette scenariet vil vi bruke sortert () -metode sammen med Select () -metoden for å omorganisere kolonnene i stigende rekkefølge gjennom sortert () -metode.
Syntaks:
Dataramme.Velg (Sortert (DataFrame.kolonner, omvendt = falsk))
Hvor:
Eksempel:
I dette eksemplet skal vi omorganisere kolonnene i stigende rekkefølge for å vise DataFrame ved hjelp av show () -metoden.
#import Pyspark -modulen
Importer pyspark
#import SparkSession for å lage en økt
Fra Pyspark.SQL Import SparkSession
#import col -funksjonen
Fra Pyspark.SQL.Funksjoner importerer col
#Create en app som heter Linuxhint
Spark_app = SparkSession.bygger.AppName ('Linuxhint').getorCreate ()
# Lag studentdata med 5 rader og 6 attributter
Studenter = ['Rollno': '001', 'Navn': 'Sravan', 'Age': 23, 'Height': 5.79, 'vekt': 67, 'adresse': 'guntur',
'Rollno': '002', 'Navn': 'Ojaswi', 'Age': 16, 'Height': 3.79, 'vekt': 34, 'adresse': 'hyd',
'Rollno': '003', 'Navn': 'Gnanesh Chowdary', 'Age': 7, 'Height': 2.79, 'Vekt': 17, 'Adresse': 'Patna',
'Rollno': '004', 'Navn': 'Rohith', 'Age': 9, 'Height': 3.69, 'vekt': 28, 'adresse': 'hyd',
'Rollno': '005', 'Navn': 'Sridevi', 'Age': 37, 'Height': 5.59, 'vekt': 54, 'adresse': 'hyd']]
# Lag DataFrame
df = spark_app.CreateTataFrame (studenter)
#RearRange kolonnene i stigende rekkefølge
df = df.Velg (Sortert (DF.kolonner, omvendt = falsk))
#Dispay DataFrame
df.forestilling()
Produksjon:
Scenario 3: Omorganiser kolonnene i synkende rekkefølge
I dette scenariet vil vi bruke sortert () -metode sammen med Select () -metoden for å omorganisere kolonnene i nedgangsrekkefølge gjennom sortert () -metode.
Syntaks:
Dataramme.Velg (Sortert (DataFrame.kolonner, omvendt = sant))
Hvor:
Eksempel:
I dette eksemplet skal vi omorganisere kolonnene i synkende rekkefølge for å vise DataFrame ved hjelp av show () -metode.
#import Pyspark -modulen
Importer pyspark
#import SparkSession for å lage en økt
Fra Pyspark.SQL Import SparkSession
#import col -funksjonen
Fra Pyspark.SQL.Funksjoner importerer col
#Create en app som heter Linuxhint
Spark_app = SparkSession.bygger.AppName ('Linuxhint').getorCreate ()
# Lag studentdata med 5 rader og 6 attributter
Studenter = ['Rollno': '001', 'Navn': 'Sravan', 'Age': 23, 'Height': 5.79, 'vekt': 67, 'adresse': 'guntur',
'Rollno': '002', 'Navn': 'Ojaswi', 'Age': 16, 'Height': 3.79, 'vekt': 34, 'adresse': 'hyd',
'Rollno': '003', 'Navn': 'Gnanesh Chowdary', 'Age': 7, 'Height': 2.79, 'Vekt': 17, 'Adresse': 'Patna',
'Rollno': '004', 'Navn': 'Rohith', 'Age': 9, 'Height': 3.69, 'vekt': 28, 'adresse': 'hyd',
'Rollno': '005', 'Navn': 'Sridevi', 'Age': 37, 'Height': 5.59, 'vekt': 54, 'adresse': 'hyd']]
# Lag DataFrame
df = spark_app.CreateTataFrame (studenter)
#RearRange kolonnene i synkende rekkefølge
df = df.Velg (Sortert (DF.kolonner, omvendt = sant))
#Dispay DataFrame
df.forestilling()
Produksjon:
Konklusjon
I denne opplæringen diskuterte vi hvordan du kan omorganisere kolonnene i Pyspark DataFrame med tre scenarier ved å bruke Select () -metode. Vi har brukt sortert () -metode sammen med Select () -metoden for å omorganisere kolonnene.