Omorganiser kolonnene i Pyspark DataFrame

Lars Solberg

I Python er Pyspark en Spark -modul som brukes til å gi en lignende type prosessering som Spark ved hjelp av DataFrame.

Vi vil diskutere forskjellige scenarier for å endre rekkefølgen på kolonner i Pyspark DataFrame.

For alle scenariene bruker vi Select () -metode. Før vi flytter til scenariene, vil vi lage Pyspark DataFrame først.

Eksempel:
Her skal vi lage Pyspark DataFrame med 5 rader og 6 kolonner.

#import Pyspark -modulen
Importer pyspark
#import SparkSession for å lage en økt
Fra Pyspark.SQL Import SparkSession
#Create en app som heter Linuxhint
Spark_app = SparkSession.bygger.AppName ('Linuxhint').getorCreate ()
# Lag studentdata med 5 rader og 6 attributter
Studenter = ['Rollno': '001', 'Navn': 'Sravan', 'Age': 23, 'Height': 5.79, 'vekt': 67, 'adresse': 'guntur',
'Rollno': '002', 'Navn': 'Ojaswi', 'Age': 16, 'Height': 3.79, 'vekt': 34, 'adresse': 'hyd',
'Rollno': '003', 'Navn': 'Gnanesh Chowdary', 'Age': 7, 'Height': 2.79, 'Vekt': 17, 'Adresse': 'Patna',
'Rollno': '004', 'Navn': 'Rohith', 'Age': 9, 'Height': 3.69, 'vekt': 28, 'adresse': 'hyd',
'Rollno': '005', 'Navn': 'Sridevi', 'Age': 37, 'Height': 5.59, 'vekt': 54, 'adresse': 'hyd']]
# Lag DataFrame
df = spark_app.CreateTataFrame (studenter)
#Display DataFrame
df.forestilling()

Produksjon:

Scenario 1: Omorganiser kolonnene

I dette scenariet vil vi bare bruke Select () -metode for å bestille/omorganisere kolonnene i den gitte PySpark DataFrame ved å gi en etter en kolonne i metoden.

Syntaks:
Dataramme.Velg (“Kolonne1”,…, ”kolonne”)

Hvor:

DataFrame er inngangen Pyspark DataFrame
Kolonner er kolonnenavnene som skal omorganiseres.

Eksempel:
I dette eksemplet skal vi omorganisere kolonnene i denne rekkefølgen - "adresse", "høyde", "Rollno", "navn", "vekt" og "alder". Vis deretter DataFrame ved hjelp av Show () -metoden.

#import Pyspark -modulen
Importer pyspark
#import SparkSession for å lage en økt
Fra Pyspark.SQL Import SparkSession
#Create en app som heter Linuxhint
Spark_app = SparkSession.bygger.AppName ('Linuxhint').getorCreate ()
# Lag studentdata med 5 rader og 6 attributter
Studenter = ['Rollno': '001', 'Navn': 'Sravan', 'Age': 23, 'Height': 5.79, 'vekt': 67, 'adresse': 'guntur',
'Rollno': '002', 'Navn': 'Ojaswi', 'Age': 16, 'Height': 3.79, 'vekt': 34, 'adresse': 'hyd',
'Rollno': '003', 'Navn': 'Gnanesh Chowdary', 'Age': 7, 'Height': 2.79, 'Vekt': 17, 'Adresse': 'Patna',
'Rollno': '004', 'Navn': 'Rohith', 'Age': 9, 'Height': 3.69, 'vekt': 28, 'adresse': 'hyd',
'Rollno': '005', 'Navn': 'Sridevi', 'Age': 37, 'Height': 5.59, 'vekt': 54, 'adresse': 'hyd']]
# Lag DataFrame
df = spark_app.CreateTataFrame (studenter)
#RearRange kolonnene i rekkefølgen - "Adresse", "Høyde", "Rollno", "Navn", "Vekt", "Alder"
df = df.Velg ("Adresse", "Høyde", "Rollno", "Navn", "Vekt", "Alder")
#Dispay DataFrame
df.forestilling()

Produksjon:

Scenario 2: Omorganiser kolonnene i stigende rekkefølge

I dette scenariet vil vi bruke sortert () -metode sammen med Select () -metoden for å omorganisere kolonnene i stigende rekkefølge gjennom sortert () -metode.

Syntaks:
Dataramme.Velg (Sortert (DataFrame.kolonner, omvendt = falsk))

Hvor:

DataFrame er inngangen Pyspark DataFrame
sortert () er metoden som vil sortere dataaframe i stigende rekkefølge. Det vil ta to parametere. Den første parameteren refererer til kolonnemetoden for å velge alle kolonnene fra DataFrame. Den andre parameteren brukes til å omorganisere DataFrame i stigende rekkefølge hvis den er satt til FALSE.

Eksempel:
I dette eksemplet skal vi omorganisere kolonnene i stigende rekkefølge for å vise DataFrame ved hjelp av show () -metoden.

#import Pyspark -modulen
Importer pyspark
#import SparkSession for å lage en økt
Fra Pyspark.SQL Import SparkSession
#import col -funksjonen
Fra Pyspark.SQL.Funksjoner importerer col
#Create en app som heter Linuxhint
Spark_app = SparkSession.bygger.AppName ('Linuxhint').getorCreate ()
# Lag studentdata med 5 rader og 6 attributter
Studenter = ['Rollno': '001', 'Navn': 'Sravan', 'Age': 23, 'Height': 5.79, 'vekt': 67, 'adresse': 'guntur',
'Rollno': '002', 'Navn': 'Ojaswi', 'Age': 16, 'Height': 3.79, 'vekt': 34, 'adresse': 'hyd',
'Rollno': '003', 'Navn': 'Gnanesh Chowdary', 'Age': 7, 'Height': 2.79, 'Vekt': 17, 'Adresse': 'Patna',
'Rollno': '004', 'Navn': 'Rohith', 'Age': 9, 'Height': 3.69, 'vekt': 28, 'adresse': 'hyd',
'Rollno': '005', 'Navn': 'Sridevi', 'Age': 37, 'Height': 5.59, 'vekt': 54, 'adresse': 'hyd']]
# Lag DataFrame
df = spark_app.CreateTataFrame (studenter)
#RearRange kolonnene i stigende rekkefølge
df = df.Velg (Sortert (DF.kolonner, omvendt = falsk))
#Dispay DataFrame
df.forestilling()

Produksjon:

Scenario 3: Omorganiser kolonnene i synkende rekkefølge

I dette scenariet vil vi bruke sortert () -metode sammen med Select () -metoden for å omorganisere kolonnene i nedgangsrekkefølge gjennom sortert () -metode.

Syntaks:
Dataramme.Velg (Sortert (DataFrame.kolonner, omvendt = sant))

Hvor:

DataFrame er inngangen Pyspark DataFrame
sortert () er metoden som vil sortere dataaframe i stigende rekkefølge. Det vil ta to parametere. Den første parameteren refererer til kolonnemetoden for å velge alle kolonnene fra DataFrame. Den andre parameteren brukes til å omorganisere DataFrame i synkende rekkefølge hvis den er satt til sann.

Eksempel:
I dette eksemplet skal vi omorganisere kolonnene i synkende rekkefølge for å vise DataFrame ved hjelp av show () -metode.

#import Pyspark -modulen
Importer pyspark
#import SparkSession for å lage en økt
Fra Pyspark.SQL Import SparkSession
#import col -funksjonen
Fra Pyspark.SQL.Funksjoner importerer col
#Create en app som heter Linuxhint
Spark_app = SparkSession.bygger.AppName ('Linuxhint').getorCreate ()
# Lag studentdata med 5 rader og 6 attributter
Studenter = ['Rollno': '001', 'Navn': 'Sravan', 'Age': 23, 'Height': 5.79, 'vekt': 67, 'adresse': 'guntur',
'Rollno': '002', 'Navn': 'Ojaswi', 'Age': 16, 'Height': 3.79, 'vekt': 34, 'adresse': 'hyd',
'Rollno': '003', 'Navn': 'Gnanesh Chowdary', 'Age': 7, 'Height': 2.79, 'Vekt': 17, 'Adresse': 'Patna',
'Rollno': '004', 'Navn': 'Rohith', 'Age': 9, 'Height': 3.69, 'vekt': 28, 'adresse': 'hyd',
'Rollno': '005', 'Navn': 'Sridevi', 'Age': 37, 'Height': 5.59, 'vekt': 54, 'adresse': 'hyd']]
# Lag DataFrame
df = spark_app.CreateTataFrame (studenter)
#RearRange kolonnene i synkende rekkefølge
df = df.Velg (Sortert (DF.kolonner, omvendt = sant))
#Dispay DataFrame
df.forestilling()

Produksjon:

Konklusjon

I denne opplæringen diskuterte vi hvordan du kan omorganisere kolonnene i Pyspark DataFrame med tre scenarier ved å bruke Select () -metode. Vi har brukt sortert () -metode sammen med Select () -metoden for å omorganisere kolonnene.

Python

Matplotlib 2D -histogram

I Python, “PLT.hist2d () ”-funksjon av“ Pyplot ”-modulen i“ Matplotlib ”-biblioteket brukes til å pl...

Elias Krogh Svendsen

Python

Konverter en streng til Json Python

JSON -modulen fungerer, AST -modulfunksjonen eller eval () -funksjonen brukes til å konvertere en st...

Erik Røed

C skarp

Hva er system.Io navneområde i C#

System.IO er et navneområde i C# som gir et sett med klasser, strukturer, oppregninger og delegater ...

Daniel Berntsen