Pyspark - WithColumnrenamed Method

Pyspark - WithColumnrenamed Method
I Python er Pyspark en Spark -modul som brukes til å gi en lignende type prosessering som Spark ved hjelp av DataFrame.

withColumnrenamed () -metode i Pyspark brukes til å gi nytt navn til de eksisterende kolonnene i Pyspark DataFrame.

Syntaks:

Dataramme.withcolumnrenamed ('old_column', 'new_column')

Parametere:

  1. old_column er det gamle kolonnenavnet
  2. new_column er det nye navnet på den gamle kolonnen

La oss lage Pyspark DataFrame med 5 rader og 6 kolonner og vise den ved hjelp av showet () metoden

Eksempel:

#import pyspaprk -modulen
Importer pyspark
#import SparkSession for å lage en økt
Fra Pyspark.SQL Import SparkSession
#import col -funksjonen
Fra Pyspark.SQL.Funksjoner importerer col
#Create en app som heter Linuxhint
Spark_app = SparkSession.bygger.AppName ('Linuxhint').getorCreate ()
# Lag studentdata med 5 rader og 6 attributter
Studenter = ['Rollno': '001', 'Navn': 'Sravan', 'Age': 23, 'Height': 5.79, 'vekt': 67, 'adresse': 'guntur',
'Rollno': '002', 'Navn': 'Ojaswi', 'Age': 16, 'Height': 3.79, 'vekt': 34, 'adresse': 'hyd',
'Rollno': '003', 'Navn': 'Gnanesh Chowdary', 'Age': 7, 'Height': 2.79, 'Vekt': 17, 'Adresse': 'Patna',
'Rollno': '004', 'Navn': 'Rohith', 'Age': 9, 'Height': 3.69, 'vekt': 28, 'adresse': 'hyd',
'Rollno': '005', 'Navn': 'Sridevi', 'Age': 37, 'Height': 5.59, 'vekt': 54, 'adresse': 'hyd']]
# Lag DataFrame
df = spark_app.CreateTataFrame (studenter)
#Display DataFrame
df.forestilling()

Produksjon:

Vi vil endre 'adresse' kolonnenavn til 'Studenters adresse', 'Rollno' kolonne til 'Students ID' og 'Name' kolonne til 'Studenter Name'.

Eksempel:

#import pyspaprk -modulen
Importer pyspark
#import SparkSession for å lage en økt
Fra Pyspark.SQL Import SparkSession
#Create en app som heter Linuxhint
Spark_app = SparkSession.bygger.AppName ('Linuxhint').getorCreate ()
# Lag studentdata med 5 rader og 6 attributter
Studenter = ['Rollno': '001', 'Navn': 'Sravan', 'Age': 23, 'Height': 5.79, 'vekt': 67, 'adresse': 'guntur',
'Rollno': '002', 'Navn': 'Ojaswi', 'Age': 16, 'Height': 3.79, 'vekt': 34, 'adresse': 'hyd',
'Rollno': '003', 'Navn': 'Gnanesh Chowdary', 'Age': 7, 'Height': 2.79, 'Vekt': 17, 'Adresse': 'Patna',
'Rollno': '004', 'Navn': 'Rohith', 'Age': 9, 'Height': 3.69, 'vekt': 28, 'adresse': 'hyd',
'Rollno': '005', 'Navn': 'Sridevi', 'Age': 37, 'Height': 5.59, 'vekt': 54, 'adresse': 'hyd']]
# Lag DataFrame
df = spark_app.CreateTataFrame (studenter)
#rename Navn kolonne til studentene Navn
df = df.WithColumnrenamed ("Navn", "Studenters navn")
#rename adresse kolonne til studentenes navn
df = df.WithColumnrenamed ("Adresse", "Studenters adresse")
#rename rollno kolonne til studenters ID
df = df.WithColumnrenamed ("Rollno", "Students ID")
#Letter viser skjemaet
df.Printschema ()

Produksjon:

rot
|- Studenters adresse: streng (nullable = true)
|- Alder: Lang (Nullable = True)
|- Høyde: dobbelt (nullable = true)
|- Studenters navn: streng (nullable = true)
|- Studenter ID: String (Nullable = True)
|- Vekt: Lang (Nullable = True)

Hvis vi ønsker flere kolonnenavn om gangen, må vi bruke Columnrenamed () -funksjonen flere ganger atskilt med prikken (.) operatør

Syntaks:

Dataramme.withColumnrenamed ('old_column1', 'new_column') ... withcolumnrenamed ('old_column2', 'new_column') ... withcolumnenamed ('old_column3', 'new_column').
.withcolumnrenamed ('old_column n', 'new_column')

Eksempel:

I dette eksemplet vil endre 'adresse' kolonnenavn til 'Studenters adresse', 'Rollno' kolonne til 'Students ID' og 'Name' -kolonnen til 'Studenter Name' og til slutt vise skjemaet.

#import pyspaprk -modulen
Importer pyspark
#import SparkSession for å lage en økt
Fra Pyspark.SQL Import SparkSession
#Create en app som heter Linuxhint
Spark_app = SparkSession.bygger.AppName ('Linuxhint').getorCreate ()
# Lag studentdata med 5 rader og 6 attributter
Studenter = ['Rollno': '001', 'Navn': 'Sravan', 'Age': 23, 'Height': 5.79, 'vekt': 67, 'adresse': 'guntur',
'Rollno': '002', 'Navn': 'Ojaswi', 'Age': 16, 'Height': 3.79, 'vekt': 34, 'adresse': 'hyd',
'Rollno': '003', 'Navn': 'Gnanesh Chowdary', 'Age': 7, 'Height': 2.79, 'Vekt': 17, 'Adresse': 'Patna',
'Rollno': '004', 'Navn': 'Rohith', 'Age': 9, 'Height': 3.69, 'vekt': 28, 'adresse': 'hyd',
'Rollno': '005', 'Navn': 'Sridevi', 'Age': 37, 'Height': 5.59, 'vekt': 54, 'adresse': 'hyd']]
# Lag DataFrame
df = spark_app.CreateTataFrame (studenter)
#rename Navn kolonne til studentene Navn,
#Address -kolonnen til studentenes navn
#rename rollno kolonne til studenters ID
df = df.WithColumnrenamed ("Navn", "Studenters navn").WithColumnrenamed ("Adresse", "Studenters adresse").WithColumnrenamed ("Rollno", "Students ID")
#Letter viser skjemaet
df.Printschema ()

Produksjon:

rot
|- Studenters adresse: streng (nullable = true)
|- Alder: Lang (Nullable = True)
|- Høyde: dobbelt (nullable = true)
|- Studenters navn: streng (nullable = true)
|- Studenter ID: String (Nullable = True)
|- Vekt: Lang (Nullable = True)

Konklusjon

I denne artikkelen diskuterte vi hvordan du skal gi nytt navn.