Endre kolonnenavn på Pyspark DataFrame - Rename kolonne

Endre kolonnenavn på Pyspark DataFrame - Rename kolonne
I Python er Pyspark en Spark -modul som brukes til å gi en lignende type prosessering som Spark ved hjelp av DataFrame. Vi vil diskutere forskjellige metoder for å endre kolonnenavnene til Pyspark DataFrame. Vi vil lage Pyspark DataFrame før vi går over til metodene.

Eksempel:
Her skal vi lage Pyspark DataFrame med 5 rader og 6 kolonner.

#import Pyspark -modulen
Importer pyspark
#import SparkSession for å lage en økt
Fra Pyspark.SQL Import SparkSession
#import col -funksjonen
Fra Pyspark.SQL.Funksjoner importerer col
#Create en app som heter Linuxhint
Spark_app = SparkSession.bygger.AppName ('Linuxhint').getorCreate ()
# Lag studentdata med 5 rader og 6 attributter
Studenter = ['Rollno': '001', 'Navn': 'Sravan', 'Age': 23, 'Height': 5.79, 'vekt': 67, 'adresse': 'guntur',
'Rollno': '002', 'Navn': 'Ojaswi', 'Age': 16, 'Height': 3.79, 'vekt': 34, 'adresse': 'hyd',
'Rollno': '003', 'Navn': 'Gnanesh Chowdary', 'Age': 7, 'Height': 2.79, 'Vekt': 17, 'Adresse': 'Patna',
'Rollno': '004', 'Navn': 'Rohith', 'Age': 9, 'Height': 3.69, 'vekt': 28, 'adresse': 'hyd',
'Rollno': '005', 'Navn': 'Sridevi', 'Age': 37, 'Height': 5.59, 'vekt': 54, 'adresse': 'hyd']]
# Lag DataFrame
df = spark_app.CreateTataFrame (studenter)
#Display DataFrame
df.forestilling()

Produksjon:

Metode 1: Bruke WithColumnrenamed ()

Vi kan endre kolonnenavnet i Pyspark DataFrame ved hjelp av denne metoden.

Syntaks:
Dataramme.withcolumnrenamed (“old_column“, ”new_column”)

Parametere:

  1. old_column er den eksisterende kolonnen
  2. New_Column er den nye kolonnen som erstatter Old_column

Eksempel:
I dette eksemplet erstatter vi adressekolonnen med "City" og viser hele DataFrame ved hjelp av Show () -metoden.

#import Pyspark -modulen
Importer pyspark
#import SparkSession for å lage en økt
Fra Pyspark.SQL Import SparkSession
#import col -funksjonen
Fra Pyspark.SQL.Funksjoner importerer col
#Create en app som heter Linuxhint
Spark_app = SparkSession.bygger.AppName ('Linuxhint').getorCreate ()
# Lag studentdata med 5 rader og 6 attributter
Studenter = ['Rollno': '001', 'Navn': 'Sravan', 'Age': 23, 'Height': 5.79, 'vekt': 67, 'adresse': 'guntur',
'Rollno': '002', 'Navn': 'Ojaswi', 'Age': 16, 'Height': 3.79, 'vekt': 34, 'adresse': 'hyd',
'Rollno': '003', 'Navn': 'Gnanesh Chowdary', 'Age': 7, 'Height': 2.79, 'Vekt': 17, 'Adresse': 'Patna',
'Rollno': '004', 'Navn': 'Rohith', 'Age': 9, 'Height': 3.69, 'vekt': 28, 'adresse': 'hyd',
'Rollno': '005', 'Navn': 'Sridevi', 'Age': 37, 'Height': 5.59, 'vekt': 54, 'adresse': 'hyd']]
# Lag DataFrame
df = spark_app.CreateTataFrame (studenter)
#rename adressekolonnen med byen
df.withColumnrenamed ("adresse", "by").forestilling()

Produksjon:

Vi kan også erstatte flere kolonnenavn om gangen ved å bruke denne metoden.

Syntaks:
Dataramme.withcolumnrenamed (“old_column“, ”new_column”) .withColumnrenamed (“old_column“, ”new_column”) .. .withcolumnrenamed (“old_column“, ”new_column”)

Eksempel:
I dette eksemplet erstatter vi adressekolonnen med "City", høydekolonne med "høyde", Rollno -kolonne med "ID", og viser hele DataFrame ved hjelp av Show () -metoden.

#import Pyspark -modulen
Importer pyspark
#import SparkSession for å lage en økt
Fra Pyspark.SQL Import SparkSession
#Create en app som heter Linuxhint
Spark_app = SparkSession.bygger.AppName ('Linuxhint').getorCreate ()
# Lag studentdata med 5 rader og 6 attributter
Studenter = ['Rollno': '001', 'Navn': 'Sravan', 'Age': 23, 'Height': 5.79, 'vekt': 67, 'adresse': 'guntur',
'Rollno': '002', 'Navn': 'Ojaswi', 'Age': 16, 'Height': 3.79, 'vekt': 34, 'adresse': 'hyd',
'Rollno': '003', 'Navn': 'Gnanesh Chowdary', 'Age': 7, 'Height': 2.79, 'Vekt': 17, 'Adresse': 'Patna',
'Rollno': '004', 'Navn': 'Rohith', 'Age': 9, 'Height': 3.69, 'vekt': 28, 'adresse': 'hyd',
'Rollno': '005', 'Navn': 'Sridevi', 'Age': 37, 'Height': 5.59, 'vekt': 54, 'adresse': 'hyd']]
# Lag DataFrame
df = spark_app.CreateTataFrame (studenter)
#rename adressekolonnen med by, høydekolonne med høyde, rollno kolonne med ID
df.withColumnrenamed ("adresse", "by").with Columnrenamed ("høyde", "høyde").WithColumnrenamed ("Rollno", "Id").forestilling()

Produksjon:

Metode 2: Bruke SelectExpr ()

Dette er en ekspresjonsmetode som endrer kolonnenavnet ved å ta et uttrykk.

Syntaks:
Dataramme.SelectExpr (uttrykk)

Parametere:

  • Det vil bare ta en parameter som er et uttrykk.
  • Uttrykk brukes til å endre kolonnen. Så uttrykket vil være: “old_column som new_column”.

Endelig er syntaksen:

Dataramme.SELECTEXPR (“OLD_COLUMN AS NEW_COLUMN”)

hvor,

  • old_column er den eksisterende kolonnen
  • New_Column er den nye kolonnen som erstatter Old_column

Merk: Vi kan gi flere uttrykk atskilt med komma innenfor denne metoden.

Eksempel 1:
I dette eksemplet erstatter vi adressekolonnen med "City" og viser denne kolonnen ved hjelp av Show () -metoden.

#import Pyspark -modulen
Importer pyspark
#import SparkSession for å lage en økt
Fra Pyspark.SQL Import SparkSession
#Create en app som heter Linuxhint
Spark_app = SparkSession.bygger.AppName ('Linuxhint').getorCreate ()
# Lag studentdata med 5 rader og 6 attributter
Studenter = ['Rollno': '001', 'Navn': 'Sravan', 'Age': 23, 'Height': 5.79, 'vekt': 67, 'adresse': 'guntur',
'Rollno': '002', 'Navn': 'Ojaswi', 'Age': 16, 'Height': 3.79, 'vekt': 34, 'adresse': 'hyd',
'Rollno': '003', 'Navn': 'Gnanesh Chowdary', 'Age': 7, 'Height': 2.79, 'Vekt': 17, 'Adresse': 'Patna',
'Rollno': '004', 'Navn': 'Rohith', 'Age': 9, 'Height': 3.69, 'vekt': 28, 'adresse': 'hyd',
'Rollno': '005', 'Navn': 'Sridevi', 'Age': 37, 'Height': 5.59, 'vekt': 54, 'adresse': 'hyd']]
# Lag DataFrame
df = spark_app.CreateTataFrame (studenter)
#rename adressekolonnen med byen
df.SelectExpr ("Adresse som by").forestilling()

Produksjon:

Eksempel 2:

I dette eksemplet erstatter vi adressekolonnen med "City", høydekolonne med "høyde", Rollno -kolonne med "ID", og viser hele DataFrame ved hjelp av Show () -metoden.

#import Pyspark -modulen
Importer pyspark
#import SparkSession for å lage en økt
Fra Pyspark.SQL Import SparkSession
#Create en app som heter Linuxhint
Spark_app = SparkSession.bygger.AppName ('Linuxhint').getorCreate ()
# Lag studentdata med 5 rader og 6 attributter
Studenter = ['Rollno': '001', 'Navn': 'Sravan', 'Age': 23, 'Height': 5.79, 'vekt': 67, 'adresse': 'guntur',
'Rollno': '002', 'Navn': 'Ojaswi', 'Age': 16, 'Height': 3.79, 'vekt': 34, 'adresse': 'hyd',
'Rollno': '003', 'Navn': 'Gnanesh Chowdary', 'Age': 7, 'Height': 2.79, 'Vekt': 17, 'Adresse': 'Patna',
'Rollno': '004', 'Navn': 'Rohith', 'Age': 9, 'Height': 3.69, 'vekt': 28, 'adresse': 'hyd',
'Rollno': '005', 'Navn': 'Sridevi', 'Age': 37, 'Height': 5.59, 'vekt': 54, 'adresse': 'hyd']]
# Lag DataFrame
df = spark_app.CreateTataFrame (studenter)
#rename adressekolonnen med by, høydekolonne med høyde, rollno kolonne med ID
df.SelectExpr ("Adresse som by", "Høyde som høyde", "Rollno som ID").forestilling()

Produksjon:

Metode 3: Bruke SELECT ()

Vi kan velge kolonner fra DataFrame ved å endre kolonnenavn gjennom COL med alias () -metode.

Syntaks:
Dataramme.Velg (Col (“Old_column”).alias (“new_column”))

Parametere:

  • Det vil bare ta en parameter som er kolonnenavn gjennom COL () -metoden.

Col () er en metode som er tilgjengelig i Pyspark.SQL.Funksjoner vil ta Old_column som inngangsparameter og endre til New_Column med alias ()

alias () vil ta new_column som parameter

hvor:

  1. old_column er den eksisterende kolonnen
  2. New_Column er den nye kolonnen som erstatter Old_column

Merk: Vi kan gi flere kolonner atskilt med komma innenfor denne metoden.

Eksempel 1:
I dette eksemplet erstatter vi adressekolonnen med "City" og viser denne kolonnen ved hjelp av Show () -metoden.

#import Pyspark -modulen
Importer pyspark
#import SparkSession for å lage en økt
Fra Pyspark.SQL Import SparkSession
#import col -funksjonen
Fra Pyspark.SQL.Funksjoner importerer col
#Create en app som heter Linuxhint
Spark_app = SparkSession.bygger.AppName ('Linuxhint').getorCreate ()
# Lag studentdata med 5 rader og 6 attributter
Studenter = ['Rollno': '001', 'Navn': 'Sravan', 'Age': 23, 'Height': 5.79, 'vekt': 67, 'adresse': 'guntur',
'Rollno': '002', 'Navn': 'Ojaswi', 'Age': 16, 'Height': 3.79, 'vekt': 34, 'adresse': 'hyd',
'Rollno': '003', 'Navn': 'Gnanesh Chowdary', 'Age': 7, 'Height': 2.79, 'Vekt': 17, 'Adresse': 'Patna',
'Rollno': '004', 'Navn': 'Rohith', 'Age': 9, 'Height': 3.69, 'vekt': 28, 'adresse': 'hyd',
'Rollno': '005', 'Navn': 'Sridevi', 'Age': 37, 'Height': 5.59, 'vekt': 54, 'adresse': 'hyd']]
# Lag DataFrame
df = spark_app.CreateTataFrame (studenter)
#rename adressekolonnen med byen
df.Velg (Col ("Adresse").alias ("by")).forestilling()

Produksjon:

Eksempel 2:

I dette eksemplet erstatter vi adressekolonnen med "City", høydekolonne med "høyde", Rollno -kolonne med "ID" og viser hele DataFrame ved hjelp av Show () -metoden.

#import Pyspark -modulen
Importer pyspark
#import SparkSession for å lage en økt
Fra Pyspark.SQL Import SparkSession
#import col -funksjonen
Fra Pyspark.SQL.Funksjoner importerer col
#Create en app som heter Linuxhint
Spark_app = SparkSession.bygger.AppName ('Linuxhint').getorCreate ()
# Lag studentdata med 5 rader og 6 attributter
Studenter = ['Rollno': '001', 'Navn': 'Sravan', 'Age': 23, 'Height': 5.79, 'vekt': 67, 'adresse': 'guntur',
'Rollno': '002', 'Navn': 'Ojaswi', 'Age': 16, 'Height': 3.79, 'vekt': 34, 'adresse': 'hyd',
'Rollno': '003', 'Navn': 'Gnanesh Chowdary', 'Age': 7, 'Height': 2.79, 'Vekt': 17, 'Adresse': 'Patna',
'Rollno': '004', 'Navn': 'Rohith', 'Age': 9, 'Height': 3.69, 'vekt': 28, 'adresse': 'hyd',
'Rollno': '005', 'Navn': 'Sridevi', 'Age': 37, 'Height': 5.59, 'vekt': 54, 'adresse': 'hyd']]
# Lag DataFrame
df = spark_app.CreateTataFrame (studenter)
#rename adressekolonnen med by, høydekolonne med høyde, rollno kolonne med ID
df.Velg (Col ("Adresse").alias ("by"), col ("høyde").alias ("høyde"), col ("rollno").alias ("id")).forestilling()

Produksjon:

Konklusjon

I denne opplæringen diskuterte vi hvordan du endrer kolonnenavnene til Pyspark DataFrame ved å bruke Columnrenamed (), Select og SelectExpr () -metoder. Ved hjelp av disse metodene kan vi også endre flere kolonnenavn om gangen.