I Python er Pyspark en Spark -modul som brukes til å gi en lignende type prosessering som Spark ved hjelp av DataFrame.
withColumnrenamed () -metode i Pyspark brukes til å gi nytt navn til de eksisterende kolonnene i Pyspark DataFrame.
Syntaks:
Dataramme.withcolumnrenamed ('old_column', 'new_column')
Parametere:
- old_column er det gamle kolonnenavnet
- new_column er det nye navnet på den gamle kolonnen
La oss lage Pyspark DataFrame med 5 rader og 6 kolonner og vise den ved hjelp av showet () metoden
Eksempel:
#import pyspaprk -modulen
Importer pyspark
#import SparkSession for å lage en økt
Fra Pyspark.SQL Import SparkSession
#import col -funksjonen
Fra Pyspark.SQL.Funksjoner importerer col
#Create en app som heter Linuxhint
Spark_app = SparkSession.bygger.AppName ('Linuxhint').getorCreate ()
# Lag studentdata med 5 rader og 6 attributter
Studenter = ['Rollno': '001', 'Navn': 'Sravan', 'Age': 23, 'Height': 5.79, 'vekt': 67, 'adresse': 'guntur',
'Rollno': '002', 'Navn': 'Ojaswi', 'Age': 16, 'Height': 3.79, 'vekt': 34, 'adresse': 'hyd',
'Rollno': '003', 'Navn': 'Gnanesh Chowdary', 'Age': 7, 'Height': 2.79, 'Vekt': 17, 'Adresse': 'Patna',
'Rollno': '004', 'Navn': 'Rohith', 'Age': 9, 'Height': 3.69, 'vekt': 28, 'adresse': 'hyd',
'Rollno': '005', 'Navn': 'Sridevi', 'Age': 37, 'Height': 5.59, 'vekt': 54, 'adresse': 'hyd']]
# Lag DataFrame
df = spark_app.CreateTataFrame (studenter)
#Display DataFrame
df.forestilling()
Produksjon:
Vi vil endre 'adresse' kolonnenavn til 'Studenters adresse', 'Rollno' kolonne til 'Students ID' og 'Name' kolonne til 'Studenter Name'.
Eksempel:
#import pyspaprk -modulen
Importer pyspark
#import SparkSession for å lage en økt
Fra Pyspark.SQL Import SparkSession
#Create en app som heter Linuxhint
Spark_app = SparkSession.bygger.AppName ('Linuxhint').getorCreate ()
# Lag studentdata med 5 rader og 6 attributter
Studenter = ['Rollno': '001', 'Navn': 'Sravan', 'Age': 23, 'Height': 5.79, 'vekt': 67, 'adresse': 'guntur',
'Rollno': '002', 'Navn': 'Ojaswi', 'Age': 16, 'Height': 3.79, 'vekt': 34, 'adresse': 'hyd',
'Rollno': '003', 'Navn': 'Gnanesh Chowdary', 'Age': 7, 'Height': 2.79, 'Vekt': 17, 'Adresse': 'Patna',
'Rollno': '004', 'Navn': 'Rohith', 'Age': 9, 'Height': 3.69, 'vekt': 28, 'adresse': 'hyd',
'Rollno': '005', 'Navn': 'Sridevi', 'Age': 37, 'Height': 5.59, 'vekt': 54, 'adresse': 'hyd']]
# Lag DataFrame
df = spark_app.CreateTataFrame (studenter)
#rename Navn kolonne til studentene Navn
df = df.WithColumnrenamed ("Navn", "Studenters navn")
#rename adresse kolonne til studentenes navn
df = df.WithColumnrenamed ("Adresse", "Studenters adresse")
#rename rollno kolonne til studenters ID
df = df.WithColumnrenamed ("Rollno", "Students ID")
#Letter viser skjemaet
df.Printschema ()
Produksjon:
rot
|- Studenters adresse: streng (nullable = true)
|- Alder: Lang (Nullable = True)
|- Høyde: dobbelt (nullable = true)
|- Studenters navn: streng (nullable = true)
|- Studenter ID: String (Nullable = True)
|- Vekt: Lang (Nullable = True)
Hvis vi ønsker flere kolonnenavn om gangen, må vi bruke Columnrenamed () -funksjonen flere ganger atskilt med prikken (.) operatør
Syntaks:
Dataramme.withColumnrenamed ('old_column1', 'new_column') ... withcolumnrenamed ('old_column2', 'new_column') ... withcolumnenamed ('old_column3', 'new_column').
.withcolumnrenamed ('old_column n', 'new_column')
Eksempel:
I dette eksemplet vil endre 'adresse' kolonnenavn til 'Studenters adresse', 'Rollno' kolonne til 'Students ID' og 'Name' -kolonnen til 'Studenter Name' og til slutt vise skjemaet.
#import pyspaprk -modulen
Importer pyspark
#import SparkSession for å lage en økt
Fra Pyspark.SQL Import SparkSession
#Create en app som heter Linuxhint
Spark_app = SparkSession.bygger.AppName ('Linuxhint').getorCreate ()
# Lag studentdata med 5 rader og 6 attributter
Studenter = ['Rollno': '001', 'Navn': 'Sravan', 'Age': 23, 'Height': 5.79, 'vekt': 67, 'adresse': 'guntur',
'Rollno': '002', 'Navn': 'Ojaswi', 'Age': 16, 'Height': 3.79, 'vekt': 34, 'adresse': 'hyd',
'Rollno': '003', 'Navn': 'Gnanesh Chowdary', 'Age': 7, 'Height': 2.79, 'Vekt': 17, 'Adresse': 'Patna',
'Rollno': '004', 'Navn': 'Rohith', 'Age': 9, 'Height': 3.69, 'vekt': 28, 'adresse': 'hyd',
'Rollno': '005', 'Navn': 'Sridevi', 'Age': 37, 'Height': 5.59, 'vekt': 54, 'adresse': 'hyd']]
# Lag DataFrame
df = spark_app.CreateTataFrame (studenter)
#rename Navn kolonne til studentene Navn,
#Address -kolonnen til studentenes navn
#rename rollno kolonne til studenters ID
df = df.WithColumnrenamed ("Navn", "Studenters navn").WithColumnrenamed ("Adresse", "Studenters adresse").WithColumnrenamed ("Rollno", "Students ID")
#Letter viser skjemaet
df.Printschema ()
Produksjon:
rot
|- Studenters adresse: streng (nullable = true)
|- Alder: Lang (Nullable = True)
|- Høyde: dobbelt (nullable = true)
|- Studenters navn: streng (nullable = true)
|- Studenter ID: String (Nullable = True)
|- Vekt: Lang (Nullable = True)
Konklusjon
I denne artikkelen diskuterte vi hvordan du skal gi nytt navn.