I Python er Pyspark en Spark -modul som brukes til å gi en lignende type prosessering som Spark ved hjelp av DataFrame. LIT () brukes Opprett en ny kolonne ved å legge til verdier til den kolonnen i Pyspark DataFrame. Før vi flytter til syntaks, vil vi lage Pyspark DataFrame.
Eksempel:
Her skal vi lage Pyspark DataFrame med 5 rader og 6 kolonner.
#import Pyspark -modulen
Importer pyspark
#import SparkSession for å lage en økt
Fra Pyspark.SQL Import SparkSession
#import col -funksjonen
Fra Pyspark.SQL.Funksjoner importerer col
#Create en app som heter Linuxhint
Spark_app = SparkSession.bygger.AppName ('Linuxhint').getorCreate ()
# Lag studentdata med 5 rader og 6 attributter
Studenter = ['Rollno': '001', 'Navn': 'Sravan', 'Age': 23, 'Height': 5.79, 'vekt': 67, 'adresse': 'guntur',
'Rollno': '002', 'Navn': 'Ojaswi', 'Age': 16, 'Height': 3.79, 'vekt': 34, 'adresse': 'hyd',
'Rollno': '003', 'Navn': 'Gnanesh Chowdary', 'Age': 7, 'Height': 2.79, 'vekt': 17,
'adresse': 'patna',
'Rollno': '004', 'Navn': 'Rohith', 'Age': 9, 'Height': 3.69, 'vekt': 28, 'adresse': 'hyd',
'Rollno': '005', 'Navn': 'Sridevi', 'Age': 37, 'Height': 5.59, 'vekt': 54, 'adresse': 'hyd']]
# Lag DataFrame
df = spark_app.CreateTataFrame (studenter)
#Display DataFrame
df.forestilling()
Produksjon:
Lit () - Syntaks
Lit (“Verdi”).alias (“Column_name”)
Hvor,
- kolonne_navn er den nye kolonnen.
- Verdien er den konstante verdien til den nye kolonnen.
Vi må importere denne metoden fra Pyspark.SQL.Funksjonsmodul.
Merk: Vi kan legge til flere kolonner om gangen
Ved hjelp av Select () -metode kan vi bruke LIT () -metoden.
SELECT () brukes til å vise kolonnene fra DataFrame. Sammen med det kan vi legge til kolonne/s ved hjelp av LIT () -metode.
Syntaks:
Dataramme.Velg (col ("kolonne"), ..., tent ("verdi").alias ("new_column"))
Hvor,
- kolonnen er det eksisterende kolonnenavnet som skal vises.
- new_column er det nye kolonnenavnet som skal legges til.
- Verdien er den konstante verdien til den nye kolonnen.
Eksempel 1:
I dette eksemplet skal vi legge til en ny kolonne som heter - Pincode og legge til en konstant verdi - 522112 i denne kolonnen og velg Rollno -kolonnen sammen med Pincode fra Pyspark DataFrame.
#import Pyspark -modulen
Importer pyspark
#import SparkSession for å lage en økt
Fra Pyspark.SQL Import SparkSession
#import col, tente funksjon
Fra Pyspark.SQL.funksjoner importerer col, tent
#Create en app som heter Linuxhint
Spark_app = SparkSession.bygger.AppName ('Linuxhint').getorCreate ()
# Lag studentdata med 5 rader og 6 attributter
Studenter = ['Rollno': '001', 'Navn': 'Sravan', 'Age': 23, 'Height': 5.79, 'vekt': 67, 'adresse': 'guntur',
'Rollno': '002', 'Navn': 'Ojaswi', 'Age': 16, 'Height': 3.79, 'vekt': 34, 'adresse': 'hyd',
'Rollno': '003', 'Navn': 'Gnanesh Chowdary', 'Age': 7, 'Height': 2.79, 'vekt': 17,
'adresse': 'patna',
'Rollno': '004', 'Navn': 'Rohith', 'Age': 9, 'Height': 3.69, 'vekt': 28, 'adresse': 'hyd',
'Rollno': '005', 'Navn': 'Sridevi', 'Age': 37, 'Height': 5.59, 'vekt': 54, 'adresse': 'hyd']]
# Lag DataFrame
df = spark_app.CreateTataFrame (studenter)
# Legg til en ny kolonne Pincode med konstant verdi - 522112
Finale = df.Velg (Col ("Rollno"), Lit ("522112").alias ("pincode")))
#Display den endelige DataFrame
endelig.forestilling()
Produksjon:
Eksempel 2:
I dette eksemplet skal vi legge til nye kolonner som heter - Pincode og City og legge til en konstant verdi - 522112 og Guntur til disse kolonnene og velg Rollno -kolonnen sammen med Pincode og City fra Pyspark DataFrame.
#import Pyspark -modulen
Importer pyspark
#import SparkSession for å lage en økt
Fra Pyspark.SQL Import SparkSession
#import col, tente funksjon
Fra Pyspark.SQL.funksjoner importerer col, tent
#Create en app som heter Linuxhint
Spark_app = SparkSession.bygger.AppName ('Linuxhint').getorCreate ()
# Lag studentdata med 5 rader og 6 attributter
Studenter = ['Rollno': '001', 'Navn': 'Sravan', 'Age': 23, 'Height': 5.79, 'vekt': 67, 'adresse': 'guntur',
'Rollno': '002', 'Navn': 'Ojaswi', 'Age': 16, 'Height': 3.79, 'vekt': 34, 'adresse': 'hyd',
'Rollno': '003', 'Navn': 'Gnanesh Chowdary', 'Age': 7, 'Height': 2.79, 'vekt': 17,
'adresse': 'patna',
'Rollno': '004', 'Navn': 'Rohith', 'Age': 9, 'Height': 3.69, 'vekt': 28, 'adresse': 'hyd',
'Rollno': '005', 'Navn': 'Sridevi', 'Age': 37, 'Height': 5.59, 'vekt': 54, 'adresse': 'hyd']]
# Lag DataFrame
df = spark_app.CreateTataFrame (studenter)
# Legg til nye kolonner: Pincode med konstant verdi - 522112
# By med konstant verdi - Guntur
Finale = df.Velg (Col ("Rollno"), Lit ("522112").alias ("pincode"), tent ("guntur").alias ("by"))
#Display den endelige DataFrame
endelig.forestilling()
Produksjon:
Vi kan også legge til verdier til den nye kolonnen fra de eksisterende kolonnen Vales. Vi trenger bare å oppgi kolonnenavnet inne i tent (verdi) parameter.
Syntaks:
Dataramme.Velg (col ("kolonne"), ..., tent (DataFrame.kolonne).alias ("new_column"))
Hvor,
- DataFrame er inngangen Pyspark DataFrame.
- kolonnen er det eksisterende kolonnenavnet som skal vises.
- new_column er det nye kolonnenavnet som skal legges til.
- Verdien er den konstante verdien til den nye kolonnen.
Eksempel:
I dette eksemplet skal vi legge til en kolonne - “Pincode City” og tilordne verdier fra adressekolonnen.
#import Pyspark -modulen
Importer pyspark
#import SparkSession for å lage en økt
Fra Pyspark.SQL Import SparkSession
#import col, tente funksjon
Fra Pyspark.SQL.funksjoner importerer col, tent
#Create en app som heter Linuxhint
Spark_app = SparkSession.bygger.AppName ('Linuxhint').getorCreate ()
# Lag studentdata med 5 rader og 6 attributter
Studenter = ['Rollno': '001', 'Navn': 'Sravan', 'Age': 23, 'Height': 5.79, 'vekt': 67, 'adresse': 'guntur',
'Rollno': '002', 'Navn': 'Ojaswi', 'Age': 16, 'Height': 3.79, 'vekt': 34, 'adresse': 'hyd',
'Rollno': '003', 'Navn': 'Gnanesh Chowdary', 'Age': 7, 'Height': 2.79, 'vekt': 17,
'adresse': 'patna',
'Rollno': '004', 'Navn': 'Rohith', 'Age': 9, 'Height': 3.69, 'vekt': 28, 'adresse': 'hyd',
'Rollno': '005', 'Navn': 'Sridevi', 'Age': 37, 'Height': 5.59, 'vekt': 54, 'adresse': 'hyd']]
# Lag DataFrame
df = spark_app.CreateTataFrame (studenter)
# Legg til en ny kolonne: "Pincode City fra adressekolonnen
Finale = df.Velg (Col ("Rollno"), Lit (DF.adresse).alias ("Pincode City"))
#Display den endelige DataFrame
endelig.forestilling()
Produksjon:
Vi kan også legge til eksisterende kolonneverdier gjennom kolonneindeks - Kolonneindeksering starter med - 0.
Eksempel:
I dette eksemplet skal vi legge til en kolonne - "Pincode City" og tilordne verdier fra adresse -kolonnen gjennom adresse kolonneindeks I.e., - 4.
#import Pyspark -modulen
Importer pyspark
#import SparkSession for å lage en økt
Fra Pyspark.SQL Import SparkSession
#import col, tente funksjon
Fra Pyspark.SQL.funksjoner importerer col, tent
#Create en app som heter Linuxhint
Spark_app = SparkSession.bygger.AppName ('Linuxhint').getorCreate ()
# Lag studentdata med 5 rader og 6 attributter
Studenter = ['Rollno': '001', 'Navn': 'Sravan', 'Age': 23, 'Height': 5.79, 'vekt': 67, 'adresse': 'guntur',
'Rollno': '002', 'Navn': 'Ojaswi', 'Age': 16, 'Height': 3.79, 'vekt': 34, 'adresse': 'hyd',
'Rollno': '003', 'Navn': 'Gnanesh Chowdary', 'Age': 7, 'Height': 2.79, 'vekt': 17,
'adresse': 'patna',
'Rollno': '004', 'Navn': 'Rohith', 'Age': 9, 'Height': 3.69, 'vekt': 28, 'adresse': 'hyd',
'Rollno': '005', 'Navn': 'Sridevi', 'Age': 37, 'Height': 5.59, 'vekt': 54, 'adresse': 'hyd']]
# Lag DataFrame
df = spark_app.CreateTataFrame (studenter)
# Legg til en ny kolonne: "Pincode City fra adressekolonnen
Finale = df.Velg (Col ("Rollno"), Lit (DF [4]).alias ("Pincode City"))
#Display den endelige DataFrame
endelig.forestilling()
Produksjon:
Konklusjon
I denne opplæringen diskuterte vi LIT () -metoden for å lage en ny kolonne med konstante verdier. Det kan være mulig å tilordne verdiene fra den eksisterende kolonnen ved å spesifisere kolonnen i stedet for verdiparameter gjennom kolonnenavn samt en kolonneindeks.