Pyspark - tent

Pyspark - tent

I Python er Pyspark en Spark -modul som brukes til å gi en lignende type prosessering som Spark ved hjelp av DataFrame. LIT () brukes Opprett en ny kolonne ved å legge til verdier til den kolonnen i Pyspark DataFrame. Før vi flytter til syntaks, vil vi lage Pyspark DataFrame.

Eksempel:

Her skal vi lage Pyspark DataFrame med 5 rader og 6 kolonner.

#import Pyspark -modulen
Importer pyspark
#import SparkSession for å lage en økt
Fra Pyspark.SQL Import SparkSession
#import col -funksjonen
Fra Pyspark.SQL.Funksjoner importerer col
#Create en app som heter Linuxhint
Spark_app = SparkSession.bygger.AppName ('Linuxhint').getorCreate ()
# Lag studentdata med 5 rader og 6 attributter
Studenter = ['Rollno': '001', 'Navn': 'Sravan', 'Age': 23, 'Height': 5.79, 'vekt': 67, 'adresse': 'guntur',
'Rollno': '002', 'Navn': 'Ojaswi', 'Age': 16, 'Height': 3.79, 'vekt': 34, 'adresse': 'hyd',
'Rollno': '003', 'Navn': 'Gnanesh Chowdary', 'Age': 7, 'Height': 2.79, 'vekt': 17,
'adresse': 'patna',
'Rollno': '004', 'Navn': 'Rohith', 'Age': 9, 'Height': 3.69, 'vekt': 28, 'adresse': 'hyd',
'Rollno': '005', 'Navn': 'Sridevi', 'Age': 37, 'Height': 5.59, 'vekt': 54, 'adresse': 'hyd']]
# Lag DataFrame
df = spark_app.CreateTataFrame (studenter)
#Display DataFrame
df.forestilling()

Produksjon:

Lit () - Syntaks

Lit (“Verdi”).alias (“Column_name”)

Hvor,

  1. kolonne_navn er den nye kolonnen.
  2. Verdien er den konstante verdien til den nye kolonnen.

Vi må importere denne metoden fra Pyspark.SQL.Funksjonsmodul.

Merk: Vi kan legge til flere kolonner om gangen

Ved hjelp av Select () -metode kan vi bruke LIT () -metoden.

SELECT () brukes til å vise kolonnene fra DataFrame. Sammen med det kan vi legge til kolonne/s ved hjelp av LIT () -metode.

Syntaks:

Dataramme.Velg (col ("kolonne"), ..., tent ("verdi").alias ("new_column"))

Hvor,

  1. kolonnen er det eksisterende kolonnenavnet som skal vises.
  2. new_column er det nye kolonnenavnet som skal legges til.
  3. Verdien er den konstante verdien til den nye kolonnen.

Eksempel 1:

I dette eksemplet skal vi legge til en ny kolonne som heter - Pincode og legge til en konstant verdi - 522112 i denne kolonnen og velg Rollno -kolonnen sammen med Pincode fra Pyspark DataFrame.

#import Pyspark -modulen
Importer pyspark
#import SparkSession for å lage en økt
Fra Pyspark.SQL Import SparkSession
#import col, tente funksjon
Fra Pyspark.SQL.funksjoner importerer col, tent
#Create en app som heter Linuxhint
Spark_app = SparkSession.bygger.AppName ('Linuxhint').getorCreate ()
# Lag studentdata med 5 rader og 6 attributter
Studenter = ['Rollno': '001', 'Navn': 'Sravan', 'Age': 23, 'Height': 5.79, 'vekt': 67, 'adresse': 'guntur',
'Rollno': '002', 'Navn': 'Ojaswi', 'Age': 16, 'Height': 3.79, 'vekt': 34, 'adresse': 'hyd',
'Rollno': '003', 'Navn': 'Gnanesh Chowdary', 'Age': 7, 'Height': 2.79, 'vekt': 17,
'adresse': 'patna',
'Rollno': '004', 'Navn': 'Rohith', 'Age': 9, 'Height': 3.69, 'vekt': 28, 'adresse': 'hyd',
'Rollno': '005', 'Navn': 'Sridevi', 'Age': 37, 'Height': 5.59, 'vekt': 54, 'adresse': 'hyd']]
# Lag DataFrame
df = spark_app.CreateTataFrame (studenter)
# Legg til en ny kolonne Pincode med konstant verdi - 522112
Finale = df.Velg (Col ("Rollno"), Lit ("522112").alias ("pincode")))
#Display den endelige DataFrame
endelig.forestilling()

Produksjon:

Eksempel 2:

I dette eksemplet skal vi legge til nye kolonner som heter - Pincode og City og legge til en konstant verdi - 522112 og Guntur til disse kolonnene og velg Rollno -kolonnen sammen med Pincode og City fra Pyspark DataFrame.

#import Pyspark -modulen
Importer pyspark
#import SparkSession for å lage en økt
Fra Pyspark.SQL Import SparkSession
#import col, tente funksjon
Fra Pyspark.SQL.funksjoner importerer col, tent
#Create en app som heter Linuxhint
Spark_app = SparkSession.bygger.AppName ('Linuxhint').getorCreate ()
# Lag studentdata med 5 rader og 6 attributter
Studenter = ['Rollno': '001', 'Navn': 'Sravan', 'Age': 23, 'Height': 5.79, 'vekt': 67, 'adresse': 'guntur',
'Rollno': '002', 'Navn': 'Ojaswi', 'Age': 16, 'Height': 3.79, 'vekt': 34, 'adresse': 'hyd',
'Rollno': '003', 'Navn': 'Gnanesh Chowdary', 'Age': 7, 'Height': 2.79, 'vekt': 17,
'adresse': 'patna',
'Rollno': '004', 'Navn': 'Rohith', 'Age': 9, 'Height': 3.69, 'vekt': 28, 'adresse': 'hyd',
'Rollno': '005', 'Navn': 'Sridevi', 'Age': 37, 'Height': 5.59, 'vekt': 54, 'adresse': 'hyd']]
# Lag DataFrame
df = spark_app.CreateTataFrame (studenter)
# Legg til nye kolonner: Pincode med konstant verdi - 522112
# By med konstant verdi - Guntur
Finale = df.Velg (Col ("Rollno"), Lit ("522112").alias ("pincode"), tent ("guntur").alias ("by"))
#Display den endelige DataFrame
endelig.forestilling()

Produksjon:

Vi kan også legge til verdier til den nye kolonnen fra de eksisterende kolonnen Vales. Vi trenger bare å oppgi kolonnenavnet inne i tent (verdi) parameter.

Syntaks:

Dataramme.Velg (col ("kolonne"), ..., tent (DataFrame.kolonne).alias ("new_column"))

Hvor,

  1. DataFrame er inngangen Pyspark DataFrame.
  2. kolonnen er det eksisterende kolonnenavnet som skal vises.
  3. new_column er det nye kolonnenavnet som skal legges til.
  4. Verdien er den konstante verdien til den nye kolonnen.

Eksempel:

I dette eksemplet skal vi legge til en kolonne - “Pincode City” og tilordne verdier fra adressekolonnen.

#import Pyspark -modulen
Importer pyspark
#import SparkSession for å lage en økt
Fra Pyspark.SQL Import SparkSession
#import col, tente funksjon
Fra Pyspark.SQL.funksjoner importerer col, tent
#Create en app som heter Linuxhint
Spark_app = SparkSession.bygger.AppName ('Linuxhint').getorCreate ()
# Lag studentdata med 5 rader og 6 attributter
Studenter = ['Rollno': '001', 'Navn': 'Sravan', 'Age': 23, 'Height': 5.79, 'vekt': 67, 'adresse': 'guntur',
'Rollno': '002', 'Navn': 'Ojaswi', 'Age': 16, 'Height': 3.79, 'vekt': 34, 'adresse': 'hyd',
'Rollno': '003', 'Navn': 'Gnanesh Chowdary', 'Age': 7, 'Height': 2.79, 'vekt': 17,
'adresse': 'patna',
'Rollno': '004', 'Navn': 'Rohith', 'Age': 9, 'Height': 3.69, 'vekt': 28, 'adresse': 'hyd',
'Rollno': '005', 'Navn': 'Sridevi', 'Age': 37, 'Height': 5.59, 'vekt': 54, 'adresse': 'hyd']]
# Lag DataFrame
df = spark_app.CreateTataFrame (studenter)
# Legg til en ny kolonne: "Pincode City fra adressekolonnen
Finale = df.Velg (Col ("Rollno"), Lit (DF.adresse).alias ("Pincode City"))
#Display den endelige DataFrame
endelig.forestilling()

Produksjon:

Vi kan også legge til eksisterende kolonneverdier gjennom kolonneindeks - Kolonneindeksering starter med - 0.

Eksempel:

I dette eksemplet skal vi legge til en kolonne - "Pincode City" og tilordne verdier fra adresse -kolonnen gjennom adresse kolonneindeks I.e., - 4.

#import Pyspark -modulen
Importer pyspark
#import SparkSession for å lage en økt
Fra Pyspark.SQL Import SparkSession
#import col, tente funksjon
Fra Pyspark.SQL.funksjoner importerer col, tent
#Create en app som heter Linuxhint
Spark_app = SparkSession.bygger.AppName ('Linuxhint').getorCreate ()
# Lag studentdata med 5 rader og 6 attributter
Studenter = ['Rollno': '001', 'Navn': 'Sravan', 'Age': 23, 'Height': 5.79, 'vekt': 67, 'adresse': 'guntur',
'Rollno': '002', 'Navn': 'Ojaswi', 'Age': 16, 'Height': 3.79, 'vekt': 34, 'adresse': 'hyd',
'Rollno': '003', 'Navn': 'Gnanesh Chowdary', 'Age': 7, 'Height': 2.79, 'vekt': 17,
'adresse': 'patna',
'Rollno': '004', 'Navn': 'Rohith', 'Age': 9, 'Height': 3.69, 'vekt': 28, 'adresse': 'hyd',
'Rollno': '005', 'Navn': 'Sridevi', 'Age': 37, 'Height': 5.59, 'vekt': 54, 'adresse': 'hyd']]
# Lag DataFrame
df = spark_app.CreateTataFrame (studenter)
# Legg til en ny kolonne: "Pincode City fra adressekolonnen
Finale = df.Velg (Col ("Rollno"), Lit (DF [4]).alias ("Pincode City"))
#Display den endelige DataFrame
endelig.forestilling()

Produksjon:

Konklusjon

I denne opplæringen diskuterte vi LIT () -metoden for å lage en ny kolonne med konstante verdier. Det kan være mulig å tilordne verdiene fra den eksisterende kolonnen ved å spesifisere kolonnen i stedet for verdiparameter gjennom kolonnenavn samt en kolonneindeks.