Pyspark - Union & Unionall

Pyspark - Union & Unionall
I Python er Pyspark en Spark -modul som brukes til å gi en lignende type prosessering som Spark ved hjelp av DataFrame. Vi kan legge til rader/data fra den andre DataFrame til den første DataFrame ved å bruke to metoder: Union () og UnionAll (). Begge metodene er de samme. UnionAll () -metoden er avskrevet i 2.0 Versjon av Pyspark, og den erstattes av Union () -metoden. Før vi blir kjent med disse metodene, la oss lage to Pyspark DataFrames.

Eksempel 1:
I det følgende eksemplet skal vi lage PySpark DataFrame med 5 rader og 6 kolonner og skjerm ved hjelp av Show () -metoden:

#import Pyspark -modulen
Importer pyspark
#import SparkSession for å lage en økt
Fra Pyspark.SQL Import SparkSession
#Create en app som heter Linuxhint
Spark_app = SparkSession.bygger.AppName ('Linuxhint').getorCreate ()
# Lag studentdata med 5 rader og 6 attributter
Studenter1 = ['Rollno': '001', 'Navn': 'Sravan', 'Age': 23, 'Height': 5.79, 'vekt': 67, 'adresse': 'guntur',
'Rollno': '002', 'Navn': 'Ojaswi', 'Age': 16, 'Height': 3.79, 'vekt': 34, 'adresse': 'hyd',
'Rollno': '003', 'Navn': 'Gnanesh Chowdary', 'Age': 7, 'Height': 2.79, 'Vekt': 17, 'Adresse': 'Patna',
'Rollno': '004', 'Navn': 'Rohith', 'Age': 9, 'Height': 3.69, 'vekt': 28, 'adresse': 'hyd',
'Rollno': '005', 'Navn': 'Sridevi', 'Age': 37, 'Height': 5.59, 'vekt': 54, 'adresse': 'hyd']]
# Lag DataFrame
df = spark_app.CreateTataFrame (Students1)
# Vis DataFrame
df.forestilling()

Produksjon:

Eksempel 2:
I det følgende eksemplet skal vi lage PySpark DataFrame med 3 rader og 6 kolonner og display ved hjelp av Show () -metoden:

#import Pyspark -modulen
Importer pyspark
#import SparkSession for å lage en økt
Fra Pyspark.SQL Import SparkSession
#Create en app som heter Linuxhint
Spark_app = SparkSession.bygger.AppName ('Linuxhint').getorCreate ()
# Lag studentdata med 5 rader og 6 attributter
Studenter2 = ['Rollno': '056', 'Navn': 'Vinay', 'Age': 23, 'Height': 5.79, 'vekt': 67, 'adresse': 'tamilnadu',
'Rollno': '045', 'Navn': 'Bhanu', 'Age': 16, 'Height': 3.79, 'vekt': 34, 'adresse': 'hyd',
'Rollno': '032', 'Navn': 'Jyothika Chowdary', 'Age': 7, 'Height': 2.79, 'vekt': 17, 'adresse': 'Delhi']]
# Lag DataFrame
df2 = spark_app.CreateTataFrame (Students2)
# Vis andre DataFrame
DF2.forestilling()

Produksjon:

Pyspark - Union () -funksjon

Union () -funksjonen vil legge til rader fra ett eller flere dataframmer til den første DataFrame. Vi vil se hvordan du legger rader fra den andre DataFrame til den første DataFrame.

Syntaks:

FIRST_DATAFRAME.Union (Second_DataFrame)

Hvor:

  1. First_DataFrame er den første inngangen DataFrame.
  2. Second_DataFrame er den andre inngangen DataFrame.

Eksempel:

I dette eksemplet bruker vi Union () -funksjonen for å legge den andre DataFrame til den første

Dataramme. Til slutt viser vi DataFrame ved hjelp av Show () -metoden:

#import Pyspark -modulen
Importer pyspark
#import SparkSession for å lage en økt
Fra Pyspark.SQL Import SparkSession
#Create en app som heter Linuxhint
Spark_app = SparkSession.bygger.AppName ('Linuxhint').getorCreate ()
# Lag studentdata med 5 rader og 6 attributter
Studenter1 = ['Rollno': '001', 'Navn': 'Sravan', 'Age': 23, 'Height': 5.79, 'vekt': 67, 'adresse': 'guntur',
'Rollno': '002', 'Navn': 'Ojaswi', 'Age': 16, 'Height': 3.79, 'vekt': 34, 'adresse': 'hyd',
'Rollno': '003', 'Navn': 'Gnanesh Chowdary', 'Age': 7, 'Height': 2.79, 'Vekt': 17, 'Adresse': 'Patna',
'Rollno': '004', 'Navn': 'Rohith', 'Age': 9, 'Height': 3.69, 'vekt': 28, 'adresse': 'hyd',
'Rollno': '005', 'Navn': 'Sridevi', 'Age': 37, 'Height': 5.59, 'vekt': 54, 'adresse': 'hyd']]
# Lag DataFrame
df = spark_app.CreateTataFrame (Students1)
# Lag studentdata med 5 rader og 6 attributter
Studenter2 = ['Rollno': '056', 'Navn': 'Vinay', 'Age': 23, 'Height': 5.79, 'vekt': 67, 'adresse': 'tamilnadu',
'Rollno': '045', 'Navn': 'Bhanu', 'Age': 16, 'Height': 3.79, 'vekt': 34, 'adresse': 'hyd',
'Rollno': '032', 'Navn': 'Jyothika Chowdary', 'Age': 7, 'Height': 2.79, 'vekt': 17, 'adresse': 'Delhi']]
# Lag DataFrame
df2 = spark_app.CreateTataFrame (Students2)
# Utfør union ()
df.Union (DF2).forestilling()

Produksjon:

Pyspark - UnionAll () -funksjon

UnionAll () -funksjonen vil legge til rader fra ett eller flere DataFrames til First DataFrame. Vi vil se hvordan du legger rader fra den andre DataFrame til den første DataFrame.

Syntaks:

FIRST_DATAFRAME.UnionAll (Second_DataFrame)

Hvor:

  1. First_DataFrame er den første inngangen DataFrame.
  2. Second_DataFrame er den andre inngangen DataFrame.

Eksempel:

I dette eksemplet bruker vi UnionAll () -funksjonen for å legge den andre DataFrame til den første DataFrame. Til slutt viser vi DataFrame ved hjelp av Show () -metoden.

#import Pyspark -modulen
Importer pyspark
#import SparkSession for å lage en økt
Fra Pyspark.SQL Import SparkSession
#Create en app som heter Linuxhint
Spark_app = SparkSession.bygger.AppName ('Linuxhint').getorCreate ()
# Lag studentdata med 5 rader og 6 attributter
Studenter1 = ['Rollno': '001', 'Navn': 'Sravan', 'Age': 23, 'Height': 5.79, 'vekt': 67, 'adresse': 'guntur',
'Rollno': '002', 'Navn': 'Ojaswi', 'Age': 16, 'Height': 3.79, 'vekt': 34, 'adresse': 'hyd',
'Rollno': '003', 'Navn': 'Gnanesh Chowdary', 'Age': 7, 'Height': 2.79, 'Vekt': 17, 'Adresse': 'Patna',
'Rollno': '004', 'Navn': 'Rohith', 'Age': 9, 'Height': 3.69, 'vekt': 28, 'adresse': 'hyd',
'Rollno': '005', 'Navn': 'Sridevi', 'Age': 37, 'Height': 5.59, 'vekt': 54, 'adresse': 'hyd']]
# Lag DataFrame
df = spark_app.CreateTataFrame (Students1)
# Lag studentdata med 5 rader og 6 attributter
Studenter2 = ['Rollno': '056', 'Navn': 'Vinay', 'Age': 23, 'Height': 5.79, 'vekt': 67, 'adresse': 'tamilnadu',
'Rollno': '045', 'Navn': 'Bhanu', 'Age': 16, 'Height': 3.79, 'vekt': 34, 'adresse': 'hyd',
'Rollno': '032', 'Navn': 'Jyothika Chowdary', 'Age': 7, 'Height': 2.79, 'vekt': 17, 'adresse': 'Delhi']]
# Lag DataFrame
df2 = spark_app.CreateTataFrame (Students2)
# Utfør UnionAll ()
df.UnionAll (DF2).forestilling()

Produksjon:

Konklusjon

I denne artikkelen kan vi legge til to eller flere DataFrames ved hjelp av Union () og UnionAll () -metodene. Funksjonaliteten til begge metodene er den samme og diskutert med eksempler gitt. Vi håper du fant denne artikkelen nyttig. Sjekk ut flere Linux -hint -artikler for tips og opplæringsprogrammer.