Eksempel 1:
I det følgende eksemplet skal vi lage PySpark DataFrame med 5 rader og 6 kolonner og skjerm ved hjelp av Show () -metoden:
#import Pyspark -modulen
Importer pyspark
#import SparkSession for å lage en økt
Fra Pyspark.SQL Import SparkSession
#Create en app som heter Linuxhint
Spark_app = SparkSession.bygger.AppName ('Linuxhint').getorCreate ()
# Lag studentdata med 5 rader og 6 attributter
Studenter1 = ['Rollno': '001', 'Navn': 'Sravan', 'Age': 23, 'Height': 5.79, 'vekt': 67, 'adresse': 'guntur',
'Rollno': '002', 'Navn': 'Ojaswi', 'Age': 16, 'Height': 3.79, 'vekt': 34, 'adresse': 'hyd',
'Rollno': '003', 'Navn': 'Gnanesh Chowdary', 'Age': 7, 'Height': 2.79, 'Vekt': 17, 'Adresse': 'Patna',
'Rollno': '004', 'Navn': 'Rohith', 'Age': 9, 'Height': 3.69, 'vekt': 28, 'adresse': 'hyd',
'Rollno': '005', 'Navn': 'Sridevi', 'Age': 37, 'Height': 5.59, 'vekt': 54, 'adresse': 'hyd']]
# Lag DataFrame
df = spark_app.CreateTataFrame (Students1)
# Vis DataFrame
df.forestilling()
Produksjon:
Eksempel 2:
I det følgende eksemplet skal vi lage PySpark DataFrame med 3 rader og 6 kolonner og display ved hjelp av Show () -metoden:
#import Pyspark -modulen
Importer pyspark
#import SparkSession for å lage en økt
Fra Pyspark.SQL Import SparkSession
#Create en app som heter Linuxhint
Spark_app = SparkSession.bygger.AppName ('Linuxhint').getorCreate ()
# Lag studentdata med 5 rader og 6 attributter
Studenter2 = ['Rollno': '056', 'Navn': 'Vinay', 'Age': 23, 'Height': 5.79, 'vekt': 67, 'adresse': 'tamilnadu',
'Rollno': '045', 'Navn': 'Bhanu', 'Age': 16, 'Height': 3.79, 'vekt': 34, 'adresse': 'hyd',
'Rollno': '032', 'Navn': 'Jyothika Chowdary', 'Age': 7, 'Height': 2.79, 'vekt': 17, 'adresse': 'Delhi']]
# Lag DataFrame
df2 = spark_app.CreateTataFrame (Students2)
# Vis andre DataFrame
DF2.forestilling()
Produksjon:
Pyspark - Union () -funksjon
Union () -funksjonen vil legge til rader fra ett eller flere dataframmer til den første DataFrame. Vi vil se hvordan du legger rader fra den andre DataFrame til den første DataFrame.
Syntaks:
FIRST_DATAFRAME.Union (Second_DataFrame)
Hvor:
Eksempel:
I dette eksemplet bruker vi Union () -funksjonen for å legge den andre DataFrame til den første
Dataramme. Til slutt viser vi DataFrame ved hjelp av Show () -metoden:
#import Pyspark -modulen
Importer pyspark
#import SparkSession for å lage en økt
Fra Pyspark.SQL Import SparkSession
#Create en app som heter Linuxhint
Spark_app = SparkSession.bygger.AppName ('Linuxhint').getorCreate ()
# Lag studentdata med 5 rader og 6 attributter
Studenter1 = ['Rollno': '001', 'Navn': 'Sravan', 'Age': 23, 'Height': 5.79, 'vekt': 67, 'adresse': 'guntur',
'Rollno': '002', 'Navn': 'Ojaswi', 'Age': 16, 'Height': 3.79, 'vekt': 34, 'adresse': 'hyd',
'Rollno': '003', 'Navn': 'Gnanesh Chowdary', 'Age': 7, 'Height': 2.79, 'Vekt': 17, 'Adresse': 'Patna',
'Rollno': '004', 'Navn': 'Rohith', 'Age': 9, 'Height': 3.69, 'vekt': 28, 'adresse': 'hyd',
'Rollno': '005', 'Navn': 'Sridevi', 'Age': 37, 'Height': 5.59, 'vekt': 54, 'adresse': 'hyd']]
# Lag DataFrame
df = spark_app.CreateTataFrame (Students1)
# Lag studentdata med 5 rader og 6 attributter
Studenter2 = ['Rollno': '056', 'Navn': 'Vinay', 'Age': 23, 'Height': 5.79, 'vekt': 67, 'adresse': 'tamilnadu',
'Rollno': '045', 'Navn': 'Bhanu', 'Age': 16, 'Height': 3.79, 'vekt': 34, 'adresse': 'hyd',
'Rollno': '032', 'Navn': 'Jyothika Chowdary', 'Age': 7, 'Height': 2.79, 'vekt': 17, 'adresse': 'Delhi']]
# Lag DataFrame
df2 = spark_app.CreateTataFrame (Students2)
# Utfør union ()
df.Union (DF2).forestilling()
Produksjon:
Pyspark - UnionAll () -funksjon
UnionAll () -funksjonen vil legge til rader fra ett eller flere DataFrames til First DataFrame. Vi vil se hvordan du legger rader fra den andre DataFrame til den første DataFrame.
Syntaks:
FIRST_DATAFRAME.UnionAll (Second_DataFrame)
Hvor:
Eksempel:
I dette eksemplet bruker vi UnionAll () -funksjonen for å legge den andre DataFrame til den første DataFrame. Til slutt viser vi DataFrame ved hjelp av Show () -metoden.
#import Pyspark -modulen
Importer pyspark
#import SparkSession for å lage en økt
Fra Pyspark.SQL Import SparkSession
#Create en app som heter Linuxhint
Spark_app = SparkSession.bygger.AppName ('Linuxhint').getorCreate ()
# Lag studentdata med 5 rader og 6 attributter
Studenter1 = ['Rollno': '001', 'Navn': 'Sravan', 'Age': 23, 'Height': 5.79, 'vekt': 67, 'adresse': 'guntur',
'Rollno': '002', 'Navn': 'Ojaswi', 'Age': 16, 'Height': 3.79, 'vekt': 34, 'adresse': 'hyd',
'Rollno': '003', 'Navn': 'Gnanesh Chowdary', 'Age': 7, 'Height': 2.79, 'Vekt': 17, 'Adresse': 'Patna',
'Rollno': '004', 'Navn': 'Rohith', 'Age': 9, 'Height': 3.69, 'vekt': 28, 'adresse': 'hyd',
'Rollno': '005', 'Navn': 'Sridevi', 'Age': 37, 'Height': 5.59, 'vekt': 54, 'adresse': 'hyd']]
# Lag DataFrame
df = spark_app.CreateTataFrame (Students1)
# Lag studentdata med 5 rader og 6 attributter
Studenter2 = ['Rollno': '056', 'Navn': 'Vinay', 'Age': 23, 'Height': 5.79, 'vekt': 67, 'adresse': 'tamilnadu',
'Rollno': '045', 'Navn': 'Bhanu', 'Age': 16, 'Height': 3.79, 'vekt': 34, 'adresse': 'hyd',
'Rollno': '032', 'Navn': 'Jyothika Chowdary', 'Age': 7, 'Height': 2.79, 'vekt': 17, 'adresse': 'Delhi']]
# Lag DataFrame
df2 = spark_app.CreateTataFrame (Students2)
# Utfør UnionAll ()
df.UnionAll (DF2).forestilling()
Produksjon:
Konklusjon
I denne artikkelen kan vi legge til to eller flere DataFrames ved hjelp av Union () og UnionAll () -metodene. Funksjonaliteten til begge metodene er den samme og diskutert med eksempler gitt. Vi håper du fant denne artikkelen nyttig. Sjekk ut flere Linux -hint -artikler for tips og opplæringsprogrammer.