Ulike måter å lage Pyspark DataFrame

Ulike måter å lage Pyspark DataFrame

I Python er Pyspark en Spark -modul som brukes til å gi en lignende type prosessering som Spark ved hjelp av DataFrame. I denne artikkelen vil vi diskutere flere måter å lage Pyspark DataFrame.

Metode 1: Bruke ordbok

Dictionary er en datastruktur som vil lagre dataene i nøkkel, verdiparformat.

Nøkkel fungerer som kolonne og verdi fungerer som radverdi/data i Pyspark DataFrame. Dette må sendes inne på listen.

Struktur:

['nøkkel': verdi]

Vi kan også tilby flere ordbøker.

Struktur:

['nøkkel': verdi, 'nøkkel': verdi, .. .,'nøkkel': verdi]

Eksempel:

Her skal vi lage Pyspark DataFrame med 5 rader og 6 kolonner gjennom ordboken. Til slutt viser vi DataFrame ved hjelp av show () -metoden.

#import Pyspark -modulen
Importer pyspark
#import SparkSession for å lage en økt
Fra Pyspark.SQL Import SparkSession
#Create en app som heter Linuxhint
Spark_app = SparkSession.bygger.AppName ('Linuxhint').getorCreate ()
# Lag studentdata med 5 rader og 6 attributter
Studenter = ['Rollno': '001', 'Navn': 'Sravan', 'Age': 23, 'Height': 5.79, 'vekt': 67, 'adresse': 'guntur',
'Rollno': '002', 'Navn': 'Ojaswi', 'Age': 16, 'Height': 3.79, 'vekt': 34, 'adresse': 'hyd',
'Rollno': '003', 'Navn': 'Gnanesh Chowdary', 'Age': 7, 'Height': 2.79, 'Vekt': 17, 'Adresse': 'Patna',
'Rollno': '004', 'Navn': 'Rohith', 'Age': 9, 'Height': 3.69, 'vekt': 28, 'adresse': 'hyd',
'Rollno': '005', 'Navn': 'Sridevi', 'Age': 37, 'Height': 5.59, 'vekt': 54, 'adresse': 'hyd']]
# Lag DataFrame
df = spark_app.CreateTataFrame (studenter)
#Display DataFrame
df.forestilling()

Produksjon:

Metode 2: Bruke liste over tuples

Tuple er en datastruktur som vil lagre dataene i ().

Vi kan passere radene atskilt med komma i en tuple omgitt av en liste.

Struktur:

[(verdi1, verdi2,.,valuen)]

Vi kan også gi flere tuples i en liste.

Struktur:

[(verdi1, verdi2,.,Valuen), (verdi1, verdi2,.,Valuen),…, (verdi1, verdi2,.,valuen)]

Vi må oppgi kolonnenavn gjennom en liste mens vi oppretter DataFrame.

Syntaks:

Column_names = ['Column1', 'Column2', .. .'kolonne']
Spark_app.createTataFrame (list_of_tuple, column_names)

Eksempel:

Her skal vi lage Pyspark DataFrame med 5 rader og 6 kolonner gjennom ordboken. Til slutt viser vi DataFrame ved hjelp av show () -metoden.

#import Pyspark -modulen
Importer pyspark
#import SparkSession for å lage en økt
Fra Pyspark.SQL Import SparkSession
#Create en app som heter Linuxhint
Spark_app = SparkSession.bygger.AppName ('Linuxhint').getorCreate ()
# Lag studentdata med 5 rader og 6 attributter
Studenter = [('001', 'Sravan', 23,5.79,67, 'Guntur'),
('002', 'Ojaswi', 16,3.79,34, 'hyd'),
('003', 'Gnanesh Chowdary', 7,2.79,17, 'Patna'),
('004', 'Rohith', 9,3.69,28, 'hyd'),
('005', 'Sridevi', 37,5.59,54, 'hyd')]
#Tilbud kolonnenavnene
Column_Names = ['Rollno', 'Name', 'Age', 'Height', 'Weight', 'Address']
# Lag DataFrame
df = spark_app.CreateTataFrame (Studenter, Column_Names)
#Display DataFrame
df.forestilling()

Produksjon:

Metode 3: Bruke tuple av lister

Liste er en datastruktur som vil lagre dataene i [].

Vi kan passere radene atskilt med komma i en liste omgitt av en tuple.

Struktur:

([Verdi1, verdi2,.,Valuen])

Vi kan også tilby flere lister i en tuple.

Struktur:

([Verdi1, verdi2,.,Valuen], [Value1, Value2,.,Valuen],…, [verdi1, verdi2,.,Valuen])

Vi må oppgi kolonnenavn gjennom en liste mens vi oppretter DataFrame.

Syntaks:

Column_names = ['Column1', 'Column2', .. .'kolonne']
Spark_app.CreateTataFrame (TUPLE_OF_LIST, COLUMN_NAMES)

Eksempel:

Her skal vi lage Pyspark DataFrame med 5 rader og 6 kolonner gjennom ordboken. Til slutt viser vi DataFrame ved hjelp av show () -metoden.

#import Pyspark -modulen
Importer pyspark
#import SparkSession for å lage en økt
Fra Pyspark.SQL Import SparkSession
#Create en app som heter Linuxhint
Spark_app = SparkSession.bygger.AppName ('Linuxhint').getorCreate ()
# Lag studentdata med 5 rader og 6 attributter
Studenter = (['001', 'Sravan', 23,5.79,67, 'Guntur'],
['002', 'Ojaswi', 16,3.79,34, 'hyd'],
['003', 'Gnanesh Chowdary', 7,2.79,17, 'Patna'],
['004', 'Rohith', 9,3.69,28, 'hyd'],
['005', 'Sridevi', 37,5.59,54, 'hyd'])
#Tilbud kolonnenavnene
Column_Names = ['Rollno', 'Name', 'Age', 'Height', 'Weight', 'Address']
# Lag DataFrame
df = spark_app.CreateTataFrame (Studenter, Column_Names)
#Display DataFrame
df.forestilling()

Produksjon:

Metode 4: Bruke nestet liste

Liste er en datastruktur som vil lagre dataene i [].

Så vi kan passere radene atskilt med komma i en liste omgitt av en liste.

Struktur:

[[verdi1, verdi2,.,valuen]]

Vi kan også oppgi flere lister i en liste.

Struktur:

[[verdi1, verdi2,.,Valuen], [Value1, Value2,.,Valuen],…, [verdi1, verdi2,.,valuen]]

Vi må oppgi kolonnenavn gjennom en liste mens vi oppretter DataFrame.

Syntaks:

Column_names = ['Column1', 'Column2', .. .'kolonne']
Spark_app.CreateTataFrame (Nested_list, Column_Names)

Eksempel:

Her skal vi lage Pyspark DataFrame med 5 rader og 6 kolonner gjennom ordboken. Til slutt viser vi DataFrame ved hjelp av show () -metoden.

#import Pyspark -modulen
Importer pyspark
#import SparkSession for å lage en økt
Fra Pyspark.SQL Import SparkSession
#Create en app som heter Linuxhint
Spark_app = SparkSession.bygger.AppName ('Linuxhint').getorCreate ()
# Lag studentdata med 5 rader og 6 attributter
Studenter = [['001', 'Sravan', 23,5.79,67, 'Guntur'],
['002', 'Ojaswi', 16,3.79,34, 'hyd'],
['003', 'Gnanesh Chowdary', 7,2.79,17, 'Patna'],
['004', 'Rohith', 9,3.69,28, 'hyd'],
['005', 'Sridevi', 37,5.59,54, 'hyd']]
#Tilbud kolonnenavnene
Column_Names = ['Rollno', 'Name', 'Age', 'Height', 'Weight', 'Address']
# Lag DataFrame
df = spark_app.CreateTataFrame (Studenter, Column_Names)
#Display DataFrame
df.forestilling()

Produksjon:

Metode 5: Bruke nestet tuple

Struktur:

((Verdi1, verdi2,.,Valuen))

Vi kan også tilby flere tuples i en tuple.

Struktur:

((Verdi1, verdi2,.,Valuen), (verdi1, verdi2,.,Valuen),…, (verdi1, verdi2,.,Valuen))

Vi må oppgi kolonnenavn gjennom en liste mens vi oppretter DataFrame.

Syntaks:

Column_names = ['Column1', 'Column2', .. .'kolonne']
Spark_app.CreateTataFrame (Nested_tuple, Column_Names)

Eksempel:

Her skal vi lage Pyspark DataFrame med 5 rader og 6 kolonner gjennom ordboken. Til slutt viser vi DataFrame ved hjelp av show () -metoden.

#import Pyspark -modulen
Importer pyspark
#import SparkSession for å lage en økt
Fra Pyspark.SQL Import SparkSession
#Create en app som heter Linuxhint
Spark_app = SparkSession.bygger.AppName ('Linuxhint').getorCreate ()
# Lag studentdata med 5 rader og 6 attributter
Studenter = (('001', 'Sravan', 23,5.79,67, 'Guntur'),
('002', 'Ojaswi', 16,3.79,34, 'hyd'),
('003', 'Gnanesh Chowdary', 7,2.79,17, 'Patna'),
('004', 'Rohith', 9,3.69,28, 'hyd'),
('005', 'Sridevi', 37,5.59,54, 'hyd'))
#Tilbud kolonnenavnene
Column_Names = ['Rollno', 'Name', 'Age', 'Height', 'Weight', 'Address']
# Lag DataFrame
df = spark_app.CreateTataFrame (Studenter, Column_Names)
#Display DataFrame
df.forestilling()

Produksjon:

Konklusjon

I denne opplæringen diskuterte vi fem metoder for å lage PySpark DataFrame: Liste over tuples, tuple av lister, nestet tuple, nestet listebruk og kolonneliste for å oppgi kolonnenavn. Det er ikke nødvendig å oppgi listen over kolonnens navn mens du oppretter Pyspark DataFrame ved hjelp av Dictionary.