I Python er Pyspark en Spark -modul som brukes til å gi en lignende type prosessering som Spark ved hjelp av DataFrame. I denne artikkelen vil vi diskutere flere måter å lage Pyspark DataFrame.
Metode 1: Bruke ordbok
Dictionary er en datastruktur som vil lagre dataene i nøkkel, verdiparformat.
Nøkkel fungerer som kolonne og verdi fungerer som radverdi/data i Pyspark DataFrame. Dette må sendes inne på listen.
Struktur:
['nøkkel': verdi]
Vi kan også tilby flere ordbøker.
Struktur:
['nøkkel': verdi, 'nøkkel': verdi, .. .,'nøkkel': verdi]
Eksempel:
Her skal vi lage Pyspark DataFrame med 5 rader og 6 kolonner gjennom ordboken. Til slutt viser vi DataFrame ved hjelp av show () -metoden.
#import Pyspark -modulen
Importer pyspark
#import SparkSession for å lage en økt
Fra Pyspark.SQL Import SparkSession
#Create en app som heter Linuxhint
Spark_app = SparkSession.bygger.AppName ('Linuxhint').getorCreate ()
# Lag studentdata med 5 rader og 6 attributter
Studenter = ['Rollno': '001', 'Navn': 'Sravan', 'Age': 23, 'Height': 5.79, 'vekt': 67, 'adresse': 'guntur',
'Rollno': '002', 'Navn': 'Ojaswi', 'Age': 16, 'Height': 3.79, 'vekt': 34, 'adresse': 'hyd',
'Rollno': '003', 'Navn': 'Gnanesh Chowdary', 'Age': 7, 'Height': 2.79, 'Vekt': 17, 'Adresse': 'Patna',
'Rollno': '004', 'Navn': 'Rohith', 'Age': 9, 'Height': 3.69, 'vekt': 28, 'adresse': 'hyd',
'Rollno': '005', 'Navn': 'Sridevi', 'Age': 37, 'Height': 5.59, 'vekt': 54, 'adresse': 'hyd']]
# Lag DataFrame
df = spark_app.CreateTataFrame (studenter)
#Display DataFrame
df.forestilling()
Produksjon:
Metode 2: Bruke liste over tuples
Tuple er en datastruktur som vil lagre dataene i ().
Vi kan passere radene atskilt med komma i en tuple omgitt av en liste.
Struktur:
[(verdi1, verdi2,.,valuen)]
Vi kan også gi flere tuples i en liste.
Struktur:
[(verdi1, verdi2,.,Valuen), (verdi1, verdi2,.,Valuen),…, (verdi1, verdi2,.,valuen)]
Vi må oppgi kolonnenavn gjennom en liste mens vi oppretter DataFrame.
Syntaks:
Column_names = ['Column1', 'Column2', .. .'kolonne']
Spark_app.createTataFrame (list_of_tuple, column_names)
Eksempel:
Her skal vi lage Pyspark DataFrame med 5 rader og 6 kolonner gjennom ordboken. Til slutt viser vi DataFrame ved hjelp av show () -metoden.
#import Pyspark -modulen
Importer pyspark
#import SparkSession for å lage en økt
Fra Pyspark.SQL Import SparkSession
#Create en app som heter Linuxhint
Spark_app = SparkSession.bygger.AppName ('Linuxhint').getorCreate ()
# Lag studentdata med 5 rader og 6 attributter
Studenter = [('001', 'Sravan', 23,5.79,67, 'Guntur'),
('002', 'Ojaswi', 16,3.79,34, 'hyd'),
('003', 'Gnanesh Chowdary', 7,2.79,17, 'Patna'),
('004', 'Rohith', 9,3.69,28, 'hyd'),
('005', 'Sridevi', 37,5.59,54, 'hyd')]
#Tilbud kolonnenavnene
Column_Names = ['Rollno', 'Name', 'Age', 'Height', 'Weight', 'Address']
# Lag DataFrame
df = spark_app.CreateTataFrame (Studenter, Column_Names)
#Display DataFrame
df.forestilling()
Produksjon:
Metode 3: Bruke tuple av lister
Liste er en datastruktur som vil lagre dataene i [].
Vi kan passere radene atskilt med komma i en liste omgitt av en tuple.
Struktur:
([Verdi1, verdi2,.,Valuen])
Vi kan også tilby flere lister i en tuple.
Struktur:
([Verdi1, verdi2,.,Valuen], [Value1, Value2,.,Valuen],…, [verdi1, verdi2,.,Valuen])
Vi må oppgi kolonnenavn gjennom en liste mens vi oppretter DataFrame.
Syntaks:
Column_names = ['Column1', 'Column2', .. .'kolonne']
Spark_app.CreateTataFrame (TUPLE_OF_LIST, COLUMN_NAMES)
Eksempel:
Her skal vi lage Pyspark DataFrame med 5 rader og 6 kolonner gjennom ordboken. Til slutt viser vi DataFrame ved hjelp av show () -metoden.
#import Pyspark -modulen
Importer pyspark
#import SparkSession for å lage en økt
Fra Pyspark.SQL Import SparkSession
#Create en app som heter Linuxhint
Spark_app = SparkSession.bygger.AppName ('Linuxhint').getorCreate ()
# Lag studentdata med 5 rader og 6 attributter
Studenter = (['001', 'Sravan', 23,5.79,67, 'Guntur'],
['002', 'Ojaswi', 16,3.79,34, 'hyd'],
['003', 'Gnanesh Chowdary', 7,2.79,17, 'Patna'],
['004', 'Rohith', 9,3.69,28, 'hyd'],
['005', 'Sridevi', 37,5.59,54, 'hyd'])
#Tilbud kolonnenavnene
Column_Names = ['Rollno', 'Name', 'Age', 'Height', 'Weight', 'Address']
# Lag DataFrame
df = spark_app.CreateTataFrame (Studenter, Column_Names)
#Display DataFrame
df.forestilling()
Produksjon:
Metode 4: Bruke nestet liste
Liste er en datastruktur som vil lagre dataene i [].
Så vi kan passere radene atskilt med komma i en liste omgitt av en liste.
Struktur:
[[verdi1, verdi2,.,valuen]]
Vi kan også oppgi flere lister i en liste.
Struktur:
[[verdi1, verdi2,.,Valuen], [Value1, Value2,.,Valuen],…, [verdi1, verdi2,.,valuen]]
Vi må oppgi kolonnenavn gjennom en liste mens vi oppretter DataFrame.
Syntaks:
Column_names = ['Column1', 'Column2', .. .'kolonne']
Spark_app.CreateTataFrame (Nested_list, Column_Names)
Eksempel:
Her skal vi lage Pyspark DataFrame med 5 rader og 6 kolonner gjennom ordboken. Til slutt viser vi DataFrame ved hjelp av show () -metoden.
#import Pyspark -modulen
Importer pyspark
#import SparkSession for å lage en økt
Fra Pyspark.SQL Import SparkSession
#Create en app som heter Linuxhint
Spark_app = SparkSession.bygger.AppName ('Linuxhint').getorCreate ()
# Lag studentdata med 5 rader og 6 attributter
Studenter = [['001', 'Sravan', 23,5.79,67, 'Guntur'],
['002', 'Ojaswi', 16,3.79,34, 'hyd'],
['003', 'Gnanesh Chowdary', 7,2.79,17, 'Patna'],
['004', 'Rohith', 9,3.69,28, 'hyd'],
['005', 'Sridevi', 37,5.59,54, 'hyd']]
#Tilbud kolonnenavnene
Column_Names = ['Rollno', 'Name', 'Age', 'Height', 'Weight', 'Address']
# Lag DataFrame
df = spark_app.CreateTataFrame (Studenter, Column_Names)
#Display DataFrame
df.forestilling()
Produksjon:
Metode 5: Bruke nestet tuple
Struktur:
((Verdi1, verdi2,.,Valuen))
Vi kan også tilby flere tuples i en tuple.
Struktur:
((Verdi1, verdi2,.,Valuen), (verdi1, verdi2,.,Valuen),…, (verdi1, verdi2,.,Valuen))
Vi må oppgi kolonnenavn gjennom en liste mens vi oppretter DataFrame.
Syntaks:
Column_names = ['Column1', 'Column2', .. .'kolonne']
Spark_app.CreateTataFrame (Nested_tuple, Column_Names)
Eksempel:
Her skal vi lage Pyspark DataFrame med 5 rader og 6 kolonner gjennom ordboken. Til slutt viser vi DataFrame ved hjelp av show () -metoden.
#import Pyspark -modulen
Importer pyspark
#import SparkSession for å lage en økt
Fra Pyspark.SQL Import SparkSession
#Create en app som heter Linuxhint
Spark_app = SparkSession.bygger.AppName ('Linuxhint').getorCreate ()
# Lag studentdata med 5 rader og 6 attributter
Studenter = (('001', 'Sravan', 23,5.79,67, 'Guntur'),
('002', 'Ojaswi', 16,3.79,34, 'hyd'),
('003', 'Gnanesh Chowdary', 7,2.79,17, 'Patna'),
('004', 'Rohith', 9,3.69,28, 'hyd'),
('005', 'Sridevi', 37,5.59,54, 'hyd'))
#Tilbud kolonnenavnene
Column_Names = ['Rollno', 'Name', 'Age', 'Height', 'Weight', 'Address']
# Lag DataFrame
df = spark_app.CreateTataFrame (Studenter, Column_Names)
#Display DataFrame
df.forestilling()
Produksjon:
Konklusjon
I denne opplæringen diskuterte vi fem metoder for å lage PySpark DataFrame: Liste over tuples, tuple av lister, nestet tuple, nestet listebruk og kolonneliste for å oppgi kolonnenavn. Det er ikke nødvendig å oppgi listen over kolonnens navn mens du oppretter Pyspark DataFrame ved hjelp av Dictionary.