I Python er Pyspark en Spark -modul som brukes til å gi en lignende type prosessering som Spark ved hjelp av DataFrame. samle () Metode i Pyspark viser dataene som er til stede i DataFrame Row for Row.
Syntaks:
Dataramme.samle inn()
Eksempel:
I dette eksemplet vil vi lage en Pyspark DataFrame med 6 kolonner og 5 rader og vise DataFrame i et tabellformat ved hjelp av Show () -metoden.
#import pyspaprk -modulen
Importer pyspark
#import SparkSession for å lage en økt
Fra Pyspark.SQL Import SparkSession
#Create en app som heter Linuxhint
Spark_app = SparkSession.bygger.AppName ('Linuxhint').getorCreate ()
# Lag studentdata med 5 rader og 6 attributter
Studenter = ['Rollno': '001', 'Navn': 'Sravan', 'Age': 23, 'Height': 5.79, 'vekt': 67, 'adresse': 'guntur',
'Rollno': '002', 'Navn': 'Ojaswi', 'Age': 16, 'Height': 3.79, 'vekt': 34, 'adresse': 'hyd',
'Rollno': '003', 'Navn': 'Gnanesh Chowdary', 'Age': 7, 'Height': 2.79, 'Vekt': 17, 'Adresse': 'Patna',
'Rollno': '004', 'Navn': 'Rohith', 'Age': 9, 'Height': 3.69, 'vekt': 28, 'adresse': 'hyd',
'Rollno': '005', 'Navn': 'Sridevi', 'Age': 37, 'Height': 5.59, 'vekt': 54, 'adresse': 'hyd']]
# Lag DataFrame
df = spark_app.CreateTataFrame (studenter)
# Dataramme
df.forestilling()
Produksjon:
Eksempel 2:
La oss vise DataFrame ved hjelp av Collect () -metoden
#import pyspaprk -modulen
Importer pyspark
#import SparkSession for å lage en økt
Fra Pyspark.SQL Import SparkSession
#Create en app som heter Linuxhint
Spark_app = SparkSession.bygger.AppName ('Linuxhint').getorCreate ()
# Lag studentdata med 5 rader og 6 attributter
Studenter = ['Rollno': '001', 'Navn': 'Sravan', 'Age': 23, 'Height': 5.79, 'vekt': 67, 'adresse': 'guntur',
'Rollno': '002', 'Navn': 'Ojaswi', 'Age': 16, 'Height': 3.79, 'vekt': 34, 'adresse': 'hyd',
'Rollno': '003', 'Navn': 'Gnanesh Chowdary', 'Age': 7, 'Height': 2.79, 'Vekt': 17, 'Adresse': 'Patna',
'Rollno': '004', 'Navn': 'Rohith', 'Age': 9, 'Height': 3.69, 'vekt': 28, 'adresse': 'hyd',
'Rollno': '005', 'Navn': 'Sridevi', 'Age': 37, 'Height': 5.59, 'vekt': 54, 'adresse': 'hyd']]
# Lag DataFrame
df = spark_app.CreateTataFrame (studenter)
# Vise
df.samle inn()
Produksjon:
[Rad (adresse = 'guntur', alder = 23, høyde = 5.79, navn = 'Sravan', Rollno = '001', vekt = 67),
Rad (adresse = 'hyd', alder = 16, høyde = 3.79, navn = 'Ojaswi', rollno = '002', vekt = 34),
Rad (adresse = 'patna', alder = 7, høyde = 2.79, navn = 'Gnanesh Chowdary', Rollno = '003', vekt = 17),
Rad (adresse = 'hyd', alder = 9, høyde = 3.69, navn = 'Rohith', rollno = '004', vekt = 28),
Rad (adresse = 'hyd', alder = 37, høyde = 5.59, name = 'Sridevi', rollno = '005', vekt = 54)]
Vi kan også bruke til Loop med Collect () -metoden for å iterere rad for rad
Syntaks:
for iterator i DataFrame.samle inn():
Print (Iterator)
For å vise bestemte kolonner, må vi spesifisere kolonnenavnet med iterator ved hjelp av [] operatør
Syntaks:
for iterator i DataFrame.samle inn():
PRINT (Iterator ['Column1'], Iterator ['Column2'], .. .)
Eksempel:
Dette eksemplet vil iterere flere kolonner i en DataFrame med Collect () -metoden.
#import pyspaprk -modulen
Importer pyspark
#import SparkSession for å lage en økt
Fra Pyspark.SQL Import SparkSession
#Create en app som heter Linuxhint
Spark_app = SparkSession.bygger.AppName ('Linuxhint').getorCreate ()
# Lag studentdata med 5 rader og 6 attributter
Studenter = ['Rollno': '001', 'Navn': 'Sravan', 'Age': 23, 'Height': 5.79, 'vekt': 67, 'adresse': 'guntur',
'Rollno': '002', 'Navn': 'Ojaswi', 'Age': 16, 'Height': 3.79, 'vekt': 34, 'adresse': 'hyd',
'Rollno': '003', 'Navn': 'Gnanesh Chowdary', 'Age': 7, 'Height': 2.79, 'Vekt': 17, 'Adresse': 'Patna',
'Rollno': '004', 'Navn': 'Rohith', 'Age': 9, 'Height': 3.69, 'vekt': 28, 'adresse': 'hyd',
'Rollno': '005', 'Navn': 'Sridevi', 'Age': 37, 'Height': 5.59, 'vekt': 54, 'adresse': 'hyd']]
# Lag DataFrame
df = spark_app.CreateTataFrame (studenter)
# Visningsnavnkolonne med for loop
for jeg i df.samle inn():
print (i ['name'])
skrive ut("------------------------------------")
# Vis høyde og vektkolonne med for loop
for jeg i df.samle inn():
print (i ['name'], i ['vekt'])
skrive ut("------------------------------------")
# Vis alle kolonnen med for loop
for jeg i df.samle inn():
trykk (i)
Produksjon:
Sravan
Ojaswi
Gnanesh Chowdary
Rohith
Sridevi
------------------------------------
Sravan 67
Ojaswi 34
Gnanesh Chowdary 17
Rohith 28
Sridevi 54
------------------------------------
Rad (adresse = 'guntur', alder = 23, høyde = 5.79, navn = 'Sravan', Rollno = '001', vekt = 67)
Rad (adresse = 'hyd', alder = 16, høyde = 3.79, navn = 'Ojaswi', rollno = '002', vekt = 34)
Rad (adresse = 'patna', alder = 7, høyde = 2.79, navn = 'Gnanesh Chowdary', Rollno = '003', vekt = 17)
Rad (adresse = 'hyd', alder = 9, høyde = 3.69, navn = 'Rohith', rollno = '004', vekt = 28)
Rad (adresse = 'hyd', alder = 37, høyde = 5.59, navn = 'Sridevi', Rollno = '005', vekt = 54)
Vi kan også få den spesielle raden ved hjelp av Collect () -metoden ved hjelp av en indeks.
I Pyspark DataFrame starter indeksering fra 0.
Syntaks:
Dataramme.samle () [row_index]
Eksempel:
I dette eksemplet samler vi inn første, andre og femte rad.
#import pyspaprk -modulen
Importer pyspark
#import SparkSession for å lage en økt
Fra Pyspark.SQL Import SparkSession
#Create en app som heter Linuxhint
Spark_app = SparkSession.bygger.AppName ('Linuxhint').getorCreate ()
# Lag studentdata med 5 rader og 6 attributter
Studenter = ['Rollno': '001', 'Navn': 'Sravan', 'Age': 23, 'Height': 5.79, 'vekt': 67, 'adresse': 'guntur',
'Rollno': '002', 'Navn': 'Ojaswi', 'Age': 16, 'Height': 3.79, 'vekt': 34, 'adresse': 'hyd',
'Rollno': '003', 'Navn': 'Gnanesh Chowdary', 'Age': 7, 'Height': 2.79, 'Vekt': 17, 'Adresse': 'Patna',
'Rollno': '004', 'Navn': 'Rohith', 'Age': 9, 'Height': 3.69, 'vekt': 28, 'adresse': 'hyd',
'Rollno': '005', 'Navn': 'Sridevi', 'Age': 37, 'Height': 5.59, 'vekt': 54, 'adresse': 'hyd']]
# Lag DataFrame
df = spark_app.CreateTataFrame (studenter)
#display første rad
trykk (df.samle () [0])
#display andre rad
trykk (df.samle () [1])
#display femte rad
trykk (df.samle () [4])
Produksjon:
Rad (adresse = 'guntur', alder = 23, høyde = 5.79, navn = 'Sravan', Rollno = '001', vekt = 67)
Rad (adresse = 'hyd', alder = 16, høyde = 3.79, navn = 'Ojaswi', rollno = '002', vekt = 34)
Rad (adresse = 'hyd', alder = 37, høyde = 5.59, navn = 'Sridevi', Rollno = '005', vekt = 54)
Vi kan også få den spesielle kolonnen på rad ved hjelp av Collect () -metoden ved hjelp av en indeks.
I Pyspark DataFrame starter indeksering fra 0.
Syntaks:
Dataramme.samle () [row_index] [column_index]
Eksempel:
I dette eksemplet skal vi få verdier fra første rad - første kolonne, tredje rad - første kolonne
#import pyspaprk -modulen
Importer pyspark
#import SparkSession for å lage en økt
Fra Pyspark.SQL Import SparkSession
#Create en app som heter Linuxhint
Spark_app = SparkSession.bygger.AppName ('Linuxhint').getorCreate ()
# Lag studentdata med 5 rader og 6 attributter
Studenter = ['Rollno': '001', 'Navn': 'Sravan', 'Age': 23, 'Height': 5.79, 'vekt': 67, 'adresse': 'guntur',
'Rollno': '002', 'Navn': 'Ojaswi', 'Age': 16, 'Height': 3.79, 'vekt': 34, 'adresse': 'hyd',
'Rollno': '003', 'Navn': 'Gnanesh Chowdary', 'Age': 7, 'Height': 2.79, 'Vekt': 17, 'Adresse': 'Patna',
'Rollno': '004', 'Navn': 'Rohith', 'Age': 9, 'Height': 3.69, 'vekt': 28, 'adresse': 'hyd',
'Rollno': '005', 'Navn': 'Sridevi', 'Age': 37, 'Height': 5.59, 'vekt': 54, 'adresse': 'hyd']]
# Lag DataFrame
df = spark_app.CreateTataFrame (studenter)
#display første rad første kolonne
trykk (df.samle () [0] [0])
#display andre rad første kolonne
trykk (df.samle () [2] [0])
Produksjon:
Guntur
Patna
Konklusjon
I denne artikkelen dekket vi bruken av Collect () -metoden med forskjellige scenarier. Til slutt forstår vi at Collect () -metoden brukes til å få datarous for rad i Pyspark DataFrame.