Pyspark RDD - Handlinger

Pyspark RDD - Handlinger
I Python er Pyspark en gnistmodul som brukes til å gi en lignende type prosessering som Spark.

RDD står for spenstige distribuerte datasett. Vi kan kalle RDD som en grunnleggende datastruktur i Apache Spark.

Vi må importere RDD fra Pyspark.RDD -modul.

I Pyspark for å lage en RDD, kan vi bruke parallelliseringsmetoden ().

Syntaks:

Spark_app.SparkContext.parallellisere (data)

Hvor:

Data kan være en enimensjonal (lineære data) eller to dimensjonale data (rad-kolonne data).

RDD -handlinger:

En handling i RDD er en operasjon som brukes på en RDD for å returnere en enkelt verdi. Med andre ord, vi kan si at en handling vil være resultatet av de oppgitte dataene ved å utføre noen operasjoner på den gitte RDD.

La oss se handlingene som utføres på den gitte RDD.

Vi vil diskutere det en etter en.

For alle handlinger vurderte vi studentene RDD som vist nedenfor:

['Rollno': '001', 'Navn': 'Sravan', 'Age': 23, 'Height': 5.79, 'vekt': 67, 'adresse': 'guntur',
'Rollno': '002', 'Navn': 'Ojaswi', 'Age': 16, 'Height': 3.79, 'vekt': 34, 'adresse': 'hyd',
'Rollno': '003', 'Navn': 'Gnanesh Chowdary', 'Age': 7, 'Height': 2.79, 'Vekt': 17, 'Adresse': 'Patna',
'Rollno': '004', 'Navn': 'Rohith', 'Age': 9, 'Height': 3.69, 'vekt': 28, 'adresse': 'hyd',
'Rollno': '005', 'Navn': 'Sridevi', 'Age': 37, 'Height': 5.59, 'vekt': 54, 'adresse': 'hyd']]

samle inn()


samle () Handling i RDD brukes til å returnere dataene fra den gitte RDD.

Syntaks:

RDD_DATA.samle inn()

Hvor, RDD -data er RDD

Eksempel:

I dette eksemplet vil vi se hvordan du utfører Collect () Action on the Students RDD.

#import Pyspark -modulen
Importer pyspark
#import SparkSession for å lage en økt
Fra Pyspark.SQL Import SparkSession
# Importer RDD fra Pyspark.RDD
Fra Pyspark.RDD Import RDD
#Create en app som heter Linuxhint
Spark_app = SparkSession.bygger.AppName ('Linuxhint').getorCreate ()
# Lag studentdata med 5 rader og 6 attributter
Studenter = spark_app.SparkContext.Parallelize (['Rollno': '001', 'Navn': 'Sravan', 'Age': 23,
'Høyde': 5.79, 'vekt': 67, 'adresse': 'guntur',
'Rollno': '002', 'Navn': 'Ojaswi', 'Age': 16, 'Height': 3.79, 'vekt': 34, 'adresse': 'hyd',
'Rollno': '003', 'Navn': 'Gnanesh Chowdary', 'Age': 7, 'Height': 2.79, 'Vekt': 17, 'Adresse': 'Patna',
'Rollno': '004', 'Navn': 'Rohith', 'Age': 9, 'Height': 3.69, 'vekt': 28, 'adresse': 'hyd',
'Rollno': '005', 'Navn': 'Sridevi', 'Age': 37, 'Height': 5.59, 'vekt': 54, 'adresse': 'hyd'])
#Perform samlingen
trykk (studenter.samle inn())

Produksjon:

['Rollno': '001', 'Navn': 'Sravan', 'Age': 23, 'Height': 5.79, 'vekt': 67, 'adresse': 'guntur',
'Rollno': '002', 'Navn': 'Ojaswi', 'Age': 16, 'Height': 3.79, 'vekt': 34, 'adresse': 'hyd',
'Rollno': '003', 'Navn': 'Gnanesh Chowdary', 'Age': 7, 'Height': 2.79, 'Vekt': 17, 'Adresse': 'Patna',
'Rollno': '004', 'Navn': 'Rohith', 'Age': 9, 'Height': 3.69, 'vekt': 28, 'adresse': 'hyd',
'Rollno': '005', 'Navn': 'Sridevi', 'Age': 37, 'Height': 5.59, 'vekt': 54, 'adresse': 'hyd']]

Du kan merke at alle dataene returneres med Collect () -metoden.

2. telle()

Count () Handling i RDD brukes til å returnere det totale antall elementer/verdier fra den gitte RDD.

Syntaks:

RDD_DATA.telle()

Der RDD -data er RDD

Eksempel:

I dette eksemplet vil vi se hvordan du utfører count () handling på studentene RDD:

#import Pyspark -modulen
Importer pyspark
#import SparkSession for å lage en økt
Fra Pyspark.SQL Import SparkSession
# Importer RDD fra Pyspark.RDD
Fra Pyspark.RDD Import RDD
#Create en app som heter Linuxhint
Spark_app = SparkSession.bygger.AppName ('Linuxhint').getorCreate ()
# Lag studentdata med 5 rader og 6 attributter
Studenter = spark_app.SparkContext.Parallelize (['Rollno': '001', 'Navn': 'Sravan', 'Age': 23,
'Høyde': 5.79, 'vekt': 67, 'adresse': 'guntur',
'Rollno': '002', 'Navn': 'Ojaswi', 'Age': 16, 'Height': 3.79, 'vekt': 34, 'adresse': 'hyd',
'Rollno': '003', 'Navn': 'Gnanesh Chowdary', 'Age': 7, 'Height': 2.79, 'Vekt': 17, 'Adresse': 'Patna',
'Rollno': '004', 'Navn': 'Rohith', 'Age': 9, 'Height': 3.69, 'vekt': 28, 'adresse': 'hyd',
'Rollno': '005', 'Navn': 'Sridevi', 'Age': 37, 'Height': 5.59, 'vekt': 54, 'adresse': 'hyd'])
#Perform Count Action
trykk (studenter.telle())

Produksjon:

5

Du kan legge merke til at det totale antall elementer returneres med count () -metoden.

3. først()

First () Handling i RDD brukes til å returnere det første elementet/verdien fra den gitte RDD.

Syntaks:

RDD_DATA.først()

Der RDD -data er RDD

Eksempel:

I dette eksemplet vil vi se hvordan vi skal utføre første () handling på studentene RDD.

#import Pyspark -modulen
Importer pyspark
#import SparkSession for å lage en økt
Fra Pyspark.SQL Import SparkSession
# Importer RDD fra Pyspark.RDD
Fra Pyspark.RDD Import RDD
#Create en app som heter Linuxhint
Spark_app = SparkSession.bygger.AppName ('Linuxhint').getorCreate ()
# Lag studentdata med 5 rader og 6 attributter
Studenter = spark_app.SparkContext.Parallelize (['Rollno': '001', 'Navn': 'Sravan', 'Age': 23,
'Høyde': 5.79, 'vekt': 67, 'adresse': 'guntur',
'Rollno': '002', 'Navn': 'Ojaswi', 'Age': 16, 'Height': 3.79, 'vekt': 34, 'adresse': 'hyd',
'Rollno': '003', 'Navn': 'Gnanesh Chowdary', 'Age': 7, 'Height': 2.79, 'Vekt': 17, 'Adresse': 'Patna',
'Rollno': '004', 'Navn': 'Rohith', 'Age': 9, 'Height': 3.69, 'vekt': 28, 'adresse': 'hyd',
'Rollno': '005', 'Navn': 'Sridevi', 'Age': 37, 'Height': 5.59, 'vekt': 54, 'adresse': 'hyd'])
#Apply First () Handling
trykk (studenter.først())

Produksjon:

'Rollno': '001', 'Navn': 'Sravan', 'Age': 23, 'Height': 5.79, 'vekt': 67, 'adresse': 'guntur'

Du kan merke at det første elementet returneres med den første () metoden.

4. ta()

ta () handling i RDD brukes til å returnere n -verdiene fra toppen av den gitte RDD. Det tar en parameter - n. Der det refererer til et heltall som spesifiserer antall elementer som skal returneres fra RDD.

Syntaks:

RDD_DATA.ta (n)

Parameter:

N- refererer til et heltall som spesifiserer antall elementer som skal returneres fra RDD.

Eksempel:

I dette eksemplet vil vi se hvordan vi skal utføre Take () Action on the Students RDD ved å returnere bare 2 verdier.

#import Pyspark -modulen
Importer pyspark
#import SparkSession for å lage en økt
Fra Pyspark.SQL Import SparkSession
# Importer RDD fra Pyspark.RDD
Fra Pyspark.RDD Import RDD
#Create en app som heter Linuxhint
Spark_app = SparkSession.bygger.AppName ('Linuxhint').getorCreate ()
# Lag studentdata med 5 rader og 6 attributter
Studenter = spark_app.SparkContext.Parallelize (['Rollno': '001', 'Navn': 'Sravan', 'Age': 23,
'Høyde': 5.79, 'vekt': 67, 'adresse': 'guntur',
'Rollno': '002', 'Navn': 'Ojaswi', 'Age': 16, 'Height': 3.79, 'vekt': 34, 'adresse': 'hyd',
'Rollno': '003', 'Navn': 'Gnanesh Chowdary', 'Age': 7, 'Height': 2.79, 'Vekt': 17, 'Adresse': 'Patna',
'Rollno': '004', 'Navn': 'Rohith', 'Age': 9, 'Height': 3.69, 'vekt': 28, 'adresse': 'hyd',
'Rollno': '005', 'Navn': 'Sridevi', 'Age': 37, 'Height': 5.59, 'vekt': 54, 'adresse': 'hyd'])
#perform ta grep for å returnere bare topp 2 rader
trykk (studenter.ta (2))
Produksjon:
['Rollno': '001', 'Navn': 'Sravan', 'Age': 23, 'Height': 5.79, 'vekt': 67, 'adresse': 'guntur',
'Rollno': '002', 'Navn': 'Ojaswi', 'Age': 16, 'Height': 3.79, 'vekt': 34, 'adresse': 'hyd']]

Du kan legge merke til at de to første elementene blir returnert med take () -metoden.

5. SAVESTEXTFILE ()

SAVESTEXTFILE () Handling brukes til å lagre RDD -dataene i en tekstfil. Det tar filnavnet som parameter slik at filen lagres med det spesifiserte filnavnet.

Syntaks:

RDD_DATA.SAVESTEXTFILE ('File_name.tekst')

Parameter:

File_name - Filen lagres med det spesifiserte filnavnet.

Eksempel:

I dette eksemplet vil vi se hvordan du utfører SaveSeStextFile () handling på studentene RDD ved å lagre filen.

#import Pyspark -modulen
Importer pyspark
#import SparkSession for å lage en økt
Fra Pyspark.SQL Import SparkSession
# Importer RDD fra Pyspark.RDD
Fra Pyspark.RDD Import RDD
#Create en app som heter Linuxhint
Spark_app = SparkSession.bygger.AppName ('Linuxhint').getorCreate ()
# Lag studentdata med 5 rader og 6 attributter
Studenter = spark_app.SparkContext.Parallelize (['Rollno': '001', 'Navn': 'Sravan', 'Age': 23,
'Høyde': 5.79, 'vekt': 67, 'adresse': 'guntur',
'Rollno': '002', 'Navn': 'Ojaswi', 'Age': 16, 'Height': 3.79, 'vekt': 34, 'adresse': 'hyd',
'Rollno': '003', 'Navn': 'Gnanesh Chowdary', 'Age': 7, 'Height': 2.79, 'Vekt': 17, 'Adresse': 'Patna',
'Rollno': '004', 'Navn': 'Rohith', 'Age': 9, 'Height': 3.69, 'vekt': 28, 'adresse': 'hyd',
'Rollno': '005', 'Navn': 'Sridevi', 'Age': 37, 'Height': 5.59, 'vekt': 54, 'adresse': 'hyd'])
#Perform SAVESTEXTFILE () Handling for å lagre RDD i tekstfil.
studenter.SAVESTEXTFIL ('Students_file.tekst')

Produksjon:

Du kan se at students_file begynner å laste ned.

Konklusjon

I denne pyspark -opplæringen ser du hva en RDD er og hvordan du utfører forskjellige tilgjengelige tilgjengelige tilgjengelige på RDD. Handlingene som utføres på RDD er: count () for å returnere det totale antall elementer i RDD, samle () for å returnere verdiene som er til stede i RDD, først (), og ta () for å returnere første verdsatte og SaveastExtFile () handling For å lagre RDD i en tekstfil.