Pyspark RDD - Navn og setName

Pyspark RDD - Navn og setName
I Python er Pyspark en gnistmodul som brukes til å gi en lignende type prosessering som Spark.

RDD står for spenstige distribuerte datasett. Vi kan kalle RDD som en grunnleggende datastruktur i Apache Spark. Par RDD lagrer elementene/verdiene i form av nøkkelverdipar. Det vil lagre nøkkelverdiparet i formatet (nøkkel, verdi).

Vi må importere RDD fra Pyspark.RDD -modul.

I Pyspark for å lage en RDD, kan vi bruke parallelliseringsmetoden ().

Syntaks:

Spark_app.SparkContext.parallellisere (data)

Hvor data kan være en endimensjonal (lineære data) eller to dimensjonale data (rad-kolonne data).

Pyspark RDD - SetName ()

setName () i Pyspark RDD brukes til å angi navnet på RDD. Det tar navnet som en parameter.

Syntaks:

RDD_DATA.setName ('rdd_name')

Parameter:

'Rdd_name' er navnet på RDD som skal tildeles.

Eksempel:

I dette eksemplet oppretter vi en RDD som heter Subjects_rating og setter navnet på denne RDD til Sub_rate.

#import Pyspark -modulen
Importer pyspark
#import SparkSession for å lage en økt
Fra Pyspark.SQL Import SparkSession
# Importer RDD fra Pyspark.RDD
Fra Pyspark.RDD Import RDD
#Create en app som heter Linuxhint
Spark_app = SparkSession.bygger.AppName ('Linuxhint').getorCreate ()
# Opprett 6 - Fag- og rangeringspar
emner_rating = spark_app.SparkContext.Parallellize ([('Python', 4), ('JavaScript', 2), ('Linux', 5), ('C#', 4), ('JavaScript', 4), ('Python', 3) ])
#sett RDD -navnet til Sub_rate
Resultat = emner_rering.setName ('sub_rate')
#Display the RDD
trykk (resultat.samle inn())

Produksjon:

[('Python', 4), ('JavaScript', 2), ('Linux', 5), ('C#', 4), ('JavaScript', 4), ('Python', 3)]

Vi kan se at RDD er satt til Sub_Rate og viser RDD ved hjelp av Collect () -metoden.

Pyspark RDD - Navn ()

Navn () I Pyspark RDD brukes til å returnere navnet på RDD. Det tar ingen parametere.

Syntaks:

RDD -data.Navn()

Eksempel:

I dette eksemplet oppretter vi en RDD som heter Subjects_rating og setter navnet på denne RDD til Sub_rate og deretter få navnet.

#import Pyspark -modulen
Importer pyspark
#import SparkSession for å lage en økt
Fra Pyspark.SQL Import SparkSession
# Importer RDD fra Pyspark.RDD
Fra Pyspark.RDD Import RDD
#Create en app som heter Linuxhint
Spark_app = SparkSession.bygger.AppName ('Linuxhint').getorCreate ()
# Opprett 6 - Fag- og rangeringspar
emner_rating = spark_app.SparkContext.Parallellize ([('Python', 4), ('JavaScript', 2), ('Linux', 5), ('C#', 4), ('JavaScript', 4), ('Python', 3) ])
#sett RDD -navnet til Sub_rate
Resultat = emner_rering.setName ('sub_rate')
#Return RDD -navnet
trykk (resultat.Navn())

Produksjon:

Sub_rate

Vi kan se at navnet på RDD er sub_rate.

Konklusjon

I denne artikkelen så vi hvordan du angir navnet for en RDD ved hjelp av setName () og hvordan du kan returnere navnet på en RDD ved hjelp av navnet () -metoden.