RDD står for spenstige distribuerte datasett. Vi kan kalle RDD som en grunnleggende datastruktur i Apache Spark. Par RDD lagrer elementene/verdiene i form av nøkkelverdipar. Det vil lagre nøkkelverdiparet i formatet (nøkkel, verdi).
Vi må importere RDD fra Pyspark.RDD -modul.
I Pyspark for å lage en RDD, kan vi bruke parallelliseringsmetoden ().
Syntaks:
Spark_app.SparkContext.parallellisere (data)Hvor data kan være en endimensjonal (lineære data) eller to dimensjonale data (rad-kolonne data).
Pyspark RDD - SetName ()
setName () i Pyspark RDD brukes til å angi navnet på RDD. Det tar navnet som en parameter.
Syntaks:
RDD_DATA.setName ('rdd_name')Parameter:
'Rdd_name' er navnet på RDD som skal tildeles.
Eksempel:
I dette eksemplet oppretter vi en RDD som heter Subjects_rating og setter navnet på denne RDD til Sub_rate.
#import Pyspark -modulenProduksjon:
[('Python', 4), ('JavaScript', 2), ('Linux', 5), ('C#', 4), ('JavaScript', 4), ('Python', 3)]Vi kan se at RDD er satt til Sub_Rate og viser RDD ved hjelp av Collect () -metoden.
Pyspark RDD - Navn ()
Navn () I Pyspark RDD brukes til å returnere navnet på RDD. Det tar ingen parametere.
Syntaks:
RDD -data.Navn()Eksempel:
I dette eksemplet oppretter vi en RDD som heter Subjects_rating og setter navnet på denne RDD til Sub_rate og deretter få navnet.
#import Pyspark -modulenProduksjon:
Sub_rateVi kan se at navnet på RDD er sub_rate.
Konklusjon
I denne artikkelen så vi hvordan du angir navnet for en RDD ved hjelp av setName () og hvordan du kan returnere navnet på en RDD ved hjelp av navnet () -metoden.