RDD står for spenstige distribuerte datasett. Vi kan kalle RDD som en grunnleggende datastruktur i Apache Spark.
Vi må importere RDD fra Pyspark.RDD -modul.
I Pyspark for å lage en RDD, kan vi bruke parallelliseringsmetoden ().
Syntaks:
Spark_app.SparkContext.parallellisere (data)Hvor:
Data kan være en enimensjonal (lineære data) eller to dimensjonale data (rad-kolonne data).
I denne Pyspark RDD -opplæringen vil vi se hvordan vi kan utføre forskjellige aggregeringsfunksjoner på Pyspark RDD.
1. sum()
sum () brukes til å returnere den totale (sum) verdien i RDD. Det tar ingen parametere.
Syntaks:
RDD_DATA.sum()Eksempel:
I dette eksemplet oppretter vi en RDD som heter Student_marks med 20 elementer og returnerer summen av totale elementer fra en RDD.
#import Pyspark -modulenProduksjon:
1112Fra output ovenfor kan vi se at den totale summen av elementer i RDD er 1112.
2. min ()
min () brukes til å returnere minimumsverdien fra RDD. Det tar ingen parametere.
Syntaks:
RDD_DATA.min ()Eksempel:
I dette eksemplet oppretter vi en RDD som heter Student_marks med 20 elementer og returnerer minimumsverdien fra en RDD.
#import Pyspark -modulenProduksjon:
21Fra output ovenfor kan vi se at minimumsverdien i RDD er 21.
3. Max ()
Max () brukes til å returnere maksimalverdien fra RDD. Det tar ingen parametere.
Syntaks:
RDD_DATA.Max ()Eksempel:
I dette eksemplet lager vi en RDD som heter Student_marks med 20 elementer og returnerer maksimalverdien fra en RDD.
#import Pyspark -modulenProduksjon
100Fra output ovenfor kan vi se at den maksimale verdien i RDD er 100.
mener()
Gjennomsnitt () brukes til å returnere den gjennomsnittlige (gjennomsnittlige) verdien i RDD. Det tar ingen parametere.
Syntaks:
RDD_DATA.mener()Eksempel:
I dette eksemplet lager vi en RDD som heter Student_marks med 20 elementer og returnerer gjennomsnittet av elementer fra en RDD.
#import Pyspark -modulenProduksjon
55.6Fra output ovenfor kan vi se at gjennomsnittsverdien i RDD er 55.6.
telle()
Count () brukes til å returnere de totale verdiene som er til stede i RDD. Det tar ingen parametere.
Syntaks:
RDD_DATA.telle()Eksempel:
I dette eksemplet lager vi en RDD som heter Student_marks med 20 elementer og returnerer antall elementer i en RDD.
#import Pyspark -modulenProduksjon
20Fra output ovenfor kan vi se at det totale antallet verdier i RDD er 20.
Konklusjon
I denne pyspark -opplæringen så vi fem forskjellige aggregeringsoperasjoner utført på RDD. Sum () brukes til å returnere totalverdien i en RDD. Gjennomsnitt () brukes til å returnere totalt gjennomsnitt fra en RDD. min () og maks () brukes til å returnere minimums- og maksimumsverdier. Hvis du trenger å returnere det totale antallet elementer som er til stede i en RDD, kan du bruke Count () -funksjonen.