Pyspark RDD - Aggregate Functions

Pyspark RDD - Aggregate Functions
I Python er Pyspark en gnistmodul som brukes til å gi en lignende type prosessering som Spark.

RDD står for spenstige distribuerte datasett. Vi kan kalle RDD som en grunnleggende datastruktur i Apache Spark.

Vi må importere RDD fra Pyspark.RDD -modul.

I Pyspark for å lage en RDD, kan vi bruke parallelliseringsmetoden ().

Syntaks:

Spark_app.SparkContext.parallellisere (data)

Hvor:

Data kan være en enimensjonal (lineære data) eller to dimensjonale data (rad-kolonne data).

I denne Pyspark RDD -opplæringen vil vi se hvordan vi kan utføre forskjellige aggregeringsfunksjoner på Pyspark RDD.

1. sum()

sum () brukes til å returnere den totale (sum) verdien i RDD. Det tar ingen parametere.

Syntaks:

RDD_DATA.sum()

Eksempel:

I dette eksemplet oppretter vi en RDD som heter Student_marks med 20 elementer og returnerer summen av totale elementer fra en RDD.

#import Pyspark -modulen
Importer pyspark
#import SparkSession for å lage en økt
Fra Pyspark.SQL Import SparkSession
# Importer RDD fra Pyspark.RDD
Fra Pyspark.RDD Import RDD
#Create en app som heter Linuxhint
Spark_app = SparkSession.bygger.AppName ('Linuxhint').getorCreate ()
# Lag studentmerker data med 20 elementer
student_marks = spark_app.SparkContext.Parallelliser ([89,76,78,89,90,100,34,56,54,22,45,43,23,56,
78,21,34,34,56,34])
#perform sum () drift
trykk (Student_marks.sum())

Produksjon:

1112

Fra output ovenfor kan vi se at den totale summen av elementer i RDD er 1112.

2. min ()

min () brukes til å returnere minimumsverdien fra RDD. Det tar ingen parametere.

Syntaks:

RDD_DATA.min ()

Eksempel:

I dette eksemplet oppretter vi en RDD som heter Student_marks med 20 elementer og returnerer minimumsverdien fra en RDD.

#import Pyspark -modulen
Importer pyspark
#import SparkSession for å lage en økt
Fra Pyspark.SQL Import SparkSession
# Importer RDD fra Pyspark.RDD
Fra Pyspark.RDD Import RDD
#Create en app som heter Linuxhint
Spark_app = SparkSession.bygger.AppName ('Linuxhint').getorCreate ()
# Lag studentmerker data med 20 elementer
student_marks = spark_app.SparkContext.Parallelliser ([89,76,78,89,90,100,34,56,54,22,45,43,23,56,78,
21,34,34,56,34])
#Perform Min () Operasjon
trykk (Student_marks.min ())

Produksjon:

21

Fra output ovenfor kan vi se at minimumsverdien i RDD er 21.

3. Max ()

Max () brukes til å returnere maksimalverdien fra RDD. Det tar ingen parametere.

Syntaks:

RDD_DATA.Max ()

Eksempel:

I dette eksemplet lager vi en RDD som heter Student_marks med 20 elementer og returnerer maksimalverdien fra en RDD.

#import Pyspark -modulen
Importer pyspark
#import SparkSession for å lage en økt
Fra Pyspark.SQL Import SparkSession
# Importer RDD fra Pyspark.RDD
Fra Pyspark.RDD Import RDD
#Create en app som heter Linuxhint
Spark_app = SparkSession.bygger.AppName ('Linuxhint').getorCreate ()
# Lag studentmerker data med 20 elementer
student_marks = spark_app.SparkContext.Parallelliser ([89,76,78,89,90,100,34,56,54,22,45,43,23,56,78,
21,34,34,56,34])
#Perform Max () Operasjon
trykk (Student_marks.maks ())

Produksjon

100

Fra output ovenfor kan vi se at den maksimale verdien i RDD er 100.

mener()

Gjennomsnitt () brukes til å returnere den gjennomsnittlige (gjennomsnittlige) verdien i RDD. Det tar ingen parametere.

Syntaks:

RDD_DATA.mener()

Eksempel:

I dette eksemplet lager vi en RDD som heter Student_marks med 20 elementer og returnerer gjennomsnittet av elementer fra en RDD.

#import Pyspark -modulen
Importer pyspark
#import SparkSession for å lage en økt
Fra Pyspark.SQL Import SparkSession
# Importer RDD fra Pyspark.RDD
Fra Pyspark.RDD Import RDD
#Create en app som heter Linuxhint
Spark_app = SparkSession.bygger.AppName ('Linuxhint').getorCreate ()
# Lag studentmerker data med 20 elementer
student_marks = spark_app.SparkContext.Parallelliser ([89,76,78,89,90,100,34,56,54,22,45,43,23,56,
78,21,34,34,56,34])
#Perform Mean () Operasjon
trykk (Student_marks.mener())

Produksjon

55.6

Fra output ovenfor kan vi se at gjennomsnittsverdien i RDD er 55.6.

telle()

Count () brukes til å returnere de totale verdiene som er til stede i RDD. Det tar ingen parametere.

Syntaks:

RDD_DATA.telle()

Eksempel:

I dette eksemplet lager vi en RDD som heter Student_marks med 20 elementer og returnerer antall elementer i en RDD.

#import Pyspark -modulen
Importer pyspark
#import SparkSession for å lage en økt
Fra Pyspark.SQL Import SparkSession
# Importer RDD fra Pyspark.RDD
Fra Pyspark.RDD Import RDD
#Create en app som heter Linuxhint
Spark_app = SparkSession.bygger.AppName ('Linuxhint').getorCreate ()
# Lag studentmerker data med 20 elementer
student_marks = spark_app.SparkContext.Parallelliser ([89,76,78,89,90,100,34,56,54,22,45,43,23,56,
78,21,34,34,56,34])
#Perform Count () Operasjon
trykk (Student_marks.telle())

Produksjon

20

Fra output ovenfor kan vi se at det totale antallet verdier i RDD er 20.

Konklusjon

I denne pyspark -opplæringen så vi fem forskjellige aggregeringsoperasjoner utført på RDD. Sum () brukes til å returnere totalverdien i en RDD. Gjennomsnitt () brukes til å returnere totalt gjennomsnitt fra en RDD. min () og maks () brukes til å returnere minimums- og maksimumsverdier. Hvis du trenger å returnere det totale antallet elementer som er til stede i en RDD, kan du bruke Count () -funksjonen.