Pyspark - Pandas Series Aggregate Functions

Pyspark - Pandas Series Aggregate Functions
“I Python er Pyspark en Spark -modul som brukes til å gi en lignende type prosessering som Spark ved hjelp av serier, som vil lagre de gitte dataene i en matrise (kolonne i Pyspark internt).

Pyspark - Pandas -serien representerer Pandas -serien, men den holder Pyspark -kolonnen internt.

Pandas Support Series Datastruktur, og Pandas importeres fra Pyspark -modulen.

Før det må du installere Pyspark -modulen.”

Kommando

PIP installer pyspark

Syntaks for å importere

Fra Pyspark Import Pandas

Etter det kan vi lage eller bruke serien fra Pandas -modulen.

Syntaks for å lage Pandas -serier

Pyspark.Pandas.Serie()

Vi kan passere en liste eller liste over lister med verdier.

La oss lage en Pandas -serie gjennom Pyspark som har fem numeriske verdier.

#import pandaer fra pyspark -modulen
Fra Pyspark Import Pandas
#Create Series med 5 elementer
pyspark_series = pandas.Serie ([90,56,78,54,0])
trykk (pyspark_series)

Produksjon

Nå vil vi gå inn på opplæringen vår.

Aggregatefunksjoner brukes til å utføre aggregeringsoperasjoner som sum (), Min (), Mean () og Max ().Disse operasjonene fungerer bare på numeriske data som heltall, dobbel osv

La oss se dem en etter en.

Pyspark.Pandas.Serie.sum()

sum () i Pyspark Pandas -serien brukes til å returnere den totale summen.

Syntaks

pyspark_series.sum()

Hvor pyspark_series er pyspark pandas -serien.

Eksempel
Retursum av ovennevnte Pyspark Pandas -serie.

#import pandaer fra pyspark -modulen
Fra Pyspark Import Pandas
#Create Series med 5 elementer
pyspark_series = pandas.Serie ([90,56,78,54,0])
#Return sum
trykk (pyspark_series.sum())

Produksjon:

278
Arbeider:
90+56+78+54+0 = 278.

Pyspark.Pandas.Serie.mener()

Gjennomsnitt () i Pyspark Pandas -serien brukes til å returnere det totale gjennomsnittet.

Syntaks

pyspark_series.mener()

Hvor pyspark_series er pyspark pandas -serien.

Eksempel
Returgjennomsnitt av ovennevnte Pyspark Pandas -serie.

#import pandaer fra pyspark -modulen
Fra Pyspark Import Pandas
#Create Series med 5 elementer
pyspark_series = pandas.Serie ([90,56,78,54,0])
#Return -gjennomsnittet
trykk (pyspark_series.mener())

Produksjon

55.6
Arbeider:
(90+56+78+54+0)/5 = 55.6.

Pyspark.Pandas.Serie.min ()

min () i Pyspark Pandas -serien brukes til å returnere minimumsverdi.

Syntaks

pyspark_series.min ()

Hvor pyspark_series er pyspark pandas -serien.

Eksempel
Returner minimumsverdi fra ovennevnte Pyspark Pandas -serie.

#import pandaer fra pyspark -modulen
Fra Pyspark Import Pandas
#Create Series med 5 elementer
pyspark_series = pandas.Serie ([90,56,78,54,0])
#Return minimum
trykk (pyspark_series.min ())

Produksjon

0
Arbeider:
Minimum (90+56+78+54+0) = 0

Pyspark.Pandas.Serie.Max ()

Max () i Pyspark Pandas -serien brukes til å returnere maksimal verdi.

Syntaks

pyspark_series.Max ()

Hvor pyspark_series er pyspark pandas -serien.

Eksempel
Returner maksimal verdi fra ovennevnte Pyspark Pandas -serien.

#import pandaer fra pyspark -modulen
Fra Pyspark Import Pandas
#Create Series med 5 elementer
pyspark_series = pandas.Serie ([90,56,78,54,0])
#return maksimalt
trykk (pyspark_series.maks ())

Produksjon

90
Arbeider:
Maksimum (90+56+78+54+0) = 90

Konklusjon

I denne Pyspark Pandas Series -opplæringen så vi fire forskjellige aggregeringsfunksjoner utført på serien. sum () vil returnere den totale summen, AVG () brukes til å returnere det totale gjennomsnittet, min () brukes til å returnere minimumsverdien, og maks () vil returnere maksimal verdi.