Pyspark - Pandas Series Cumulative Operations

Pyspark - Pandas Series Cumulative Operations
“I Python er Pyspark en Spark -modul som brukes til å gi en lignende type prosessering som Spark ved hjelp av serier, som vil lagre de gitte dataene i en matrise (kolonne i Pyspark internt).

Pyspark - Pandas -serien representerer Pandas -serien, men den holder Pyspark -kolonnen internt.

Pandas Support Series Datastruktur, og Pandas importeres fra Pyspark -modulen.

Før det må du installere Pyspark -modulen.”

Kommando

PIP installer pyspark

Syntaks for å importere

Fra Pyspark Import Pandas

Etter det kan vi lage eller bruke serien fra Pandas -modulen.

Syntaks for å lage Pandas -serier

Pyspark.Pandas.Serie()

Vi kan passere en liste eller liste over lister med verdier.

La oss lage en Pandas -serie gjennom Pyspark som har fem numeriske verdier.

#import pandaer fra pyspark -modulen
Fra Pyspark Import Pandas
#Create Series med 5 elementer
pyspark_series = pandas.Serie ([90,56,78,54,0])
trykk (pyspark_series)

Produksjon

Nå vil vi gå inn på opplæringen vår.

Kumulative operasjoner brukes til å returnere kumulative resultater på tvers av verdiene i Pyspark Pandas -serien.

La oss se dem en etter en.

Pyspark.Pandas.Serie.Cumsum ()

Cumsum () vil returnere den kumulative summen av serien for hvert element. Det kan brukes på hele Pyspark Pandas -serien.

Syntaks

pyspark_series.Cumsum ()

Hvor pyspark_series er pyspark pandas -serien

Eksempel
I dette eksemplet vil vi utføre en kumulativ sumoperasjon på serien.

#import pandaer fra pyspark -modulen
Fra Pyspark Import Pandas
#Create Series med 5 elementer
pyspark_series = pandas.Serie ([90,56,78,54,0])
#Return Cumulative Sum
trykk (pyspark_series.Cumsum ())

Produksjon

Arbeider:
90
90+56 = 146
90+56+78 = 224
90+56+78+54 = 278
90+56+78+54+0 = 278

Pyspark.Pandas.Serie.cumprod ()

Cumprod () vil returnere det kumulative produktet av serien for hvert element. Det kan brukes på hele Pyspark Pandas -serien.

Syntaks

pyspark_series.cumprod ()

Hvor pyspark_series er pyspark pandas -serien

Eksempel
I dette eksemplet vil vi utføre en kumulativ produktoperasjon i serien.

#import pandaer fra pyspark -modulen
Fra Pyspark Import Pandas
#Create Series med 5 elementer
pyspark_series = pandas.Serie ([90,56,78,54,0])
#Return kumulativt produkt
trykk (pyspark_series.cumprod ())

Produksjon

Arbeider:
90
90*56 = 5040
90*56*78 = 393120
90*56*78*54 = 21228480
90*56*78*54*0 = 0

Pyspark.Pandas.Serie.cummin ()

Cummin () vil returnere den kumulative minimumsverdien til serien for hvert element. Det kan brukes på hele Pyspark Pandas -serien.

Syntaks

pyspark_series.cummin ()

Hvor pyspark_series er pyspark pandas -serien

Eksempel
I dette eksemplet vil vi utføre en kumulativ minoperasjon på serien.

#import pandaer fra pyspark -modulen
Fra Pyspark Import Pandas
#Create Series med 5 elementer
pyspark_series = pandas.Serie ([90,56,78,54,0])
#Return kumulativt minimum
trykk (pyspark_series.cummin ())

Produksjon

Arbeider:
90
Minimum (90,56) = 56
Minimum (90,56,78) = 56
Minimum (90,56,78,54) = 54
Minimum (90,56,78,54,0) = 0

Pyspark.Pandas.Serie.cummin ()

Cummin () vil returnere den kumulative minimumsverdien til serien for hvert element. Det kan brukes på hele Pyspark Pandas -serien.

Syntaks

pyspark_series.CUMMAX ()

Hvor pyspark_series er pyspark pandas -serien

Eksempel
I dette eksemplet vil vi utføre en kumulativ maksimal operasjon på serien.

#import pandaer fra pyspark -modulen
Fra Pyspark Import Pandas
#Create Series med 5 elementer
pyspark_series = pandas.Serie ([90,56,78,54,0])
#Return kumulativt maksimum
trykk (pyspark_series.CUMMAX ())

Produksjon

Arbeider:
90
Maksimum (90,56) = 90
Maksimum (90,56,78) = 90
Maksimum (90,56,78,54) = 90
Maksimum (90,56,78,54,0) = 90

Konklusjon

I denne Pyspark Pandas -opplæringen diskuterte vi kumulative operasjoner utført på Pyspark Pandas -serien. Cumsum () brukes til å returnere den kumulative summen, cumprod () brukes til å returnere det kumulative produktet i, cummin () brukes til å returnere den kumulative minimumsverdien, og CumMax () brukes til å returnere den kumulative maksimale verdien.