Pyspark - Pandas DataFrame representerer Pandas DataFrame, men den holder Pyspark DataFrame internt.
Pandas støtter dataframdatastruktur, og Pandas importeres fra Pyspark -modulen.
Før det må du installere Pyspark -modulen.”
Kommando
PIP installer pysparkSyntaks for å importere
Fra Pyspark Import PandasEtter det kan vi opprette eller bruke DataFrame fra Pandas -modulen.
Syntaks for å lage pandas dataaframe
Pyspark.Pandas.Dataramme()Vi kan passere en ordbok eller liste over lister med verdier.
La oss lage en Pandas dataaframe gjennom Pyspark med tre kolonner og fem rader.
#import pandaer fra pyspark -modulenProduksjon
Nå vil vi gå inn på opplæringen vår.
Kumulative operasjoner brukes til å returnere kumulative resultater på tvers av kolonnene i Pyspark Pandas Dataframe.
La oss se dem en etter en.
Pyspark.Pandas.Dataramme.Cumsum ()
Cumsum () vil returnere den kumulative summen i hver kolonne. Det kan brukes på hele Pyspark Pandas DataFrame eller en enkelt kolonne.
Syntaks
På hele DataFrame
pyspark_pandas.Cumsum ()På bestemt kolonne
pyspark_pandas.kolonne.Cumsum ()Hvor pyspark_pandas er pyspark pandas, dataaframe og kolonne, referer til kolonnenavnet.
Eksempel 1
I dette eksemplet vil vi utføre Cumsum () på Mark2 -kolonnen.
Produksjon
Kumulativ sumdrift som fungerer i Mark2 -kolonnen
100 = 100Eksempel 2
I dette eksemplet vil vi utføre Cumsum () på hele Pyspark Pandas DataFrame.
Produksjon
Vi kan se at den kumulative summen returneres i hver kolonne.
Pyspark.Pandas.Dataramme.cumprod ()
Cumprod () vil returnere det kumulative produktet i hver kolonne. Det kan brukes på hele Pyspark Pandas DataFrame eller på en enkelt kolonne.
Syntaks
På hele DataFrame
pyspark_pandas.cumprod ()På bestemt kolonne
pyspark_pandas.kolonne.cumprod ()Hvor pyspark_pandas er pyspark pandas, dataaframe og kolonne, referer til kolonnenavnet.
Eksempel 1
I dette eksemplet vil vi utføre cumprod () på Mark2 -kolonnen.
Produksjon
Kumulativ produktdrift som fungerer i Mark2 -kolonnen
100 = 100Eksempel 2
I dette eksemplet vil vi utføre cumprod () på hele Pyspark Pandas DataFrame.
Produksjon
Vi kan se at det kumulative produktet returneres i hver kolonne.
Pyspark.Pandas.Dataramme.cummin ()
cummin () vil returnere den kumulative minimumsverdien i hver kolonne. Det kan brukes på hele Pyspark Pandas DataFrame eller på en enkelt kolonne.
Syntaks
På hele DataFrame
pyspark_pandas.cummin ()På bestemt kolonne
pyspark_pandas.kolonne.cummin ()Hvor pyspark_pandas er pyspark pandas, dataaframe og kolonne, referer til kolonnenavnet.
Eksempel 1
I dette eksemplet vil vi utføre cummin () på Mark2 -kolonnen.
Produksjon
Kumulativ minimumsoperasjon som fungerer i Mark2 -kolonnen
100 = 100Eksempel 2
I dette eksemplet vil vi utføre Cummin () på hele Pyspark Pandas DataFrame.
Produksjon
Vi kan se at den kumulative minimumsverdien returneres i hver kolonne.
Pyspark.Pandas.Dataramme.CUMMAX ()
CUMMAX () vil returnere den kumulative maksimale verdien i hver kolonne. Det kan brukes på hele Pyspark Pandas DataFrame eller på en enkelt kolonne.
Syntaks
På hele DataFrame
pyspark_pandas.CUMMAX ()På bestemt kolonne
pyspark_pandas.kolonne.CUMMAX ()Hvor pyspark_pandas er pyspark pandas, dataaframe og kolonne, referer til kolonnenavnet.
Eksempel 1
I dette eksemplet vil vi utføre CUMMAX () på Mark2 -kolonnen.
Produksjon
Kumulativ maksimal drift som fungerer i Mark2 -kolonnen
100 = 100Eksempel 2
I dette eksemplet vil vi utføre CUMMAX () på hele Pyspark Pandas DataFrame.
Produksjon
Vi kan se at den kumulative maksimale verdien returneres i hver kolonne.
Konklusjon
I denne Pyspark Pandas -opplæringen diskuterte vi kumulative operasjoner utført på Pyspark Pandas DataFrame. cumsum () brukes til å returnere den kumulative summen i hver kolonne, cumprod () brukes til å returnere det kumulative produktet i hver kolonne, cummin () brukes til å returnere den kumulative minimumsverdien i hver kolonne, og CUMMAX () brukes til å returner kumulativ maksimal verdi i hver kolonne.