Pyspark - Pandas DataFrame representerer Pandas DataFrame, men den holder Pyspark DataFrame internt.
Pandas støtter dataframdatastruktur, og Pandas importeres fra Pyspark -modulen.
Før det må du installere Pyspark -modulen.”
Kommando
PIP installer pysparkSyntaks for å importere
Fra Pyspark Import PandasEtter det kan vi opprette eller bruke DataFrame fra Pandas -modulen.
Syntaks for å lage pandas dataaframe
Pyspark.Pandas.Dataramme()Vi kan passere en ordbok eller liste over lister med verdier.
La oss lage en Pandas dataaframe gjennom Pyspark med fire søyler og fem rader.
#import pandaer fra pyspark -modulenProduksjon
Nå vil vi gå inn på opplæringen vår.
Aggregatefunksjoner brukes til å utføre aggregeringsoperasjoner som sum (), Min (), Mean () og Max ().Disse operasjonene fungerer bare på numeriske data som heltall, dobbel osv.
La oss se dem en etter en.
Pyspark.Pandas.Dataramme.sum()
sum () i Pyspark Pandas DataFrame brukes til å returnere den totale summen over radene og kolonnene.
Hvis du vil returnere summen over hver rad, må du spesifisere aksen = 1, og hvis du vil returnere summen over hver kolonne, må du spesifisere aksen = 0. Som standard vil den utføre kolonnemessig.
Syntaks
pyspark_pandas.sum (akse = 0/akse = 1)Hvor pyspark_pandas er pyspark pandas dataaframe.
Parameter
Det tar bare en parameter.
Axis-0 spesifiserer kolonnemessig beregning og Axis = 1 spesifiserer radmessig beregning.
Eksempel 1
I dette eksemplet vil vi returnere den totale summen over hver rad.
Produksjon
0 281Vi kan se at sumoperasjonen utføres over hver rad.
Som første rad - 90+100+91 = 281.
Eksempel 2
I dette eksemplet vil vi returnere den totale summen over hver kolonne.
Produksjon
Mark1 379Vi kan se at sumoperasjonen utføres over hver kolonne.
Som for Mark1 -kolonnen - 90+78+90+54+67 = 379.
Pyspark.Pandas.Dataramme.mener()
Gjennomsnitt () i Pyspark Pandas DataFrame brukes til å returnere det totale gjennomsnittet over radene og kolonnene.
Hvis du vil returnere gjennomsnittet over hver rad, må du spesifisere aksen = 1, og hvis du vil returnere gjennomsnittet over hver kolonne, må du spesifisere aksen = 0. Som standard vil den utføre kolonnemessig.
Syntaks
pyspark_pandas.Gjennomsnitt (Axis = 0/Axis = 1)Hvor pyspark_pandas er pyspark pandas dataaframe.
Parameter
Det tar bare en parameter.
Axis-0 spesifiserer kolonnemessig beregning og Axis = 1 spesifiserer radmessig beregning.
Eksempel 1
I dette eksemplet vil vi returnere det totale gjennomsnittet over hver rad.
Produksjon
0 93.666667Vi kan se at den gjennomsnittlige operasjonen utføres på tvers av hver rad.
Som, første rad - (90+100+91)/3 = 93.666667
Eksempel 2
I dette eksemplet vil vi returnere det totale gjennomsnittet over hver kolonne.
Produksjon
Mark1 75.8Vi kan se at den gjennomsnittlige operasjonen utføres over hver kolonne.
Som for Mark1 -kolonnen - (90+78+90+54+67)/5 = 75.8.
Pyspark.Pandas.Dataramme.min ()
Min () I Pyspark Pandas brukes DataFrame til minimumsverdi over radene og kolonnene.
Hvis du vil returnere minimumsverdien over hver rad, må du spesifisere aksen = 1, og hvis du vil returnere minimum over hver kolonne, må du spesifisere aksen = 0. Som standard vil den utføre kolonnemessig.
Syntaks
pyspark_pandas.min (akse = 0/akse = 1)Hvor pyspark_pandas er pyspark pandas dataaframe.
Parameter
Det tar bare en parameter.
Axis-0 spesifiserer kolonnemessig beregning og Axis = 1 spesifiserer radmessig beregning.
Eksempel 1
I dette eksemplet vil vi returnere minimumsverdien over hver rad.
Produksjon
0 90Vi kan se at min () aggregeringen utføres over hver rad.
Som, første rad - minimum (90.100.91) = 90
Eksempel 2
I dette eksemplet vil vi returnere minimumsverdien over hver kolonne.
Produksjon
Mark1 54Vi kan se at min () aggregeringen utføres over hver kolonne.
Som for Mark1 -kolonnen - min (90,78,90,54,67) = 54.
Pyspark.Pandas.Dataramme.Max ()
Max () I Pyspark Pandas brukes DataFrame til maksimal verdi over radene og kolonnene.
Hvis du vil returnere den maksimale verdien over hver rad, må du spesifisere aksen = 1, og hvis du vil returnere maksimum over hver kolonne, må du spesifisere aksen = 0. Som standard vil den utføre kolonnemessig.
Syntaks
pyspark_pandas.maks (akse = 0/akse = 1)Hvor pyspark_pandas er pyspark pandas dataaframe.
Parameter
Det tar bare en parameter.
Axis-0 spesifiserer kolonnemessig beregning og Axis = 1 spesifiserer radmessig beregning.
Eksempel 1
I dette eksemplet vil vi returnere den maksimale verdien på tvers av hver rad.
Produksjon
0 100Vi kan se at maksimal () aggregering utføres over hver rad.
Som, første rad - maksimalt (90.100.91) = 100
Eksempel 2
I dette eksemplet vil vi returnere maksimalverdien over hver kolonne.
Produksjon
Mark1 90Vi kan se at maksimal () aggregering utføres over hver kolonne.
Som for Mark1 -kolonnen - Max (90,78,90,54,67) = 90.
Konklusjon
I denne Pyspark Pandas DataFrame -opplæringen så vi fire forskjellige aggregeringsfunksjoner utført på DataFrame. Det er mulig å beregne over rad og kolonnemessig med akseparametere. sum () vil returnere total sum, avg () brukes til å returnere totalt gjennomsnitt, min () brukes til å returnere minimumsverdi og maks () vil returnere maksimal verdi.