Pyspark - Pandas DataFrame representerer Pandas DataFrame, men den holder Pyspark DataFrame internt.
Pandas støtter dataframdatastruktur, og Pandas importeres fra Pyspark -modulen.
Før det må du installere Pyspark -modulen.”
Kommando
PIP installer pysparkSyntaks for å importere
Fra Pyspark Import PandasEtter det kan vi opprette eller bruke DataFrame fra Pandas -modulen.
Syntaks for å lage pandas dataaframe
Pyspark.Pandas.Dataramme()Vi kan passere en ordbok eller liste over lister med verdier.
La oss lage en Pandas dataaframe gjennom Pyspark som har fire søyler og fem rader.
#import pandaer fra pyspark -modulenProduksjon
Nå vil vi gå inn på opplæringen vår.
Groupby () brukes til å gruppere de lignende radene i Pyspark Pandas DataFrame. Etter gruppering kan vi utføre statistiske operasjoner som Mean (), Sum (), Min () og Max (). Vi vil se en etter en med Groupby ().
Pyspark.Pandas.Dataramme.Groupby () med gjennomsnitt ()
GroupBy () brukes til å gruppere de lignende radene i Pyspark Pandas DataFrame og returnere gjennomsnittsverdiene for hver gruppert rad.
Syntaks
pyspark_pandas.Groupby ([kolonne/s]).mener()Hvor,
Eksempel
I dette eksemplet vil vi returnere det totale gjennomsnittet av data som er dannet fra en gruppe - S_name -kolonnen.
Produksjon
Vi kan se at det er to lignende rader.
Etter det ble det totale gjennomsnittet for alle tre kolonnene returnert.
Pyspark.Pandas.Dataramme.Groupby () med sum ()
GroupBy () brukes til å gruppere de lignende radene i Pyspark Pandas DataFrame og returnere den totale summen for hver gruppert rad.
Syntaks
pyspark_pandas.Groupby ([kolonne/s]).sum()Hvor,
Eksempel
I dette eksemplet vil vi returnere den totale summen av data som er dannet fra en gruppe - S_name -kolonnen.
Produksjon
Vi kan se at det er to lignende rader.
Etter det ble den totale summen for alle tre kolonnene returnert.
Pyspark.Pandas.Dataramme.Groupby () med min ()
GroupBy () brukes til å gruppere de lignende radene i Pyspark Pandas DataFrame og returnere minimumsverdien for hver gruppert rad.
Syntaks
pyspark_pandas.Groupby ([kolonne/s]).min ()Hvor,
Eksempel
I dette eksemplet vil vi returnere minimum av data som er dannet fra en gruppe - S_name -kolonnen.
Produksjon
Vi kan se at det er to lignende rader.
Etter det returneres minimumsverdien for alle tre kolonnene.
Pyspark.Pandas.Dataramme.Groupby () med Max ()
GroupBy () brukes til å gruppere de lignende radene i Pyspark Pandas DataFrame og returnere maksimalverdien for hver gruppert rad.
Syntaks
pyspark_pandas.Groupby ([kolonne/s]).Max ()Hvor,
Eksempel
I dette eksemplet vil vi returnere det maksimale dataene som er dannet fra en gruppe - S_name -kolonnen.
Produksjon
Vi kan se at det er to lignende rader.
Etter det returneres maksimumsverdien for alle tre kolonnene.
Konklusjon
I denne Pyspark Pandas DataFrame Groupby () -opplæringen ser vi hva som er Groupby og hvordan du bruker GroupBy () med statistiske funksjoner som Mean (), Min (), Max () og Sum ().