Pyspark Pandas DataFrame Groupby

“I Python er Pyspark en Spark -modul som brukes til å gi en lignende type prosessering som Spark ved hjelp av DataFrame, som vil lagre de gitte dataene i rad- og kolonneformat.

Pyspark - Pandas DataFrame representerer Pandas DataFrame, men den holder Pyspark DataFrame internt.

Pandas støtter dataframdatastruktur, og Pandas importeres fra Pyspark -modulen.

Før det må du installere Pyspark -modulen.”

Kommando

PIP installer pyspark

Syntaks for å importere

Fra Pyspark Import Pandas

Etter det kan vi opprette eller bruke DataFrame fra Pandas -modulen.

Syntaks for å lage pandas dataaframe

Pyspark.Pandas.Dataramme()

Vi kan passere en ordbok eller liste over lister med verdier.

La oss lage en Pandas dataaframe gjennom Pyspark som har fire søyler og fem rader.

#import pandaer fra pyspark -modulen
Fra Pyspark Import Pandas
#Create DataFrame fra Pandas Pyspark
pyspark_pandas = pandas.DataFrame ('S_name': ['Ram', 'Sukanya', 'Sumita', 'Sumita', 'Ram'], 'Mark1': [90,56,78,54,67], 'Mark2': [ 100,67,96,89,32], 'Mark3': [91,92,98,97,87])
print (pyspark_pandas)

Produksjon

Nå vil vi gå inn på opplæringen vår.

Groupby () brukes til å gruppere de lignende radene i Pyspark Pandas DataFrame. Etter gruppering kan vi utføre statistiske operasjoner som Mean (), Sum (), Min () og Max (). Vi vil se en etter en med Groupby ().

Pyspark.Pandas.Dataramme.Groupby () med gjennomsnitt ()

GroupBy () brukes til å gruppere de lignende radene i Pyspark Pandas DataFrame og returnere gjennomsnittsverdiene for hver gruppert rad.

Syntaks

pyspark_pandas.Groupby ([kolonne/s]).mener()

Hvor,

pyspark_pandas er pyspark pandas dataaframe
Kolonnen er kolonnenavnet der lignende verdier er gruppert i denne kolonnen

Eksempel
I dette eksemplet vil vi returnere det totale gjennomsnittet av data som er dannet fra en gruppe - S_name -kolonnen.

Produksjon

Vi kan se at det er to lignende rader.

RAM - 2 verdier er gruppert
Sumita - 2 verdier er gruppert
Sukanya - 1 verdi er gruppert

Etter det ble det totale gjennomsnittet for alle tre kolonnene returnert.

Pyspark.Pandas.Dataramme.Groupby () med sum ()

GroupBy () brukes til å gruppere de lignende radene i Pyspark Pandas DataFrame og returnere den totale summen for hver gruppert rad.

Syntaks

pyspark_pandas.Groupby ([kolonne/s]).sum()

Hvor,

pyspark_pandas er pyspark pandas dataaframe
Kolonnen er kolonnenavnet der lignende verdier er gruppert i denne kolonnen

Eksempel
I dette eksemplet vil vi returnere den totale summen av data som er dannet fra en gruppe - S_name -kolonnen.

Produksjon

Vi kan se at det er to lignende rader.

RAM - 2 verdier er gruppert
Sumita - 2 verdier er gruppert
Sukanya - 1 verdi er gruppert

Etter det ble den totale summen for alle tre kolonnene returnert.

Pyspark.Pandas.Dataramme.Groupby () med min ()

GroupBy () brukes til å gruppere de lignende radene i Pyspark Pandas DataFrame og returnere minimumsverdien for hver gruppert rad.

Syntaks

pyspark_pandas.Groupby ([kolonne/s]).min ()

Hvor,

pyspark_pandas er pyspark pandas dataaframe
Kolonnen er kolonnenavnet der lignende verdier er gruppert i denne kolonnen

Eksempel
I dette eksemplet vil vi returnere minimum av data som er dannet fra en gruppe - S_name -kolonnen.

Produksjon

Vi kan se at det er to lignende rader.

RAM - 2 verdier er gruppert
Sumita - 2 verdier er gruppert
Sukanya - 1 verdi er gruppert

Etter det returneres minimumsverdien for alle tre kolonnene.

Pyspark.Pandas.Dataramme.Groupby () med Max ()

GroupBy () brukes til å gruppere de lignende radene i Pyspark Pandas DataFrame og returnere maksimalverdien for hver gruppert rad.

Syntaks

pyspark_pandas.Groupby ([kolonne/s]).Max ()

Hvor,

pyspark_pandas er pyspark pandas dataaframe
Kolonnen er kolonnenavnet der lignende verdier er gruppert i denne kolonnen

Eksempel
I dette eksemplet vil vi returnere det maksimale dataene som er dannet fra en gruppe - S_name -kolonnen.

Produksjon

Vi kan se at det er to lignende rader.

RAM - 2 verdier er gruppert
Sumita - 2 verdier er gruppert
Sukanya - 1 verdi er gruppert

Etter det returneres maksimumsverdien for alle tre kolonnene.

Konklusjon

I denne Pyspark Pandas DataFrame Groupby () -opplæringen ser vi hva som er Groupby og hvordan du bruker GroupBy () med statistiske funksjoner som Mean (), Min (), Max () og Sum ().

Python

Numpy astype

AstType () -metoden til Numpy -modulen brukes til å endre datatypen til en Numpy -matrise i andre da...

Elias Krogh Svendsen

Python

Matplotlib 2D -histogram

I Python, “PLT.hist2d () ”-funksjon av“ Pyplot ”-modulen i“ Matplotlib ”-biblioteket brukes til å pl...

Elias Krogh Svendsen

Oracle Database

Gjør oracle fusion ansett som bedre enn sap?

Oracle Fusion (skybasert ERP) har et brukervennlig grensesnitt, mens SAP (sky og på stedet ERP) er s...

Daniel Berntsen