Pyspark Pandas DataFrame Groupby

Pyspark Pandas DataFrame Groupby
“I Python er Pyspark en Spark -modul som brukes til å gi en lignende type prosessering som Spark ved hjelp av DataFrame, som vil lagre de gitte dataene i rad- og kolonneformat.

Pyspark - Pandas DataFrame representerer Pandas DataFrame, men den holder Pyspark DataFrame internt.

Pandas støtter dataframdatastruktur, og Pandas importeres fra Pyspark -modulen.

Før det må du installere Pyspark -modulen.”

Kommando

PIP installer pyspark

Syntaks for å importere

Fra Pyspark Import Pandas

Etter det kan vi opprette eller bruke DataFrame fra Pandas -modulen.

Syntaks for å lage pandas dataaframe

Pyspark.Pandas.Dataramme()

Vi kan passere en ordbok eller liste over lister med verdier.

La oss lage en Pandas dataaframe gjennom Pyspark som har fire søyler og fem rader.

#import pandaer fra pyspark -modulen
Fra Pyspark Import Pandas
#Create DataFrame fra Pandas Pyspark
pyspark_pandas = pandas.DataFrame ('S_name': ['Ram', 'Sukanya', 'Sumita', 'Sumita', 'Ram'], 'Mark1': [90,56,78,54,67], 'Mark2': [ 100,67,96,89,32], 'Mark3': [91,92,98,97,87])
print (pyspark_pandas)

Produksjon

Nå vil vi gå inn på opplæringen vår.

Groupby () brukes til å gruppere de lignende radene i Pyspark Pandas DataFrame. Etter gruppering kan vi utføre statistiske operasjoner som Mean (), Sum (), Min () og Max (). Vi vil se en etter en med Groupby ().

Pyspark.Pandas.Dataramme.Groupby () med gjennomsnitt ()

GroupBy () brukes til å gruppere de lignende radene i Pyspark Pandas DataFrame og returnere gjennomsnittsverdiene for hver gruppert rad.

Syntaks

pyspark_pandas.Groupby ([kolonne/s]).mener()

Hvor,

  1. pyspark_pandas er pyspark pandas dataaframe
  2. Kolonnen er kolonnenavnet der lignende verdier er gruppert i denne kolonnen

Eksempel
I dette eksemplet vil vi returnere det totale gjennomsnittet av data som er dannet fra en gruppe - S_name -kolonnen.

#import pandaer fra pyspark -modulen
Fra Pyspark Import Pandas
#Create DataFrame fra Pandas Pyspark
pyspark_pandas = pandas.DataFrame ('S_name': ['Ram', 'Sukanya', 'Sumita', 'Sumita', 'Ram'], 'Mark1': [90,56,78,54,67], 'Mark2': [ 100,67,96,89,32], 'Mark3': [91,92,98,97,87])
#Group av S_name og Return Gjennomsnittlige merker av grupperte rader
trykk (pyspark_pandas.Groupby (['S_name']).mener())

Produksjon

Vi kan se at det er to lignende rader.

  1. RAM - 2 verdier er gruppert
  2. Sumita - 2 verdier er gruppert
  3. Sukanya - 1 verdi er gruppert

Etter det ble det totale gjennomsnittet for alle tre kolonnene returnert.

Pyspark.Pandas.Dataramme.Groupby () med sum ()

GroupBy () brukes til å gruppere de lignende radene i Pyspark Pandas DataFrame og returnere den totale summen for hver gruppert rad.

Syntaks

pyspark_pandas.Groupby ([kolonne/s]).sum()

Hvor,

  1. pyspark_pandas er pyspark pandas dataaframe
  2. Kolonnen er kolonnenavnet der lignende verdier er gruppert i denne kolonnen

Eksempel
I dette eksemplet vil vi returnere den totale summen av data som er dannet fra en gruppe - S_name -kolonnen.

#import pandaer fra pyspark -modulen
Fra Pyspark Import Pandas
#Create DataFrame fra Pandas Pyspark
pyspark_pandas = pandas.DataFrame ('S_name': ['Ram', 'Sukanya', 'Sumita', 'Sumita', 'Ram'], 'Mark1': [90,56,78,54,67], 'Mark2': [ 100,67,96,89,32], 'Mark3': [91,92,98,97,87])
#Group av S_name og Return Sum of Marks of Grouped Rows
trykk (pyspark_pandas.Groupby (['S_name']).sum())

Produksjon

Vi kan se at det er to lignende rader.

  1. RAM - 2 verdier er gruppert
  2. Sumita - 2 verdier er gruppert
  3. Sukanya - 1 verdi er gruppert

Etter det ble den totale summen for alle tre kolonnene returnert.

Pyspark.Pandas.Dataramme.Groupby () med min ()

GroupBy () brukes til å gruppere de lignende radene i Pyspark Pandas DataFrame og returnere minimumsverdien for hver gruppert rad.

Syntaks

pyspark_pandas.Groupby ([kolonne/s]).min ()

Hvor,

  1. pyspark_pandas er pyspark pandas dataaframe
  2. Kolonnen er kolonnenavnet der lignende verdier er gruppert i denne kolonnen

Eksempel
I dette eksemplet vil vi returnere minimum av data som er dannet fra en gruppe - S_name -kolonnen.

#import pandaer fra pyspark -modulen
Fra Pyspark Import Pandas
#Create DataFrame fra Pandas Pyspark
pyspark_pandas = pandas.DataFrame ('S_name': ['Ram', 'Sukanya', 'Sumita', 'Sumita', 'Ram'], 'Mark1': [90,56,78,54,67], 'Mark2': [ 100,67,96,89,32], 'Mark3': [91,92,98,97,87])
#gruppe etter S_name og returnimumsmerker på grupperte rader
trykk (pyspark_pandas.Groupby (['S_name']).min ())

Produksjon

Vi kan se at det er to lignende rader.

  1. RAM - 2 verdier er gruppert
  2. Sumita - 2 verdier er gruppert
  3. Sukanya - 1 verdi er gruppert

Etter det returneres minimumsverdien for alle tre kolonnene.

Pyspark.Pandas.Dataramme.Groupby () med Max ()

GroupBy () brukes til å gruppere de lignende radene i Pyspark Pandas DataFrame og returnere maksimalverdien for hver gruppert rad.

Syntaks

pyspark_pandas.Groupby ([kolonne/s]).Max ()

Hvor,

  1. pyspark_pandas er pyspark pandas dataaframe
  2. Kolonnen er kolonnenavnet der lignende verdier er gruppert i denne kolonnen

Eksempel
I dette eksemplet vil vi returnere det maksimale dataene som er dannet fra en gruppe - S_name -kolonnen.

#import pandaer fra pyspark -modulen
Fra Pyspark Import Pandas
#Create DataFrame fra Pandas Pyspark
pyspark_pandas = pandas.DataFrame ('S_name': ['Ram', 'Sukanya', 'Sumita', 'Sumita', 'Ram'], 'Mark1': [90,56,78,54,67], 'Mark2': [ 100,67,96,89,32], 'Mark3': [91,92,98,97,87])
#Group av S_name og returner maksimale merker av grupperte rader
trykk (pyspark_pandas.Groupby (['S_name']).maks ())

Produksjon

Vi kan se at det er to lignende rader.

  1. RAM - 2 verdier er gruppert
  2. Sumita - 2 verdier er gruppert
  3. Sukanya - 1 verdi er gruppert

Etter det returneres maksimumsverdien for alle tre kolonnene.

Konklusjon

I denne Pyspark Pandas DataFrame Groupby () -opplæringen ser vi hva som er Groupby og hvordan du bruker GroupBy () med statistiske funksjoner som Mean (), Min (), Max () og Sum ().