Pyspark - Pandas DataFrame Aritmetic Operations

Pyspark - Pandas DataFrame Aritmetic Operations
“I Python er Pyspark en Spark -modul som brukes til å gi en lignende type prosessering som Spark ved hjelp av DataFrame, som vil lagre de gitte dataene i rad- og kolonneformat.

Pyspark - Pandas DataFrame representerer Pandas DataFrame, men den holder Pyspark DataFrame internt.

Pandas støtter dataframdatastruktur, og Pandas importeres fra Pyspark -modulen.

Før det må du installere Pyspark -modulen.”

Kommando

PIP installer pyspark

Syntaks for å importere

Fra Pyspark Import Pandas

Etter det kan vi opprette eller bruke DataFrame fra Pandas -modulen.

Syntaks for å lage pandas dataaframe

Pyspark.Pandas.Dataramme()

Vi kan passere en ordbok eller liste over lister med verdier.

La oss lage en Pandas dataaframe gjennom Pyspark som har tre kolonner og fem rader.

#import pandaer fra pyspark -modulen
Fra Pyspark Import Pandas
#Create DataFrame fra Pandas Pyspark
pyspark_pandas = pandas.Dataframe ('Mark1': [90,78,90,54,67], 'Mark2': [100,67,96,89,77], 'Mark3': [91,92,98,97,87] )
#vise
print (pyspark_pandas)

Produksjon

Nå vil vi gå inn på opplæringen vår.

Aritmetiske operasjoner brukes til å utføre operasjoner som tillegg, subtraksjon, multiplikasjon, divisjon og modul. Pyspark Pandas DataFrame støtter innebygde funksjoner som brukes til å utføre disse operasjonene.

La oss se en etter en.

Pyspark.Pandas.Dataramme.Legg til()

legg til () i pyspark pandas dataframe brukes til å legge til elementer i hele DataFrame med en verdi.

Det er også mulig å legge til en verdi i en enkelt kolonne. Det tar verdien som en parameter.

Syntaks

For hele Pyspark Pandas DataFrame

pyspark_pandas.Legg til verdi)

For bestemt kolonne

pyspark_pandas.Legg til verdi)

Hvor,

  1. pyspark_pandas er pyspark pandas dataaframe
  2. Verdi som tar numerisk verdi å legges til PYSPARK_PANDAS.

Eksempel 1
I dette eksemplet vil vi legge til 5 i Mark1 -kolonnen.

#import pandaer fra pyspark -modulen
Fra Pyspark Import Pandas
#Create DataFrame fra Pandas Pyspark
pyspark_pandas = pandas.Dataframe ('Mark1': [90,78,90,54,67], 'Mark2': [100,67,96,89,77], 'Mark3': [91,92,98,97,87] )
#addverdier i Mark1 -kolonnen med 5
trykk (pyspark_pandas.Mark1.Legg til (5))

Produksjon

Vi kan se at 5 legges til hver verdi i Mark1 -kolonnen.

Eksempel 2
I dette eksemplet vil vi legge til 5 til hele Pyspark Pandas DataFrame.

#import pandaer fra pyspark -modulen
Fra Pyspark Import Pandas
#Create DataFrame fra Pandas Pyspark
pyspark_pandas = pandas.Dataframe ('Mark1': [90,78,90,54,67], 'Mark2': [100,67,96,89,77], 'Mark3': [91,92,98,97,87] )
#add 5 til hele DataFrame
trykk (pyspark_pandas.Legg til (5))

Produksjon

Vi kan se at 5 blir lagt til hele Pyspark Pandas DataFrame.

Pyspark.Pandas.Dataramme.under()

sub () i pyspark pandas dataframe brukes til å trekke elementer fra hele dataaframet med en verdi.

Det er også mulig å trekke fra en enkelt kolonne. Det tar verdien som en parameter.

Syntaks

For hele Pyspark Pandas DataFrame

pyspark_pandas.sub (verdi)

For bestemt kolonne

pyspark_pandas.sub (verdi)

Hvor,

  1. pyspark_pandas er pyspark pandas dataaframe
  2. Verdi som tar numerisk verdi å trekkes fra Pyspark_pandas.

Eksempel 1
I dette eksemplet vil vi trekke 5 fra Mark1 -kolonnen.

#import pandaer fra pyspark -modulen
Fra Pyspark Import Pandas
#Create DataFrame fra Pandas Pyspark
pyspark_pandas = pandas.Dataframe ('Mark1': [90,78,90,54,67], 'Mark2': [100,67,96,89,77], 'Mark3': [91,92,98,97,87] )
#Subtract -verdier i Mark1 -kolonnen med 5
trykk (pyspark_pandas.Mark1.sub (5))

Produksjon

Vi kan se at 5 trekkes fra hver verdi i Mark1 -kolonnen.

Eksempel 2
I dette eksemplet vil vi trekke 5 fra hele Pyspark Pandas DataFrame.

#import pandaer fra pyspark -modulen
Fra Pyspark Import Pandas
#Create DataFrame fra Pandas Pyspark
pyspark_pandas = pandas.Dataframe ('Mark1': [90,78,90,54,67], 'Mark2': [100,67,96,89,77], 'Mark3': [91,92,98,97,87] )
#Subract 5 fra hele DataFrame
trykk (pyspark_pandas.sub (5))

Produksjon

Vi kan se at 5 blir trukket fra hele Pyspark Pandas DataFrame.

Pyspark.Pandas.Dataramme.mul ()

mul () i Pyspark Pandas DataFrame brukes til å multiplisere elementer i hele DataFrame med en verdi.

Det er også mulig å multiplisere en verdi i en enkelt kolonne. Det tar verdien som en parameter.

Syntaks

For hele Pyspark Pandas DataFrame

pyspark_pandas.mul (verdi)

For bestemt kolonne

pyspark_pandas.mul (verdi)

Hvor,

  1. pyspark_pandas er pyspark pandas dataaframe
  2. Verdi som tar numerisk verdi å multipliseres med Pyspark_pandas.

Eksempel 1
I dette eksemplet vil vi multiplisere alle verdiene i Mark1 -kolonnen med 5.

#import pandaer fra pyspark -modulen
Fra Pyspark Import Pandas
#Create DataFrame fra Pandas Pyspark
pyspark_pandas = pandas.Dataframe ('Mark1': [90,78,90,54,67], 'Mark2': [100,67,96,89,77], 'Mark3': [91,92,98,97,87] )
#Subract 5 fra hele DataFrame
trykk (pyspark_pandas.sub (5))

Produksjon

Vi kan se at 5 multipliseres med hver verdi i Mark1 -kolonnen.

Eksempel 2
I dette eksemplet vil vi multiplisere hele Pyspark Pandas DataFrame med 5.

#import pandaer fra pyspark -modulen
Fra Pyspark Import Pandas
#Create DataFrame fra Pandas Pyspark
pyspark_pandas = pandas.Dataframe ('Mark1': [90,78,90,54,67], 'Mark2': [100,67,96,89,77], 'Mark3': [91,92,98,97,87] )
#Multiply hele DataFrame med 5
trykk (pyspark_pandas.Mul (5))

Produksjon

Vi kan se at hele Pyspark Pandas DataFrame multipliseres med 5.

Pyspark.Pandas.Dataramme.div ()

div () i pyspark pandas dataframe brukes til å dele elementer i hele dataaframet med en verdi.

Det er også mulig å dele etter verdi i en enkelt kolonne. Det tar verdien som en parameter. Det returnerer en kvotient.

Syntaks

For hele Pyspark Pandas DataFrame

pyspark_pandas.div (verdi)

For bestemt kolonne

pyspark_pandas.div (verdi)

Hvor,

  1. pyspark_pandas er pyspark pandas dataaframe
  2. Verdi som tar numerisk verdi å deles med Pyspark_pandas.

Eksempel 1
I dette eksemplet vil vi dele alle verdiene i Mark1 -kolonnen med 5.

#import pandaer fra pyspark -modulen
Fra Pyspark Import Pandas
#Create DataFrame fra Pandas Pyspark
pyspark_pandas = pandas.Dataframe ('Mark1': [90,78,90,54,67], 'Mark2': [100,67,96,89,77], 'Mark3': [91,92,98,97,87] )
#divide Mark1 kolonne med 5
trykk (pyspark_pandas.Mark1.div (5))

Produksjon

Vi kan se at hver verdi i Mark1 -kolonnen er delt med 5.

Eksempel 2
I dette eksemplet vil vi dele hele Pyspark Pandas DataFrame med 5.

#import pandaer fra pyspark -modulen
Fra Pyspark Import Pandas
#Create DataFrame fra Pandas Pyspark
pyspark_pandas = pandas.Dataframe ('Mark1': [90,78,90,54,67], 'Mark2': [100,67,96,89,77], 'Mark3': [91,92,98,97,87] )
#divide hele DataFrame med 5
trykk (pyspark_pandas.div (5))

Produksjon

Vi kan se at hele Pyspark Pandas DataFrame er delt med 5.

Pyspark.Pandas.Dataramme.mod ()

Mod () I Pyspark Pandas brukes DataFrame til å dele elementer i hele DataFrame med en verdi. Det vil returnere resten.

Det er også mulig å dele etter verdi i en enkelt kolonne. Det tar verdien som en parameter.

Syntaks

For hele Pyspark Pandas DataFrame

pyspark_pandas.mod (verdi)

For bestemt kolonne

pyspark_pandas.mod (verdi)

Hvor,

  1. pyspark_pandas er pyspark pandas dataaframe
  2. Verdi som tar numerisk verdi å deles med Pyspark_pandas.

Eksempel 1
I dette eksemplet vil vi dele alle verdiene i Mark1 -kolonnen med 5.

#import pandaer fra pyspark -modulen
Fra Pyspark Import Pandas
#Create DataFrame fra Pandas Pyspark
pyspark_pandas = pandas.Dataframe ('Mark1': [90,78,90,54,67], 'Mark2': [100,67,96,89,77], 'Mark3': [91,92,98,97,87] )
#divide Mark1 kolonne med 5
trykk (pyspark_pandas.Mark1.mod (5))

Produksjon

Vi kan se at hver verdi i Mark1 -kolonnen er delt med 5 og returnert resten.

Eksempel 2
I dette eksemplet vil vi dele hele Pyspark Pandas DataFrame med 5.

#import pandaer fra pyspark -modulen
Fra Pyspark Import Pandas
#Create DataFrame fra Pandas Pyspark
pyspark_pandas = pandas.Dataframe ('Mark1': [90,78,90,54,67], 'Mark2': [100,67,96,89,77], 'Mark3': [91,92,98,97,87] )
#divide hele DataFrame med 5
trykk (pyspark_pandas.mod (5))

Produksjon

Vi kan se at hele Pyspark Pandas DataFrame er delt med 5 og returnert resten.

Konklusjon

I denne Pyspark Pandas -opplæringen diskuterte vi aritmetiske operasjoner utført på Pyspark Pandas DataFrame. add () brukes til å legge til alle verdiene i hele DataFrame med 5, og sub () brukes til å trekke fra verdier fra hele Pyspark Pandas DataFrame. Mul () brukes til å multiplisere alle verdiene i hele dataframmen med en verdi, og div () brukes til å dele alle verdiene med en verdi i Pyspark Pandas dataframe og returnere kvotienten. Mod () brukes til å dele alle verdiene med en verdi i Pyspark Pandas DataFrame og returnere resten. Forskjellen mellom mod () og div () er mod () returnerer resten, men div () returnerer kvotient.