Pyspark - Matematikkfunksjoner

Martin Berge

I Python er Pyspark en Spark -modul som brukes til å gi en lignende type prosessering som Spark ved hjelp av DataFrame.

Vi vil diskutere matematikkfunksjoner i Pyspark. La oss først lage en dataaframe

Eksempel:
Her skal vi lage Pyspark DataFrame med 5 rader og 6 kolonner.

#import Pyspark -modulen
Importer pyspark
#import SparkSession for å lage en økt
Fra Pyspark.SQL Import SparkSession
#Create en app som heter Linuxhint
Spark_app = SparkSession.bygger.AppName ('Linuxhint').getorCreate ()
# Lag studentdata med 5 rader og 6 attributter
Studenter1 = ['Rollno': '001', 'Navn': 'Sravan', 'Age': 23, 'Height': 5.79, 'vekt': 67, 'adresse': 'guntur',
'Rollno': '002', 'Navn': 'Ojaswi', 'Age': 16, 'Height': 3.79, 'vekt': 34, 'adresse': 'hyd',
'Rollno': '003', 'Navn': 'Gnanesh Chowdary', 'Age': 7, 'Height': 2.79, 'Vekt': 17, 'Adresse': 'Patna',
'Rollno': '004', 'Navn': 'Rohith', 'Age': 9, 'Height': 2.79, 'vekt': 28, 'adresse': 'hyd',
'Rollno': '005', 'Navn': 'Sridevi', 'Age': 9, 'Height': 5.59, 'vekt': 54, 'adresse': 'hyd']]
# Lag DataFrame
df = spark_app.CreateTataFrame (Students1)
# Vis DataFrame
df.forestilling()

Produksjon:

Pyspark - gulv ()

gulv () er en matematikkfunksjon tilgjengelig i pyspark.SQL.Funksjonsmodul som brukes til å returnere gulvet (under) verdien av den gitte dobbeltverdien.

Vi kan bruke dette med Select () -metode for å vise gulvverdiene for en kolonne.

Syntaks:
Dataramme.Velg (“Gulv (“ Kolonne ”))

Hvor:

DataFrame er inngangen Pyspark DataFrame
kolonnen er kolonnenavnet der gulv () påføres

Eksempel:
I dette eksemplet samler vi inn gulvverdier fra høydekolonnen gjennom SELECT () -metoden og viser den ved hjelp av Collect () -metoden.

#import Pyspark -modulen
Importer pyspark
#import SparkSession for å lage en økt
Fra Pyspark.SQL Import SparkSession
#import gulvfunksjon
Fra Pyspark.SQL.Funksjoner importerer gulv
#Create en app som heter Linuxhint
Spark_app = SparkSession.bygger.AppName ('Linuxhint').getorCreate ()
# Lag studentdata med 5 rader og 6 attributter
Studenter1 = ['Rollno': '001', 'Navn': 'Sravan', 'Age': 23, 'Height': 5.79, 'vekt': 67, 'adresse': 'guntur',
'Rollno': '002', 'Navn': 'Ojaswi', 'Age': 16, 'Height': 3.79, 'vekt': 34, 'adresse': 'hyd',
'Rollno': '003', 'Navn': 'Gnanesh Chowdary', 'Age': 7, 'Height': 2.79, 'Vekt': 17, 'Adresse': 'Patna',
'Rollno': '004', 'Navn': 'Rohith', 'Age': 9, 'Height': 2.79, 'vekt': 28, 'adresse': 'hyd',
'Rollno': '005', 'Navn': 'Sridevi', 'Age': 9, 'Height': 5.59, 'vekt': 54, 'adresse': 'hyd']]
# Lag DataFrame
df = spark_app.CreateTataFrame (Students1)
# Påfør gulv på høydekolonnen
df.Velg (gulv ('høyde')).samle inn()

Produksjon:

[Rad (gulv (høyde) = 5),
Rad (gulv (høyde) = 3),
Rad (gulv (høyde) = 2),
Rad (gulv (høyde) = 2),
Rad (gulv (høyde) = 5)]

Pyspark - Ceil ()

Ceil () er en matematikkfunksjon tilgjengelig i Pyspark.SQL.Funksjonsmodul som brukes til å returnere tak (øverst) verdi av den gitte dobbeltverdien.

Vi kan bruke dette med Select () -metode for å vise takverdiene for en kolonne.

Syntaks:
Dataramme.Velg (“Ceil (“ Column ”))

hvor:

DataFrame er inngangen Pyspark DataFrame
Kolonnen er kolonnenavnet der Ceil () brukes

Eksempel:
I dette eksemplet samler vi opp takverdier fra høydekolonnen gjennom Select () -metoden og viser den ved hjelp av Collect () -metoden

#import Pyspark -modulen
Importer pyspark
#import SparkSession for å lage en økt
Fra Pyspark.SQL Import SparkSession
#import gulvfunksjon
Fra Pyspark.SQL.Funksjoner importerer gulv
#Create en app som heter Linuxhint
Spark_app = SparkSession.bygger.AppName ('Linuxhint').getorCreate ()
# Lag studentdata med 5 rader og 6 attributter
Studenter1 = ['Rollno': '001', 'Navn': 'Sravan', 'Age': 23, 'Height': 5.79, 'vekt': 67, 'adresse': 'guntur',
'Rollno': '002', 'Navn': 'Ojaswi', 'Age': 16, 'Height': 3.79, 'vekt': 34, 'adresse': 'hyd',
'Rollno': '003', 'Navn': 'Gnanesh Chowdary', 'Age': 7, 'Height': 2.79, 'Vekt': 17, 'Adresse': 'Patna',
'Rollno': '004', 'Navn': 'Rohith', 'Age': 9, 'Height': 2.79, 'vekt': 28, 'adresse': 'hyd',
'Rollno': '005', 'Navn': 'Sridevi', 'Age': 9, 'Height': 5.59, 'vekt': 54, 'adresse': 'hyd']]
# Lag DataFrame
df = spark_app.CreateTataFrame (Students1)
# Bruk tak på høydekolonnen
df.Velg (Ceil ('Høyde')).samle inn()

Produksjon:

[Rad (Ceil (høyde) = 6),
Rad (Ceil (høyde) = 4),
Rad (Ceil (høyde) = 3),
Rad (Ceil (høyde) = 3),
ROW (Ceil (høyde) = 6)]

Pyspark - Round ()

runde () er en matematikkfunksjon tilgjengelig i pyspark.SQL.Funksjonsmodul som brukes til å returnere den avrundede verdien som er nærmere den gitte dobbeltverdien.

Vi kan bruke dette med Select () -metode for å vise rundverdiene for en kolonne.

Syntaks:
Dataramme.Velg (“Round (“ kolonne ”))

hvor:

DataFrame er inngangen Pyspark DataFrame
Kolonnen er kolonnenavnet der runde () brukes

Eksempel:
I dette eksemplet samler vi avrundede verdier fra høydekolonnen gjennom SELECT () -metoden og viser den ved hjelp av Collect () -metoden.

#import Pyspark -modulen
Importer pyspark
#import SparkSession for å lage en økt
Fra Pyspark.SQL Import SparkSession
#import gulvfunksjon
Fra Pyspark.SQL.Funksjoner importerer gulv
#Create en app som heter Linuxhint
Spark_app = SparkSession.bygger.AppName ('Linuxhint').getorCreate ()
# Lag studentdata med 5 rader og 6 attributter
Studenter1 = ['Rollno': '001', 'Navn': 'Sravan', 'Age': 23, 'Height': 5.79, 'vekt': 67, 'adresse': 'guntur',
'Rollno': '002', 'Navn': 'Ojaswi', 'Age': 16, 'Height': 3.79, 'vekt': 34, 'adresse': 'hyd',
'Rollno': '003', 'Navn': 'Gnanesh Chowdary', 'Age': 7, 'Height': 2.79, 'Vekt': 17, 'Adresse': 'Patna',
'Rollno': '004', 'Navn': 'Rohith', 'Age': 9, 'Height': 2.79, 'vekt': 28, 'adresse': 'hyd',
'Rollno': '005', 'Navn': 'Sridevi', 'Age': 9, 'Height': 5.59, 'vekt': 54, 'adresse': 'hyd']]
# Lag DataFrame
df = spark_app.CreateTataFrame (Students1)
# Bruk runde på høydekolonnen
df.Velg (runde ('høyde')).samle inn()

Produksjon:

[Rad (runde (høyde, 0) = 6.0),
Rad (runde (høyde, 0) = 4.0),
Rad (runde (høyde, 0) = 3.0),
Rad (runde (høyde, 0) = 3.0),
Rad (runde (høyde, 0) = 6.0)]

Pyspark - sinusfunksjoner

Sinus er en trigonometrisk funksjon som brukes til å returnere sinusverdiene fra den gitte Pyspark DataFrame -kolonnen. Det er tre varianter i sinus. De er synd (), asin () og sinh ().

Hvor:

Sin () brukes til å få sinusverdiene.

asin () brukes til å få de omvendte sinusverdiene.

sinh () brukes til å få hyperbolske sinusverdier.

Vi kan bruke dette med Select () -metode for å vise de resulterende verdiene for en kolonne.

Merk at du må importere disse funksjonene fra Pyspark.SQL.funksjoner.

Syntaks:

Dataramme.Velg (“Sin (“ Kolonne ”))
Dataramme.Velg (“Asin (“ kolonne ”))
Dataramme.Velg (“sinh (“ kolonne ”))

Hvor:

DataFrame er inngangen Pyspark DataFrame
Kolonnen er kolonnenavnet der sinusfunksjoner blir brukt

Eksempel:
I dette eksemplet bruker vi sinusfunksjoner på høydekolonnen via Select () Metode og viser verdiene ved hjelp av Collect () -metoden.

#import Pyspark -modulen
Importer pyspark
#import SparkSession for å lage en økt
Fra Pyspark.SQL Import SparkSession
#import Sine -funksjoner
Fra Pyspark.SQL.Funksjoner importerer synd, asin, Sinh
#Create en app som heter Linuxhint
Spark_app = SparkSession.bygger.AppName ('Linuxhint').getorCreate ()
# Lag studentdata med 5 rader og 6 attributter
Studenter1 = ['Rollno': '001', 'Navn': 'Sravan', 'Age': 23, 'Height': 5.79, 'vekt': 67, 'adresse': 'guntur',
'Rollno': '002', 'Navn': 'Ojaswi', 'Age': 16, 'Height': 3.79, 'vekt': 34, 'adresse': 'hyd',
'Rollno': '003', 'Navn': 'Gnanesh Chowdary', 'Age': 7, 'Height': 2.79, 'Vekt': 17, 'Adresse': 'Patna',
'Rollno': '004', 'Navn': 'Rohith', 'Age': 9, 'Height': 2.79, 'vekt': 28, 'adresse': 'hyd',
'Rollno': '005', 'Navn': 'Sridevi', 'Age': 9, 'Height': 5.59, 'vekt': 54, 'adresse': 'hyd']]
# Lag DataFrame
df = spark_app.CreateTataFrame (Students1)
# Bruk sinusfunksjoner på høydekolonnen
df.Velg (sin ('høyde'), asin ('høyde'), sinh ('høyde')).samle inn()

Produksjon:

[Rad (sin (høyde) =-0.47343399708193507, asin (høyde) = nan, sinh (høyde) = 163.5049831968973),
Rad (sin (høyde) =-0.6039177530112606, asin (høyde) = nan, sinh (høyde) = 22.116902337066122),
Rad (sin (høyde) = 0.34439346725839, asin (høyde) = nan, sinh (høyde) = 8.109799293936714),
Rad (sin (høyde) = 0.34439346725839, asin (høyde) = nan, sinh (høyde) = 8.109799293936714),
Rad (sin (høyde) =-0.6389906043282237, asin (høyde) = nan, sinh (høyde) = 133.86594234289123)]

Pyspark - kosinusfunksjoner

Cosine er en trigonometrisk funksjon som brukes til å returnere kosinusverdiene fra den gitte Pyspark DataFrame -kolonnen. Det er tre varianter i kosinus. De er Cos (), ACOs () og Cosh ().

Hvor:
cos () brukes til å få kosinusverdiene.

ACOs () brukes til å få de inverse kosinusverdiene.

cosh () brukes til å få hyperbolske kosinusverdier.

Vi kan bruke dette med Select () -metode for å vise de resulterende verdiene for en kolonne.

Merk at du må importere disse funksjonene fra Pyspark.SQL.funksjoner

Syntaks:
Dataramme.Velg (“COS (“ Kolonne ”))
Dataramme.Velg (“ACOS (“ Kolonne ”))
Dataramme.Velg (“Cosh (“ Kolonne ”))

Hvor:

DataFrame er inngangen Pyspark DataFrame
Kolonnen er kolonnenavnet der kosinusfunksjoner blir brukt

Eksempel:
I dette eksemplet bruker vi kosinusfunksjoner på høydekolonnen gjennom Select () -metoden og viser verdiene ved hjelp av Collect () -metoden.

#import Pyspark -modulen
Importer pyspark
#import SparkSession for å lage en økt
Fra Pyspark.SQL Import SparkSession
#import kosinusfunksjoner
Fra Pyspark.SQL.funksjoner importerer cos, ACOs, cosh
#Create en app som heter Linuxhint
Spark_app = SparkSession.bygger.AppName ('Linuxhint').getorCreate ()
# Lag studentdata med 5 rader og 6 attributter
Studenter1 = ['Rollno': '001', 'Navn': 'Sravan', 'Age': 23, 'Height': 5.79, 'vekt': 67, 'adresse': 'guntur',
'Rollno': '002', 'Navn': 'Ojaswi', 'Age': 16, 'Height': 3.79, 'vekt': 34, 'adresse': 'hyd',
'Rollno': '003', 'Navn': 'Gnanesh Chowdary', 'Age': 7, 'Height': 2.79, 'Vekt': 17, 'Adresse': 'Patna',
'Rollno': '004', 'Navn': 'Rohith', 'Age': 9, 'Height': 2.79, 'vekt': 28, 'adresse': 'hyd',
'Rollno': '005', 'Navn': 'Sridevi', 'Age': 9, 'Height': 5.59, 'vekt': 54, 'adresse': 'hyd']]
# Lag DataFrame
df = spark_app.CreateTataFrame (Students1)
# Bruk kosinusfunksjoner på høydekolonnen
df.Velg (COS ('Høyde'), ACOS ('Høyde'), Cosh ('Høyde'))).samle inn()

Produksjon:

[Rad (cos (høyde) = 0.880829296973609, ACOS (høyde) = nan, cosh (høyde) = 163.50804117907373),
Rad (cos (høyde) =-0.7970466407920117, ACOS (høyde) = NAN, cosh (høyde) = 22.139497938917245),
Rad (cos (høyde) =-0.9388254042737362, ACOS (høyde) = nan, cosh (høyde) = 8.171220507851714),
Rad (cos (høyde) =-0.9388254042737362, ACOS (høyde) = nan, cosh (høyde) = 8.171220507851714),
Rad (cos (høyde) = 0.7692145393713327, ACOS (høyde) = nan, cosh (høyde) = 133.86967737075594)]

Pyspark - Tangensfunksjoner

Tangent er en trigonometrisk funksjon som brukes til å returnere tangensverdiene fra den gitte Pyspark DataFrame -kolonnen. Det er tre varianter i tangent. De er solbrune (), atan () og tanh ().

Hvor:
Tan () brukes til å få tangensverdiene.

atan () brukes til å få de inverse tangentverdiene.

tanh () brukes til å få de hyperbolske tangensverdiene.

Vi kan bruke dette med Select () -metode for å vise de resulterende verdiene for en kolonne.

Merk at du kan importere disse funksjonene fra Pyspark.SQL.funksjoner

Syntaks:
Dataramme.Velg (“Tan (“ Kolonne ”))
Dataramme.Velg (“Atan (“ kolonne ”))
Dataramme.Velg (“Tanh (“ Kolonne ”))

Hvor:

DataFrame er inngangen Pyspark DataFrame
Kolonnen er kolonnenavnet der tangentfunksjoner blir brukt

Eksempel:
I dette eksemplet bruker vi tangensfunksjoner på høydekolonnen via SELECT () -metoden og viser verdiene ved hjelp av Collect () -metoden.

#import Pyspark -modulen
Importer pyspark
#import SparkSession for å lage en økt
Fra Pyspark.SQL Import SparkSession
#import tangensfunksjoner
Fra Pyspark.SQL.Funksjoner importerer solbrun, atan, tanh
#Create en app som heter Linuxhint
Spark_app = SparkSession.bygger.AppName ('Linuxhint').getorCreate ()
# Lag studentdata med 5 rader og 6 attributter
Studenter1 = ['Rollno': '001', 'Navn': 'Sravan', 'Age': 23, 'Height': 5.79, 'vekt': 67, 'adresse': 'guntur',
'Rollno': '002', 'Navn': 'Ojaswi', 'Age': 16, 'Height': 3.79, 'vekt': 34, 'adresse': 'hyd',
'Rollno': '003', 'Navn': 'Gnanesh Chowdary', 'Age': 7, 'Height': 2.79, 'Vekt': 17, 'Adresse': 'Patna',
'Rollno': '004', 'Navn': 'Rohith', 'Age': 9, 'Height': 2.79, 'vekt': 28, 'adresse': 'hyd',
'Rollno': '005', 'Navn': 'Sridevi', 'Age': 9, 'Height': 5.59, 'vekt': 54, 'adresse': 'hyd']]
# Lag DataFrame
df = spark_app.CreateTataFrame (Students1)
# Bruk tangensfunksjoner på høydekolonnen
df.Velg (Tan ('Høyde'), Atan ('Høyde'), Tanh ('Høyde')).samle inn()

Produksjon:

[Rad (solbrun (høyde) =-0.5374866602514016, atan (høyde) = 1.3997719475525305, tanh (høyde) = 0.9999812976649076),
Rad (solbrun (høyde) = 0.7576943708227135, atan (høyde) = 1.312823345585992, tanh (høyde) = 0.9989793986334531),
Rad (solbrun (høyde) =-0.36683441424852425, atan (høyde) = 1.2266375707015524, Tanh (høyde) = 0.9924832264829984),
Rad (solbrun (høyde) =-0.36683441424852425, atan (høyde) = 1.2266375707015524, Tanh (høyde) = 0.9924832264829984),
Rad (solbrun (høyde) =-0.8307053125262831, atan (høyde) = 1.3937779115470312, tanh (høyde) = 0.9999720995229238)]

Konklusjon

I denne artikkelen diskuterte vi seks matematikkfunksjoner. Blant de seks er tre av trigonometriske funksjoner: sinus, kosinus og tangent. I hver av disse diskuterte vi alle variasjoner med eksempler. De resterende tre er: Ceil (), gulv () og runde () funksjoner. Endelig vil vi sørge for at vi må importere disse funksjonene fra Pyspark.SQL.funksjoner modul for å bruke disse seks funksjonene.

Python

Python Chmod

“OS.CHMOD () ”-funksjonen til OS -modulen brukes til å endre eierskapet til Python -filen ved å godt...

Anders Fjeld Moe

Python

Matplotlib 2D -histogram

I Python, “PLT.hist2d () ”-funksjon av“ Pyplot ”-modulen i“ Matplotlib ”-biblioteket brukes til å pl...

Elias Krogh Svendsen

Python

Konverter en streng til Json Python

JSON -modulen fungerer, AST -modulfunksjonen eller eval () -funksjonen brukes til å konvertere en st...

Erik Røed