I Python er Pyspark en Spark -modul som brukes til å gi en lignende type prosessering som Spark ved hjelp av DataFrame.
Vi vil diskutere matematikkfunksjoner i Pyspark. La oss først lage en dataaframe
Eksempel:
Her skal vi lage Pyspark DataFrame med 5 rader og 6 kolonner.
#import Pyspark -modulen
Importer pyspark
#import SparkSession for å lage en økt
Fra Pyspark.SQL Import SparkSession
#Create en app som heter Linuxhint
Spark_app = SparkSession.bygger.AppName ('Linuxhint').getorCreate ()
# Lag studentdata med 5 rader og 6 attributter
Studenter1 = ['Rollno': '001', 'Navn': 'Sravan', 'Age': 23, 'Height': 5.79, 'vekt': 67, 'adresse': 'guntur',
'Rollno': '002', 'Navn': 'Ojaswi', 'Age': 16, 'Height': 3.79, 'vekt': 34, 'adresse': 'hyd',
'Rollno': '003', 'Navn': 'Gnanesh Chowdary', 'Age': 7, 'Height': 2.79, 'Vekt': 17, 'Adresse': 'Patna',
'Rollno': '004', 'Navn': 'Rohith', 'Age': 9, 'Height': 2.79, 'vekt': 28, 'adresse': 'hyd',
'Rollno': '005', 'Navn': 'Sridevi', 'Age': 9, 'Height': 5.59, 'vekt': 54, 'adresse': 'hyd']]
# Lag DataFrame
df = spark_app.CreateTataFrame (Students1)
# Vis DataFrame
df.forestilling()
Produksjon:
Pyspark - gulv ()
gulv () er en matematikkfunksjon tilgjengelig i pyspark.SQL.Funksjonsmodul som brukes til å returnere gulvet (under) verdien av den gitte dobbeltverdien.
Vi kan bruke dette med Select () -metode for å vise gulvverdiene for en kolonne.
Syntaks:
Dataramme.Velg (“Gulv (“ Kolonne ”))
Hvor:
- DataFrame er inngangen Pyspark DataFrame
- kolonnen er kolonnenavnet der gulv () påføres
Eksempel:
I dette eksemplet samler vi inn gulvverdier fra høydekolonnen gjennom SELECT () -metoden og viser den ved hjelp av Collect () -metoden.
#import Pyspark -modulen
Importer pyspark
#import SparkSession for å lage en økt
Fra Pyspark.SQL Import SparkSession
#import gulvfunksjon
Fra Pyspark.SQL.Funksjoner importerer gulv
#Create en app som heter Linuxhint
Spark_app = SparkSession.bygger.AppName ('Linuxhint').getorCreate ()
# Lag studentdata med 5 rader og 6 attributter
Studenter1 = ['Rollno': '001', 'Navn': 'Sravan', 'Age': 23, 'Height': 5.79, 'vekt': 67, 'adresse': 'guntur',
'Rollno': '002', 'Navn': 'Ojaswi', 'Age': 16, 'Height': 3.79, 'vekt': 34, 'adresse': 'hyd',
'Rollno': '003', 'Navn': 'Gnanesh Chowdary', 'Age': 7, 'Height': 2.79, 'Vekt': 17, 'Adresse': 'Patna',
'Rollno': '004', 'Navn': 'Rohith', 'Age': 9, 'Height': 2.79, 'vekt': 28, 'adresse': 'hyd',
'Rollno': '005', 'Navn': 'Sridevi', 'Age': 9, 'Height': 5.59, 'vekt': 54, 'adresse': 'hyd']]
# Lag DataFrame
df = spark_app.CreateTataFrame (Students1)
# Påfør gulv på høydekolonnen
df.Velg (gulv ('høyde')).samle inn()
Produksjon:
[Rad (gulv (høyde) = 5),
Rad (gulv (høyde) = 3),
Rad (gulv (høyde) = 2),
Rad (gulv (høyde) = 2),
Rad (gulv (høyde) = 5)]
Pyspark - Ceil ()
Ceil () er en matematikkfunksjon tilgjengelig i Pyspark.SQL.Funksjonsmodul som brukes til å returnere tak (øverst) verdi av den gitte dobbeltverdien.
Vi kan bruke dette med Select () -metode for å vise takverdiene for en kolonne.
Syntaks:
Dataramme.Velg (“Ceil (“ Column ”))
hvor:
- DataFrame er inngangen Pyspark DataFrame
- Kolonnen er kolonnenavnet der Ceil () brukes
Eksempel:
I dette eksemplet samler vi opp takverdier fra høydekolonnen gjennom Select () -metoden og viser den ved hjelp av Collect () -metoden
#import Pyspark -modulen
Importer pyspark
#import SparkSession for å lage en økt
Fra Pyspark.SQL Import SparkSession
#import gulvfunksjon
Fra Pyspark.SQL.Funksjoner importerer gulv
#Create en app som heter Linuxhint
Spark_app = SparkSession.bygger.AppName ('Linuxhint').getorCreate ()
# Lag studentdata med 5 rader og 6 attributter
Studenter1 = ['Rollno': '001', 'Navn': 'Sravan', 'Age': 23, 'Height': 5.79, 'vekt': 67, 'adresse': 'guntur',
'Rollno': '002', 'Navn': 'Ojaswi', 'Age': 16, 'Height': 3.79, 'vekt': 34, 'adresse': 'hyd',
'Rollno': '003', 'Navn': 'Gnanesh Chowdary', 'Age': 7, 'Height': 2.79, 'Vekt': 17, 'Adresse': 'Patna',
'Rollno': '004', 'Navn': 'Rohith', 'Age': 9, 'Height': 2.79, 'vekt': 28, 'adresse': 'hyd',
'Rollno': '005', 'Navn': 'Sridevi', 'Age': 9, 'Height': 5.59, 'vekt': 54, 'adresse': 'hyd']]
# Lag DataFrame
df = spark_app.CreateTataFrame (Students1)
# Bruk tak på høydekolonnen
df.Velg (Ceil ('Høyde')).samle inn()
Produksjon:
[Rad (Ceil (høyde) = 6),
Rad (Ceil (høyde) = 4),
Rad (Ceil (høyde) = 3),
Rad (Ceil (høyde) = 3),
ROW (Ceil (høyde) = 6)]
Pyspark - Round ()
runde () er en matematikkfunksjon tilgjengelig i pyspark.SQL.Funksjonsmodul som brukes til å returnere den avrundede verdien som er nærmere den gitte dobbeltverdien.
Vi kan bruke dette med Select () -metode for å vise rundverdiene for en kolonne.
Syntaks:
Dataramme.Velg (“Round (“ kolonne ”))
hvor:
- DataFrame er inngangen Pyspark DataFrame
- Kolonnen er kolonnenavnet der runde () brukes
Eksempel:
I dette eksemplet samler vi avrundede verdier fra høydekolonnen gjennom SELECT () -metoden og viser den ved hjelp av Collect () -metoden.
#import Pyspark -modulen
Importer pyspark
#import SparkSession for å lage en økt
Fra Pyspark.SQL Import SparkSession
#import gulvfunksjon
Fra Pyspark.SQL.Funksjoner importerer gulv
#Create en app som heter Linuxhint
Spark_app = SparkSession.bygger.AppName ('Linuxhint').getorCreate ()
# Lag studentdata med 5 rader og 6 attributter
Studenter1 = ['Rollno': '001', 'Navn': 'Sravan', 'Age': 23, 'Height': 5.79, 'vekt': 67, 'adresse': 'guntur',
'Rollno': '002', 'Navn': 'Ojaswi', 'Age': 16, 'Height': 3.79, 'vekt': 34, 'adresse': 'hyd',
'Rollno': '003', 'Navn': 'Gnanesh Chowdary', 'Age': 7, 'Height': 2.79, 'Vekt': 17, 'Adresse': 'Patna',
'Rollno': '004', 'Navn': 'Rohith', 'Age': 9, 'Height': 2.79, 'vekt': 28, 'adresse': 'hyd',
'Rollno': '005', 'Navn': 'Sridevi', 'Age': 9, 'Height': 5.59, 'vekt': 54, 'adresse': 'hyd']]
# Lag DataFrame
df = spark_app.CreateTataFrame (Students1)
# Bruk runde på høydekolonnen
df.Velg (runde ('høyde')).samle inn()
Produksjon:
[Rad (runde (høyde, 0) = 6.0),
Rad (runde (høyde, 0) = 4.0),
Rad (runde (høyde, 0) = 3.0),
Rad (runde (høyde, 0) = 3.0),
Rad (runde (høyde, 0) = 6.0)]
Pyspark - sinusfunksjoner
Sinus er en trigonometrisk funksjon som brukes til å returnere sinusverdiene fra den gitte Pyspark DataFrame -kolonnen. Det er tre varianter i sinus. De er synd (), asin () og sinh ().
Hvor:
Sin () brukes til å få sinusverdiene.
asin () brukes til å få de omvendte sinusverdiene.
sinh () brukes til å få hyperbolske sinusverdier.
Vi kan bruke dette med Select () -metode for å vise de resulterende verdiene for en kolonne.
Merk at du må importere disse funksjonene fra Pyspark.SQL.funksjoner.
Syntaks:
Dataramme.Velg (“Sin (“ Kolonne ”))
Dataramme.Velg (“Asin (“ kolonne ”))
Dataramme.Velg (“sinh (“ kolonne ”))
Hvor:
- DataFrame er inngangen Pyspark DataFrame
- Kolonnen er kolonnenavnet der sinusfunksjoner blir brukt
Eksempel:
I dette eksemplet bruker vi sinusfunksjoner på høydekolonnen via Select () Metode og viser verdiene ved hjelp av Collect () -metoden.
#import Pyspark -modulen
Importer pyspark
#import SparkSession for å lage en økt
Fra Pyspark.SQL Import SparkSession
#import Sine -funksjoner
Fra Pyspark.SQL.Funksjoner importerer synd, asin, Sinh
#Create en app som heter Linuxhint
Spark_app = SparkSession.bygger.AppName ('Linuxhint').getorCreate ()
# Lag studentdata med 5 rader og 6 attributter
Studenter1 = ['Rollno': '001', 'Navn': 'Sravan', 'Age': 23, 'Height': 5.79, 'vekt': 67, 'adresse': 'guntur',
'Rollno': '002', 'Navn': 'Ojaswi', 'Age': 16, 'Height': 3.79, 'vekt': 34, 'adresse': 'hyd',
'Rollno': '003', 'Navn': 'Gnanesh Chowdary', 'Age': 7, 'Height': 2.79, 'Vekt': 17, 'Adresse': 'Patna',
'Rollno': '004', 'Navn': 'Rohith', 'Age': 9, 'Height': 2.79, 'vekt': 28, 'adresse': 'hyd',
'Rollno': '005', 'Navn': 'Sridevi', 'Age': 9, 'Height': 5.59, 'vekt': 54, 'adresse': 'hyd']]
# Lag DataFrame
df = spark_app.CreateTataFrame (Students1)
# Bruk sinusfunksjoner på høydekolonnen
df.Velg (sin ('høyde'), asin ('høyde'), sinh ('høyde')).samle inn()
Produksjon:
[Rad (sin (høyde) =-0.47343399708193507, asin (høyde) = nan, sinh (høyde) = 163.5049831968973),
Rad (sin (høyde) =-0.6039177530112606, asin (høyde) = nan, sinh (høyde) = 22.116902337066122),
Rad (sin (høyde) = 0.34439346725839, asin (høyde) = nan, sinh (høyde) = 8.109799293936714),
Rad (sin (høyde) = 0.34439346725839, asin (høyde) = nan, sinh (høyde) = 8.109799293936714),
Rad (sin (høyde) =-0.6389906043282237, asin (høyde) = nan, sinh (høyde) = 133.86594234289123)]
Pyspark - kosinusfunksjoner
Cosine er en trigonometrisk funksjon som brukes til å returnere kosinusverdiene fra den gitte Pyspark DataFrame -kolonnen. Det er tre varianter i kosinus. De er Cos (), ACOs () og Cosh ().
Hvor:
cos () brukes til å få kosinusverdiene.
ACOs () brukes til å få de inverse kosinusverdiene.
cosh () brukes til å få hyperbolske kosinusverdier.
Vi kan bruke dette med Select () -metode for å vise de resulterende verdiene for en kolonne.
Merk at du må importere disse funksjonene fra Pyspark.SQL.funksjoner
Syntaks:
Dataramme.Velg (“COS (“ Kolonne ”))
Dataramme.Velg (“ACOS (“ Kolonne ”))
Dataramme.Velg (“Cosh (“ Kolonne ”))
Hvor:
- DataFrame er inngangen Pyspark DataFrame
- Kolonnen er kolonnenavnet der kosinusfunksjoner blir brukt
Eksempel:
I dette eksemplet bruker vi kosinusfunksjoner på høydekolonnen gjennom Select () -metoden og viser verdiene ved hjelp av Collect () -metoden.
#import Pyspark -modulen
Importer pyspark
#import SparkSession for å lage en økt
Fra Pyspark.SQL Import SparkSession
#import kosinusfunksjoner
Fra Pyspark.SQL.funksjoner importerer cos, ACOs, cosh
#Create en app som heter Linuxhint
Spark_app = SparkSession.bygger.AppName ('Linuxhint').getorCreate ()
# Lag studentdata med 5 rader og 6 attributter
Studenter1 = ['Rollno': '001', 'Navn': 'Sravan', 'Age': 23, 'Height': 5.79, 'vekt': 67, 'adresse': 'guntur',
'Rollno': '002', 'Navn': 'Ojaswi', 'Age': 16, 'Height': 3.79, 'vekt': 34, 'adresse': 'hyd',
'Rollno': '003', 'Navn': 'Gnanesh Chowdary', 'Age': 7, 'Height': 2.79, 'Vekt': 17, 'Adresse': 'Patna',
'Rollno': '004', 'Navn': 'Rohith', 'Age': 9, 'Height': 2.79, 'vekt': 28, 'adresse': 'hyd',
'Rollno': '005', 'Navn': 'Sridevi', 'Age': 9, 'Height': 5.59, 'vekt': 54, 'adresse': 'hyd']]
# Lag DataFrame
df = spark_app.CreateTataFrame (Students1)
# Bruk kosinusfunksjoner på høydekolonnen
df.Velg (COS ('Høyde'), ACOS ('Høyde'), Cosh ('Høyde'))).samle inn()
Produksjon:
[Rad (cos (høyde) = 0.880829296973609, ACOS (høyde) = nan, cosh (høyde) = 163.50804117907373),
Rad (cos (høyde) =-0.7970466407920117, ACOS (høyde) = NAN, cosh (høyde) = 22.139497938917245),
Rad (cos (høyde) =-0.9388254042737362, ACOS (høyde) = nan, cosh (høyde) = 8.171220507851714),
Rad (cos (høyde) =-0.9388254042737362, ACOS (høyde) = nan, cosh (høyde) = 8.171220507851714),
Rad (cos (høyde) = 0.7692145393713327, ACOS (høyde) = nan, cosh (høyde) = 133.86967737075594)]
Pyspark - Tangensfunksjoner
Tangent er en trigonometrisk funksjon som brukes til å returnere tangensverdiene fra den gitte Pyspark DataFrame -kolonnen. Det er tre varianter i tangent. De er solbrune (), atan () og tanh ().
Hvor:
Tan () brukes til å få tangensverdiene.
atan () brukes til å få de inverse tangentverdiene.
tanh () brukes til å få de hyperbolske tangensverdiene.
Vi kan bruke dette med Select () -metode for å vise de resulterende verdiene for en kolonne.
Merk at du kan importere disse funksjonene fra Pyspark.SQL.funksjoner
Syntaks:
Dataramme.Velg (“Tan (“ Kolonne ”))
Dataramme.Velg (“Atan (“ kolonne ”))
Dataramme.Velg (“Tanh (“ Kolonne ”))
Hvor:
- DataFrame er inngangen Pyspark DataFrame
- Kolonnen er kolonnenavnet der tangentfunksjoner blir brukt
Eksempel:
I dette eksemplet bruker vi tangensfunksjoner på høydekolonnen via SELECT () -metoden og viser verdiene ved hjelp av Collect () -metoden.
#import Pyspark -modulen
Importer pyspark
#import SparkSession for å lage en økt
Fra Pyspark.SQL Import SparkSession
#import tangensfunksjoner
Fra Pyspark.SQL.Funksjoner importerer solbrun, atan, tanh
#Create en app som heter Linuxhint
Spark_app = SparkSession.bygger.AppName ('Linuxhint').getorCreate ()
# Lag studentdata med 5 rader og 6 attributter
Studenter1 = ['Rollno': '001', 'Navn': 'Sravan', 'Age': 23, 'Height': 5.79, 'vekt': 67, 'adresse': 'guntur',
'Rollno': '002', 'Navn': 'Ojaswi', 'Age': 16, 'Height': 3.79, 'vekt': 34, 'adresse': 'hyd',
'Rollno': '003', 'Navn': 'Gnanesh Chowdary', 'Age': 7, 'Height': 2.79, 'Vekt': 17, 'Adresse': 'Patna',
'Rollno': '004', 'Navn': 'Rohith', 'Age': 9, 'Height': 2.79, 'vekt': 28, 'adresse': 'hyd',
'Rollno': '005', 'Navn': 'Sridevi', 'Age': 9, 'Height': 5.59, 'vekt': 54, 'adresse': 'hyd']]
# Lag DataFrame
df = spark_app.CreateTataFrame (Students1)
# Bruk tangensfunksjoner på høydekolonnen
df.Velg (Tan ('Høyde'), Atan ('Høyde'), Tanh ('Høyde')).samle inn()
Produksjon:
[Rad (solbrun (høyde) =-0.5374866602514016, atan (høyde) = 1.3997719475525305, tanh (høyde) = 0.9999812976649076),
Rad (solbrun (høyde) = 0.7576943708227135, atan (høyde) = 1.312823345585992, tanh (høyde) = 0.9989793986334531),
Rad (solbrun (høyde) =-0.36683441424852425, atan (høyde) = 1.2266375707015524, Tanh (høyde) = 0.9924832264829984),
Rad (solbrun (høyde) =-0.36683441424852425, atan (høyde) = 1.2266375707015524, Tanh (høyde) = 0.9924832264829984),
Rad (solbrun (høyde) =-0.8307053125262831, atan (høyde) = 1.3937779115470312, tanh (høyde) = 0.9999720995229238)]
Konklusjon
I denne artikkelen diskuterte vi seks matematikkfunksjoner. Blant de seks er tre av trigonometriske funksjoner: sinus, kosinus og tangent. I hver av disse diskuterte vi alle variasjoner med eksempler. De resterende tre er: Ceil (), gulv () og runde () funksjoner. Endelig vil vi sørge for at vi må importere disse funksjonene fra Pyspark.SQL.funksjoner modul for å bruke disse seks funksjonene.