I Python er Pyspark en Spark -modul som brukes til å gi en lignende type prosessering som Spark ved hjelp av DataFrame.
Vi vil diskutere datofunksjoner i Pyspark. La oss først lage en dataaframe
Eksempel:
Her skal vi lage Pyspark DataFrame med 5 rader og 3 kolonner med datoer.
#import Pyspark -modulen
Importer pyspark
#import SparkSession for å lage en økt
Fra Pyspark.SQL Import SparkSession
#Create en app som heter Linuxhint
Spark_app = SparkSession.bygger.AppName ('Linuxhint').getorCreate ()
# Lag studentdata med 5 rader og 3 attributter
Studenter = ['Rollno': '001', 'Navn': 'Sravan', 'innrømmet_date': '2022-01-25',
'Rollno': '002', 'Navn': 'Deepika', 'innrømmet_date': '2022-02-11',
'Rollno': '003', 'Navn': 'Chandrika', 'innrømmet_date': '2022-02-02',
'Rollno': '004', 'Navn': 'Akash', 'innrømmet_date': '2021-04-12',
'Rollno': '005', 'Navn': 'Thanuja', 'innrømmet_date': '2022-01-25'
]
# Lag DataFrame
df = spark_app.CreateTataFrame (studenter)
# Vis DataFrame
df.forestilling()
Produksjon:
datediff ()
Denne metoden brukes til å returnere antall dager mellom gjeldende dato og den gitte datoen. For å bruke denne metoden, må vi importere den fra SQL.funksjoner. Så vi importerer bare alle metodene fra Pyspark.SQL.funksjoner.
Syntaks:
Datediff (Col (“Column_Date1”), COL (“Column_Date2”)).alias (“Resultat_column”)
hvor:
- kolonne_date1 er første dato kolonne
- kolonne_date2 er den andre dato -kolonnen trukket fra kolonnen_date1.
- Alias brukes til å spesifisere etiketten for resultatkolonnen
Vi kan vise den resulterende DataFrame ved å passere denne metoden i Select () -metoden.
Syntaks:
df.Velg (Datediff (COL (“Column_Date1”), COL (“Column_Date2”))).alias (“Resultat_column”)
)
Vi kan også trekke fra datakolonnen med gjeldende dato. Vi kan få gjeldende dato ved å bruke Current_Date () -funksjonen.
Eksempel:
I dette eksemplet vil vi trekke fra Applicated_date -kolonnen fra Current_Date () som datoforskjell ved å velge Current_Date () og innrømmet_date og for å vise DataFrame ved hjelp av show () -metoden.
#import Pyspark -modulen
Importer pyspark
#import SparkSession for å lage en økt
Fra Pyspark.SQL Import SparkSession
# Importer alle SQL -funksjoner
Fra Pyspark.SQL.Funksjoner importerer *
#Create en app som heter Linuxhint
Spark_app = SparkSession.bygger.AppName ('Linuxhint').getorCreate ()
# Lag studentdata med 5 rader og 3 attributter
Studenter = ['Rollno': '001', 'Navn': 'Sravan', 'innrømmet_date': '2022-01-25',
'Rollno': '002', 'Navn': 'Deepika', 'innrømmet_date': '2022-02-11',
'Rollno': '003', 'Navn': 'Chandrika', 'innrømmet_date': '2022-02-02',
'Rollno': '004', 'Navn': 'Akash', 'innrømmet_date': '2021-04-12',
'Rollno': '005', 'Navn': 'Thanuja', 'innrømmet_date': '2022-01-25'
]
# Lag DataFrame
df = spark_app.CreateTataFrame (studenter)
# Beregn datoforskjell fra gjeldende dato-2022-02-15 med innrømmet_dato
df.velg (current_date (), col ("innrømmet_date"), datediff (current_date (), col ("innrømmet_date")).alias ("Dato forskjell")).forestilling()
Produksjon:
Måneders_between ()
Denne metoden brukes til å returnere antall måneder mellom gjeldende dato og gitt dato. For å bruke denne metoden, må vi importere den fra SQL.funksjoner. Så vi importerer alle metodene fra Pyspark.SQL.funksjoner.
Syntaks:
Måneders_between (COL (“Column_Date1”), COL (“Column_Date2”)).alias (“Resultat_column”)
hvor:
- kolonne_date1 er første dato kolonne
- kolonne_date2 er den andre dato -kolonnen trukket fra kolonnen_date1.
- Alias brukes til å spesifisere etiketten for resultatkolonnen
Vi kan vise den resulterende DataFrame ved å passere denne metoden i Select () -metoden.
Syntaks:
df.Velg (Måneders_Between (COL (“Column_Date1”), COL (“Column_Date2”)).alias (“Resultat_column”)
)
Vi kan også trekke fra datakolonnen med gjeldende dato. Vi kan få gjeldende dato ved å bruke Current_Date () -funksjonen.
Eksempel:
I dette eksemplet vil vi få månedene mellom den innrømte_date -kolonnen og Current_Date () som måneder ved å velge Current_Date () og innrømmet_date og for å vise DataFrame ved hjelp av show () -metoden.
#import Pyspark -modulen
Importer pyspark
#import SparkSession for å lage en økt
Fra Pyspark.SQL Import SparkSession
# Importer alle SQL -funksjoner
Fra Pyspark.SQL.Funksjoner importerer *
#Create en app som heter Linuxhint
Spark_app = SparkSession.bygger.AppName ('Linuxhint').getorCreate ()
# Lag studentdata med 5 rader og 3 attributter
Studenter = ['Rollno': '001', 'Navn': 'Sravan', 'innrømmet_date': '2022-01-25',
'Rollno': '002', 'Navn': 'Deepika', 'innrømmet_date': '2022-02-11',
'Rollno': '003', 'Navn': 'Chandrika', 'innrømmet_date': '2022-02-02',
'Rollno': '004', 'Navn': 'Akash', 'innrømmet_date': '2021-04-12',
'Rollno': '005', 'Navn': 'Thanuja', 'innrømmet_date': '2022-01-25'
]
# Lag DataFrame
df = spark_app.CreateTataFrame (studenter)
# Få månedene mellom gjeldende dato-2022-02-15 og innrømmet_dato
df.velg (current_date (), col ("innrømmet_date"), måneders_between (current_date (), col ("innrømmet_date")).alias ("måneder")).forestilling()
Produksjon:
add_months ()
Denne metoden brukes til å legge måneder til den gitte datoen.
Syntaks:
Dataramme.velg (add_months (col (“kolonne”), number_of_months).alias (“Resultat_column”))
hvor,
- Kolonnen er datakolonnen
- number_of_months er det totale antall måneder som skal legges til kolonnedatoen.
- Alias brukes til å spesifisere etiketten for resultatkolonnen.
Eksempel:
I dette eksemplet vil vi legge til måneder til den innrømte_date og vise DataFrame ved hjelp av show () -metoden.
#import Pyspark -modulen
Importer pyspark
#import SparkSession for å lage en økt
Fra Pyspark.SQL Import SparkSession
# Importer alle SQL -funksjoner
Fra Pyspark.SQL.Funksjoner importerer *
#Create en app som heter Linuxhint
Spark_app = SparkSession.bygger.AppName ('Linuxhint').getorCreate ()
# Lag studentdata med 5 rader og 3 attributter
Studenter = ['Rollno': '001', 'Navn': 'Sravan', 'innrømmet_date': '2022-01-25',
'Rollno': '002', 'Navn': 'Deepika', 'innrømmet_date': '2022-02-11',
'Rollno': '003', 'Navn': 'Chandrika', 'innrømmet_date': '2022-02-02',
'Rollno': '004', 'Navn': 'Akash', 'innrømmet_date': '2021-04-12',
'Rollno': '005', 'Navn': 'Thanuja', 'innrømmet_date': '2022-01-25'
]
# Lag DataFrame
df = spark_app.CreateTataFrame (studenter)
# Legg til 12 måneder til innrømmet_dato
df.SELECT (COL ("innrømmet_date"), add_months (COL ("innrømmet_date"), 12).alias ("Etter 12 måneder")).forestilling()
# Legg til 4 måneder til den innrømte_datoen
df.Velg (col ("innrømmet_dato"), add_months (col ("innrømmet_date"), 4).alias ("Etter 4 måneder")).forestilling()
# Legg til 6 måneder til den innrømte_datoen
df.SELECT (COL ("innrømmet_date"), add_months (COL ("innrømmet_date"), 6).alias ("Etter 6 måneder")).forestilling()
Produksjon:
date_add ()
Denne metoden brukes til å legge til dager til den gitte datoen.
Syntaks:
Dataramme.velg (date_add (col (“kolonne”), number_of_days).alias (“Resultat_column”))
Hvor:
- Kolonnen er datakolonnen
- number_of_days er det totale antallet dager som skal legges til kolonnedatoen.
- Alias brukes til å spesifisere etiketten for resultatkolonnen.
Eksempel:
I dette eksemplet vil vi legge til dager til den innrømte_datoen og vise DataFrame ved hjelp av show () -metode.
#import Pyspark -modulen
Importer pyspark
#import SparkSession for å lage en økt
Fra Pyspark.SQL Import SparkSession
# Importer alle SQL -funksjoner
Fra Pyspark.SQL.Funksjoner importerer *
#Create en app som heter Linuxhint
Spark_app = SparkSession.bygger.AppName ('Linuxhint').getorCreate ()
# Lag studentdata med 5 rader og 3 attributter
Studenter = ['Rollno': '001', 'Navn': 'Sravan', 'innrømmet_date': '2022-01-25',
'Rollno': '002', 'Navn': 'Deepika', 'innrømmet_date': '2022-02-11',
'Rollno': '003', 'Navn': 'Chandrika', 'innrømmet_date': '2022-02-02',
'Rollno': '004', 'Navn': 'Akash', 'innrømmet_date': '2021-04-12',
'Rollno': '005', 'Navn': 'Thanuja', 'innrømmet_date': '2022-01-25'
]
# Lag DataFrame
df = spark_app.CreateTataFrame (studenter)
# Legg til 12 dager til den innrømte_datoen
df.SELECT (COL ("innrømmet_date"), date_add (COL ("innrømmet_date"), 12).alias ("Etter 12 dager")).forestilling()
# Legg til 4 dager til innrømmet_dato
df.SELECT (COL ("innrømmet_date"), date_add (col ("innrømmet_dato"), 4).alias ("Etter 4 dager")).forestilling()
# Legg til 6 dager til den innrømte_datoen
df.SELECT (COL ("innrømmet_date"), date_add (col ("innrømmet_date"), 6).alias ("Etter 6 dager")).forestilling()
Produksjon:
date_sub ()
Denne metoden brukes til å trekke fra dager til den gitte datoen.
Syntaks:
Dataramme.velg (date_sub (col (“kolonne”), number_of_days).alias (“Resultat_column”))
Hvor:
- Kolonnen er datakolonnen
- number_of_days er det totale antall dager som skal trekkes fra kolonnedatoen.
- Alias brukes til å spesifisere etiketten for resultatkolonnen.
Eksempel:
I dette eksemplet vil vi trekke fra dagene fra den innrømte_date og vise DataFrame ved hjelp av Show () -metoden.
#import Pyspark -modulen
Importer pyspark
#import SparkSession for å lage en økt
Fra Pyspark.SQL Import SparkSession
# Importer alle SQL -funksjoner
Fra Pyspark.SQL.Funksjoner importerer *
#Create en app som heter Linuxhint
Spark_app = SparkSession.bygger.AppName ('Linuxhint').getorCreate ()
# Lag studentdata med 5 rader og 3 attributter
Studenter = ['Rollno': '001', 'Navn': 'Sravan', 'innrømmet_date': '2022-01-25',
'Rollno': '002', 'Navn': 'Deepika', 'innrømmet_date': '2022-02-11',
'Rollno': '003', 'Navn': 'Chandrika', 'innrømmet_date': '2022-02-02',
'Rollno': '004', 'Navn': 'Akash', 'innrømmet_date': '2021-04-12',
'Rollno': '005', 'Navn': 'Thanuja', 'innrømmet_date': '2022-01-25'
]
# Lag DataFrame
df = spark_app.CreateTataFrame (studenter)
# Trekk fra 12 dager fra innrømmet_dato
df.SELECT (COL ("innrømmet_date"), date_sub (COL ("innrømmet_date"), 12).alias ("før 12 dager")).forestilling()
# Trekk fra 4 dager fra innrømmet_dato
df.SELECT (COL ("innrømmet_date"), date_sub (col ("innrømmet_dato"), 4).alias ("før 4 dager")).forestilling()
# Trekk fra 6 dager fra innrømmet_dato
df.SELECT (COL ("innrømmet_dato"), date_sub (col ("innrømmet_date"), 6).alias ("før 6 dager")).forestilling()
Produksjon:
år()
år () brukes til å returnere året fra den gitte datoen.
Syntaks:
Dataramme.Velg (år (COL (“Kolonne”)).alias (“Resultat_column”))
Hvor:
- Kolonnen er datakolonnen
- Alias brukes til å spesifisere etiketten for resultatkolonnen.
Eksempel:
I dette eksemplet vil vi hente ut året fra den innrømte_date og vise årets kolonne ved hjelp av Show () -metoden.
#import Pyspark -modulen
Importer pyspark
#import SparkSession for å lage en økt
Fra Pyspark.SQL Import SparkSession
# Importer alle SQL -funksjoner
Fra Pyspark.SQL.Funksjoner importerer *
#Create en app som heter Linuxhint
Spark_app = SparkSession.bygger.AppName ('Linuxhint').getorCreate ()
# Lag studentdata med 5 rader og 3 attributter
Studenter = ['Rollno': '001', 'Navn': 'Sravan', 'innrømmet_date': '2022-01-25',
'Rollno': '002', 'Navn': 'Deepika', 'innrømmet_date': '2022-02-11',
'Rollno': '003', 'Navn': 'Chandrika', 'innrømmet_date': '2022-02-02',
'Rollno': '004', 'Navn': 'Akash', 'innrømmet_date': '2021-04-12',
'Rollno': '005', 'Navn': 'Thanuja', 'innrømmet_date': '2022-01-25'
]
# Lag DataFrame
df = spark_app.CreateTataFrame (studenter)
# Velg år fra innrømmet_datkolonne
df.Velg (år (col ("innrømmet_dato")).alias ("år")).forestilling()
Produksjon:
måned()
måned () brukes til å returnere måneden fra den gitte datoen.
Syntaks:
Dataramme.Velg (måned (col (“kolonne”)).alias (“Resultat_column”))
Hvor:
- Kolonnen er datakolonnen
- Alias brukes til å spesifisere etiketten for resultatkolonnen.
Eksempel:
I dette eksemplet vil vi hente ut måneden fra den innrømte_date og vise månedskolonnen ved hjelp av Show () -metoden.
#import Pyspark -modulen
Importer pyspark
#import SparkSession for å lage en økt
Fra Pyspark.SQL Import SparkSession
# Importer alle SQL -funksjoner
Fra Pyspark.SQL.Funksjoner importerer *
#Create en app som heter Linuxhint
Spark_app = SparkSession.bygger.AppName ('Linuxhint').getorCreate ()
# Lag studentdata med 5 rader og 3 attributter
Studenter = ['Rollno': '001', 'Navn': 'Sravan', 'innrømmet_date': '2022-01-25',
'Rollno': '002', 'Navn': 'Deepika', 'innrømmet_date': '2022-02-11',
'Rollno': '003', 'Navn': 'Chandrika', 'innrømmet_date': '2022-02-02',
'Rollno': '004', 'Navn': 'Akash', 'innrømmet_date': '2021-04-12',
'Rollno': '005', 'Navn': 'Thanuja', 'innrømmet_date': '2022-01-25'
]
# Lag DataFrame
df = spark_app.CreateTataFrame (studenter)
# Velg måned fra innrømmet_datkolonne
df.Velg (måned (col ("innrømmet_dato")).alias ("måned")).forestilling()
Produksjon:
DayOfMonth (), DayOfWeek (), DayOfyear ()
DayOfmonth () brukes til å returnere måneden i måneden fra den gitte datoen.
DayOfWeek () brukes til å returnere ukens dag fra den gitte datoen.
DayOfyear () brukes til å returnere dagen for året fra den gitte datoen.
Syntaks:
Dataramme.Velg (DayOfMonth (COL (“Kolonne”)).alias (“Resultat_column”))
Dataramme.Velg (DayOfWeek (COL (“Kolonne”)).alias (“Resultat_column”))
Dataramme.Velg (DayOfyear (COL (“Kolonne”)).alias (“Resultat_column”))
hvor:
- Kolonnen er datakolonnen
- Alias brukes til å spesifisere etiketten for resultatkolonnen.
Eksempel:
I dette eksemplet vil vi trekke ut dag i uken, måned og år fra den innrømte_date og vises ved hjelp av show () -metoden.
#import Pyspark -modulen
Importer pyspark
#import SparkSession for å lage en økt
Fra Pyspark.SQL Import SparkSession
# Importer alle SQL -funksjoner
Fra Pyspark.SQL.Funksjoner importerer *
#Create en app som heter Linuxhint
Spark_app = SparkSession.bygger.AppName ('Linuxhint').getorCreate ()
# Lag studentdata med 5 rader og 3 attributter
Studenter = ['Rollno': '001', 'Navn': 'Sravan', 'innrømmet_date': '2022-01-25',
'Rollno': '002', 'Navn': 'Deepika', 'innrømmet_date': '2022-02-11',
'Rollno': '003', 'Navn': 'Chandrika', 'innrømmet_date': '2022-02-02',
'Rollno': '004', 'Navn': 'Akash', 'innrømmet_date': '2021-04-12',
'Rollno': '005', 'Navn': 'Thanuja', 'innrømmet_date': '2022-01-25'
]
# Lag DataFrame
df = spark_app.CreateTataFrame (studenter)
# Velg ukedag fra innrømmet_datkolonne
df.Velg (DayOfWeek (COL ("innrømmet_date")).alias ("Dag på uken")).forestilling()
# Velg månedens dag fra innrømmet_datkolonne
df.Velg (DayOfMonth (COL ("innrømmet_date")).alias ("Månedens dag")).forestilling()
# Velg årets dag fra innrømmet_datkolonne
df.Velg (DayOfyear (COL ("innrømmet_date")).alias ("Dag på året")).forestilling()
Produksjon:
Konklusjon
Fra denne artikkelen lærte vi hvordan vi bruker datofunksjoner på Pyspark DataFrame. Disse er veldig nyttige i DateApi -applikasjoner. Det handler også om hvordan du legger til dager og kolonner til eksisterende dato.