Pyspark - tidsstempelfunksjoner

Pyspark - tidsstempelfunksjoner
I Python er Pyspark en Spark -modul som brukes til å gi en lignende type prosessering som Spark ved hjelp av DataFrame.

Vi vil diskutere tidsstempelfunksjoner i Pyspark. La oss først lage en dataaframe.

Tidsstempel

En tidsstempel er en data som inkluderer dato og klokkeslett.

Dato inkluderer måneder, dato og år.

Tiden inkluderer time, minutt, andre og mølle.

Vi kan representere tidsstempel som - (yyyy, mm, dd, h, m, s, mi.S)

Hvor:

  1. Åååå - representerer år i firesifret format
  2. MM - Representerer måned i to -sifret format
  3. DD - representerer dato i to sifferformat
  4. H - representerer time
  5. M - representerer minutt
  6. S - representerer andre
  7. Mi.S representerer milli-sekund

Ved å bruke DateTime -modulen kan vi lage tidsstempler. Så det krever import av datetime -modulen.

Eksempel oppretting:
dato tid.DateTime (2022, 2, 16, 2, 46, 30, 144585)

Eksempel:
Her vil vi lage Pyspark DataFrame med 5 rader og 3 kolonner med tidsstempler og vise DataFrame ved hjelp av Collect () -metoden.

#import Pyspark -modulen
Importer pyspark
#import SparkSession for å lage en økt
Fra Pyspark.SQL Import SparkSession
#import alle metoder fra pyspark.SQL.Funksjonsmodul
Fra Pyspark.SQL.Funksjoner importerer *
# Importer DateTime Module
Importer DateTime
#Create en app som heter Linuxhint
Spark_app = SparkSession.bygger.AppName ('Linuxhint').getorCreate ()
# Lag studentdata med 5 rader og 3 attributter
Studenter = ['Rollno': '001', 'Navn': 'Sravan', 'innrømmet_date': DateTime.DateTime (2022, 2, 16, 2, 46, 30, 144585),
'Rollno': '002', 'Navn': 'Deepika', 'innrømmet_date': DateTime.DateTime (2022, 2, 11, 3, 46, 10, 144582),
'Rollno': '003', 'Navn': 'Chandrika', 'innrømmet_date': DateTime.DateTime (2021, 1, 8, 4, 46, 44, 194585),
'Rollno': '004', 'Navn': 'Akash', 'innrømmet_date': DateTime.DateTime (2022, 4, 16, 6, 46, 45, 144185),
'Rollno': '005', 'Navn': 'Thanuja', 'innrømmet_date': DateTime.DateTime (2012, 5, 6, 2, 46, 47, 154585)
]
# Lag DataFrame
df = spark_app.CreateTataFrame (studenter)
# Vis DataFrame
df.samle inn()

Produksjon:

[Rad (innrømmet_date = DateTime.DateTime (2022, 2, 16, 2, 46, 30, 144585), navn = 'Sravan', Rollno = '001'),
Rad (innrømmet_date = DateTime.DateTime (2022, 2, 11, 3, 46, 10, 144582), navn = 'Deepika', Rollno = '002'),
Rad (innrømmet_date = DateTime.DateTime (2021, 1, 8, 4, 46, 44, 194585), navn = 'Chandrika', Rollno = '003'),
Rad (innrømmet_date = DateTime.DateTime (2022, 4, 16, 6, 46, 45, 144185), navn = 'Akash', Rollno = '004'),
Rad (innrømmet_date = DateTime.DateTime (2012, 5, 6, 2, 46, 47, 154585), navn = 'Thanuja', Rollno = '005')]

date_format ()

Dette formatet brukes til å trekke ut datoen/klokkeslettet fra den gitte tidsstempel. Det vil ta dato/klokkeslettformat og vil få dato/tid basert på dette formatet.

For å få datoen er formatet “Yyyy-MM-DD”. Vi kan plassere mm/dd/åååå i hvilken som helst bestilling.

Syntaks:
date_format (col (“timestamp_column”), "yyyy-mm-dd").alias (“Resultat_column”)

Hvor:

  1. Timestamp_column er tidsstempelets datakolonne
  2. Resultat_column er etiketten for denne formaterte kolonnen

For å få tid, er formatet “HH: MM: SS.SSS ”.

Syntaks:
Dataramme.Velg (Date_Format (COL (“Timestamp_Column”), ”HH: MM: SS.SSS ”).alias (“Resultat_column”))

Hvor:

  1. Timestamp_column er tidsstempelets datakolonne
  2. Resultat_column er etiketten for denne formaterte kolonnen

Eksempel 1:
I dette eksemplet vil vi trekke ut dato som "dato" fra den innrømte_date tidsstempelkolonnen og vil vise den ved hjelp av show () -metoden.

#import Pyspark -modulen
Importer pyspark
#import SparkSession for å lage en økt
Fra Pyspark.SQL Import SparkSession
#import alle metoder fra pyspark.SQL.Funksjonsmodul
Fra Pyspark.SQL.Funksjoner importerer *
# Importer DateTime Module
Importer DateTime
#Create en app som heter Linuxhint
Spark_app = SparkSession.bygger.AppName ('Linuxhint').getorCreate ()
# Lag studentdata med 5 rader og 3 attributter
Studenter = ['Rollno': '001', 'Navn': 'Sravan', 'innrømmet_date': DateTime.DateTime (2022, 2, 16, 2, 46, 30, 144585),
'Rollno': '002', 'Navn': 'Deepika', 'innrømmet_date': DateTime.DateTime (2022, 2, 11, 3, 46, 10, 144582),
'Rollno': '003', 'Navn': 'Chandrika', 'innrømmet_date': DateTime.DateTime (2021, 1, 8, 4, 46, 44, 194585),
'Rollno': '004', 'Navn': 'Akash', 'innrømmet_date': DateTime.DateTime (2022, 4, 16, 6, 46, 45, 144185),
'Rollno': '005', 'Navn': 'Thanuja', 'innrømmet_date': DateTime.DateTime (2012, 5, 6, 2, 46, 47, 154585)
]
# Lag DataFrame
df = spark_app.CreateTataFrame (studenter)
# trekke ut dato fra tidsstempel
df.SELECT (COL ("innrømmet_date"), date_format (COL ("innrømmet_date"), "yyyy-mm-dd").alias ("date")).forestilling()

Produksjon:

Eksempel 2:
I dette eksemplet vil vi hente ut tid som "tid" fra den innrømte_date tidsstempelkolonnen og vil vise den ved hjelp av show () -metoden.

#import Pyspark -modulen
Importer pyspark
#import SparkSession for å lage en økt
Fra Pyspark.SQL Import SparkSession
#import alle metoder fra pyspark.SQL.Funksjonsmodul
Fra Pyspark.SQL.Funksjoner importerer *
# Importer DateTime Module
Importer DateTime
#Create en app som heter Linuxhint
Spark_app = SparkSession.bygger.AppName ('Linuxhint').getorCreate ()
# Lag studentdata med 5 rader og 3 attributter
Studenter = ['Rollno': '001', 'Navn': 'Sravan', 'innrømmet_date': DateTime.DateTime (2022, 2, 16, 2, 46, 30, 144585),
'Rollno': '002', 'Navn': 'Deepika', 'innrømmet_date': DateTime.DateTime (2022, 2, 11, 3, 46, 10, 144582),
'Rollno': '003', 'Navn': 'Chandrika', 'innrømmet_date': DateTime.DateTime (2021, 1, 8, 4, 46, 44, 194585),
'Rollno': '004', 'Navn': 'Akash', 'innrømmet_date': DateTime.DateTime (2022, 4, 16, 6, 46, 45, 144185),
'Rollno': '005', 'Navn': 'Thanuja', 'innrømmet_date': DateTime.DateTime (2012, 5, 6, 2, 46, 47, 154585)
]
# Lag DataFrame
df = spark_app.CreateTataFrame (studenter)
# trekke ut tid fra tidsstempel
df.Velg (COL ("innrømmet_date"), Date_Format (COL ("innrømmet_dato"), "HH: MM: SS.SSS ").alias ("tid")).forestilling()

Produksjon:

time()

time () er en metode som vil returnere timen fra den gitte tidsstempel. Det vil returnere timer over rader i en tidsstempelkolonne.

Syntaks:
Dataramme.Velg (time (COL (“Timestamp_column”)))

Hvor, Timestamp_column er tidsstempelets datakolonne.

minutt()

minutt () er en metode som vil returnere minutter fra den gitte tidsstempel. Det vil returnere minutter over rader i en tidsstempelkolonne.

Syntaks:
Dataramme.Velg (Minute (COL (“Timestamp_Column”)))

Hvor, Timestamp_column er tidsstempelets datakolonne.

sekund()

Second () er en metode som vil returnere sekunder fra den gitte tidsstempel. Den vil returnere sekunder over rader i en tidsstempelkolonne.

Syntaks:
Dataramme.Velg (Second (COL (“Timestamp_Column”)))

Hvor, Timestamp_column er tidsstempelets datakolonne.

Eksempel:
I dette eksemplet vil vi hente ut time, minutter og sekunder fra innrømmet_date tidsstempelkolonne ved å bruke metodene ovenfor og vise DataFrame ved hjelp av show () -metoden.

#import Pyspark -modulen
Importer pyspark
#import SparkSession for å lage en økt
Fra Pyspark.SQL Import SparkSession
#import alle metoder fra pyspark.SQL.Funksjonsmodul
Fra Pyspark.SQL.Funksjoner importerer *
# Importer DateTime Module
Importer DateTime
#Create en app som heter Linuxhint
Spark_app = SparkSession.bygger.AppName ('Linuxhint').getorCreate ()
# Lag studentdata med 5 rader og 3 attributter
Studenter = ['Rollno': '001', 'Navn': 'Sravan', 'innrømmet_date': DateTime.DateTime (2022, 2, 16, 2, 46, 30, 144585),
'Rollno': '002', 'Navn': 'Deepika', 'innrømmet_date': DateTime.DateTime (2022, 2, 11, 3, 46, 10, 144582),
'Rollno': '003', 'Navn': 'Chandrika', 'innrømmet_date': DateTime.DateTime (2021, 1, 8, 4, 46, 44, 194585),
'Rollno': '004', 'Navn': 'Akash', 'innrømmet_date': DateTime.DateTime (2022, 4, 16, 6, 46, 45, 144185),
'Rollno': '005', 'Navn': 'Thanuja', 'innrømmet_date': DateTime.DateTime (2012, 5, 6, 2, 46, 47, 154585)
]
# Lag DataFrame
df = spark_app.CreateTataFrame (studenter)
# trekke ut timer fra tidsstempel
df.Velg (col ("innrømmet_dato"), time (col ("innrømmet_date"))))).forestilling()
# trekke ut minutter fra tidsstempel
df.Velg (col ("innrømmet_date"), minutt (col ("innrømmet_date"))))).forestilling()
# trekke ut sekunder fra tidsstempel
df.SELECT (COL ("innrømmet_date"), andre (col ("innrømmet_dat"))))))))))))).forestilling()

Produksjon:

Konklusjon

I denne opplæringen diskuterte vi hvordan vi kan trekke ut datoen og klokkeslettet ved hjelp av date_format () -metode og ved å bruke time (), minutt () og andre (). Vi hentet ut timer, minutter og sekunder fra tidsstempel -kolonnen i Pyspark DataFrame.