Pyspark SQL -sak når

Pyspark SQL -sak når

Vi vil diskutere om Pyspark - en betydelig databehandlingsteknologi som kan håndtere data om en petabyte -skala, Pyspark når ellers, og SQL -saken i Pyspark når.

Hva er Pyspark?

Spark er en generell formål, distribuert prosesseringsmotor som lar deg håndtere dataene på flere maskiner effektivt. Du kan utvikle Spark -applikasjoner for å behandle dataene og kjøre dem på Spark -plattformen ved hjelp av Pyspark. AWS tilbyr administrert EMR og gnistplattformen. Du kan bruke Pyspark til å behandle data og etablere en EMR -klynge på AWS. Pyspark kan lese dataene fra forskjellige filformater inkludert CSV, Parkett, JSON og databaser. Fordi Spark først og fremst er implementert i Scala, kan du lage Spark -apper i Scala eller Java å få tilgang til flere av funksjonene enn å skrive Spark -programmer i Python eller R. Pyspark støtter for eksempel ikke datasett for øyeblikket. Hvis du gjør en datavitenskap, er Pyspark et bedre alternativ enn Scala fordi det er mange populære datavitenskapsbiblioteker skrevet i Python som Numpy, Tensorflow og Scikit-Learn.

Pyspark “når” og “ellers”

“Ellers” og “når” i Pyspark, og SQL Case “When” Arbeide med DataFrame Pyspark, som SQL og andre programmeringsspråk, har en mekanisme for å sjekke flere forhold i rekkefølge og returnere en verdi når den første tilstanden er oppfylt ved hjelp av SQL som LIKE sak og når(). Ellers() Uttrykk ligner på "Switch" og "If-da-elv" -uttalelser i deres funksjonalitet.

Pyspark når ellers - Når () er en SQL -funksjon som returnerer en kolonnetype, og ellers er () en kolonnefunksjon som produserer ingen/null, hvis ellers () brukes ikke.

SQL -saken i Pyspark når - Dette ligner på et SQL -uttrykk, og det brukes som følger: Hvis tilstand 1 er sant, er resultatet sant, og omvendt.

Eksempel 1

1
2
3
4
5
6
7
8
9
10
11
12
1. 3
14
15
16
17
Import org.Apache.gnist.SQL.funksjoner.når
val df = seq (
("A B", "2019-01-19"),
("A A", "2019-01-10"),
("B F", "2019-01-15"),
("B E", "2019-01-30"),
("C B", "2019-01-22"),
("D O", "2019-01-30"),
("E U", "2019-01-22")
df.WithColumn ("Ends_With_B", når ($ "Word".Endswith ("B"), sant).ellers (falsk))

Eksempel 2

1
2
3
4
5
6
7
8
9
10
11
12
1. 3
14
15
16
17
Import org.Apache.gnist.SQL.funksjoner.element_at, delt, når
val df = seq (
("Ba", "menneskelig"),
("AB", "menneskelig"),
("E_BOT", "Bot"),
("D_bot", "bot"),
("TT", "Menneskelig"),
("A_BOT", "Bot"),
("C_BOT", "Bot")
).TODF ("Bruker", "Type")
df.WithColumn ("Isbot", når ($ "bruker".Endswith ("Bot"), Element_at (Split ($ "User", "_"), 1)))

Konklusjon

Vi diskuterte om Pyspark, Pyspark når, Pyspark på annen måte, og SQL -saken i Pyspark når som brukes til å sjekke flere forhold og returnere det første elementet som følger tilstanden, sammen med noen eksempler.