Vi vil diskutere om Pyspark - en betydelig databehandlingsteknologi som kan håndtere data om en petabyte -skala, Pyspark når ellers, og SQL -saken i Pyspark når.
Hva er Pyspark?
Spark er en generell formål, distribuert prosesseringsmotor som lar deg håndtere dataene på flere maskiner effektivt. Du kan utvikle Spark -applikasjoner for å behandle dataene og kjøre dem på Spark -plattformen ved hjelp av Pyspark. AWS tilbyr administrert EMR og gnistplattformen. Du kan bruke Pyspark til å behandle data og etablere en EMR -klynge på AWS. Pyspark kan lese dataene fra forskjellige filformater inkludert CSV, Parkett, JSON og databaser. Fordi Spark først og fremst er implementert i Scala, kan du lage Spark -apper i Scala eller Java å få tilgang til flere av funksjonene enn å skrive Spark -programmer i Python eller R. Pyspark støtter for eksempel ikke datasett for øyeblikket. Hvis du gjør en datavitenskap, er Pyspark et bedre alternativ enn Scala fordi det er mange populære datavitenskapsbiblioteker skrevet i Python som Numpy, Tensorflow og Scikit-Learn.
Pyspark “når” og “ellers”
“Ellers” og “når” i Pyspark, og SQL Case “When” Arbeide med DataFrame Pyspark, som SQL og andre programmeringsspråk, har en mekanisme for å sjekke flere forhold i rekkefølge og returnere en verdi når den første tilstanden er oppfylt ved hjelp av SQL som LIKE sak og når(). Ellers() Uttrykk ligner på "Switch" og "If-da-elv" -uttalelser i deres funksjonalitet.
Pyspark når ellers - Når () er en SQL -funksjon som returnerer en kolonnetype, og ellers er () en kolonnefunksjon som produserer ingen/null, hvis ellers () brukes ikke.
SQL -saken i Pyspark når - Dette ligner på et SQL -uttrykk, og det brukes som følger: Hvis tilstand 1 er sant, er resultatet sant, og omvendt.
Eksempel 1
1 2 3 4 5 6 7 8 9 10 11 12 1. 3 14 15 16 17 | Import org.Apache.gnist.SQL.funksjoner.når val df = seq ( ("A B", "2019-01-19"), ("A A", "2019-01-10"), ("B F", "2019-01-15"), ("B E", "2019-01-30"), ("C B", "2019-01-22"), ("D O", "2019-01-30"), ("E U", "2019-01-22") df.WithColumn ("Ends_With_B", når ($ "Word".Endswith ("B"), sant).ellers (falsk)) |
Eksempel 2
1 2 3 4 5 6 7 8 9 10 11 12 1. 3 14 15 16 17 | Import org.Apache.gnist.SQL.funksjoner.element_at, delt, når val df = seq ( ("Ba", "menneskelig"), ("AB", "menneskelig"), ("E_BOT", "Bot"), ("D_bot", "bot"), ("TT", "Menneskelig"), ("A_BOT", "Bot"), ("C_BOT", "Bot") ).TODF ("Bruker", "Type") df.WithColumn ("Isbot", når ($ "bruker".Endswith ("Bot"), Element_at (Split ($ "User", "_"), 1))) |
Konklusjon
Vi diskuterte om Pyspark, Pyspark når, Pyspark på annen måte, og SQL -saken i Pyspark når som brukes til å sjekke flere forhold og returnere det første elementet som følger tilstanden, sammen med noen eksempler.