Spark er et kraftig databehandlingsverktøy som brukes til å lagre og behandle data effektivt og effektivt. Det ble introdusert av Apache -teamet og er også kjent som Apache Spark.
Vi kan relatere dataene i tabellformat. Så datastrukturen som brukes er DataFrame. Uansett vil Spark støtte Java, Scala og Python programmeringsspråk. Vi vil bruke Spark i Python -programmeringsspråk per nå.
Vi kan kalle det som pyspark. I Python er Pyspark en Spark -modul som brukes til å gi en lignende type prosessering ved hjelp av DataFrame.
Installasjon
Men vi trenger bare å installere pyspark i systemet vårt. For å installere hvilken som helst modul, må vi bruke PIP -kommandoen i Python. Og syntaksen er som følger.
Syntaks:
PIP installer pysparkFør vi bruker denne pyspark, må vi importere denne modulen i vår org, og dataene våre vil kreve en Spark -app. Så la oss importere denne modulen og opprette en app.
Vi kan lage en app ved hjelp av SparkSession ved å importere denne klassen fra Pyspark.SQL -modul.
Dette vil lage en økt for appen vår.
Lag nå Spark -app fra denne økten. Vi kan opprette Spark -app ved hjelp av getOrCreate () -metode
Syntaks:
Spark_app = SparkSession.bygger.AppName ('Linuxhint').getorCreate ()Det er på tide å lage en utmerket datastruktur kjent som en dataaFrame som lagrer de gitte dataene i rad- og kolonneformat.
I Pyspark kan vi lage en DataFrame fra Spark -appen med CreateTaFrame () -metode
Syntaks:
Spark_app.CreateTataFrame (input_data, kolonner)Der input_data kanskje en ordbok eller en liste for å lage en dataaframe fra disse dataene, og hvis input_data er en liste over ordbøker, er ikke kolonnene ikke behov for; Hvis det er en nestet liste, må vi oppgi kolonnenavn.
La oss lage Pyspark DataFrame
Kode:
#import pyspaprk -modulenProduksjon
I koden ovenfor opprettet vi ordboken med 5 rader og 6 kolonner og passerte denne ordboken til CreateFrame () -metoden for å generere DataFrame. Til slutt viser vi DataFrame med Show () -metoden. Denne metoden vil vise DataFrame i tabellformat.
La oss vise kolonnene i Pyspark DataFrame.
Vi kan få kolonnenavnene i et listeformat ved hjelp av kolonnemetoden.
Syntaks:
Dataramme.kolonnerEksempel 2:
#import pyspaprk -modulenProduksjon:
['Adresse', 'Age', 'Height', 'Name', 'Rollno', 'Weight']Konklusjon
I denne artikkelen diskuterte vi hvordan vi lager Pyspark DataFrame sammen med installasjonen og hvordan vi kan få kolonnene i DataFrame. Og vi brukte Show () -metoden for å vise DataFrame i tabellformat.