Pyspark Introduksjon

Pyspark Introduksjon
Data øker dag for dag. Vi trenger en enorm mengde minne for å lagre og behandle disse dataene. Dette skal være effektivt og enkelt å administrere. Så big datateknologi kom inn i bildet ved å gi Spark.

Spark er et kraftig databehandlingsverktøy som brukes til å lagre og behandle data effektivt og effektivt. Det ble introdusert av Apache -teamet og er også kjent som Apache Spark.

Vi kan relatere dataene i tabellformat. Så datastrukturen som brukes er DataFrame. Uansett vil Spark støtte Java, Scala og Python programmeringsspråk. Vi vil bruke Spark i Python -programmeringsspråk per nå.

Vi kan kalle det som pyspark. I Python er Pyspark en Spark -modul som brukes til å gi en lignende type prosessering ved hjelp av DataFrame.

Installasjon

Men vi trenger bare å installere pyspark i systemet vårt. For å installere hvilken som helst modul, må vi bruke PIP -kommandoen i Python. Og syntaksen er som følger.

Syntaks:

PIP installer pyspark

Før vi bruker denne pyspark, må vi importere denne modulen i vår org, og dataene våre vil kreve en Spark -app. Så la oss importere denne modulen og opprette en app.

Vi kan lage en app ved hjelp av SparkSession ved å importere denne klassen fra Pyspark.SQL -modul.

Dette vil lage en økt for appen vår.

Lag nå Spark -app fra denne økten. Vi kan opprette Spark -app ved hjelp av getOrCreate () -metode

Syntaks:

Spark_app = SparkSession.bygger.AppName ('Linuxhint').getorCreate ()

Det er på tide å lage en utmerket datastruktur kjent som en dataaFrame som lagrer de gitte dataene i rad- og kolonneformat.

I Pyspark kan vi lage en DataFrame fra Spark -appen med CreateTaFrame () -metode

Syntaks:

Spark_app.CreateTataFrame (input_data, kolonner)

Der input_data kanskje en ordbok eller en liste for å lage en dataaframe fra disse dataene, og hvis input_data er en liste over ordbøker, er ikke kolonnene ikke behov for; Hvis det er en nestet liste, må vi oppgi kolonnenavn.

La oss lage Pyspark DataFrame

Kode:

#import pyspaprk -modulen
Importer pyspark
#import SparkSession for å lage en økt
Fra Pyspark.SQL Import SparkSession
#Create en app som heter Linuxhint
Spark_app = SparkSession.bygger.AppName ('Linuxhint').getorCreate ()
# Lag studentdata med 5 rader og 6 attributter
Studenter = ['Rollno': '001', 'Navn': 'Sravan', 'Age': 23, 'Height': 5.79, 'vekt': 67, 'adresse': 'guntur',
'Rollno': '002', 'Navn': 'Ojaswi', 'Age': 16, 'Height': 3.79, 'vekt': 34, 'adresse': 'hyd',
'Rollno': '003', 'Navn': 'Gnanesh Chowdary', 'Age': 7, 'Height': 2.79, 'Vekt': 17, 'Adresse': 'Patna',
'Rollno': '004', 'Navn': 'Rohith', 'Age': 9, 'Height': 3.69, 'vekt': 28, 'adresse': 'hyd',
'Rollno': '005', 'Navn': 'Sridevi', 'Age': 37, 'Height': 5.59, 'vekt': 54, 'adresse': 'hyd']]
# Lag DataFrame
df = spark_app.CreateTataFrame (studenter)
# Dataramme
df.forestilling()

Produksjon

I koden ovenfor opprettet vi ordboken med 5 rader og 6 kolonner og passerte denne ordboken til CreateFrame () -metoden for å generere DataFrame. Til slutt viser vi DataFrame med Show () -metoden. Denne metoden vil vise DataFrame i tabellformat.

La oss vise kolonnene i Pyspark DataFrame.

Vi kan få kolonnenavnene i et listeformat ved hjelp av kolonnemetoden.

Syntaks:

Dataramme.kolonner

Eksempel 2:

#import pyspaprk -modulen
Importer pyspark
#import SparkSession for å lage en økt
Fra Pyspark.SQL Import SparkSession
#Create en app som heter Linuxhint
Spark_app = SparkSession.bygger.AppName ('Linuxhint').getorCreate ()
# Lag studentdata med 5 rader og 6 attributter
Studenter = ['Rollno': '001', 'Navn': 'Sravan', 'Age': 23, 'Height': 5.79, 'vekt': 67, 'adresse': 'guntur',
'Rollno': '002', 'Navn': 'Ojaswi', 'Age': 16, 'Height': 3.79, 'vekt': 34, 'adresse': 'hyd',
'Rollno': '003', 'Navn': 'Gnanesh Chowdary', 'Age': 7, 'Height': 2.79, 'Vekt': 17, 'Adresse': 'Patna',
'Rollno': '004', 'Navn': 'Rohith', 'Age': 9, 'Height': 3.69, 'vekt': 28, 'adresse': 'hyd',
'Rollno': '005', 'Navn': 'Sridevi', 'Age': 37, 'Height': 5.59, 'vekt': 54, 'adresse': 'hyd']]
# Lag DataFrame
df = spark_app.CreateTataFrame (studenter)
# DataFrame -kolonner
df.kolonner

Produksjon:

['Adresse', 'Age', 'Height', 'Name', 'Rollno', 'Weight']

Konklusjon

I denne artikkelen diskuterte vi hvordan vi lager Pyspark DataFrame sammen med installasjonen og hvordan vi kan få kolonnene i DataFrame. Og vi brukte Show () -metoden for å vise DataFrame i tabellformat.