Pyspark Introduksjon

Data øker dag for dag. Vi trenger en enorm mengde minne for å lagre og behandle disse dataene. Dette skal være effektivt og enkelt å administrere. Så big datateknologi kom inn i bildet ved å gi Spark.

Spark er et kraftig databehandlingsverktøy som brukes til å lagre og behandle data effektivt og effektivt. Det ble introdusert av Apache -teamet og er også kjent som Apache Spark.

Vi kan relatere dataene i tabellformat. Så datastrukturen som brukes er DataFrame. Uansett vil Spark støtte Java, Scala og Python programmeringsspråk. Vi vil bruke Spark i Python -programmeringsspråk per nå.

Vi kan kalle det som pyspark. I Python er Pyspark en Spark -modul som brukes til å gi en lignende type prosessering ved hjelp av DataFrame.

Installasjon

Men vi trenger bare å installere pyspark i systemet vårt. For å installere hvilken som helst modul, må vi bruke PIP -kommandoen i Python. Og syntaksen er som følger.

Syntaks:

PIP installer pyspark

Før vi bruker denne pyspark, må vi importere denne modulen i vår org, og dataene våre vil kreve en Spark -app. Så la oss importere denne modulen og opprette en app.

Vi kan lage en app ved hjelp av SparkSession ved å importere denne klassen fra Pyspark.SQL -modul.

Dette vil lage en økt for appen vår.

Lag nå Spark -app fra denne økten. Vi kan opprette Spark -app ved hjelp av getOrCreate () -metode

Syntaks:

Spark_app = SparkSession.bygger.AppName ('Linuxhint').getorCreate ()

Det er på tide å lage en utmerket datastruktur kjent som en dataaFrame som lagrer de gitte dataene i rad- og kolonneformat.

I Pyspark kan vi lage en DataFrame fra Spark -appen med CreateTaFrame () -metode

Syntaks:

Spark_app.CreateTataFrame (input_data, kolonner)

Der input_data kanskje en ordbok eller en liste for å lage en dataaframe fra disse dataene, og hvis input_data er en liste over ordbøker, er ikke kolonnene ikke behov for; Hvis det er en nestet liste, må vi oppgi kolonnenavn.

La oss lage Pyspark DataFrame

Kode:

#import pyspaprk -modulen
Importer pyspark
#import SparkSession for å lage en økt
Fra Pyspark.SQL Import SparkSession
#Create en app som heter Linuxhint
Spark_app = SparkSession.bygger.AppName ('Linuxhint').getorCreate ()
# Lag studentdata med 5 rader og 6 attributter
Studenter = ['Rollno': '001', 'Navn': 'Sravan', 'Age': 23, 'Height': 5.79, 'vekt': 67, 'adresse': 'guntur',
'Rollno': '002', 'Navn': 'Ojaswi', 'Age': 16, 'Height': 3.79, 'vekt': 34, 'adresse': 'hyd',
'Rollno': '003', 'Navn': 'Gnanesh Chowdary', 'Age': 7, 'Height': 2.79, 'Vekt': 17, 'Adresse': 'Patna',
'Rollno': '004', 'Navn': 'Rohith', 'Age': 9, 'Height': 3.69, 'vekt': 28, 'adresse': 'hyd',
'Rollno': '005', 'Navn': 'Sridevi', 'Age': 37, 'Height': 5.59, 'vekt': 54, 'adresse': 'hyd']]
# Lag DataFrame
df = spark_app.CreateTataFrame (studenter)
# Dataramme
df.forestilling()

Produksjon

I koden ovenfor opprettet vi ordboken med 5 rader og 6 kolonner og passerte denne ordboken til CreateFrame () -metoden for å generere DataFrame. Til slutt viser vi DataFrame med Show () -metoden. Denne metoden vil vise DataFrame i tabellformat.

La oss vise kolonnene i Pyspark DataFrame.

Vi kan få kolonnenavnene i et listeformat ved hjelp av kolonnemetoden.

Syntaks:

Dataramme.kolonner

Eksempel 2:

Produksjon:

['Adresse', 'Age', 'Height', 'Name', 'Rollno', 'Weight']

Konklusjon

I denne artikkelen diskuterte vi hvordan vi lager Pyspark DataFrame sammen med installasjonen og hvordan vi kan få kolonnene i DataFrame. Og vi brukte Show () -metoden for å vise DataFrame i tabellformat.

Oracle Database

Gjør oracle fusion ansett som bedre enn sap?

Oracle Fusion (skybasert ERP) har et brukervennlig grensesnitt, mens SAP (sky og på stedet ERP) er s...

Daniel Berntsen

Golang

Hva er strukturer i Golang

I Golang er en struktur en sammensatt datatype som består av null eller flere navngitte felt, som hv...

Erik Røed

Golang

Introduksjon til Golang -programmeringsspråk

Golang er et åpen kildekode-programmeringsspråk utviklet av Google. Følg denne artikkelen for å lære...

Oskar Fossum