Pyspark - Velg leddet

Pyspark - Velg leddet
I Python er Pyspark en Spark -modul som brukes til å gi en lignende type prosessering som Spark ved hjelp av DataFrame.

Velg () I Pyspark brukes til å velge kolonnene i DataFrame.

Vi kan velge kolonner på mange måter.

La oss diskutere det en etter en. Før det må vi lage Pyspark DataFrame for demonstrasjon.

Eksempel:

Vi vil lage en DataFrame med 5 rader og 6 kolonner og vise den ved hjelp av Show () -metoden.

#import pyspaprk -modulen
Importer pyspark
#import SparkSession for å lage en økt
Fra Pyspark.SQL Import SparkSession
#Create en app som heter Linuxhint
Spark_app = SparkSession.bygger.AppName ('Linuxhint').getorCreate ()
# Lag studentdata med 5 rader og 6 attributter
Studenter = ['Rollno': '001', 'Navn': 'Sravan', 'Age': 23, 'Height': 5.79, 'vekt': 67, 'adresse': 'guntur',
'Rollno': '002', 'Navn': 'Ojaswi', 'Age': 16, 'Height': 3.79, 'vekt': 34, 'adresse': 'hyd',
'Rollno': '003', 'Navn': 'Gnanesh Chowdary', 'Age': 7, 'Height': 2.79, 'Vekt': 17, 'Adresse': 'Patna',
'Rollno': '004', 'Navn': 'Rohith', 'Age': 9, 'Height': 3.69, 'vekt': 28, 'adresse': 'hyd',
'Rollno': '005', 'Navn': 'Sridevi', 'Age': 37, 'Height': 5.59, 'vekt': 54, 'adresse': 'hyd']]
# Lag DataFrame
df = spark_app.CreateTataFrame (studenter)
#Display DataFrame
df.forestilling()

Produksjon:

Metode -1: Bruke kolonnenavn

Her vil vi gi kolonnenavn direkte for å velge () metode. Denne metoden returnerer dataene som er til stede i disse kolonnene; Vi kan gi flere kolonner samtidig.

Syntaks:

Dataramme.Velg (“Column_name”, .. .)

Eksempel:

I dette eksemplet skal vi velge navn og adressekolonne fra Pyspark DataFrame og vise den ved hjelp av Collect () -metoden

#import pyspaprk -modulen
Importer pyspark
#import SparkSession for å lage en økt
Fra Pyspark.SQL Import SparkSession
#Create en app som heter Linuxhint
Spark_app = SparkSession.bygger.AppName ('Linuxhint').getorCreate ()
# Lag studentdata med 5 rader og 6 attributter
Studenter = ['Rollno': '001', 'Navn': 'Sravan', 'Age': 23, 'Height': 5.79, 'vekt': 67, 'adresse': 'guntur',
'Rollno': '002', 'Navn': 'Ojaswi', 'Age': 16, 'Height': 3.79, 'vekt': 34, 'adresse': 'hyd',
'Rollno': '003', 'Navn': 'Gnanesh Chowdary', 'Age': 7, 'Height': 2.79, 'Vekt': 17, 'Adresse': 'Patna',
'Rollno': '004', 'Navn': 'Rohith', 'Age': 9, 'Height': 3.69, 'vekt': 28, 'adresse': 'hyd',
'Rollno': '005', 'Navn': 'Sridevi', 'Age': 37, 'Height': 5.59, 'vekt': 54, 'adresse': 'hyd']]
# Lag DataFrame
df = spark_app.CreateTataFrame (studenter)
#Display Navn og adressekolonner
df.Velg ("Navn", "Adresse").samle inn()

Produksjon:

[Rad (navn = 'sravan', adresse = 'guntur'),
Rad (name = 'ojaswi', adresse = 'hyd'),
Rad (name = 'gnanesh chowdary', adresse = 'patna'),
Rad (name = 'rohith', adresse = 'hyd'),
Rad (name = 'sridevi', adresse = 'hyd')]

Metode -2: Bruke kolonnenavn med DataFrame

Her vil vi gi kolonnenavn med DataFrame for å velge () metode. Denne metoden returnerer dataene som er til stede i disse kolonnene; Vi kan gi flere kolonner samtidig.

Syntaks:

Dataramme.Velg (DataFrame.kolonne_navn, .. .)

Eksempel:

I dette eksemplet skal vi velge navn og adressekolonne fra Pyspark DataFrame og vise den ved hjelp av Collect () -metoden

#import pyspaprk -modulen
Importer pyspark
#import SparkSession for å lage en økt
Fra Pyspark.SQL Import SparkSession
#Create en app som heter Linuxhint
Spark_app = SparkSession.bygger.AppName ('Linuxhint').getorCreate ()
# Lag studentdata med 5 rader og 6 attributter
Studenter = ['Rollno': '001', 'Navn': 'Sravan', 'Age': 23, 'Height': 5.79, 'vekt': 67, 'adresse': 'guntur',
'Rollno': '002', 'Navn': 'Ojaswi', 'Age': 16, 'Height': 3.79, 'vekt': 34, 'adresse': 'hyd',
'Rollno': '003', 'Navn': 'Gnanesh Chowdary', 'Age': 7, 'Height': 2.79, 'Vekt': 17, 'Adresse': 'Patna',
'Rollno': '004', 'Navn': 'Rohith', 'Age': 9, 'Height': 3.69, 'vekt': 28, 'adresse': 'hyd',
'Rollno': '005', 'Navn': 'Sridevi', 'Age': 37, 'Height': 5.59, 'vekt': 54, 'adresse': 'hyd']]
# Lag DataFrame
df = spark_app.CreateTataFrame (studenter)
#Display Navn og adressekolonner
df.Velg (DF.Navn, DF.adresse).samle inn()

Produksjon:

[Rad (navn = 'sravan', adresse = 'guntur'),
Rad (name = 'ojaswi', adresse = 'hyd'),
Rad (name = 'gnanesh chowdary', adresse = 'patna'),
Rad (name = 'rohith', adresse = 'hyd'),
Rad (name = 'sridevi', adresse = 'hyd')]

Metode -3: Bruke [] operatør

Her vil vi gi kolonnenavn i [] operatør med DataFrame for å velge () metode. Denne metoden returnerer dataene som er til stede i disse kolonnene; Vi kan gi flere kolonner samtidig.

Syntaks:

Dataramme.Velg (DataFrame.kolonne_navn, .. .)

Eksempel:

I dette eksemplet skal vi velge navn og adressekolonne fra Pyspark DataFrame og vise den ved hjelp av Collect () -metoden

#import pyspaprk -modulen
Importer pyspark
#import SparkSession for å lage en økt
Fra Pyspark.SQL Import SparkSession
#Create en app som heter Linuxhint
Spark_app = SparkSession.bygger.AppName ('Linuxhint').getorCreate ()
# Lag studentdata med 5 rader og 6 attributter
Studenter = ['Rollno': '001', 'Navn': 'Sravan', 'Age': 23, 'Height': 5.79, 'vekt': 67, 'adresse': 'guntur',
'Rollno': '002', 'Navn': 'Ojaswi', 'Age': 16, 'Height': 3.79, 'vekt': 34, 'adresse': 'hyd',
'Rollno': '003', 'Navn': 'Gnanesh Chowdary', 'Age': 7, 'Height': 2.79, 'Vekt': 17, 'Adresse': 'Patna',
'Rollno': '004', 'Navn': 'Rohith', 'Age': 9, 'Height': 3.69, 'vekt': 28, 'adresse': 'hyd',
'Rollno': '005', 'Navn': 'Sridevi', 'Age': 37, 'Height': 5.59, 'vekt': 54, 'adresse': 'hyd']]
# Lag DataFrame
df = spark_app.CreateTataFrame (studenter)
#Display Navn og adressekolonner
df.Velg (DF ["Navn"], DF ["Adresse"]).samle inn()

Produksjon:

[Rad (navn = 'sravan', adresse = 'guntur'),
Rad (name = 'ojaswi', adresse = 'hyd'),
Rad (name = 'gnanesh chowdary', adresse = 'patna'),
Rad (name = 'rohith', adresse = 'hyd'),
Rad (name = 'sridevi', adresse = 'hyd')]

Metode -4: Bruke COL -funksjon

Her vil vi gi kolonnenavn i COL -funksjonen for å velge () -metoden. Denne funksjonen er tilgjengelig i Pyspark.SQL fungerer, som returnerer dataene som er til stede i de kolonnene; Vi kan gi flere kolonner om gangen inne i Select () -metoden.Syntaks:

Dataramme.Velg (Col (“Column_name”), .. .)

Eksempel:

I dette eksemplet skal vi velge navn og adressekolonne fra Pyspark DataFrame og vise ved hjelp av Collect () -metoden

#import pyspaprk -modulen
Importer pyspark
#import SparkSession for å lage en økt
Fra Pyspark.SQL Import SparkSession
#import col -funksjonen
Fra Pyspark.SQL.Funksjoner importerer col
#Create en app som heter Linuxhint
Spark_app = SparkSession.bygger.AppName ('Linuxhint').getorCreate ()
# Lag studentdata med 5 rader og 6 attributter
Studenter = ['Rollno': '001', 'Navn': 'Sravan', 'Age': 23, 'Height': 5.79, 'vekt': 67, 'adresse': 'guntur',
'Rollno': '002', 'Navn': 'Ojaswi', 'Age': 16, 'Height': 3.79, 'vekt': 34, 'adresse': 'hyd',
'Rollno': '003', 'Navn': 'Gnanesh Chowdary', 'Age': 7, 'Height': 2.79, 'Vekt': 17, 'Adresse': 'Patna',
'Rollno': '004', 'Navn': 'Rohith', 'Age': 9, 'Height': 3.69, 'vekt': 28, 'adresse': 'hyd',
'Rollno': '005', 'Navn': 'Sridevi', 'Age': 37, 'Height': 5.59, 'vekt': 54, 'adresse': 'hyd']]
# Lag DataFrame
df = spark_app.CreateTataFrame (studenter)
#Display Navn og adressekolonner
#med COL -funksjon
df.Velg (Col ("Navn"), Col ("Adresse")).samle inn()

Produksjon:

[Rad (navn = 'sravan', adresse = 'guntur'),
Rad (name = 'ojaswi', adresse = 'hyd'),
Rad (name = 'gnanesh chowdary', adresse = 'patna'),
Rad (name = 'rohith', adresse = 'hyd'),
Rad (name = 'sridevi', adresse = 'hyd')]

Konklusjon

I denne artikkelen diskuterte vi hvordan du velger dataene fra DataFrame, og vi diskuterte 4 måter å velge dataene ved å bruke kolonnenavn med Collect () -metoden.