Sjekk de gitte dataene er Pyspark RDD eller DataFrame

Sjekk de gitte dataene er Pyspark RDD eller DataFrame

I Python er Pyspark en gnistmodul som brukes til å gi en lignende type prosessering som Spark.

RDD står for spenstige distribuerte datasett. Vi kan kalle RDD en grunnleggende datastruktur i Apache Spark.

Syntaks:

1
Spark_app.SparkContext.parallellisere (data)

Vi kan vise dataene i tabellformat. Datastrukturen som brukes er DataFrame.Tabellformat betyr at det lagrer data i rader og kolonner.

Syntaks:

I Pyspark kan vi lage en DataFrame fra Spark -appen med CreateDaFrame () -metoden.

Syntaks:

1
Spark_app.CreateTataFrame (input_data, kolonner)

Der input_data kan være en ordbok eller en liste for å lage en dataaframe fra disse dataene, og hvis input_data er en liste over ordbøker, er ikke kolonnene ikke nødvendig. Hvis det er en nestet liste, må vi oppgi kolonnenavn.

La oss nå diskutere hvordan du kan sjekke de gitte dataene i Pyspark RDD eller DataFrame.

Opprettelse av Pyspark RDD:

I dette eksemplet vil vi opprette en RDD -navngitte studenter og vises ved hjelp av Collect () handling.

#import Pyspark -modulen
Importer pyspark
#import SparkSession for å lage en økt
Fra Pyspark.SQL Import SparkSession
# Importer RDD fra Pyspark.RDD
Fra Pyspark.RDD Import RDD
#Create en app som heter Linuxhint
Spark_app = SparkSession.bygger.AppName ('Linuxhint').getorCreate ()
# Lag studentdata med 5 rader og 6 attributter
Studenter = spark_app.SparkContext.Parallelliser ([
'Rollno': '001', 'Navn': 'Sravan', 'Age': 23, 'Height': 5.79, 'vekt': 67, 'adresse': 'guntur',
'Rollno': '002', 'Navn': 'Ojaswi', 'Age': 16, 'Height': 3.79, 'vekt': 34, 'adresse': 'hyd',
'Rollno': '003', 'Navn': 'Gnanesh Chowdary', 'Age': 7, 'Height': 2.79, 'Vekt': 17, 'Adresse': 'Patna',
'Rollno': '004', 'Navn': 'Rohith', 'Age': 9, 'Height': 3.69, 'vekt': 28, 'adresse': 'hyd',
'Rollno': '005', 'Navn': 'Sridevi', 'Age': 37, 'Height': 5.59, 'vekt': 54, 'adresse': 'hyd'])
#Display RDD ved hjelp av Collect ()
trykk (studenter.samle inn())

Produksjon:

['Rollno': '001', 'Navn': 'Sravan', 'Age': 23, 'Height': 5.79, 'vekt': 67, 'adresse': 'guntur',
'Rollno': '002', 'Navn': 'Ojaswi', 'Age': 16, 'Height': 3.79, 'vekt': 34, 'adresse': 'hyd',
'Rollno': '003', 'Navn': 'Gnanesh Chowdary', 'Age': 7, 'Height': 2.79, 'Vekt': 17, 'Adresse': 'Patna',
'Rollno': '004', 'Navn': 'Rohith', 'Age': 9, 'Height': 3.69, 'vekt': 28, 'adresse': 'hyd',
'Rollno': '005', 'Navn': 'Sridevi', 'Age': 37, 'Height': 5.59, 'vekt': 54, 'adresse': 'hyd']]

Opprettelse av Pyspark DataFrame:

I dette eksemplet vil vi lage en DataFrame som heter DF fra studentenes data og vise dem ved hjelp av Show () -metoden.

#import Pyspark -modulen
Importer pyspark
#import SparkSession for å lage en økt
Fra Pyspark.SQL Import SparkSession
#import col -funksjonen
Fra Pyspark.SQL.Funksjoner importerer col
#Create en app som heter Linuxhint
Spark_app = SparkSession.bygger.AppName ('Linuxhint').getorCreate ()
# Lag studentdata med 5 rader og 6 attributter
Studenter = [
'Rollno': '001', 'Navn': 'Sravan', 'Age': 23, 'Height': 5.79, 'vekt': 67, 'adresse': 'guntur',
'Rollno': '002', 'Navn': 'Ojaswi', 'Age': 16, 'Height': 3.79, 'vekt': 34, 'adresse': 'hyd',
'Rollno': '003', 'Navn': 'Gnanesh Chowdary', 'Age': 7, 'Height': 2.79, 'Vekt': 17, 'Adresse': 'Patna',
'Rollno': '004', 'Navn': 'Rohith', 'Age': 9, 'Height': 3.69, 'vekt': 28, 'adresse': 'hyd',
'Rollno': '005', 'Navn': 'Sridevi', 'Age': 37, 'Height': 5.59, 'vekt': 54, 'adresse': 'hyd']]
# Lag DataFrame
df = spark_app.CreateTataFrame (studenter)
#Display DataFrame
df.forestilling()

Produksjon:

Metode 1: IsInstance ()

I Python brukes IsInstance () -metoden for å sammenligne det gitte objektet (data) med typen (RDD/DataFrame)

Syntaks:

1
IsInstance (Objekt, RDD/DataFrame)

Det tar to parametere:

Parametere:

  1. Objekt refererer til dataene
  2. RDD er den typen som er tilgjengelig i Pyspark.RDD -modul og DataFrame er den typen som er tilgjengelig i Pyspark.SQL -modul

Det vil returnere boolske verdier (true/usann).

Anta at dataene er RDD og at typen også er RDD, da vil de komme tilbake, ellers vil de komme tilbake usant.

Tilsvarende, hvis dataene er Dataframe og Type også er DataFrame, vil de komme tilbake, ellers vil de komme tilbake usant.

Eksempel 1:

Sjekk for RDD -objekt

I dette eksemplet vil vi bruke IsInstance () for RDD -objekt.

#import Pyspark -modulen
Importer pyspark
#import SparkSession og DataFrame for å lage en økt
Fra Pyspark.SQL Import SparkSession, DataFrame
# Importer RDD fra Pyspark.RDD
Fra Pyspark.RDD Import RDD
#Create en app som heter Linuxhint
Spark_app = SparkSession.bygger.AppName ('Linuxhint').getorCreate ()
# Lag studentdata med 5 rader og 6 attributter
Studenter = spark_app.SparkContext.Parallelliser ([
'Rollno': '001', 'Navn': 'Sravan', 'Age': 23, 'Height': 5.79, 'vekt': 67, 'adresse': 'guntur',
'Rollno': '002', 'Navn': 'Ojaswi', 'Age': 16, 'Height': 3.79, 'vekt': 34, 'adresse': 'hyd',
'Rollno': '003', 'Navn': 'Gnanesh Chowdary', 'Age': 7, 'Height': 2.79, 'Vekt': 17, 'Adresse': 'Patna',
'Rollno': '004', 'Navn': 'Rohith', 'Age': 9, 'Height': 3.69, 'vekt': 28, 'adresse': 'hyd',
'Rollno': '005', 'Navn': 'Sridevi', 'Age': 37, 'Height': 5.59, 'vekt': 54, 'adresse': 'hyd'])
#sjekk hvis studentene objektet er RDD
Print (IsInstance (Studenter, RDD))
#sjekk hvis studentene objektet er DataFrame
Print (IsInstance (Studenter, DataFrame))

Produksjon:

1
2
3
ekte
Falsk

Først sammenlignet vi studenter med RDD; Det returnerte sant fordi det er en RDD; Og så sammenlignet vi studenter med DataFrame, det returnerte usant fordi det er en RDD (ikke en DataFrame).

Eksempel 2:

Sjekk for DataFrame -objekt

I dette eksemplet vil vi bruke IsInstance () for DataFrame -objektet.

#import Pyspark -modulen
Importer pyspark
#import SparkSession, DataFrame for å lage en økt
Fra Pyspark.SQL Import SparkSession, DataFrame
#import col -funksjonen
Fra Pyspark.SQL.Funksjoner importerer col
# Importer RDD fra Pyspark.RDD
Fra Pyspark.RDD Import RDD
#Create en app som heter Linuxhint
Spark_app = SparkSession.bygger.AppName ('Linuxhint').getorCreate ()
# Lag studentdata med 5 rader og 6 attributter
Studenter = [
'Rollno': '001', 'Navn': 'Sravan', 'Age': 23, 'Height': 5.79, 'vekt': 67, 'adresse': 'guntur',
'Rollno': '002', 'Navn': 'Ojaswi', 'Age': 16, 'Height': 3.79, 'vekt': 34, 'adresse': 'hyd',
'Rollno': '003', 'Navn': 'Gnanesh Chowdary', 'Age': 7, 'Height': 2.79, 'Vekt': 17, 'Adresse': 'Patna',
'Rollno': '004', 'Navn': 'Rohith', 'Age': 9, 'Height': 3.69, 'vekt': 28, 'adresse': 'hyd',
'Rollno': '005', 'Navn': 'Sridevi', 'Age': 37, 'Height': 5.59, 'vekt': 54, 'adresse': 'hyd']]
# Lag DataFrame
df = spark_app.CreateTataFrame (studenter)
#Check hvis DF er RDD
Print (IsInstance (DF, RDD))
#Check hvis DF er DataFrame
Print (IsInstance (DF, DataFrame))

Produksjon:

1
2
3
Falsk
ekte

Først sammenlignet vi DF med RDD; Det returnerte usant fordi det er et dataaframe og så sammenlignet vi DF med DataFrame; Det returnerte sant fordi det er en dataaframe (ikke en RDD).

Metode 2: Type ()

I Python returnerer typen () -metoden klassen til det spesifiserte objektet. Det tar objekt som en parameter.

Syntaks:

1
type (objekt)

Eksempel 1:

Sjekk for et RDD -objekt.

Vi vil bruke type () på RDD -objektet.

#import Pyspark -modulen
Importer pyspark
#import SparkSession for å lage en økt
Fra Pyspark.SQL Import SparkSession
# Importer RDD fra Pyspark.RDD
Fra Pyspark.RDD Import RDD
#Create en app som heter Linuxhint
Spark_app = SparkSession.bygger.AppName ('Linuxhint').getorCreate ()
# Lag studentdata med 5 rader og 6 attributter
Studenter = spark_app.SparkContext.Parallelliser ([
'Rollno': '001', 'Navn': 'Sravan', 'Age': 23, 'Height': 5.79, 'vekt': 67, 'adresse': 'guntur',
'Rollno': '002', 'Navn': 'Ojaswi', 'Age': 16, 'Height': 3.79, 'vekt': 34, 'adresse': 'hyd',
'Rollno': '003', 'Navn': 'Gnanesh Chowdary', 'Age': 7, 'Height': 2.79, 'Vekt': 17, 'Adresse': 'Patna',
'Rollno': '004', 'Navn': 'Rohith', 'Age': 9, 'Height': 3.69, 'vekt': 28, 'adresse': 'hyd',
'Rollno': '005', 'Navn': 'Sridevi', 'Age': 37, 'Height': 5.59, 'vekt': 54, 'adresse': 'hyd'])
#sjekk typen studenter
trykk (type (studenter))

Produksjon:

1

Vi kan se at klassen RDD blir returnert.

Eksempel 2:

Sjekk for DataFrame -objekt.

Vi vil bruke type () på DataFrame -objektet.

#import Pyspark -modulen
Importer pyspark
#import SparkSession for å lage en økt
Fra Pyspark.SQL Import SparkSession
#import col -funksjonen
Fra Pyspark.SQL.Funksjoner importerer col
#Create en app som heter Linuxhint
Spark_app = SparkSession.bygger.AppName ('Linuxhint').getorCreate ()
# Lag studentdata med 5 rader og 6 attributter
Studenter = [
'Rollno': '001', 'Navn': 'Sravan', 'Age': 23, 'Height': 5.79, 'vekt': 67, 'adresse': 'guntur',
'Rollno': '002', 'Navn': 'Ojaswi', 'Age': 16, 'Height': 3.79, 'vekt': 34, 'adresse': 'hyd',
'Rollno': '003', 'Navn': 'Gnanesh Chowdary', 'Age': 7, 'Height': 2.79, 'Vekt': 17, 'Adresse': 'Patna',
'Rollno': '004', 'Navn': 'Rohith', 'Age': 9, 'Height': 3.69, 'vekt': 28, 'adresse': 'hyd',
'Rollno': '005', 'Navn': 'Sridevi', 'Age': 37, 'Height': 5.59, 'vekt': 54, 'adresse': 'hyd']]
# Lag DataFrame
df = spark_app.CreateTataFrame (studenter)
#Check typen DF
Print (Type (DF))

Produksjon:

1

Vi kan se at klassen DataFrame blir returnert.

Konklusjon

I artikkelen ovenfor så vi to måter å sjekke om de gitte dataene eller objektet er en RDD eller DataFrame ved bruk av IsInstance () og type (). Du må merke deg at IsInstance () resulterer i boolske verdier basert på det gitte objektet - hvis objekttypen er den samme, vil den komme tilbake, ellers falsk. Og type () brukes til å returnere klassen for de gitte dataene eller objektet.