Få informasjon om DataFrame

Få informasjon om DataFrame
I Python er Pyspark en Spark -modul som brukes til å gi en lignende type prosessering som Spark ved hjelp av DataFrame. Vi kan få Pyspark DataFrame -informasjon som totalt antall rader og kolonner, DataFrame -statistikk og størrelsen på DataFrame. La oss lage en Pyspark DataFrame for demonstrasjon.

Eksempel:
I dette eksemplet skal vi lage Pyspark DataFrame med 5 rader og 6 kolonner og vise ved hjelp av show () -metoden.

#import Pyspark -modulen
Importer pyspark
#import SparkSession for å lage en økt
Fra Pyspark.SQL Import SparkSession
#Create en app som heter Linuxhint
Spark_app = SparkSession.bygger.AppName ('Linuxhint').getorCreate ()
# Lag studentdata med 5 rader og 6 attributter
Studenter1 = ['Rollno': '001', 'Navn': 'Sravan', 'Age': 23, 'Height': 5.79, 'vekt': 67, 'adresse': 'guntur',
'Rollno': '002', 'Navn': 'Ojaswi', 'Age': 16, 'Height': 3.79, 'vekt': 34, 'adresse': 'hyd',
'Rollno': '003', 'Navn': 'Gnanesh Chowdary', 'Age': 7, 'Height': 2.79, 'Vekt': 17, 'Adresse': 'Patna',
'Rollno': '004', 'Navn': 'Rohith', 'Age': 9, 'Height': 3.69, 'vekt': 28, 'adresse': 'hyd',
'Rollno': '005', 'Navn': 'Sridevi', 'Age': 37, 'Height': 5.59, 'vekt': 54, 'adresse': 'hyd']]
# Lag DataFrame
df = spark_app.CreateTataFrame (Students1)
# Vis DataFrame
df.forestilling()

Produksjon:

Scenario 1: Få det totale antallet rader

Vi kan få det totale antallet rader i Pyspark DataFrame ved å bruke Count () -funksjonen.

Syntaks:
Dataramme.telle()

Hvor, dataaframe er inngangspyspark dataaframe.

Eksempel:
I dette eksemplet vil vi bruke Count () -funksjonen for å få det totale antallet rader.

#import Pyspark -modulen
Importer pyspark
#import SparkSession for å lage en økt
Fra Pyspark.SQL Import SparkSession
#Create en app som heter Linuxhint
Spark_app = SparkSession.bygger.AppName ('Linuxhint').getorCreate ()
# Lag studentdata med 5 rader og 6 attributter
Studenter1 = ['Rollno': '001', 'Navn': 'Sravan', 'Age': 23, 'Height': 5.79, 'vekt': 67, 'adresse': 'guntur',
'Rollno': '002', 'Navn': 'Ojaswi', 'Age': 16, 'Height': 3.79, 'vekt': 34, 'adresse': 'hyd',
'Rollno': '003', 'Navn': 'Gnanesh Chowdary', 'Age': 7, 'Height': 2.79, 'Vekt': 17, 'Adresse': 'Patna',
'Rollno': '004', 'Navn': 'Rohith', 'Age': 9, 'Height': 3.69, 'vekt': 28, 'adresse': 'hyd',
'Rollno': '005', 'Navn': 'Sridevi', 'Age': 37, 'Height': 5.59, 'vekt': 54, 'adresse': 'hyd']]
# Lag DataFrame
df = spark_app.CreateTataFrame (Students1)
# Vis radtellingen
trykk (df.telle())

Produksjon:

5

Scenario 2: Få det totale antall kolonner

Vi kan få det totale antall kolonner i Pyspark DataFrame ved å bruke Len () -funksjonen med kolonnermetoden.

Kolonnemetoden vil returnere alle kolonnene i en liste. Så vi kan bruke len () -funksjonen på den for å returnere antall kolonner.

Syntaks:
Len (DataFrame.kolonner)

Hvor, dataaframe er inngangspyspark dataaframe.

Eksempel:
I dette eksemplet vil vi bruke Len () -funksjonen for å få det totale antallet kolonner og vise kolonnene ved hjelp av kolonnemetoden.

#import Pyspark -modulen
Importer pyspark
#import SparkSession for å lage en økt
Fra Pyspark.SQL Import SparkSession
#Create en app som heter Linuxhint
Spark_app = SparkSession.bygger.AppName ('Linuxhint').getorCreate ()
# Lag studentdata med 5 rader og 6 attributter
Studenter1 = ['Rollno': '001', 'Navn': 'Sravan', 'Age': 23, 'Height': 5.79, 'vekt': 67, 'adresse': 'guntur',
'Rollno': '002', 'Navn': 'Ojaswi', 'Age': 16, 'Height': 3.79, 'vekt': 34, 'adresse': 'hyd',
'Rollno': '003', 'Navn': 'Gnanesh Chowdary', 'Age': 7, 'Height': 2.79, 'Vekt': 17, 'Adresse': 'Patna',
'Rollno': '004', 'Navn': 'Rohith', 'Age': 9, 'Height': 3.69, 'vekt': 28, 'adresse': 'hyd',
'Rollno': '005', 'Navn': 'Sridevi', 'Age': 37, 'Height': 5.59, 'vekt': 54, 'adresse': 'hyd']]
# Lag DataFrame
df = spark_app.CreateTataFrame (Students1)
# Vis kolonnetellingen
trykk (Len (DF.kolonner))
# Vis kolonnene
trykk (df.kolonner)

Produksjon:

6

['Adresse', 'Age', 'Height', 'Name', 'Rollno', 'Weight']

Scenario 3: Få statistikken

Vi kan få statistikken som telling, gjennomsnitt, standardavvik og minimumsverdi og maksimal verdi fra Pyspark DataFrame ved å bruke beskriv () -metoden

Syntaks:
Dataramme.beskrive()

Hvor, dataaframe er inngangspyspark dataaframe.

Merk - Det er ikke noe middel og standardavvik for strengtypeverdier. I så fall er resultatet null.

Eksempel:
I dette eksemplet vil vi bruke beskriv () -funksjonen for å få statistikken.

#import Pyspark -modulen
Importer pyspark
#import SparkSession for å lage en økt
Fra Pyspark.SQL Import SparkSession
#Create en app som heter Linuxhint
Spark_app = SparkSession.bygger.AppName ('Linuxhint').getorCreate ()
# Lag studentdata med 5 rader og 6 attributter
Studenter1 = ['Rollno': '001', 'Navn': 'Sravan', 'Age': 23, 'Height': 5.79, 'vekt': 67, 'adresse': 'guntur',
'Rollno': '002', 'Navn': 'Ojaswi', 'Age': 16, 'Height': 3.79, 'vekt': 34, 'adresse': 'hyd',
'Rollno': '003', 'Navn': 'Gnanesh Chowdary', 'Age': 7, 'Height': 2.79, 'Vekt': 17, 'Adresse': 'Patna',
'Rollno': '004', 'Navn': 'Rohith', 'Age': 9, 'Height': 3.69, 'vekt': 28, 'adresse': 'hyd',
'Rollno': '005', 'Navn': 'Sridevi', 'Age': 37, 'Height': 5.59, 'vekt': 54, 'adresse': 'hyd']]
# Lag DataFrame
df = spark_app.CreateTataFrame (Students1)
df.beskrive().forestilling()

Produksjon:

Fra output ovenfor er navnet på strengtype. Så nullverdien er okkupert for middel- og standardavvik.

Vi kan bruke sammendrag () for å returnere statistikken. Det ligner på beskrivelsen () -metoden. Men dette vil returnere verdiene på 25%, 50% og 75%.

Eksempel:
I dette eksemplet vil vi bruke beskriv () -funksjonen for å få statistikken.

#import Pyspark -modulen
Importer pyspark
#import SparkSession for å lage en økt
Fra Pyspark.SQL Import SparkSession
#Create en app som heter Linuxhint
Spark_app = SparkSession.bygger.AppName ('Linuxhint').getorCreate ()
# Lag studentdata med 5 rader og 6 attributter
Studenter1 = ['Rollno': '001', 'Navn': 'Sravan', 'Age': 23, 'Height': 5.79, 'vekt': 67, 'adresse': 'guntur',
'Rollno': '002', 'Navn': 'Ojaswi', 'Age': 16, 'Height': 3.79, 'vekt': 34, 'adresse': 'hyd',
'Rollno': '003', 'Navn': 'Gnanesh Chowdary', 'Age': 7, 'Height': 2.79, 'Vekt': 17, 'Adresse': 'Patna',
'Rollno': '004', 'Navn': 'Rohith', 'Age': 9, 'Height': 3.69, 'vekt': 28, 'adresse': 'hyd',
'Rollno': '005', 'Navn': 'Sridevi', 'Age': 37, 'Height': 5.59, 'vekt': 54, 'adresse': 'hyd']]
# Lag DataFrame
df = spark_app.CreateTataFrame (Students1)
# Få sammendraget
df.sammendrag().forestilling()

Produksjon:

Konklusjon

I denne artikkelen diskuterte vi bruken av beskrivelses- og sammendrag () -funksjoner. De brukes til å returnere statistikken over Pyspark -inngangen DataFrame. Vi har sett at ved å bruke Len () -metode kan vi få det totale antallet kolonner, og ved å bruke Count () -metode, kan vi få totalt antall rader i Pyspark DataFrame.