I Python er Pyspark en Spark -modul som brukes til å gi en lignende type prosessering som Spark ved hjelp av DataFrame. Vi kan få Pyspark DataFrame -informasjon som totalt antall rader og kolonner, DataFrame -statistikk og størrelsen på DataFrame. La oss lage en Pyspark DataFrame for demonstrasjon.
Eksempel:
I dette eksemplet skal vi lage Pyspark DataFrame med 5 rader og 6 kolonner og vise ved hjelp av show () -metoden.
#import Pyspark -modulen
Importer pyspark
#import SparkSession for å lage en økt
Fra Pyspark.SQL Import SparkSession
#Create en app som heter Linuxhint
Spark_app = SparkSession.bygger.AppName ('Linuxhint').getorCreate ()
# Lag studentdata med 5 rader og 6 attributter
Studenter1 = ['Rollno': '001', 'Navn': 'Sravan', 'Age': 23, 'Height': 5.79, 'vekt': 67, 'adresse': 'guntur',
'Rollno': '002', 'Navn': 'Ojaswi', 'Age': 16, 'Height': 3.79, 'vekt': 34, 'adresse': 'hyd',
'Rollno': '003', 'Navn': 'Gnanesh Chowdary', 'Age': 7, 'Height': 2.79, 'Vekt': 17, 'Adresse': 'Patna',
'Rollno': '004', 'Navn': 'Rohith', 'Age': 9, 'Height': 3.69, 'vekt': 28, 'adresse': 'hyd',
'Rollno': '005', 'Navn': 'Sridevi', 'Age': 37, 'Height': 5.59, 'vekt': 54, 'adresse': 'hyd']]
# Lag DataFrame
df = spark_app.CreateTataFrame (Students1)
# Vis DataFrame
df.forestilling()
Produksjon:
Scenario 1: Få det totale antallet rader
Vi kan få det totale antallet rader i Pyspark DataFrame ved å bruke Count () -funksjonen.
Syntaks:
Dataramme.telle()
Hvor, dataaframe er inngangspyspark dataaframe.
Eksempel:
I dette eksemplet vil vi bruke Count () -funksjonen for å få det totale antallet rader.
#import Pyspark -modulen
Importer pyspark
#import SparkSession for å lage en økt
Fra Pyspark.SQL Import SparkSession
#Create en app som heter Linuxhint
Spark_app = SparkSession.bygger.AppName ('Linuxhint').getorCreate ()
# Lag studentdata med 5 rader og 6 attributter
Studenter1 = ['Rollno': '001', 'Navn': 'Sravan', 'Age': 23, 'Height': 5.79, 'vekt': 67, 'adresse': 'guntur',
'Rollno': '002', 'Navn': 'Ojaswi', 'Age': 16, 'Height': 3.79, 'vekt': 34, 'adresse': 'hyd',
'Rollno': '003', 'Navn': 'Gnanesh Chowdary', 'Age': 7, 'Height': 2.79, 'Vekt': 17, 'Adresse': 'Patna',
'Rollno': '004', 'Navn': 'Rohith', 'Age': 9, 'Height': 3.69, 'vekt': 28, 'adresse': 'hyd',
'Rollno': '005', 'Navn': 'Sridevi', 'Age': 37, 'Height': 5.59, 'vekt': 54, 'adresse': 'hyd']]
# Lag DataFrame
df = spark_app.CreateTataFrame (Students1)
# Vis radtellingen
trykk (df.telle())
Produksjon:
5
Scenario 2: Få det totale antall kolonner
Vi kan få det totale antall kolonner i Pyspark DataFrame ved å bruke Len () -funksjonen med kolonnermetoden.
Kolonnemetoden vil returnere alle kolonnene i en liste. Så vi kan bruke len () -funksjonen på den for å returnere antall kolonner.
Syntaks:
Len (DataFrame.kolonner)
Hvor, dataaframe er inngangspyspark dataaframe.
Eksempel:
I dette eksemplet vil vi bruke Len () -funksjonen for å få det totale antallet kolonner og vise kolonnene ved hjelp av kolonnemetoden.
#import Pyspark -modulen
Importer pyspark
#import SparkSession for å lage en økt
Fra Pyspark.SQL Import SparkSession
#Create en app som heter Linuxhint
Spark_app = SparkSession.bygger.AppName ('Linuxhint').getorCreate ()
# Lag studentdata med 5 rader og 6 attributter
Studenter1 = ['Rollno': '001', 'Navn': 'Sravan', 'Age': 23, 'Height': 5.79, 'vekt': 67, 'adresse': 'guntur',
'Rollno': '002', 'Navn': 'Ojaswi', 'Age': 16, 'Height': 3.79, 'vekt': 34, 'adresse': 'hyd',
'Rollno': '003', 'Navn': 'Gnanesh Chowdary', 'Age': 7, 'Height': 2.79, 'Vekt': 17, 'Adresse': 'Patna',
'Rollno': '004', 'Navn': 'Rohith', 'Age': 9, 'Height': 3.69, 'vekt': 28, 'adresse': 'hyd',
'Rollno': '005', 'Navn': 'Sridevi', 'Age': 37, 'Height': 5.59, 'vekt': 54, 'adresse': 'hyd']]
# Lag DataFrame
df = spark_app.CreateTataFrame (Students1)
# Vis kolonnetellingen
trykk (Len (DF.kolonner))
# Vis kolonnene
trykk (df.kolonner)
Produksjon:
6
['Adresse', 'Age', 'Height', 'Name', 'Rollno', 'Weight']
Scenario 3: Få statistikken
Vi kan få statistikken som telling, gjennomsnitt, standardavvik og minimumsverdi og maksimal verdi fra Pyspark DataFrame ved å bruke beskriv () -metoden
Syntaks:
Dataramme.beskrive()
Hvor, dataaframe er inngangspyspark dataaframe.
Merk - Det er ikke noe middel og standardavvik for strengtypeverdier. I så fall er resultatet null.
Eksempel:
I dette eksemplet vil vi bruke beskriv () -funksjonen for å få statistikken.
#import Pyspark -modulen
Importer pyspark
#import SparkSession for å lage en økt
Fra Pyspark.SQL Import SparkSession
#Create en app som heter Linuxhint
Spark_app = SparkSession.bygger.AppName ('Linuxhint').getorCreate ()
# Lag studentdata med 5 rader og 6 attributter
Studenter1 = ['Rollno': '001', 'Navn': 'Sravan', 'Age': 23, 'Height': 5.79, 'vekt': 67, 'adresse': 'guntur',
'Rollno': '002', 'Navn': 'Ojaswi', 'Age': 16, 'Height': 3.79, 'vekt': 34, 'adresse': 'hyd',
'Rollno': '003', 'Navn': 'Gnanesh Chowdary', 'Age': 7, 'Height': 2.79, 'Vekt': 17, 'Adresse': 'Patna',
'Rollno': '004', 'Navn': 'Rohith', 'Age': 9, 'Height': 3.69, 'vekt': 28, 'adresse': 'hyd',
'Rollno': '005', 'Navn': 'Sridevi', 'Age': 37, 'Height': 5.59, 'vekt': 54, 'adresse': 'hyd']]
# Lag DataFrame
df = spark_app.CreateTataFrame (Students1)
df.beskrive().forestilling()
Produksjon:
Fra output ovenfor er navnet på strengtype. Så nullverdien er okkupert for middel- og standardavvik.
Vi kan bruke sammendrag () for å returnere statistikken. Det ligner på beskrivelsen () -metoden. Men dette vil returnere verdiene på 25%, 50% og 75%.
Eksempel:
I dette eksemplet vil vi bruke beskriv () -funksjonen for å få statistikken.
#import Pyspark -modulen
Importer pyspark
#import SparkSession for å lage en økt
Fra Pyspark.SQL Import SparkSession
#Create en app som heter Linuxhint
Spark_app = SparkSession.bygger.AppName ('Linuxhint').getorCreate ()
# Lag studentdata med 5 rader og 6 attributter
Studenter1 = ['Rollno': '001', 'Navn': 'Sravan', 'Age': 23, 'Height': 5.79, 'vekt': 67, 'adresse': 'guntur',
'Rollno': '002', 'Navn': 'Ojaswi', 'Age': 16, 'Height': 3.79, 'vekt': 34, 'adresse': 'hyd',
'Rollno': '003', 'Navn': 'Gnanesh Chowdary', 'Age': 7, 'Height': 2.79, 'Vekt': 17, 'Adresse': 'Patna',
'Rollno': '004', 'Navn': 'Rohith', 'Age': 9, 'Height': 3.69, 'vekt': 28, 'adresse': 'hyd',
'Rollno': '005', 'Navn': 'Sridevi', 'Age': 37, 'Height': 5.59, 'vekt': 54, 'adresse': 'hyd']]
# Lag DataFrame
df = spark_app.CreateTataFrame (Students1)
# Få sammendraget
df.sammendrag().forestilling()
Produksjon:
Konklusjon
I denne artikkelen diskuterte vi bruken av beskrivelses- og sammendrag () -funksjoner. De brukes til å returnere statistikken over Pyspark -inngangen DataFrame. Vi har sett at ved å bruke Len () -metode kan vi få det totale antallet kolonner, og ved å bruke Count () -metode, kan vi få totalt antall rader i Pyspark DataFrame.