Standardavvik i Pyspark

Standardavvik i Pyspark
I Python er Pyspark en Spark -modul som brukes til å gi en lignende type prosessering som Spark ved hjelp av DataFrame. Standardavvik er en matematisk beregning for å bestemme hvor like eller forskjellige tall er. For eksempel vil folk si, dette tallet er x antall standardavvik fra gjennomsnittet. Eller totalt er alle tallene i et sett med i antall standardavvik osv. Vi vil demonstrere tre funksjoner for standardavvik i denne artikkelen ved hjelp av Pyspark. For hver av disse funksjonene vil vi gi eksempler med plukke ut() og agg () metoder.
  1. Pyspark - STDDEV ()
  2. Pyspark - STDDEV_SAMP ()
  3. Pyspark - STDDEV_POP ()

Pyspark - STDDEV ()

STDDEV () I Pyspark brukes til å returnere standardavviket fra en bestemt kolonne i DataFrame.

Før det må vi lage Pyspark DataFrame for demonstrasjon.

Eksempel:

Vi vil lage en dataaframe med 5 rader og 6 kolonner og vise den ved hjelp av forestilling() metode.

#import Pyspark -modulen
Importer pyspark
#import SparkSession for å lage en økt
Fra Pyspark.SQL Import SparkSession
#Create en app som heter Linuxhint
Spark_app = SparkSession.bygger.AppName ('Linuxhint').getorCreate ()
# Lag studentdata med 5 rader og 6 attributter
Studenter = [
'Rollno': '001', 'Navn': 'Sravan', 'Age': 23,
'Høyde': 5.79, 'vekt': 67, 'adresse': 'guntur',
'Rollno': '002', 'Navn': 'Ojaswi', 'Age': 16,
'Høyde': 3.79, 'vekt': 34, 'adresse': 'hyd',
'Rollno': '003', 'Navn': 'Gnanesh Chowdary', 'Age': 7,
'Høyde': 2.79, 'Vekt': 17, 'Adresse': 'Patna',
'Rollno': '004', 'Navn': 'Rohith', 'Age': 9,
'Høyde': 3.69, 'vekt': 28, 'adresse': 'hyd',
'Rollno': '005', 'Navn': 'Sridevi', 'Age': 37,
'Høyde': 5.59, 'vekt': 54, 'adresse': 'hyd']]
# Lag DataFrame
df = spark_app.CreateTataFrame (studenter)
#Display DataFrame
df.forestilling()

Produksjon:

Metode -1: Bruke Select () Metode

Vi kan få standardavviket fra kolonnen i DataFrame ved hjelp av Select () -metoden. Ved hjelp av STDDEV () -metoden kan vi få standardavviket fra kolonnen. For å bruke denne metoden, må vi importere den fra Pyspark.SQL.Funksjonsmodul, og til slutt kan vi bruke Collect () -metoden for å få standardavviket fra kolonnen

Syntaks:

df.Velg (STDDEV ('Column_name'))

Hvor,

  1. DF er inngangen Pyspark DataFrame
  2. kolonne_navn er kolonnen for å få standardavviket

Hvis vi ønsker å returnere standardavviket fra flere kolonner, må vi bruke STDDEV () -metoden inne i SELECT () -metoden ved å spesifisere kolonnens navn atskilt med et komma.

Syntaks:

df.velg (stddev ('column_name'), stddev ('column_name'), .. ., STDDEV ('Column_name'))

Hvor,

  1. DF er inngangen Pyspark DataFrame
  2. kolonne_navn er kolonnen for å få standardavviket

Eksempel 1: Enkelt kolonne

Dette eksemplet vil få standardavviket fra høydekolonnen i Pyspark DataFrame.

#import Pyspark -modulen
Importer pyspark
#import SparkSession for å lage en økt
Fra Pyspark.SQL Import SparkSession
#import Standsrd -avviket - STDDEV -funksjonen
Fra Pyspark.SQL.Funksjoner importerer SDDEV
#Create en app som heter Linuxhint
Spark_app = SparkSession.bygger.AppName ('Linuxhint').getorCreate ()
# Lag studentdata med 5 rader og 6 attributter
Studenter = [
'Rollno': '001', 'Navn': 'Sravan', 'Age': 23,
'Høyde': 5.79, 'vekt': 67, 'adresse': 'guntur',
'Rollno': '002', 'Navn': 'Ojaswi', 'Age': 16,
'Høyde': 3.79, 'vekt': 34, 'adresse': 'hyd',
'Rollno': '003', 'Navn': 'Gnanesh Chowdary', 'Age': 7,
'Høyde': 2.79, 'Vekt': 17, 'Adresse': 'Patna',
'Rollno': '004', 'Navn': 'Rohith', 'Age': 9,
'Høyde': 3.69, 'vekt': 28, 'adresse': 'hyd',
'Rollno': '005', 'Navn': 'Sridevi', 'Age': 37,
'Høyde': 5.59, 'vekt': 54, 'adresse': 'hyd']]
# Lag DataFrame
df = spark_app.CreateTataFrame (studenter)
#returner standardavviket fra høydekolonnen
df.Velg (STDDEV ('Høyde')).samle inn()

Produksjon:

[Rad (stddev_samp (høyde) = 1.3030732903409539)]

I eksemplet ovenfor returneres standardavviket fra høydekolonnen.

Eksempel 2: Flere kolonner

Dette eksemplet vil få standardavviket fra høyde-, alders- og vektkolonnene i Pyspark DataFrame.

#import Pyspark -modulen
Importer pyspark
#import SparkSession for å lage en økt
Fra Pyspark.SQL Import SparkSession
#import Standsrd -avviket - STDDEV -funksjonen
Fra Pyspark.SQL.Funksjoner importerer SDDEV
#Create en app som heter Linuxhint
Spark_app = SparkSession.bygger.AppName ('Linuxhint').getorCreate ()
# Lag studentdata med 5 rader og 6 attributter
Studenter = [
'Rollno': '001', 'Navn': 'Sravan', 'Age': 23,
'Høyde': 5.79, 'vekt': 67, 'adresse': 'guntur',
'Rollno': '002', 'Navn': 'Ojaswi', 'Age': 16,
'Høyde': 3.79, 'vekt': 34, 'adresse': 'hyd',
'Rollno': '003', 'Navn': 'Gnanesh Chowdary', 'Age': 7,
'Høyde': 2.79, 'Vekt': 17, 'Adresse': 'Patna',
'Rollno': '004', 'Navn': 'Rohith', 'Age': 9,
'Høyde': 3.69, 'vekt': 28, 'adresse': 'hyd',
'Rollno': '005', 'Navn': 'Sridevi', 'Age': 37,
'Høyde': 5.59, 'vekt': 54, 'adresse': 'hyd']]
# Lag DataFrame
df = spark_app.CreateTataFrame (studenter)
#returner standardavviket fra høyden, alder og vektkolonne
df.Velg (STDDEV ('Høyde'), STDDEV ('Age'), STDDEV ('Vekt')).samle inn()

Produksjon:

[Rad (stddev_samp (høyde) = 1.3030732903409539, stddev_samp (alder) = 12.157302332343306, stddev_samp (vekt) = 20.211382931407737)]

Standardavviket fra høyde-, alders- og vektkolonnene returneres i eksemplet ovenfor.

Metode - 2: Bruke AGG () -metode

Vi kan få standardavviket fra kolonnen i DataFrame ved å bruke AGG () -metoden. Denne metoden er kjent som aggregering, som grupper verdiene i en kolonne. Det vil ta ordbok som en parameter i den nøkkelen vil være kolonnens navn og verdi er den samlede funksjonen, i.e., STDDEV. Ved å bruke STDDEV () -metoden, kan vi få standardavviket fra kolonnen, og til slutt kan vi bruke Collect () -metoden for å få standardavviket fra kolonnen.

Syntaks:

df.AGG ('Column_name': STDDEV)

Hvor,

  1. DF er inngangen Pyspark DataFrame
  2. kolonne_navn er kolonnen for å få standardavviket
  3. STDDEV er en aggregeringsfunksjon som brukes til å returnere standardavviket

Hvis vi ønsker å returnere standardavviket fra flere kolonner, må vi spesifisere kolonnenavnet med STDDEV -funksjonen atskilt med et komma.

Syntaks:

df.AGG ('Column_name': Stddev, 'Column_name': Stddev, ..., 'Column_name': STDDEV)

Hvor,

  1. DF er inngangen Pyspark DataFrame
  2. kolonne_navn er kolonnen for å få standardavviket
  3. STDDEV er en aggregeringsfunksjon som brukes til å returnere standardavviket

Eksempel 1: Enkelt kolonne

Dette eksemplet vil få standardavviket fra høydekolonnen i Pyspark DataFrame.

#import Pyspark -modulen
Importer pyspark
#import SparkSession for å lage en økt
Fra Pyspark.SQL Import SparkSession
#Create en app som heter Linuxhint
Spark_app = SparkSession.bygger.AppName ('Linuxhint').getorCreate ()
# Lag studentdata med 5 rader og 6 attributter
Studenter = [
'Rollno': '001', 'Navn': 'Sravan', 'Age': 23,
'Høyde': 5.79, 'vekt': 67, 'adresse': 'guntur',
'Rollno': '002', 'Navn': 'Ojaswi', 'Age': 16,
'Høyde': 3.79, 'vekt': 34, 'adresse': 'hyd',
'Rollno': '003', 'Navn': 'Gnanesh Chowdary', 'Age': 7,
'Høyde': 2.79, 'Vekt': 17, 'Adresse': 'Patna',
'Rollno': '004', 'Navn': 'Rohith', 'Age': 9,
'Høyde': 3.69, 'vekt': 28, 'adresse': 'hyd',
'Rollno': '005', 'Navn': 'Sridevi', 'Age': 37,
'Høyde': 5.59, 'vekt': 54, 'adresse': 'hyd']]
# Lag DataFrame
df = spark_app.CreateTataFrame (studenter)
#returner standardavviket fra høydekolonnen
df.AGG ('høyde': 'stddev').samle inn()

Produksjon:

[Rad (stddev (høyde) = 1.3030732903409539)]

I eksemplet ovenfor returneres standardavviket fra høydekolonnen.

Eksempel 2: Flere kolonner

Dette eksemplet vil få standardavviket fra høyde-, alders- og vektkolonnene i Pyspark DataFrame.

#import Pyspark -modulen
Importer pyspark
#import SparkSession for å lage en økt
Fra Pyspark.SQL Import SparkSession
#Create en app som heter Linuxhint
Spark_app = SparkSession.bygger.AppName ('Linuxhint').getorCreate ()
# Lag studentdata med 5 rader og 6 attributter
Studenter = [
'Rollno': '001', 'Navn': 'Sravan', 'Age': 23,
'Høyde': 5.79, 'vekt': 67, 'adresse': 'guntur',
'Rollno': '002', 'Navn': 'Ojaswi', 'Age': 16,
'Høyde': 3.79, 'vekt': 34, 'adresse': 'hyd',
'Rollno': '003', 'Navn': 'Gnanesh Chowdary', 'Age': 7,
'Høyde': 2.79, 'Vekt': 17, 'Adresse': 'Patna',
'Rollno': '004', 'Navn': 'Rohith', 'Age': 9,
'Høyde': 3.69, 'vekt': 28, 'adresse': 'hyd',
'Rollno': '005', 'Navn': 'Sridevi', 'Age': 37,
'Høyde': 5.59, 'vekt': 54, 'adresse': 'hyd']]
# Lag DataFrame
df = spark_app.CreateTataFrame (studenter)
#returner standardavviket fra høyden, og vektkolonnen
df.AGG ('høyde': 'Stdddev', 'Age': 'Stddev', 'Weight': 'Stddev').samle inn()

Produksjon:

[Rad (stddev (vekt) = 20.211382931407737, stddev (alder) = 12.157302332343306, stddev (høyde) = 1.3030732903409539)]

Standardavviket fra høyde-, alders- og vektkolonnene returneres i eksemplet ovenfor.

Pyspark - STDDEV_SAMP ()

STDDEV_SAMP () i Pyspark brukes til å returnere standardavviket for en prøve fra en bestemt kolonne i DataFrame. Det ligner på stddev () -funksjonen.

Før det må vi lage Pyspark DataFrame for demonstrasjon.

Eksempel:

Vi vil lage en DataFrame med 5 rader og 6 kolonner og vise den ved hjelp av Show () -metoden.

#import Pyspark -modulen
Importer pyspark
#import SparkSession for å lage en økt
Fra Pyspark.SQL Import SparkSession
#Create en app som heter Linuxhint
Spark_app = SparkSession.bygger.AppName ('Linuxhint').getorCreate ()
# Lag studentdata med 5 rader og 6 attributter
Studenter = [
'Rollno': '001', 'Navn': 'Sravan', 'Age': 23,
'Høyde': 5.79, 'vekt': 67, 'adresse': 'guntur',
'Rollno': '002', 'Navn': 'Ojaswi', 'Age': 16,
'Høyde': 3.79, 'vekt': 34, 'adresse': 'hyd',
'Rollno': '003', 'Navn': 'Gnanesh Chowdary', 'Age': 7,
'Høyde': 2.79, 'Vekt': 17, 'Adresse': 'Patna',
'Rollno': '004', 'Navn': 'Rohith', 'Age': 9,
'Høyde': 3.69, 'vekt': 28, 'adresse': 'hyd',
'Rollno': '005', 'Navn': 'Sridevi', 'Age': 37,
'Høyde': 5.59, 'vekt': 54, 'adresse': 'hyd']]
# Lag DataFrame
df = spark_app.CreateTataFrame (studenter)
#Display DataFrame
df.forestilling()

Produksjon:

Metode -1: Bruke Select () Metode

Vi kan få standardavviket fra kolonnen i DataFrame ved hjelp av Select () -metoden. Ved å bruke STDDEV_SAMP () -metoden, kan vi få standardavviket fra kolonnen. For å bruke denne metoden, må vi importere den fra Pyspark.SQL.Funksjonsmodul, og til slutt kan vi bruke Collect () -metoden for å få standardavviket fra kolonnen

Syntaks:

df.Velg (STDDEV_SAMP ('Column_name'))

Hvor,

  1. DF er inngangen Pyspark DataFrame
  2. Kolonne_navn er kolonnen for å få standardavviket i et utvalg

Hvis vi ønsker å returnere standardavviket fra flere kolonner i en prøve, må vi bruke STDDEV_SAMP () -metoden inne i SELECT () -metoden ved å spesifisere kolonnenavnet separert med et komma.

Syntaks:

df.Velg (stddev_samp ('Column_name'), stddev_samp ('column_name'), .. ., STDDEV_SAMP ('Column_name'))

Hvor,

  1. DF er inngangen Pyspark DataFrame
  2. Kolonne_navn er kolonnen for å få standardavviket for den gitte prøven

Eksempel 1: Enkelt kolonne

I dette eksemplet vil vi få standardavviket for en prøve fra høydekolonnen i Pyspark DataFrame.

#import Pyspark -modulen
Importer pyspark
#import SparkSession for å lage en økt
Fra Pyspark.SQL Import SparkSession
#import Standsrd -avviket - STDDEV_SAMP -funksjonen
Fra Pyspark.SQL.Funksjoner importerer stddev_samp
#Create en app som heter Linuxhint
Spark_app = SparkSession.bygger.AppName ('Linuxhint').getorCreate ()
# Lag studentdata med 5 rader og 6 attributter
Studenter = [
'Rollno': '001', 'Navn': 'Sravan', 'Age': 23,
'Høyde': 5.79, 'vekt': 67, 'adresse': 'guntur',
'Rollno': '002', 'Navn': 'Ojaswi', 'Age': 16,
'Høyde': 3.79, 'vekt': 34, 'adresse': 'hyd',
'Rollno': '003', 'Navn': 'Gnanesh Chowdary', 'Age': 7,
'Høyde': 2.79, 'Vekt': 17, 'Adresse': 'Patna',
'Rollno': '004', 'Navn': 'Rohith', 'Age': 9,
'Høyde': 3.69, 'vekt': 28, 'adresse': 'hyd',
'Rollno': '005', 'Navn': 'Sridevi', 'Age': 37,
'Høyde': 5.59, 'vekt': 54, 'adresse': 'hyd']]
# Lag DataFrame
df = spark_app.CreateTataFrame (studenter)
#returner standardavviket fra høydekolonnen
df.Velg (STDDEV_SAMP ('Høyde')).samle inn()

Produksjon:

[Rad (stddev_samp (høyde) = 1.3030732903409539)]

I eksemplet ovenfor returneres standardavviket fra høydekolonnen.

Eksempel 2: Flere kolonner

I dette eksemplet vil vi få standardavviket fra prøven fra høyden, alderen og vektkolonnene i Pyspark DataFrame.

#import Pyspark -modulen
Importer pyspark
#import SparkSession for å lage en økt
Fra Pyspark.SQL Import SparkSession
#import Standsrd -avviket - STDDEV_SAMP -funksjonen
Fra Pyspark.SQL.Funksjoner importerer stddev_samp
#Create en app som heter Linuxhint
Spark_app = SparkSession.bygger.AppName ('Linuxhint').getorCreate ()
# Lag studentdata med 5 rader og 6 attributter
Studenter = [
'Rollno': '001', 'Navn': 'Sravan', 'Age': 23,
'Høyde': 5.79, 'vekt': 67, 'adresse': 'guntur',
'Rollno': '002', 'Navn': 'Ojaswi', 'Age': 16,
'Høyde': 3.79, 'vekt': 34, 'adresse': 'hyd',
'Rollno': '003', 'Navn': 'Gnanesh Chowdary', 'Age': 7,
'Høyde': 2.79, 'Vekt': 17, 'Adresse': 'Patna',
'Rollno': '004', 'Navn': 'Rohith', 'Age': 9,
'Høyde': 3.69, 'vekt': 28, 'adresse': 'hyd',
'Rollno': '005', 'Navn': 'Sridevi', 'Age': 37,
'Høyde': 5.59, 'vekt': 54, 'adresse': 'hyd']]
# Lag DataFrame
df = spark_app.CreateTataFrame (studenter)
#returner standardavviket fra høyden, alder og vektkolonne
df.Velg (STDDEV_SAMP ('Høyde'), STDDEV_SAMP ('AGE'), STDDEV_SAMP ('VEKT')).samle inn()

Produksjon:

[Rad (stddev_samp (høyde) = 1.3030732903409539, stddev_samp (alder) = 12.157302332343306, stddev_samp (vekt) = 20.211382931407737)]

I eksemplet ovenfor returneres standardavviket fra høyden, alderen og vektkolonnene.

Metode - 2: Bruke AGG () -metode

Vi kan få standardavviket for en prøve fra kolonnen i DataFrame ved å bruke AGG () -metoden. Denne metoden er kjent som aggregering, som grupper verdiene i en kolonne. Det vil ta ordbok som en parameter i den nøkkelen vil være kolonnens navn og verdi er den samlede funksjonen, i.e., STDDEV_SAMP. Ved å bruke STDDEV_SAMP () -metoden, kan vi få standardavviket fra kolonnen, og til slutt kan vi bruke Collect () -metoden for å få standardavviket til en prøve fra kolonnen.

Syntaks:

df.AGG ('Column_name': STDDEV_SAMP)

Hvor,

  1. DF er inngangen Pyspark DataFrame
  2. Kolonne_navn er kolonnen for å få standardavviket for et utvalg
  3. STDDEV_SAMP er en aggregeringsfunksjon som brukes til å returnere standardavviket for en prøve

Hvis vi ønsker å returnere standardavviket fra flere kolonner, må vi spesifisere kolonnenavnet med STDDEV_SAMP -funksjonen atskilt med et komma.

Syntaks:

df.AGG ('Column_name': stddev_samp, 'column_name': stddev_samp, ..., 'column_name': stddev_samp)

Hvor,

  1. DF er inngangen Pyspark DataFrame
  2. Kolonne_navn er kolonnen for å få standardavviket for et utvalg
  3. STDDEV_SAMP er en aggregeringsfunksjon som brukes til å returnere standardavviket for en prøve

Eksempel 1: Enkelt kolonne

Dette eksemplet vil få standardavviket fra høydekolonnen i Pyspark DataFrame.

#import Pyspark -modulen
Importer pyspark
#import SparkSession for å lage en økt
Fra Pyspark.SQL Import SparkSession
#Create en app som heter Linuxhint
Spark_app = SparkSession.bygger.AppName ('Linuxhint').getorCreate ()
# Lag studentdata med 5 rader og 6 attributter
Studenter = [
'Rollno': '001', 'Navn': 'Sravan', 'Age': 23,
'Høyde': 5.79, 'vekt': 67, 'adresse': 'guntur',
'Rollno': '002', 'Navn': 'Ojaswi', 'Age': 16,
'Høyde': 3.79, 'vekt': 34, 'adresse': 'hyd',
'Rollno': '003', 'Navn': 'Gnanesh Chowdary', 'Age': 7,
'Høyde': 2.79, 'Vekt': 17, 'Adresse': 'Patna',
'Rollno': '004', 'Navn': 'Rohith', 'Age': 9,
'Høyde': 3.69, 'vekt': 28, 'adresse': 'hyd',
'Rollno': '005', 'Navn': 'Sridevi', 'Age': 37,
'Høyde': 5.59, 'vekt': 54, 'adresse': 'hyd']]
# Lag DataFrame
df = spark_app.CreateTataFrame (studenter)
#returner standardavviket fra høydekolonnen
df.AGG ('høyde': 'stddev_samp').samle inn()

Produksjon:

[Rad (stddev_samp (høyde) = 1.3030732903409539)]

I eksemplet ovenfor blir standardavviket for en prøve fra høydekolonnen returnert.

Eksempel 2: Flere kolonner

I dette eksemplet vil vi få standardavviket for en prøve fra høyden, alderen og vektkolonnene i Pyspark DataFrame.

#import Pyspark -modulen
Importer pyspark
#import SparkSession for å lage en økt
Fra Pyspark.SQL Import SparkSession
#Create en app som heter Linuxhint
Spark_app = SparkSession.bygger.AppName ('Linuxhint').getorCreate ()
# Lag studentdata med 5 rader og 6 attributter
Studenter = [
'Rollno': '001', 'Navn': 'Sravan', 'Age': 23,
'Høyde': 5.79, 'vekt': 67, 'adresse': 'guntur',
'Rollno': '002', 'Navn': 'Ojaswi', 'Age': 16,
'Høyde': 3.79, 'vekt': 34, 'adresse': 'hyd',
'Rollno': '003', 'Navn': 'Gnanesh Chowdary', 'Age': 7,
'Høyde': 2.79, 'Vekt': 17, 'Adresse': 'Patna',
'Rollno': '004', 'Navn': 'Rohith', 'Age': 9,
'Høyde': 3.69, 'vekt': 28, 'adresse': 'hyd',
'Rollno': '005', 'Navn': 'Sridevi', 'Age': 37,
'Høyde': 5.59, 'vekt': 54, 'adresse': 'hyd']]
# Lag DataFrame
df = spark_app.CreateTataFrame (studenter)
#returner standardavviket fra høyden, og vektkolonnen
df.AGG ('høyde': 'stddev_samp', 'alder': 'stddev_samp', 'vekt': 'stddev_samp').samle inn()

Produksjon:

[Rad (stddev_samp (vekt) = 20.211382931407737, stddev_samp (alder) = 12.157302332343306, stddev_samp (høyde) = 1.3030732903409539)]

I eksemplet ovenfor returneres standardavviket fra høyde, alder og vektkolonner.

Pyspark - STDDEV_POP ()

STDDEV_POP () i Pyspark brukes til å returnere standardavviket til en populasjon fra en bestemt kolonne i DataFrame.

Før det må vi lage Pyspark DataFrame for demonstrasjon.

Eksempel:

Vi vil lage en DataFrame med 5 rader og 6 kolonner og vise den ved hjelp av Show () -metoden.

#import Pyspark -modulen
Importer pyspark
#import SparkSession for å lage en økt
Fra Pyspark.SQL Import SparkSession
#Create en app som heter Linuxhint
Spark_app = SparkSession.bygger.AppName ('Linuxhint').getorCreate ()
# Lag studentdata med 5 rader og 6 attributter
Studenter = [
'Rollno': '001', 'Navn': 'Sravan', 'Age': 23,
'Høyde': 5.79, 'vekt': 67, 'adresse': 'guntur',
'Rollno': '002', 'Navn': 'Ojaswi', 'Age': 16,
'Høyde': 3.79, 'vekt': 34, 'adresse': 'hyd',
'Rollno': '003', 'Navn': 'Gnanesh Chowdary', 'Age': 7,
'Høyde': 2.79, 'Vekt': 17, 'Adresse': 'Patna',
'Rollno': '004', 'Navn': 'Rohith', 'Age': 9,
'Høyde': 3.69, 'vekt': 28, 'adresse': 'hyd',
'Rollno': '005', 'Navn': 'Sridevi', 'Age': 37,
'Høyde': 5.59, 'vekt': 54, 'adresse': 'hyd']]
# Lag DataFrame
df = spark_app.CreateTataFrame (studenter)
#Display DataFrame
df.forestilling()

Produksjon:

Metode -1: Bruke Select () Metode

Vi kan få standardavviket fra kolonnen i DataFrame ved hjelp av Select () -metoden. Ved å bruke STDDEV_POP () -metoden, kan vi få standardavviket fra befolkningen fra kolonnen. For å bruke denne metoden, må vi importere den fra Pyspark.SQL.Funksjonsmodul, og til slutt kan vi bruke Collect () -metoden for å få standardavviket fra kolonnen

Syntaks:

df.velg (stddev_pop ('kolonne_name'))

Hvor,

  1. DF er inngangen Pyspark DataFrame
  2. Kolonne_navn er kolonnen for å få standardavviket til en befolkning

Hvis vi ønsker å returnere standardavviket fra flere kolonner for den gitte prøven, må vi bruke STDDEV_POP () -metoden inne i SELECT () -metoden ved å spesifisere kolonnens navn atskilt med et komma.

Syntaks:

df.velg (stddev_pop ('column_name'), stddev_pop ('column_name'), .. ., STDDEV_POP ('Column_name'))

Hvor,

  1. DF er inngangen Pyspark DataFrame
  2. Kolonne_navn er kolonnen for å få standardavviket for den gitte befolkningen

Eksempel 1: Enkelt kolonne

I dette eksemplet vil vi få standardavviket til en befolkning fra høydekolonnen i Pyspark DataFrame.

#import Pyspark -modulen
Importer pyspark
#import SparkSession for å lage en økt
Fra Pyspark.SQL Import SparkSession
#import Standardavviket - STDDEV_POP -funksjonen
Fra Pyspark.SQL.Funksjoner importerer STDDEV_POP
#Create en app som heter Linuxhint
Spark_app = SparkSession.bygger.AppName ('Linuxhint').getorCreate ()
# Lag studentdata med 5 rader og 6 attributter
Studenter = [
'Rollno': '001', 'Navn': 'Sravan', 'Age': 23,
'Høyde': 5.79, 'vekt': 67, 'adresse': 'guntur',
'Rollno': '002', 'Navn': 'Ojaswi', 'Age': 16,
'Høyde': 3.79, 'vekt': 34, 'adresse': 'hyd',
'Rollno': '003', 'Navn': 'Gnanesh Chowdary', 'Age': 7,
'Høyde': 2.79, 'Vekt': 17, 'Adresse': 'Patna',
'Rollno': '004', 'Navn': 'Rohith', 'Age': 9,
'Høyde': 3.69, 'vekt': 28, 'adresse': 'hyd',
'Rollno': '005', 'Navn': 'Sridevi', 'Age': 37,
'Høyde': 5.59, 'vekt': 54, 'adresse': 'hyd']]
# Lag DataFrame
df = spark_app.CreateTataFrame (studenter)
#returner standardavviket fra høydekolonnen
df.Velg (STDDEV_POP ('Høyde')).samle inn()

Produksjon:

[Rad (stddev_pop (høyde) = 1.1655041827466772)]

I eksemplet ovenfor returneres standardavviket fra høydekolonnen.

Eksempel 2: Flere kolonner

I dette eksemplet vil vi få standardavviket for befolkning fra høyde-, alders- og vektkolonnene i Pyspark DataFrame.

#import Pyspark -modulen
Importer pyspark
#import SparkSession for å lage en økt
Fra Pyspark.SQL Import SparkSession
#import Standsrd -avviket - STDDEV_POP -funksjonen
Fra Pyspark.SQL.Funksjoner importerer STDDEV_POP
#Create en app som heter Linuxhint
Spark_app = SparkSession.bygger.AppName ('Linuxhint').getorCreate ()
# Lag studentdata med 5 rader og 6 attributter
Studenter = [
'Rollno': '001', 'Navn': 'Sravan', 'Age': 23,
'Høyde': 5.79, 'vekt': 67, 'adresse': 'guntur',
'Rollno': '002', 'Navn': 'Ojaswi', 'Age': 16,
'Høyde': 3.79, 'vekt': 34, 'adresse': 'hyd',
'Rollno': '003', 'Navn': 'Gnanesh Chowdary', 'Age': 7,
'Høyde': 2.79, 'Vekt': 17, 'Adresse': 'Patna',
'Rollno': '004', 'Navn': 'Rohith', 'Age': 9,
'Høyde': 3.69, 'vekt': 28, 'adresse': 'hyd',
'Rollno': '005', 'Navn': 'Sridevi', 'Age': 37,
'Høyde': 5.59, 'vekt': 54, 'adresse': 'hyd']]
# Lag DataFrame
df = spark_app.CreateTataFrame (studenter)
#returner standardavviket fra høyden, alder og vektkolonne
df.Velg (stddev_pop ('høyde'), stddev_pop ('alder'), stddev_pop ('vekt')).samle inn()

Produksjon:

[Rad (stddev_pop (høyde) = 1.1655041827466772, stddev_pop (alder) = 10.87382177525455, stddev_pop (vekt) = 18.077610461562667)]

I eksemplet ovenfor returneres standardavviket fra høyden, alderen og vektkolonnene.

Metode - 2: Bruke AGG () -metode

Vi kan få befolkningens standardavvik fra kolonnen i DataFrame ved å bruke AGG () -metoden. Denne metoden er kjent som aggregering, som grupper verdiene i en kolonne. Det vil ta ordbok som en parameter i den nøkkelen vil være kolonnens navn og verdi er den samlede funksjonen, i.e. STDDEV_POP. Ved hjelp av STDDEV_POP () -metoden kan vi få standardavviket fra kolonnen. Til slutt kan vi bruke Collect () -metoden for å få standardavviket til en populasjon fra kolonnen.

Syntaks:

df.AGG ('Column_name': STDDEV_POP)

Hvor,

  1. DF er inngangen Pyspark DataFrame
  2. Kolonne_navn er kolonnen for å få standardavviket til en befolkning
  3. STDDEV_POP er en aggregeringsfunksjon som brukes til å returnere standardavviket til en befolkning

Hvis vi ønsker å returnere standardavviket fra flere kolonner, må vi spesifisere kolonnenavnet med STDDEV_POP -funksjonen atskilt med et komma.

Syntaks:

df.AGG ('Column_name': stddev_pop, 'column_name': stddev_pop,…, 'column_name': stddev_pop)

Hvor,

  1. DF er inngangen Pyspark DataFrame
  2. Kolonne_navn er kolonnen for å få standardavviket til en befolkning
  3. STDDEV_POP er en aggregeringsfunksjon som brukes til å returnere standardavviket til en befolkning

Eksempel 1: Enkelt kolonne

Dette eksemplet vil få standardavviket fra høydekolonnen i Pyspark DataFrame.

#import Pyspark -modulen
Importer pyspark
#import SparkSession for å lage en økt
Fra Pyspark.SQL Import SparkSession
#Create en app som heter Linuxhint
Spark_app = SparkSession.bygger.AppName ('Linuxhint').getorCreate ()
# Lag studentdata med 5 rader og 6 attributter
Studenter = [
'Rollno': '001', 'Navn': 'Sravan', 'Age': 23,
'Høyde': 5.79, 'vekt': 67, 'adresse': 'guntur',
'Rollno': '002', 'Navn': 'Ojaswi', 'Age': 16,
'Høyde': 3.79, 'vekt': 34, 'adresse': 'hyd',
'Rollno': '003', 'Navn': 'Gnanesh Chowdary', 'Age': 7,
'Høyde': 2.79, 'Vekt': 17, 'Adresse': 'Patna',
'Rollno': '004', 'Navn': 'Rohith', 'Age': 9,
'Høyde': 3.69, 'vekt': 28, 'adresse': 'hyd',
'Rollno': '005', 'Navn': 'Sridevi', 'Age': 37,
'Høyde': 5.59, 'vekt': 54, 'adresse': 'hyd']]
# Lag DataFrame
df = spark_app.CreateTataFrame (studenter)
#returner standardavviket fra høydekolonnen
df.AGG ('høyde': 'stddev_pop').samle inn()

Produksjon:

[Rad (stddev_pop (høyde) = 1.1655041827466772)]

I eksemplet ovenfor blir standardavviket for en prøve fra høydekolonnen returnert.

Eksempel 2: Flere kolonner

I dette eksemplet vil vi få standardavviket for en prøve fra høyden, alderen og vektkolonnene i Pyspark DataFrame.

#import Pyspark -modulen
Importer pyspark
#import SparkSession for å lage en økt
Fra Pyspark.SQL Import SparkSession
#Create en app som heter Linuxhint
Spark_app = SparkSession.bygger.AppName ('Linuxhint').getorCreate ()
# Lag studentdata med 5 rader og 6 attributter
Studenter = [
'Rollno': '001', 'Navn': 'Sravan', 'Age': 23,
'Høyde': 5.79, 'vekt': 67, 'adresse': 'guntur',
'Rollno': '002', 'Navn': 'Ojaswi', 'Age': 16,
'Høyde': 3.79, 'vekt': 34, 'adresse': 'hyd',
'Rollno': '003', 'Navn': 'Gnanesh Chowdary', 'Age': 7,
'Høyde': 2.79, 'Vekt': 17, 'Adresse': 'Patna',
'Rollno': '004', 'Navn': 'Rohith', 'Age': 9,
'Høyde': 3.69, 'vekt': 28, 'adresse': 'hyd',
'Rollno': '005', 'Navn': 'Sridevi', 'Age': 37,
'Høyde': 5.59, 'vekt': 54, 'adresse': 'hyd']]
# Lag DataFrame
df = spark_app.CreateTataFrame (studenter)
#returner standardavviket fra høyden, og vektkolonnen
df.AGG ('Høyde': 'STDDEV_POP', 'AGE': 'STDDEV_POP', 'VEKT': 'STDDEV_POP').samle inn()

Produksjon:

[Rad (stddev_pop (vekt) = 18.077610461562667, stddev_pop (alder) = 10.87382177525455, stddev_pop (høyde) = 1.1655041827466772)]

I eksemplet ovenfor returneres standardavviket fra høyden, alderen og vektkolonnene.

Konklusjon

Vi diskuterte hvordan vi kan få standardavviket fra Pyspark Dataframe ved å bruke STDDEV (), STDDEV_SAMP () og STDDEV_POP () funksjoner gjennom plukke ut() og agg () metoder.