Pyspark - Min

Pyspark - Min
I Python er Pyspark en Spark -modul som brukes til å gi en lignende type prosessering som Spark ved hjelp av DataFrame. Min () i Pyspark brukes til å returnere minimumsverdien fra en bestemt kolonne i DataFrame. Vi kan få minimumsverdien på tre måter.
  1. Metode 1: Bruke Select () Metode
  2. Metode 2: Bruke AGG () -metode
  3. Metode 3: Bruke GroupBy () -metode

Før det må vi lage Pyspark DataFrame for demonstrasjon.

Eksempel:

Vi vil lage en DataFrame med 5 rader og 6 kolonner og vise den ved hjelp av Show () -metoden.

#import Pyspark -modulen
Importer pyspark
#import SparkSession for å lage en økt
Fra Pyspark.SQL Import SparkSession
#Create en app som heter Linuxhint
Spark_app = SparkSession.bygger.AppName ('Linuxhint').getorCreate ()
# Lag studentdata med 5 rader og 6 attributter
Studenter = [
'Rollno': '001', 'Navn': 'Sravan', 'Age': 23,
'Høyde': 5.79, 'vekt': 67, 'adresse': 'guntur',
'Rollno': '002', 'Navn': 'Ojaswi', 'Age': 16,
'Høyde': 3.79, 'vekt': 34, 'adresse': 'hyd',
'Rollno': '003', 'Navn': 'Gnanesh Chowdary', 'Age': 7,
'Høyde': 2.79, 'Vekt': 17, 'Adresse': 'Patna',
'Rollno': '004', 'Navn': 'Rohith', 'Age': 9,
'Høyde': 3.69, 'vekt': 28, 'adresse': 'hyd',
'Rollno': '005', 'Navn': 'Sridevi', 'Age': 37,
'Høyde': 5.59, 'vekt': 54, 'adresse': 'hyd']]
# Lag DataFrame
df = spark_app.CreateTataFrame (studenter)
#Display DataFrame
df.forestilling()

Utgangskjermbilde:

Metode -1: Bruke Select () Metode

Vi kan få minimumsverdien fra kolonnen i DataFrame ved hjelp av Select () -metoden. Ved hjelp av Min () -metoden kan vi få minimumsverdien fra kolonnen. For å bruke denne metoden, må vi importere den fra Pyspark.SQL.Funksjonsmodul, og til slutt kan vi bruke Collect () -metoden for å få minimum fra kolonnen

Syntaks:

df.velg (min ('kolonne_navn'))

Hvor,

  1. DF er inngangen Pyspark DataFrame
  2. kolonne_navn er kolonnen for å få minimumsverdien

Hvis vi ønsker å returnere minimumsverdien fra flere kolonner, må vi bruke Min () -metoden inne i SELECT () -metoden ved å spesifisere kolonnens navn atskilt med et komma.

Syntaks:

df.velg (min ('kolonne_navn'), min ('kolonne_name'), .. ., min ('kolonne_navn'))

Hvor,

  1. DF er inngangen Pyspark DataFrame
  2. kolonne_navn er kolonnen for å få minimumsverdien

Eksempel 1: Enkelt kolonne

Dette eksemplet vil få minimumsverdien fra høydekolonnen i Pyspark DataFrame.

#import Pyspark -modulen
Importer pyspark
#import SparkSession for å lage en økt
Fra Pyspark.SQL Import SparkSession
#import minimum - Min -funksjonen
Fra Pyspark.SQL.Funksjoner importerer min
#Create en app som heter Linuxhint
Spark_app = SparkSession.bygger.AppName ('Linuxhint').getorCreate ()
# Lag studentdata med 5 rader og 6 attributter
Studenter = [
'Rollno': '001', 'Navn': 'Sravan', 'Age': 23,
'Høyde': 5.79, 'vekt': 67, 'adresse': 'guntur',
'Rollno': '002', 'Navn': 'Ojaswi', 'Age': 16,
'Høyde': 3.79, 'vekt': 34, 'adresse': 'hyd',
'Rollno': '003', 'Navn': 'Gnanesh Chowdary', 'Age': 7,
'Høyde': 2.79, 'Vekt': 17, 'Adresse': 'Patna',
'Rollno': '004', 'Navn': 'Rohith', 'Age': 9,
'Høyde': 3.69, 'vekt': 28, 'adresse': 'hyd',
'Rollno': '005', 'Navn': 'Sridevi', 'Age': 37,
'Høyde': 5.59, 'vekt': 54, 'adresse': 'hyd']]
# Lag DataFrame
df = spark_app.CreateTataFrame (studenter)
#returner minimum fra høydekolonnen
df.Velg (Min ('Høyde')).samle inn()

Produksjon:

[Rad (min (høyde) = 2.79)]

I eksemplet ovenfor returneres minimumsverdien fra høydekolonnen.

Eksempel 2: Flere kolonner

Dette eksemplet vil få minimumsverdien fra høyden, alderen og vektkolonnene i Pyspark DataFrame.

#import Pyspark -modulen
Importer pyspark
#import SparkSession for å lage en økt
Fra Pyspark.SQL Import SparkSession
#import minimumsfunksjonen - min
Fra Pyspark.SQL.Funksjoner importerer min
#Create en app som heter Linuxhint
Spark_app = SparkSession.bygger.AppName ('Linuxhint').getorCreate ()
# Lag studentdata med 5 rader og 6 attributter
Studenter = ['Rollno': '001', 'Navn': 'Sravan', 'Age': 23,
'Høyde': 5.79, 'vekt': 67, 'adresse': 'guntur',
'Rollno': '002', 'Navn': 'Ojaswi', 'Age': 16,
'Høyde': 3.79, 'vekt': 34, 'adresse': 'hyd',
'Rollno': '003', 'Navn': 'Gnanesh Chowdary', 'Age': 7,
'Høyde': 2.79, 'Vekt': 17, 'Adresse': 'Patna',
'Rollno': '004', 'Navn': 'Rohith', 'Age': 9,
'Høyde': 3.69, 'vekt': 28, 'adresse': 'hyd',
'Rollno': '005', 'Navn': 'Sridevi', 'Age': 37,
'Høyde': 5.59, 'vekt': 54, 'adresse': 'hyd']]
# Lag DataFrame
df = spark_app.CreateTataFrame (studenter)
#Return minimum fra høyde-, alders- og vektkolonnene
df.Velg (min ('høyde'), min ('alder'), min ('vekt')).samle inn()

Produksjon:

[Rad (min (høyde) = 2.79, min (alder) = 7, min (vekt) = 17)

I eksemplet ovenfor returneres minimumsverdien fra høyde-, alders- og vektkolonnene.

Metode - 2: Bruke AGG () -metode

Vi kan få minimumsverdien fra kolonnen i DataFrame ved å bruke AGG () -metoden. Denne metoden er kjent som aggregering, som grupper verdiene i en kolonne. Det vil ta ordbok som en parameter i den nøkkelen vil være kolonnens navn og verdi er den samlede funksjonen, i.e., min. Ved hjelp av Min () -metoden kan vi få minimumsverdien fra kolonnen, og til slutt kan vi bruke Collect () -metoden for å få minimum fra kolonnen.

Syntaks:

df.AGG ('Column_name': Min)

Hvor,

  1. DF er inngangen Pyspark DataFrame
  2. kolonne_navn er kolonnen for å få minimumsverdien
  3. Min er en aggregeringsfunksjon som brukes til å returnere minimumsverdien

Hvis vi ønsker å returnere minimumsverdien fra flere kolonner, må vi spesifisere kolonnenavnet med Min -funksjonen atskilt med et komma.

Syntaks:

df.AGG ('Column_name': Min, 'Column_name': Min, ..., 'Column_name': Min)

Hvor,

  1. DF er inngangen Pyspark DataFrame
  2. kolonne_navn er kolonnen for å få minimumsverdien
  3. Min er en aggregeringsfunksjon som brukes til å returnere minimumsverdien

Eksempel 1: Enkelt kolonne

Dette eksemplet vil få minimumsverdien fra høydekolonnen i Pyspark DataFrame.

#import Pyspark -modulen
Importer pyspark
#import SparkSession for å lage en økt
Fra Pyspark.SQL Import SparkSession
#Create en app som heter Linuxhint
Spark_app = SparkSession.bygger.AppName ('Linuxhint').getorCreate ()
# Lag studentdata med 5 rader og 6 attributter
Studenter = [
'Rollno': '001', 'Navn': 'Sravan', 'Age': 23,
'Høyde': 5.79, 'vekt': 67, 'adresse': 'guntur',
'Rollno': '002', 'Navn': 'Ojaswi', 'Age': 16,
'Høyde': 3.79, 'vekt': 34, 'adresse': 'hyd',
'Rollno': '003', 'Navn': 'Gnanesh Chowdary', 'Age': 7,
'Høyde': 2.79, 'Vekt': 17, 'Adresse': 'Patna',
'Rollno': '004', 'Navn': 'Rohith', 'Age': 9,
'Høyde': 3.69, 'vekt': 28, 'adresse': 'hyd',
'Rollno': '005', 'Navn': 'Sridevi', 'Age': 37,
'Høyde': 5.59, 'vekt': 54, 'adresse': 'hyd']]
# Lag DataFrame
df = spark_app.CreateTataFrame (studenter)
#returner minimum fra høydekolonnen
df.AGG ('høyde': 'min').samle inn()

Produksjon:

[Rad (min (høyde) = 2.79)]

I eksemplet ovenfor returneres minimumsverdien fra høydekolonnen.

Eksempel 2: Flere kolonner

Dette eksemplet vil få minimumsverdien fra høyden, alderen og vektkolonnene i Pyspark DataFrame.

#import Pyspark -modulen
Importer pyspark
#import SparkSession for å lage en økt
Fra Pyspark.SQL Import SparkSession
#Create en app som heter Linuxhint
Spark_app = SparkSession.bygger.AppName ('Linuxhint').getorCreate ()
# Lag studentdata med 5 rader og 6 attributter
Studenter = [
'Rollno': '001', 'Navn': 'Sravan', 'Age': 23,
'Høyde': 5.79, 'vekt': 67, 'adresse': 'guntur',
'Rollno': '002', 'Navn': 'Ojaswi', 'Age': 16,
'Høyde': 3.79, 'vekt': 34, 'adresse': 'hyd',
'Rollno': '003', 'Navn': 'Gnanesh Chowdary', 'Age': 7,
'Høyde': 2.79, 'Vekt': 17, 'Adresse': 'Patna',
'Rollno': '004', 'Navn': 'Rohith', 'Age': 9,
'Høyde': 3.69, 'vekt': 28, 'adresse': 'hyd',
'Rollno': '005', 'Navn': 'Sridevi', 'Age': 37,
'Høyde': 5.59, 'vekt': 54, 'adresse': 'hyd']]
# Lag DataFrame
df = spark_app.CreateTataFrame (studenter)
#Return minimum fra høyde-, alders- og vektkolonnene
df.AGG ('høyde': 'Min', 'Age': 'Min', 'Weight': 'Min').samle inn()

Produksjon:

[Rad (min (vekt) = 17, min (alder) = 7, min (høyde) = 2.79)]

I eksemplet ovenfor returneres minimumsverdien fra høyde-, alders- og vektkolonnene.

Metode - 3: Bruke GroupBy () -metode

Vi kan få minimumsverdien fra kolonnen i DataFrame ved hjelp av GroupBy () -metoden. Denne metoden vil returnere minimumsverdien ved å gruppere lignende verdier i en kolonne. Vi må bruke Min () -funksjon etter å ha utført GroupBy () -funksjon

Syntaks:

df.Groupby (Group_Column). Min ('Column_name')

Hvor,

  1. DF er inngangen Pyspark DataFrame
  2. group_column er kolonnen der verdiene er gruppert basert på denne kolonnen
  3. kolonne_navn er kolonnen for å få minimumsverdien
  4. Min er en aggregeringsfunksjon som brukes til å returnere minimumsverdien.

Eksempel 1:

I dette eksemplet vil vi gruppere adressekolonnen med høydekolonnen for å returnere minimumsverdien basert på denne adressekolonnen.

#import Pyspark -modulen
Importer pyspark
#import SparkSession for å lage en økt
Fra Pyspark.SQL Import SparkSession
#Create en app som heter Linuxhint
Spark_app = SparkSession.bygger.AppName ('Linuxhint').getorCreate ()
# Lag studentdata med 5 rader og 6 attributter
Studenter = [
'Rollno': '001', 'Navn': 'Sravan', 'Age': 23,
'Høyde': 5.79, 'vekt': 67, 'adresse': 'guntur',
'Rollno': '002', 'Navn': 'Ojaswi', 'Age': 16,
'Høyde': 3.79, 'vekt': 34, 'adresse': 'hyd',
'Rollno': '003', 'Navn': 'Gnanesh Chowdary', 'Age': 7,
'Høyde': 2.79, 'Vekt': 17, 'Adresse': 'Patna',
'Rollno': '004', 'Navn': 'Rohith', 'Age': 9,
'Høyde': 3.69, 'vekt': 28, 'adresse': 'hyd',
'Rollno': '005', 'Navn': 'Sridevi', 'Age': 37,
'Høyde': 5.59, 'vekt': 54, 'adresse': 'hyd']]
# Lag DataFrame
df = spark_app.CreateTataFrame (studenter)
#Return minimum fra høydekolonnets gruppering med adressekolonnen
df.Groupby ('adresse').min ('høyde').samle inn()

Produksjon:

Det er tre unike verdier i adressefeltet - Hyd, Guntur og Patna. Så minimum vil bli dannet ved å gruppere verdiene på tvers av adresseverdiene.

[Rad (adresse = 'hyd', min (høyde) = 3.69),
Rad (adresse = 'guntur', min (høyde) = 5.79),
Rad (adresse = 'patna', min (høyde) = 2.79)]

Eksempel 2:

I dette eksemplet vil vi gruppere adressekolonnen med vektkolonnen for å returnere minimumsverdien basert på denne adressekolonnen.

#import Pyspark -modulen
Importer pyspark
#import SparkSession for å lage en økt
Fra Pyspark.SQL Import SparkSession
#Create en app som heter Linuxhint
Spark_app = SparkSession.bygger.AppName ('Linuxhint').getorCreate ()
# Lag studentdata med 5 rader og 6 attributter
Studenter = [
'Rollno': '001', 'Navn': 'Sravan', 'Age': 23,
'Høyde': 5.79, 'vekt': 67, 'adresse': 'guntur',
'Rollno': '002', 'Navn': 'Ojaswi', 'Age': 16,
'Høyde': 3.79, 'vekt': 34, 'adresse': 'hyd',
'Rollno': '003', 'Navn': 'Gnanesh Chowdary', 'Age': 7,
'Høyde': 2.79, 'Vekt': 17, 'Adresse': 'Patna',
'Rollno': '004', 'Navn': 'Rohith', 'Age': 9,
'Høyde': 3.69, 'vekt': 28, 'adresse': 'hyd',
'Rollno': '005', 'Navn': 'Sridevi', 'Age': 37,
'Høyde': 5.59, 'vekt': 54, 'adresse': 'hyd']]
# Lag DataFrame
df = spark_app.CreateTataFrame (studenter)
#Return minimum fra vektkolonnets gruppering med adressekolonnen
df.Groupby ('adresse').min ('vekt').samle inn()

Produksjon:

Det er tre unike verdier i adressefeltet - Hyd, Guntur og Patna. Så minimum vil bli dannet ved å gruppere verdiene på tvers av adresseverdiene.

[Rad (adresse = 'hyd', min (vekt) = 28),
Rad (adresse = 'guntur', min (vekt) = 67),
Rad (adresse = 'patna', min (vekt) = 17)]

Konklusjon:

Vi diskuterte hvordan vi kan få minimumsverdien fra Pyspark DataFrame ved hjelp av Select () og AGG () -metodene. For å få minimumsverdien ved å gruppere med andre kolonner, brukte vi Groupby sammen med Min () -funksjonen. Se også Pyspark Max () artikkel.