I Python er Pyspark en Spark -modul som brukes til å gi en lignende type prosessering som Spark ved hjelp av DataFrame. Max () I Pyspark returnerer den maksimale verdien fra en bestemt kolonne i DataFrame. Vi kan få maksimal verdi på tre måter.
- Metode 1: Bruke Select () Metode
- Metode 2: Bruke AGG () -metode
- Metode 3: Bruke GroupBy () -metode
Før det må vi lage Pyspark DataFrame for demonstrasjon.
Eksempel:
Vi vil lage en DataFrame med 5 rader og 6 kolonner og vise den ved hjelp av Show () -metoden.
#import Pyspark -modulen
Importer pyspark
#import SparkSession for å lage en økt
Fra Pyspark.SQL Import SparkSession
#Create en app som heter Linuxhint
Spark_app = SparkSession.bygger.AppName ('Linuxhint').getorCreate ()
# Lag studentdata med 5 rader og 6 attributter
Studenter = [
'Rollno': '001', 'Navn': 'Sravan', 'Age': 23,
'Høyde': 5.79, 'vekt': 67, 'adresse': 'guntur',
'Rollno': '002', 'Navn': 'Ojaswi', 'Age': 16,
'Høyde': 3.79, 'vekt': 34, 'adresse': 'hyd',
'Rollno': '003', 'Navn': 'Gnanesh Chowdary', 'Age': 7,
'Høyde': 2.79, 'Vekt': 17, 'Adresse': 'Patna',
'Rollno': '004', 'Navn': 'Rohith', 'Age': 9,
'Høyde': 3.69, 'vekt': 28, 'adresse': 'hyd',
'Rollno': '005', 'Navn': 'Sridevi', 'Age': 37,
'Høyde': 5.59, 'vekt': 54, 'adresse': 'hyd']]
# Lag DataFrame
df = spark_app.CreateTataFrame (studenter)
#Display DataFrame
df.forestilling()
Utgangskjermbilde:
Metode 1: Bruke Select () Metode
Vi kan få maksimal verdi fra kolonnen i DataFrame ved hjelp av Select () -metoden. Ved hjelp av Max () -metoden kan vi få maksimal verdi fra kolonnen. For å bruke denne metoden, må vi importere den fra Pyspark.SQL.Funksjonsmodul, og til slutt kan vi bruke Collect () -metoden for å få maksimum fra kolonnen.
Syntaks:
df.Velg (Max ('Column_name'))
Hvor,
- DF er inngangen Pyspark DataFrame
- kolonne_navn er kolonnen for å få maksimal verdi
Hvis vi ønsker å returnere maksimalverdien fra flere kolonner, må vi bruke Max () -metoden inne i SELECT () -metoden ved å spesifisere kolonnens navn atskilt med et komma.
Syntaks:
df.Velg (Max ('Column_Name'), Max ('Column_Name'), .. ., Max ('Column_name')))
Hvor,
- DF er inngangen Pyspark DataFrame
- kolonne_navn er kolonnen for å få maksimal verdi
Eksempel 1: Enkelt kolonne
Dette eksemplet vil få maksimal verdi fra høydekolonnen i Pyspark DataFrame.
#import Pyspark -modulen
Importer pyspark
#import SparkSession for å lage en økt
Fra Pyspark.SQL Import SparkSession
#import maksimum - maks
Fra Pyspark.SQL.Funksjoner importerer maks
#Create en app som heter Linuxhint
Spark_app = SparkSession.bygger.AppName ('Linuxhint').getorCreate ()
# Lag studentdata med 5 rader og 6 attributter
Studenter = [
'Rollno': '001', 'Navn': 'Sravan', 'Age': 23,
'Høyde': 5.79, 'vekt': 67, 'adresse': 'guntur',
'Rollno': '002', 'Navn': 'Ojaswi', 'Age': 16,
'Høyde': 3.79, 'vekt': 34, 'adresse': 'hyd',
'Rollno': '003', 'Navn': 'Gnanesh Chowdary', 'Age': 7,
'Høyde': 2.79, 'Vekt': 17, 'Adresse': 'Patna',
'Rollno': '004', 'Navn': 'Rohith', 'Age': 9,
'Høyde': 3.69, 'vekt': 28, 'adresse': 'hyd',
'Rollno': '005', 'Navn': 'Sridevi', 'Age': 37,
'Høyde': 5.59, 'vekt': 54, 'adresse': 'hyd']]
# Lag DataFrame
df = spark_app.CreateTataFrame (studenter)
#returner maksimum fra høydekolonnen
df.Velg (Max ('Høyde')).samle inn()
Produksjon:
[Rad (maks (høyde) = 5.79)]
I eksemplet ovenfor returneres den maksimale verdien fra høydekolonnen.
Eksempel 2: Flere kolonner
Dette eksemplet vil få maksimal verdi fra høyden, alderen og vektkolonnene i Pyspark DataFrame.
#import Pyspark -modulen
Importer pyspark
#import SparkSession for å lage en økt
Fra Pyspark.SQL Import SparkSession
#import maksimum - maks
Fra Pyspark.SQL.Funksjoner importerer maks
#Create en app som heter Linuxhint
Spark_app = SparkSession.bygger.AppName ('Linuxhint').getorCreate ()
# Lag studentdata med 5 rader og 6 attributter
Studenter = [
'Rollno': '001', 'Navn': 'Sravan', 'Age': 23,
'Høyde': 5.79, 'vekt': 67, 'adresse': 'guntur',
'Rollno': '002', 'Navn': 'Ojaswi', 'Age': 16,
'Høyde': 3.79, 'vekt': 34, 'adresse': 'hyd',
'Rollno': '003', 'Navn': 'Gnanesh Chowdary', 'Age': 7,
'Høyde': 2.79, 'Vekt': 17, 'Adresse': 'Patna',
'Rollno': '004', 'Navn': 'Rohith', 'Age': 9,
'Høyde': 3.69, 'vekt': 28, 'adresse': 'hyd',
'Rollno': '005', 'Navn': 'Sridevi', 'Age': 37,
'Høyde': 5.59, 'vekt': 54, 'adresse': 'hyd']]
# Lag DataFrame
df = spark_app.CreateTataFrame (studenter)
#Return maksimalt fra høyde-, alders- og vektkolonnene
df.Velg (maks ('høyde'), maks ('alder'), maks ('vekt')).samle inn()
Produksjon:
[Rad (maks (høyde) = 5.79, maks (alder) = 37, maks (vekt) = 67)]
I eksemplet ovenfor returneres den maksimale verdien fra høyde-, alders- og vektkolonnene.
Metode 2: Bruke AGG () -metode
Vi kan få maksimal verdi fra kolonnen i DataFrame ved å bruke AGG () -metoden. Denne metoden er kjent som aggregering, som grupper verdiene i en kolonne. Det vil ta ordbok som en parameter i den nøkkelen vil være kolonnens navn og verdi er den samlede funksjonen, i.e., Maks. Ved hjelp av Max () -metoden kan vi få maksimal verdi fra kolonnen, og til slutt kan vi bruke Collect () -metoden for å få maksimum fra kolonnen.
Syntaks:
df.AGG ('Column_name': Max)
Hvor,
- DF er inngangen Pyspark DataFrame
- kolonne_navn er kolonnen for å få maksimal verdi
- Max er en aggregeringsfunksjon som brukes til å returnere maksimal verdi
Hvis vi ønsker å returnere maksimalverdien fra flere kolonner, må vi spesifisere kolonnenavnet med MAX -funksjonen atskilt med et komma.
Syntaks:
df.AGG ('Column_name': Max, 'Column_name': Max,…, 'Column_name': Max)
Hvor,
- DF er inngangen Pyspark DataFrame
- kolonne_navn er kolonnen for å få maksimal verdi
- Max er en aggregeringsfunksjon som brukes til å returnere maksimal verdi
Eksempel 1: Enkelt kolonne
Dette eksemplet vil få maksimal verdi fra høydekolonnen i Pyspark DataFrame.
#import Pyspark -modulen
Importer pyspark
#import SparkSession for å lage en økt
Fra Pyspark.SQL Import SparkSession
#Create en app som heter Linuxhint
Spark_app = SparkSession.bygger.AppName ('Linuxhint').getorCreate ()
# Lag studentdata med 5 rader og 6 attributter
Studenter = [
'Rollno': '001', 'Navn': 'Sravan', 'Age': 23, 'Height': 5.79,
'vekt': 67, 'adresse': 'guntur',
'Rollno': '002', 'Navn': 'Ojaswi', 'Age': 16,
'Høyde': 3.79, 'vekt': 34, 'adresse': 'hyd',
'Rollno': '003', 'Navn': 'Gnanesh Chowdary', 'Age': 7,
'Høyde': 2.79, 'Vekt': 17, 'Adresse': 'Patna',
'Rollno': '004', 'Navn': 'Rohith', 'Age': 9,
'Høyde': 3.69, 'vekt': 28, 'adresse': 'hyd',
'Rollno': '005', 'Navn': 'Sridevi', 'Age': 37,
'Høyde': 5.59, 'vekt': 54, 'adresse': 'hyd']]
# Lag DataFrame
df = spark_app.CreateTataFrame (studenter)
#returner maksimum fra høydekolonnen
df.AGG ('høyde': 'maks').samle inn()
Produksjon:
[Rad (maks (høyde) = 5.79)]
I eksemplet ovenfor returneres den maksimale verdien fra høydekolonnen.
Eksempel 2: Flere kolonner
Dette eksemplet vil få maksimal verdi fra høyden, alderen og vektkolonnene i Pyspark DataFrame.
#import Pyspark -modulen
Importer pyspark
#import SparkSession for å lage en økt
Fra Pyspark.SQL Import SparkSession
#Create en app som heter Linuxhint
Spark_app = SparkSession.bygger.AppName ('Linuxhint').getorCreate ()
# Lag studentdata med 5 rader og 6 attributter
Studenter = [
'Rollno': '001', 'Navn': 'Sravan', 'Age': 23,
'Høyde': 5.79, 'vekt': 67, 'adresse': 'guntur',
'Rollno': '002', 'Navn': 'Ojaswi', 'Age': 16,
'Høyde': 3.79, 'vekt': 34, 'adresse': 'hyd',
'Rollno': '003', 'Navn': 'Gnanesh Chowdary', 'Age': 7,
'Høyde': 2.79, 'Vekt': 17, 'Adresse': 'Patna',
'Rollno': '004', 'Navn': 'Rohith', 'Age': 9,
'Høyde': 3.69, 'vekt': 28, 'adresse': 'hyd',
'Rollno': '005', 'Navn': 'Sridevi', 'Age': 37,
'Høyde': 5.59, 'vekt': 54, 'adresse': 'hyd']]
# Lag DataFrame
df = spark_app.CreateTataFrame (studenter)
#Return maksimalt fra høyde-, alders- og vektkolonnene
df.AGG ('høyde': 'Max', 'Age': 'Max', 'Weight': 'Max').samle inn()
Produksjon:
[Rad (maks (vekt) = 67, maks (alder) = 37, maks (høyde) = 5.79)]
I eksemplet ovenfor returneres den maksimale verdien fra høyde-, alders- og vektkolonnene.
Metode 3: Bruke GroupBy () -metode
Vi kan få maksimal verdi fra kolonnen i DataFrame ved hjelp av GroupBy () -metoden. Denne metoden vil returnere den maksimale verdien ved å gruppere lignende verdier i en kolonne. Vi må bruke Max () -funksjon etter å ha utført GroupBy () -funksjon
Syntaks:
df.Groupby (Group_Column). Max ('Column_name')
Hvor,
- DF er inngangen Pyspark DataFrame
- group_column er kolonnen der verdiene er gruppert basert på denne kolonnen
- kolonne_navn er kolonnen for å få maksimal verdi
- Max er en aggregeringsfunksjon som brukes til å returnere maksimal verdi.
Eksempel 1:
I dette eksemplet vil vi gruppere adressekolonnen med høydekolonnen for å returnere den maksimale verdien basert på denne adressekolonnen.
#import Pyspark -modulen
Importer pyspark
#import SparkSession for å lage en økt
Fra Pyspark.SQL Import SparkSession
#Create en app som heter Linuxhint
Spark_app = SparkSession.bygger.AppName ('Linuxhint').getorCreate ()
# Lag studentdata med 5 rader og 6 attributter
Studenter = [
'Rollno': '001', 'Navn': 'Sravan', 'Age': 23,
'Høyde': 5.79, 'vekt': 67, 'adresse': 'guntur',
'Rollno': '002', 'Navn': 'Ojaswi', 'Age': 16,
'Høyde': 3.79, 'vekt': 34, 'adresse': 'hyd',
'Rollno': '003', 'Navn': 'Gnanesh Chowdary', 'Age': 7,
'Høyde': 2.79, 'Vekt': 17, 'Adresse': 'Patna',
'Rollno': '004', 'Navn': 'Rohith', 'Age': 9,
'Høyde': 3.69, 'vekt': 28, 'adresse': 'hyd',
'Rollno': '005', 'Navn': 'Sridevi', 'Age': 37,
'Høyde': 5.59, 'vekt': 54, 'adresse': 'hyd']]
# Lag DataFrame
df = spark_app.CreateTataFrame (studenter)
#Return maksimum fra høydekolonnen med adressekolonnen
df.Groupby ('adresse').Maks ('høyde').samle inn()
Produksjon:
Det er tre unike verdier i adressefeltet - Hyd, Guntur og Patna. Så det maksimale vil bli dannet ved å gruppere verdiene på tvers av adresseverdiene.
[Rad (adresse = 'hyd', maks (høyde) = 5.59),
Rad (adresse = 'guntur', maks (høyde) = 5.79),
Rad (adresse = 'patna', maks (høyde) = 2.79)]
Eksempel 2:
I dette eksemplet vil vi gruppere adressekolonnen med vektkolonnen for å returnere den maksimale verdien basert på denne adressekolonnen.
#import Pyspark -modulen
Importer pyspark
#import SparkSession for å lage en økt
Fra Pyspark.SQL Import SparkSession
#Create en app som heter Linuxhint
Spark_app = SparkSession.bygger.AppName ('Linuxhint').getorCreate ()
# Lag studentdata med 5 rader og 6 attributter
Studenter = [
'Rollno': '001', 'Navn': 'Sravan', 'Age': 23,
'Høyde': 5.79, 'vekt': 67, 'adresse': 'guntur',
'Rollno': '002', 'Navn': 'Ojaswi', 'Age': 16,
'Høyde': 3.79, 'vekt': 34, 'adresse': 'hyd',
'Rollno': '003', 'Navn': 'Gnanesh Chowdary', 'Age': 7,
'Høyde': 2.79, 'Vekt': 17, 'Adresse': 'Patna',
'Rollno': '004', 'Navn': 'Rohith', 'Age': 9,
'Høyde': 3.69, 'vekt': 28, 'adresse': 'hyd',
'Rollno': '005', 'Navn': 'Sridevi', 'Age': 37,
'Høyde': 5.59, 'vekt': 54, 'adresse': 'hyd']]
# Lag DataFrame
df = spark_app.CreateTataFrame (studenter)
#Return maksimum fra vektkolonnen med adressekolonnen
df.Groupby ('adresse').maks ('vekt').samle inn()
Produksjon:
Det er tre unike verdier i adressefeltet - Hyd, Guntur og Patna. Så det maksimale vil bli dannet ved å gruppere verdiene på tvers av adresseverdiene.
[Rad (adresse = 'hyd', maks (vekt) = 54),
Rad (adresse = 'guntur', maks (vekt) = 67),
Rad (adresse = 'Patna', maks (vekt) = 17)]
Konklusjon:
Vi diskuterte hvordan vi kan få maksimal verdi fra Pyspark DataFrame ved å bruke Select () og AGG () -metodene. For å få maksimal verdi ved å gruppere med andre kolonner, brukte vi Groupby sammen med maksimal () -funksjonen. Se også Pyspark Min () artikkel.