Pyspark - Pandas Series nsmallest & nlarest

Pyspark - Pandas Series nsmallest & nlarest

“I Python er Pyspark en Spark -modul som brukes til å gi en lignende type prosessering som Spark ved hjelp av serier, som vil lagre de gitte dataene i en matrise (kolonne i Pyspark internt).

Pyspark - Pandas -serien representerer Pandas -serien, men den holder Pyspark -kolonnen internt.

Pandas Support Series Datastruktur, og Pandas importeres fra Pyspark -modulen.

Før det må du installere Pyspark -modulen.”

Kommando

PIP installer pyspark

Syntaks for å importere

Fra Pyspark Import Pandas

Etter det kan vi lage eller bruke serien fra Pandas -modulen.

Syntaks for å lage Pandas -serier

Pyspark.Pandas.Serie()

Vi kan passere en liste eller liste over lister med verdier.

La oss lage en Pandas -serie gjennom Pyspark som har fem numeriske verdier.

#import pandaer fra pyspark -modulen
Fra Pyspark Import Pandas
#Create Series med 5 elementer
pyspark_series = pandas.Serie ([90,56,78,54,0])
trykk (pyspark_series)

Produksjon

Nå vil vi gå inn på opplæringen vår.

Pyspark.Pandas.Serie.nsmallest ()

nsmallest () i Pyspark Pandas -serien brukes til å returnere de første verdiene som er minimum. Rett og slett vil den returnere de første minste verdiene fra serien med verdier. Det tar en parameter.

Syntaks

pyspark_series.nsmallest (n)

Hvor pyspark_series er pyspark pandas -serien

Parameter
n brukes til å returnere antall minimumsverdier fra hele Pyspark -serien basert på kolonnen

Eksempel 1
Returner de første 2 minste verdiene fra Pyspark Pandas -serien.

#import pandaer fra pyspark -modulen
Fra Pyspark Import Pandas
#Create Series med 5 elementer
pyspark_series = pandas.Serie ([90,56,78,54,0])
#Return første 2 små verdier
trykk (pyspark_series.nsmallest (2))

Produksjon

De første 2 små verdiene er 0 og 54.

Eksempel 2
Returner de første 4 minste verdiene fra Pyspark Pandas -serien.

#import pandaer fra pyspark -modulen
Fra Pyspark Import Pandas
#Create Series med 5 elementer
pyspark_series = pandas.Serie ([90,56,78,54,0])
#returner første 4 små verdier
trykk (pyspark_series.nsmallest (4))

Produksjon

De første 4 små verdiene er 0, 54, 56 og 78.

Pyspark.Pandas.Serie.nlargest ()

nLargest () i Pyspark Pandas -serien brukes til å returnere de første verdiene som er maksimalt. Rett og slett vil den returnere de første største verdiene fra serien med verdier. Det tar en parameter.

Syntaks

pyspark_series.nlargest (n)

Hvor pyspark_series er pyspark pandas -serien

Parameter
N brukes til å returnere antall maksimale verdier fra hele Pyspark -serien basert på kolonnen

Eksempel 1
Returner de to første største verdiene fra Pyspark Pandas -serien.

#import pandaer fra pyspark -modulen
Fra Pyspark Import Pandas
#Create Series med 5 elementer
pyspark_series = pandas.Serie ([90,56,78,54,0])
#returner de første 2 store verdiene
trykk (pyspark_series.nlargest (2))

Produksjon

De første 2 store verdiene er 90 og 78.

Eksempel 2
Returner de første 4 største verdiene fra Pyspark Pandas -serien.

#import pandaer fra pyspark -modulen
Fra Pyspark Import Pandas
#Create Series med 5 elementer
pyspark_series = pandas.Serie ([90,56,78,54,0])
#returner de første 4 store verdiene
trykk (pyspark_series.nlargest (4))

Produksjon

De første 4 små verdiene er 90,78,56 og 54.

Konklusjon

I denne Pyspark Pandas Series -opplæringen så vi hvordan vi kan få de første minimums- og maksimumsverdiene ved å bruke Nsmallest () og Nlarest () -funksjonene. Disse funksjonene tar en parameter som refererer til antall rader som skal returneres (minimum rader for nsmallest () og maksimale rader for nlarest ()).