“I Python er Pyspark en Spark -modul som brukes til å gi en lignende type prosessering som Spark ved hjelp av serier, som vil lagre de gitte dataene i en matrise (kolonne i Pyspark internt).
Pyspark - Pandas -serien representerer Pandas -serien, men den holder Pyspark -kolonnen internt.
Pandas Support Series Datastruktur, og Pandas importeres fra Pyspark -modulen.
Før det må du installere Pyspark -modulen.”
Kommando
PIP installer pyspark
Syntaks for å importere
Fra Pyspark Import PandasEtter det kan vi lage eller bruke serien fra Pandas -modulen.
Syntaks for å lage Pandas -serier
Pyspark.Pandas.Serie()Vi kan passere en liste eller liste over lister med verdier.
La oss lage en Pandas -serie gjennom Pyspark som har fem numeriske verdier.
#import pandaer fra pyspark -modulenProduksjon
Nå vil vi gå inn på opplæringen vår.
Pyspark.Pandas.Serie.nsmallest ()nsmallest () i Pyspark Pandas -serien brukes til å returnere de første verdiene som er minimum. Rett og slett vil den returnere de første minste verdiene fra serien med verdier. Det tar en parameter.
Syntaks
pyspark_series.nsmallest (n)Hvor pyspark_series er pyspark pandas -serien
Parameter
n brukes til å returnere antall minimumsverdier fra hele Pyspark -serien basert på kolonnen
Eksempel 1
Returner de første 2 minste verdiene fra Pyspark Pandas -serien.
Produksjon
De første 2 små verdiene er 0 og 54.
Eksempel 2
Returner de første 4 minste verdiene fra Pyspark Pandas -serien.
Produksjon
De første 4 små verdiene er 0, 54, 56 og 78.
Pyspark.Pandas.Serie.nlargest ()nLargest () i Pyspark Pandas -serien brukes til å returnere de første verdiene som er maksimalt. Rett og slett vil den returnere de første største verdiene fra serien med verdier. Det tar en parameter.
Syntaks
pyspark_series.nlargest (n)Hvor pyspark_series er pyspark pandas -serien
Parameter
N brukes til å returnere antall maksimale verdier fra hele Pyspark -serien basert på kolonnen
Eksempel 1
Returner de to første største verdiene fra Pyspark Pandas -serien.
Produksjon
De første 2 store verdiene er 90 og 78.
Eksempel 2
Returner de første 4 største verdiene fra Pyspark Pandas -serien.
Produksjon
De første 4 små verdiene er 90,78,56 og 54.
Konklusjon
I denne Pyspark Pandas Series -opplæringen så vi hvordan vi kan få de første minimums- og maksimumsverdiene ved å bruke Nsmallest () og Nlarest () -funksjonene. Disse funksjonene tar en parameter som refererer til antall rader som skal returneres (minimum rader for nsmallest () og maksimale rader for nlarest ()).