Pyspark - Pandas DataFrame Nsmallest & Nlargest

Pyspark - Pandas DataFrame Nsmallest & Nlargest
“I Python er Pyspark en Spark -modul som brukes til å gi en lignende type prosessering som Spark ved hjelp av DataFrame, som vil lagre de gitte dataene i rad- og kolonneformat.

Pyspark - Pandas DataFrame representerer Pandas DataFrame, men den holder Pyspark DataFrame internt.

Pandas støtter dataframdatastruktur, og Pandas importeres fra Pyspark -modulen.

Før det må du installere Pyspark -modulen.”

Kommando

PIP installer pyspark

Syntaks for å importere

Fra Pyspark Import Pandas

Etter det kan vi opprette eller bruke DataFrame fra Pandas -modulen.

Syntaks for å lage pandas dataaframe

Pyspark.Pandas.Dataramme()

Vi kan passere en ordbok eller liste over lister med verdier.

La oss lage en Pandas dataaframe gjennom Pyspark som har fire søyler og fem rader.

#import pandaer fra pyspark -modulen
Fra Pyspark Import Pandas
#Create DataFrame fra Pandas Pyspark
pyspark_pandas = pandas.DataFrame ('Student_lastname': ['Manasa', 'Chamundi', 'Lehara', 'Kapila', 'Hyna'], 'Mark1': [90,78,90,54,67], 'Mark2': [ 100,67,96,89,77], 'Mark3': [91,92,98,97,87])
#vise
print (pyspark_pandas)

Produksjon

Nå vil vi gå inn på opplæringen vår.

La oss se dem en etter en.

Pyspark - Pandas DataFrame: nsmallest ()

Pyspark.Pandas.Dataramme.nsmallest ()

nsmallest () i Pyspark Pandas DataFrame brukes til å returnere de første radene som er minimum basert på kolonnen. Så det vil returnere de første hele minimumsradene som er til stede i Pyspark Pandas DataFrame. Det tar to parametere.

Syntaks

pyspark_pandas.nsmallest (n, kolonne)

Parametere

  1. N brukes til å returnere antall minimumsrader fra hele Pyspark Pandas basert på kolonnen
  2. Kolonnen refererer til kolonnenavnet som er til stede i Pyspark Pandas DataFrame.

Eksempel 1
I dette eksemplet vil vi få de første 2 minimumsradene basert på Mark1 -kolonnen.

#import pandaer fra pyspark -modulen
Fra Pyspark Import Pandas
#Create DataFrame fra Pandas Pyspark
pyspark_pandas = pandas.DataFrame ('Student_lastname': ['Manasa', 'Chamundi', 'Lehara', 'Kapila', 'Hyna'], 'Mark1': [90,78,90,54,67], 'Mark2': [ 100,67,96,89,77], 'Mark3': [91,92,98,97,87])
#Get første 2 minimumsrader basert på Mark1 -kolonnen
trykk (pyspark_pandas.nsmallest (2, "Mark1"))

Produksjon

Her er 54 og 67 de første 2 minst (minimum) verdiene som er til stede i Mark1 -kolonnen. Så tilsvarende 2 rader ble returnert.

Eksempel 2
I dette eksemplet vil vi få de første 4 minimumsradene basert på Student_lastname -kolonnen.

#import pandaer fra pyspark -modulen
Fra Pyspark Import Pandas
#Create DataFrame fra Pandas Pyspark
pyspark_pandas = pandas.DataFrame ('Student_lastname': ['Manasa', 'Chamundi', 'Lehara', 'Kapila', 'Hyna'], 'Mark1': [90,78,90,54,67], 'Mark2': [ 100,67,96,89,77], 'Mark3': [91,92,98,97,87])
#get de første 4 minimumsrader basert på Student_lastname kolonne
trykk (pyspark_pandas.nsmallest (4, "student_lastname"))

Produksjon

Her er Chamundi, Hyna, Kapila og Lehara de første 4 minst (minimum) verdiene som er til stede i Student_name -kolonnen. Så tilsvarende 4 rader ble returnert.

Pyspark - Pandas DataFrame: Nlarest ()

Pyspark.Pandas.Dataramme.nlargest ()

nLargest () i Pyspark Pandas DataFrame brukes til å returnere de første radene som er maksimalt basert på kolonnen. Så det vil returnere de første hele maksimale radene som er til stede i Pyspark Pandas DataFrame. Det tar to parametere.

Syntaks

pyspark_pandas.nlargest (n, kolonne)

Parametere

  1. N brukes til å returnere antall maksimale rader fra hele Pyspark Pandas basert på kolonnen
  2. Kolonnen refererer til kolonnenavnet som er til stede i Pyspark Pandas DataFrame.

Eksempel 1
I dette eksemplet vil vi få de første 2 maksimale radene basert på Mark1 -kolonnen.

#import pandaer fra pyspark -modulen
Fra Pyspark Import Pandas
#Create DataFrame fra Pandas Pyspark
pyspark_pandas = pandas.DataFrame ('Student_lastname': ['Manasa', 'Chamundi', 'Lehara', 'Kapila', 'Hyna'], 'Mark1': [90,78,90,54,67], 'Mark2': [ 100,67,96,89,77], 'Mark3': [91,92,98,97,87])
#Get første 2 maksimale rader basert på Mark1 -kolonnen
trykk (pyspark_pandas.nlarest (2, "Mark1"))

Produksjon

Her er 90 og 90 de første 2 store (maksimale) verdiene som er til stede i Mark1 -kolonnen. Så tilsvarende 2 rader ble returnert.

Eksempel 2
I dette eksemplet vil vi få de første 4 maksimale radene basert på Student_lastname -kolonnen.

#import pandaer fra pyspark -modulen
Fra Pyspark Import Pandas
#Create DataFrame fra Pandas Pyspark
pyspark_pandas = pandas.DataFrame ('Student_lastname': ['Manasa', 'Chamundi', 'Lehara', 'Kapila', 'Hyna'], 'Mark1': [90,78,90,54,67], 'Mark2': [ 100,67,96,89,77], 'Mark3': [91,92,98,97,87])
#Get første 4 maksimale rader basert på Student_lastname kolonne
trykk (pyspark_pandas.nlarest (4, "student_lastname"))

Produksjon

Her er Manasa, Lehara, Kapila og Hyna de første 4 høye (maksimale) verdiene som er til stede i studentnavnet.kolonne. Så tilsvarende 4 rader ble returnert.

Konklusjon

I denne Pyspark Pandas DataFrame -opplæringen så vi hvordan vi skulle få de første minimums- og maksimumsverdiene ved å bruke Nsmallest () og NLARGEST () -funksjonene. Disse funksjonene tar kolonnenavn som vil returnere radene basert på denne kolonnen.