Returner topp og siste rader fra Pyspark Pandas DataFrame

Returner topp og siste rader fra Pyspark Pandas DataFrame
“I Python er Pyspark en Spark -modul som brukes til å gi en lignende type prosessering som Spark ved hjelp av DataFrame, som vil lagre de gitte dataene i rad- og kolonneformat.

Pyspark - Pandas DataFrame representerer Pandas DataFrame, men den holder Pyspark DataFrame internt.

Pandas støtter dataframdatastruktur, og pandaer importeres fra Pyspark -modulen.

Før det må du installere Pyspark -modulen.”

Kommando

PIP installer pyspark

Syntaks for å importere:

Fra Pyspark Import Pandas

Etter det kan vi opprette eller bruke DataFrame fra Pandas -modulen.

Syntaks for å lage Pandas dataaframe:

Pyspark.Pandas.Dataramme()

Vi kan passere en ordbok eller liste over lister med verdier.

La oss lage en Pandas dataaframe gjennom Pyspark som har fire søyler og fem rader.

#import pandaer fra pyspark -modulen
Fra Pyspark Import Pandas
#Create DataFrame fra Pandas Pyspark
pyspark_pandas = pandas.DataFrame ('Student_lastname': ['Manasa', 'Trisha', 'Lehara', 'Kapila', 'Hyna'],
'Mark1': [90,56,78,54,67], 'Mark2': [100,67,96,89,32], 'Mark3': [91,92,98,97,87]))
print (pyspark_pandas)

Produksjon:

Nå vil vi gå inn på opplæringen vår.

Det er flere måter å returnere topp- og siste radene fra Pyspark Pandas Dataframe.

La oss se dem en etter en.

Pyspark.Pandas.Dataramme.hode

Head () vil returnere topprader fra toppen av Pyspark Pandas DataFrame. Det tar n som en parameter som spesifiserer antall rader som vises fra toppen. Som standard vil den returnere de 5 beste radene.

Syntaks:

pyspark_pandas.hode (n)

Hvor pyspark_pandas er pyspark pandas dataaframe.

Parameter:

N spesifiserer en heltallverdi som viser antall rader fra toppen av Pyspark Pandas DataFrame.

Vi kan også bruke Head () -funksjonen til å vise spesifikk kolonne.

Syntaks:

pyspark_pandas.kolonne.hode (n)

Eksempel 1

I dette eksemplet vil vi returnere topp 2 og 4 rader i Mark1 -kolonnen.

#import pandaer fra pyspark -modulen
Fra Pyspark Import Pandas
#Create DataFrame fra Pandas Pyspark
pyspark_pandas = pandas.DataFrame ('Student_lastname': ['Manasa', 'Trisha', 'Lehara', 'Kapila', 'Hyna'], 'Mark1': [90,56,78,54,67], 'Mark2': [ 100,67,96,89,32], 'Mark3': [91,92,98,97,87])
#Display Topp 2 rader i Mark1 -kolonnen
trykk (pyspark_pandas.Mark1.hode (2))
skrive ut()
#display topp 4 rader i Mark1 -kolonnen
trykk (pyspark_pandas.Mark1.hode (4))

Produksjon:

0 90
1 56
Navn: Mark1, dtype: int64
0 90
1 56
2 78
3 54
Navn: Mark1, dtype: int64

Vi kan se at de 2 og 4 radene ble valgt fra Marks1 -kolonnen.

Eksempel 2

I dette eksemplet vil vi returnere de 2 og 4 øverste radene i Student_lastname -kolonnen.

#import pandaer fra pyspark -modulen
Fra Pyspark Import Pandas
#Create DataFrame fra Pandas Pyspark
pyspark_pandas = pandas.DataFrame ('Student_lastname': ['Manasa', 'Trisha', 'Lehara', 'Kapila', 'Hyna'], 'Mark1': [90,56,78,54,67], 'Mark2': [ 100,67,96,89,32], 'Mark3': [91,92,98,97,87])
#display Topp 2 rader i Student_lastname kolonne
trykk (pyspark_pandas.student_lastname.hode (2))
skrive ut()
#display topp 4 rader i student_lastname kolonnen
trykk (pyspark_pandas.student_lastname.hode (4))

Produksjon:

0 Manasa
1 Trisha
Navn: Student_lastname, dtype: objekt
0 Manasa
1 Trisha
2 Lehara
3 Kapila
Navn: Student_lastname, dtype: objekt

Vi kan se at de 2 og 4 øverste radene ble valgt fra student_lastname kolonne.

Eksempel 3

I dette eksemplet vil vi returnere de to beste radene fra hele DataFrame.

#import pandaer fra pyspark -modulen
Fra Pyspark Import Pandas
#Create DataFrame fra Pandas Pyspark
pyspark_pandas = pandas.DataFrame ('Student_lastname': ['Manasa', 'Trisha', 'Lehara', 'Kapila', 'Hyna'], 'Mark1': [90,56,78,54,67], 'Mark2': [ 100,67,96,89,32], 'Mark3': [91,92,98,97,87])
#display topp 2 rader
trykk (pyspark_pandas.hode (2))
skrive ut()
#display topp 4 rader
trykk (pyspark_pandas.hode (4))

Produksjon:

Student_lastname Mark1 Mark2 Mark3
0 Manasa 90 100 91
1 Trisha 56 67 92
Student_lastname Mark1 Mark2 Mark3
0 Manasa 90 100 91
1 Trisha 56 67 92
2 Lehara 78 96 98
3 Kapila 54 89 97

Vi kan se at hele DataFrame blir returnert med topp 2 og 4 rader.

Pyspark.Pandas.Dataramme.hale

hale () vil returnere rader fra sist i pyspark pandas dataaframe. Det tar n som en parameter som spesifiserer antall rader som vises fra sist.

Syntaks:

pyspark_pandas.hale (n)

Hvor pyspark_pandas er pyspark pandas dataaframe.

Parameter:

n Angir en heltallverdi som viser antall rader fra den siste av Pyspark Pandas dataFrame. Som standard vil den returnere de siste 5 radene.

Vi kan også bruke halen () -funksjonen til å vise spesifikke kolonner.

Syntaks:

pyspark_pandas.kolonne.hale (n)

Eksempel 1

I dette eksemplet vil vi returnere de siste 2 og 4 radene i Mark1 -kolonnen.

#import pandaer fra pyspark -modulen
Fra Pyspark Import Pandas
#Create DataFrame fra Pandas Pyspark
pyspark_pandas = pandas.DataFrame ('Student_lastname': ['Manasa', 'Trisha', 'Lehara', 'Kapila', 'Hyna'], 'Mark1': [90,56,78,54,67], 'Mark2': [ 100,67,96,89,32], 'Mark3': [91,92,98,97,87])
#display siste 2 rader i Mark1 -kolonnen
trykk (pyspark_pandas.Mark1.hale (2))
skrive ut()
#display siste 4 rader i Mark1 -kolonnen
trykk (pyspark_pandas.Mark1.hale (4))

Produksjon:

3 54
4 67
Navn: Mark1, dtype: int64
1 56
2 78
3 54
4 67
Navn: Mark1, dtype: int64

Vi kan se at de siste 2 og 4 radene ble valgt fra Marks1 -kolonnen.

Eksempel 2

I dette eksemplet vil vi returnere de siste 2 og 4 radene i Student_lastname -kolonnen.

#import pandaer fra pyspark -modulen
Fra Pyspark Import Pandas
#Create DataFrame fra Pandas Pyspark
pyspark_pandas = pandas.DataFrame ('Student_lastname': ['Manasa', 'Trisha', 'Lehara', 'Kapila', 'Hyna'], 'Mark1': [90,56,78,54,67], 'Mark2': [ 100,67,96,89,32], 'Mark3': [91,92,98,97,87])
#display siste 2 rader i Student_lastname kolonnen
trykk (pyspark_pandas.student_lastname.hale (2))
skrive ut()
#display siste 4 rader i Student_lastname kolonnen
trykk (pyspark_pandas.student_lastname.hale (4))

Produksjon:

3 Kapila
4 HYNA
Navn: Student_lastname, dtype: objekt
1 Trisha
2 Lehara
3 Kapila
4 HYNA
Navn: Student_lastname, dtype: objekt

Vi kan se at de siste 2 og 4 radene ble valgt fra student_lastname kolonne.

Eksempel 3

I dette eksemplet vil vi returnere de to siste radene fra hele DataFrame.

#import pandaer fra pyspark -modulen
Fra Pyspark Import Pandas
#Create DataFrame fra Pandas Pyspark
pyspark_pandas = pandas.DataFrame ('Student_lastname': ['Manasa', 'Trisha', 'Lehara', 'Kapila', 'Hyna'], 'Mark1': [90,56,78,54,67], 'Mark2': [ 100,67,96,89,32], 'Mark3': [91,92,98,97,87])
#display siste 2 rader
trykk (pyspark_pandas.hale (2))
skrive ut()
#display siste 4 rader
trykk (pyspark_pandas.hale (4))

Produksjon:

Student_lastname Mark1 Mark2 Mark3
3 Kapila 54 89 97
4 HYNA 67 32 87
Student_lastname Mark1 Mark2 Mark3
1 Trisha 56 67 92
2 Lehara 78 96 98
3 Kapila 54 89 97
4 HYNA 67 32 87

Vi kan se at hele DataFrame blir returnert med de siste 2 og 4 radene.

Konklusjon

Vi så hvordan vi kan vise topp- og siste radene fra Pyspark Pandas DataFrame ved hjelp av Head () og Tail () -funksjonene. Som standard returnerer de 5 rader.Hode (), og hale () -funksjoner brukes også for å få topp- og siste rad med spesifikke kolonner.