Returner topp og siste rader fra Pyspark Pandas DataFrame

“I Python er Pyspark en Spark -modul som brukes til å gi en lignende type prosessering som Spark ved hjelp av DataFrame, som vil lagre de gitte dataene i rad- og kolonneformat.

Pyspark - Pandas DataFrame representerer Pandas DataFrame, men den holder Pyspark DataFrame internt.

Pandas støtter dataframdatastruktur, og pandaer importeres fra Pyspark -modulen.

Før det må du installere Pyspark -modulen.”

Kommando

PIP installer pyspark

Syntaks for å importere:

Fra Pyspark Import Pandas

Etter det kan vi opprette eller bruke DataFrame fra Pandas -modulen.

Syntaks for å lage Pandas dataaframe:

Pyspark.Pandas.Dataramme()

Vi kan passere en ordbok eller liste over lister med verdier.

La oss lage en Pandas dataaframe gjennom Pyspark som har fire søyler og fem rader.

Produksjon:

Nå vil vi gå inn på opplæringen vår.

Det er flere måter å returnere topp- og siste radene fra Pyspark Pandas Dataframe.

La oss se dem en etter en.

Pyspark.Pandas.Dataramme.hode

Head () vil returnere topprader fra toppen av Pyspark Pandas DataFrame. Det tar n som en parameter som spesifiserer antall rader som vises fra toppen. Som standard vil den returnere de 5 beste radene.

Syntaks:

pyspark_pandas.hode (n)

Hvor pyspark_pandas er pyspark pandas dataaframe.

Parameter:

N spesifiserer en heltallverdi som viser antall rader fra toppen av Pyspark Pandas DataFrame.

Vi kan også bruke Head () -funksjonen til å vise spesifikk kolonne.

Syntaks:

pyspark_pandas.kolonne.hode (n)

Eksempel 1

I dette eksemplet vil vi returnere topp 2 og 4 rader i Mark1 -kolonnen.

#import pandaer fra pyspark -modulen
Fra Pyspark Import Pandas
#Create DataFrame fra Pandas Pyspark
pyspark_pandas = pandas.DataFrame ('Student_lastname': ['Manasa', 'Trisha', 'Lehara', 'Kapila', 'Hyna'], 'Mark1': [90,56,78,54,67], 'Mark2': [ 100,67,96,89,32], 'Mark3': [91,92,98,97,87])
#Display Topp 2 rader i Mark1 -kolonnen
trykk (pyspark_pandas.Mark1.hode (2))
skrive ut()
#display topp 4 rader i Mark1 -kolonnen
trykk (pyspark_pandas.Mark1.hode (4))

Produksjon:

0 90
1 56
Navn: Mark1, dtype: int64
0 90
1 56
2 78
3 54
Navn: Mark1, dtype: int64

Vi kan se at de 2 og 4 radene ble valgt fra Marks1 -kolonnen.

Eksempel 2

I dette eksemplet vil vi returnere de 2 og 4 øverste radene i Student_lastname -kolonnen.

#import pandaer fra pyspark -modulen
Fra Pyspark Import Pandas
#Create DataFrame fra Pandas Pyspark
pyspark_pandas = pandas.DataFrame ('Student_lastname': ['Manasa', 'Trisha', 'Lehara', 'Kapila', 'Hyna'], 'Mark1': [90,56,78,54,67], 'Mark2': [ 100,67,96,89,32], 'Mark3': [91,92,98,97,87])
#display Topp 2 rader i Student_lastname kolonne
trykk (pyspark_pandas.student_lastname.hode (2))
skrive ut()
#display topp 4 rader i student_lastname kolonnen
trykk (pyspark_pandas.student_lastname.hode (4))

Produksjon:

0 Manasa
1 Trisha
Navn: Student_lastname, dtype: objekt
0 Manasa
1 Trisha
2 Lehara
3 Kapila
Navn: Student_lastname, dtype: objekt

Vi kan se at de 2 og 4 øverste radene ble valgt fra student_lastname kolonne.

Eksempel 3

I dette eksemplet vil vi returnere de to beste radene fra hele DataFrame.

#import pandaer fra pyspark -modulen
Fra Pyspark Import Pandas
#Create DataFrame fra Pandas Pyspark
pyspark_pandas = pandas.DataFrame ('Student_lastname': ['Manasa', 'Trisha', 'Lehara', 'Kapila', 'Hyna'], 'Mark1': [90,56,78,54,67], 'Mark2': [ 100,67,96,89,32], 'Mark3': [91,92,98,97,87])
#display topp 2 rader
trykk (pyspark_pandas.hode (2))
skrive ut()
#display topp 4 rader
trykk (pyspark_pandas.hode (4))

Produksjon:

Student_lastname Mark1 Mark2 Mark3
0 Manasa 90 100 91
1 Trisha 56 67 92
Student_lastname Mark1 Mark2 Mark3
0 Manasa 90 100 91
1 Trisha 56 67 92
2 Lehara 78 96 98
3 Kapila 54 89 97

Vi kan se at hele DataFrame blir returnert med topp 2 og 4 rader.

Pyspark.Pandas.Dataramme.hale

hale () vil returnere rader fra sist i pyspark pandas dataaframe. Det tar n som en parameter som spesifiserer antall rader som vises fra sist.

Syntaks:

pyspark_pandas.hale (n)

Hvor pyspark_pandas er pyspark pandas dataaframe.

Parameter:

n Angir en heltallverdi som viser antall rader fra den siste av Pyspark Pandas dataFrame. Som standard vil den returnere de siste 5 radene.

Vi kan også bruke halen () -funksjonen til å vise spesifikke kolonner.

Syntaks:

pyspark_pandas.kolonne.hale (n)

Eksempel 1

I dette eksemplet vil vi returnere de siste 2 og 4 radene i Mark1 -kolonnen.

#import pandaer fra pyspark -modulen
Fra Pyspark Import Pandas
#Create DataFrame fra Pandas Pyspark
pyspark_pandas = pandas.DataFrame ('Student_lastname': ['Manasa', 'Trisha', 'Lehara', 'Kapila', 'Hyna'], 'Mark1': [90,56,78,54,67], 'Mark2': [ 100,67,96,89,32], 'Mark3': [91,92,98,97,87])
#display siste 2 rader i Mark1 -kolonnen
trykk (pyspark_pandas.Mark1.hale (2))
skrive ut()
#display siste 4 rader i Mark1 -kolonnen
trykk (pyspark_pandas.Mark1.hale (4))

Produksjon:

3 54
4 67
Navn: Mark1, dtype: int64
1 56
2 78
3 54
4 67
Navn: Mark1, dtype: int64

Vi kan se at de siste 2 og 4 radene ble valgt fra Marks1 -kolonnen.

Eksempel 2

I dette eksemplet vil vi returnere de siste 2 og 4 radene i Student_lastname -kolonnen.

#import pandaer fra pyspark -modulen
Fra Pyspark Import Pandas
#Create DataFrame fra Pandas Pyspark
pyspark_pandas = pandas.DataFrame ('Student_lastname': ['Manasa', 'Trisha', 'Lehara', 'Kapila', 'Hyna'], 'Mark1': [90,56,78,54,67], 'Mark2': [ 100,67,96,89,32], 'Mark3': [91,92,98,97,87])
#display siste 2 rader i Student_lastname kolonnen
trykk (pyspark_pandas.student_lastname.hale (2))
skrive ut()
#display siste 4 rader i Student_lastname kolonnen
trykk (pyspark_pandas.student_lastname.hale (4))

Produksjon:

3 Kapila
4 HYNA
Navn: Student_lastname, dtype: objekt
1 Trisha
2 Lehara
3 Kapila
4 HYNA
Navn: Student_lastname, dtype: objekt

Vi kan se at de siste 2 og 4 radene ble valgt fra student_lastname kolonne.

Eksempel 3

I dette eksemplet vil vi returnere de to siste radene fra hele DataFrame.

#import pandaer fra pyspark -modulen
Fra Pyspark Import Pandas
#Create DataFrame fra Pandas Pyspark
pyspark_pandas = pandas.DataFrame ('Student_lastname': ['Manasa', 'Trisha', 'Lehara', 'Kapila', 'Hyna'], 'Mark1': [90,56,78,54,67], 'Mark2': [ 100,67,96,89,32], 'Mark3': [91,92,98,97,87])
#display siste 2 rader
trykk (pyspark_pandas.hale (2))
skrive ut()
#display siste 4 rader
trykk (pyspark_pandas.hale (4))

Produksjon:

Student_lastname Mark1 Mark2 Mark3
3 Kapila 54 89 97
4 HYNA 67 32 87
Student_lastname Mark1 Mark2 Mark3
1 Trisha 56 67 92
2 Lehara 78 96 98
3 Kapila 54 89 97
4 HYNA 67 32 87

Vi kan se at hele DataFrame blir returnert med de siste 2 og 4 radene.

Konklusjon

Vi så hvordan vi kan vise topp- og siste radene fra Pyspark Pandas DataFrame ved hjelp av Head () og Tail () -funksjonene. Som standard returnerer de 5 rader.Hode (), og hale () -funksjoner brukes også for å få topp- og siste rad med spesifikke kolonner.

Python

Matplotlib 2D -histogram

I Python, “PLT.hist2d () ”-funksjon av“ Pyplot ”-modulen i“ Matplotlib ”-biblioteket brukes til å pl...

Elias Krogh Svendsen

Golang

Hva er strukturer i Golang

I Golang er en struktur en sammensatt datatype som består av null eller flere navngitte felt, som hv...

Erik Røed

Salesforce

Salesforce Data Loader

Opplæring om hvordan du setter inn, sletter og oppdaterer Salesforce -data, og hvordan du importerer...

Elias Krogh Svendsen