“I Python er Pyspark en Spark -modul som brukes til å gi en lignende type prosessering som Spark ved hjelp av DataFrame, som vil lagre de gitte dataene i rad- og kolonneformat.
Pyspark - Pandas DataFrame representerer Pandas DataFrame, men den holder Pyspark DataFrame internt.
Pandas støtter dataframdatastruktur, og pandaer importeres fra Pyspark -modulen.
Før det må du installere Pyspark -modulen.”
Kommando
PIP installer pyspark
Syntaks for å importere:
Fra Pyspark Import Pandas
Etter det kan vi opprette eller bruke DataFrame fra Pandas -modulen.
Syntaks for å lage Pandas dataaframe:
Pyspark.Pandas.Dataramme()
Vi kan passere en ordbok eller liste over lister med verdier.
La oss lage en Pandas dataaframe gjennom Pyspark som har fire søyler og fem rader.
#import pandaer fra pyspark -modulen
Fra Pyspark Import Pandas
#Create DataFrame fra Pandas Pyspark
pyspark_pandas = pandas.DataFrame ('Student_lastname': ['Manasa', 'Trisha', 'Lehara', 'Kapila', 'Hyna'],
'Mark1': [90,56,78,54,67], 'Mark2': [100,67,96,89,32], 'Mark3': [91,92,98,97,87]))
print (pyspark_pandas)
Produksjon:
Nå vil vi gå inn på opplæringen vår.
Det er flere måter å returnere topp- og siste radene fra Pyspark Pandas Dataframe.
La oss se dem en etter en.
Pyspark.Pandas.Dataramme.hode
Head () vil returnere topprader fra toppen av Pyspark Pandas DataFrame. Det tar n som en parameter som spesifiserer antall rader som vises fra toppen. Som standard vil den returnere de 5 beste radene.
Syntaks:
pyspark_pandas.hode (n)
Hvor pyspark_pandas er pyspark pandas dataaframe.
Parameter:
N spesifiserer en heltallverdi som viser antall rader fra toppen av Pyspark Pandas DataFrame.
Vi kan også bruke Head () -funksjonen til å vise spesifikk kolonne.
Syntaks:
pyspark_pandas.kolonne.hode (n)
Eksempel 1
I dette eksemplet vil vi returnere topp 2 og 4 rader i Mark1 -kolonnen.
#import pandaer fra pyspark -modulen
Fra Pyspark Import Pandas
#Create DataFrame fra Pandas Pyspark
pyspark_pandas = pandas.DataFrame ('Student_lastname': ['Manasa', 'Trisha', 'Lehara', 'Kapila', 'Hyna'], 'Mark1': [90,56,78,54,67], 'Mark2': [ 100,67,96,89,32], 'Mark3': [91,92,98,97,87])
#Display Topp 2 rader i Mark1 -kolonnen
trykk (pyspark_pandas.Mark1.hode (2))
skrive ut()
#display topp 4 rader i Mark1 -kolonnen
trykk (pyspark_pandas.Mark1.hode (4))
Produksjon:
0 90
1 56
Navn: Mark1, dtype: int64
0 90
1 56
2 78
3 54
Navn: Mark1, dtype: int64
Vi kan se at de 2 og 4 radene ble valgt fra Marks1 -kolonnen.
Eksempel 2
I dette eksemplet vil vi returnere de 2 og 4 øverste radene i Student_lastname -kolonnen.
#import pandaer fra pyspark -modulen
Fra Pyspark Import Pandas
#Create DataFrame fra Pandas Pyspark
pyspark_pandas = pandas.DataFrame ('Student_lastname': ['Manasa', 'Trisha', 'Lehara', 'Kapila', 'Hyna'], 'Mark1': [90,56,78,54,67], 'Mark2': [ 100,67,96,89,32], 'Mark3': [91,92,98,97,87])
#display Topp 2 rader i Student_lastname kolonne
trykk (pyspark_pandas.student_lastname.hode (2))
skrive ut()
#display topp 4 rader i student_lastname kolonnen
trykk (pyspark_pandas.student_lastname.hode (4))
Produksjon:
0 Manasa
1 Trisha
Navn: Student_lastname, dtype: objekt
0 Manasa
1 Trisha
2 Lehara
3 Kapila
Navn: Student_lastname, dtype: objekt
Vi kan se at de 2 og 4 øverste radene ble valgt fra student_lastname kolonne.
Eksempel 3
I dette eksemplet vil vi returnere de to beste radene fra hele DataFrame.
#import pandaer fra pyspark -modulen
Fra Pyspark Import Pandas
#Create DataFrame fra Pandas Pyspark
pyspark_pandas = pandas.DataFrame ('Student_lastname': ['Manasa', 'Trisha', 'Lehara', 'Kapila', 'Hyna'], 'Mark1': [90,56,78,54,67], 'Mark2': [ 100,67,96,89,32], 'Mark3': [91,92,98,97,87])
#display topp 2 rader
trykk (pyspark_pandas.hode (2))
skrive ut()
#display topp 4 rader
trykk (pyspark_pandas.hode (4))
Produksjon:
Student_lastname Mark1 Mark2 Mark3
0 Manasa 90 100 91
1 Trisha 56 67 92
Student_lastname Mark1 Mark2 Mark3
0 Manasa 90 100 91
1 Trisha 56 67 92
2 Lehara 78 96 98
3 Kapila 54 89 97
Vi kan se at hele DataFrame blir returnert med topp 2 og 4 rader.
Pyspark.Pandas.Dataramme.hale
hale () vil returnere rader fra sist i pyspark pandas dataaframe. Det tar n som en parameter som spesifiserer antall rader som vises fra sist.
Syntaks:
pyspark_pandas.hale (n)
Hvor pyspark_pandas er pyspark pandas dataaframe.
Parameter:
n Angir en heltallverdi som viser antall rader fra den siste av Pyspark Pandas dataFrame. Som standard vil den returnere de siste 5 radene.
Vi kan også bruke halen () -funksjonen til å vise spesifikke kolonner.
Syntaks:
pyspark_pandas.kolonne.hale (n)
Eksempel 1
I dette eksemplet vil vi returnere de siste 2 og 4 radene i Mark1 -kolonnen.
#import pandaer fra pyspark -modulen
Fra Pyspark Import Pandas
#Create DataFrame fra Pandas Pyspark
pyspark_pandas = pandas.DataFrame ('Student_lastname': ['Manasa', 'Trisha', 'Lehara', 'Kapila', 'Hyna'], 'Mark1': [90,56,78,54,67], 'Mark2': [ 100,67,96,89,32], 'Mark3': [91,92,98,97,87])
#display siste 2 rader i Mark1 -kolonnen
trykk (pyspark_pandas.Mark1.hale (2))
skrive ut()
#display siste 4 rader i Mark1 -kolonnen
trykk (pyspark_pandas.Mark1.hale (4))
Produksjon:
3 54
4 67
Navn: Mark1, dtype: int64
1 56
2 78
3 54
4 67
Navn: Mark1, dtype: int64
Vi kan se at de siste 2 og 4 radene ble valgt fra Marks1 -kolonnen.
Eksempel 2
I dette eksemplet vil vi returnere de siste 2 og 4 radene i Student_lastname -kolonnen.
#import pandaer fra pyspark -modulen
Fra Pyspark Import Pandas
#Create DataFrame fra Pandas Pyspark
pyspark_pandas = pandas.DataFrame ('Student_lastname': ['Manasa', 'Trisha', 'Lehara', 'Kapila', 'Hyna'], 'Mark1': [90,56,78,54,67], 'Mark2': [ 100,67,96,89,32], 'Mark3': [91,92,98,97,87])
#display siste 2 rader i Student_lastname kolonnen
trykk (pyspark_pandas.student_lastname.hale (2))
skrive ut()
#display siste 4 rader i Student_lastname kolonnen
trykk (pyspark_pandas.student_lastname.hale (4))
Produksjon:
3 Kapila
4 HYNA
Navn: Student_lastname, dtype: objekt
1 Trisha
2 Lehara
3 Kapila
4 HYNA
Navn: Student_lastname, dtype: objekt
Vi kan se at de siste 2 og 4 radene ble valgt fra student_lastname kolonne.
Eksempel 3
I dette eksemplet vil vi returnere de to siste radene fra hele DataFrame.
#import pandaer fra pyspark -modulen
Fra Pyspark Import Pandas
#Create DataFrame fra Pandas Pyspark
pyspark_pandas = pandas.DataFrame ('Student_lastname': ['Manasa', 'Trisha', 'Lehara', 'Kapila', 'Hyna'], 'Mark1': [90,56,78,54,67], 'Mark2': [ 100,67,96,89,32], 'Mark3': [91,92,98,97,87])
#display siste 2 rader
trykk (pyspark_pandas.hale (2))
skrive ut()
#display siste 4 rader
trykk (pyspark_pandas.hale (4))
Produksjon:
Student_lastname Mark1 Mark2 Mark3
3 Kapila 54 89 97
4 HYNA 67 32 87
Student_lastname Mark1 Mark2 Mark3
1 Trisha 56 67 92
2 Lehara 78 96 98
3 Kapila 54 89 97
4 HYNA 67 32 87
Vi kan se at hele DataFrame blir returnert med de siste 2 og 4 radene.
Konklusjon
Vi så hvordan vi kan vise topp- og siste radene fra Pyspark Pandas DataFrame ved hjelp av Head () og Tail () -funksjonene. Som standard returnerer de 5 rader.Hode (), og hale () -funksjoner brukes også for å få topp- og siste rad med spesifikke kolonner.