Pyspark - Pandas DataFrame Shape, Axes, NDIM og Dtypes

Pyspark - Pandas DataFrame Shape, Axes, NDIM og Dtypes
“I Python er Pyspark en Spark -modul som brukes til å gi en lignende type prosessering som Spark ved hjelp av DataFrame, som vil lagre de gitte dataene i rad- og kolonneformat.

Pyspark - Pandas DataFrame representerer Pandas DataFrame, men den holder Pyspark DataFrame internt.

Pandas støtter dataframdatastruktur, og Pandas importeres fra Pyspark -modulen.

Før det må du installere Pyspark -modulen.”

Kommando

PIP installer pyspark

Syntaks for å importere

Fra Pyspark Import Pandas

Etter det kan vi opprette eller bruke DataFrame fra Pandas -modulen.

Syntaks for å lage pandas dataaframe

Pyspark.Pandas.Dataramme()

Vi kan passere en ordbok eller liste over lister med verdier.

La oss lage en Pandas dataaframe gjennom Pyspark som har fire søyler og fem rader.

#import pandaer fra pyspark -modulen
Fra Pyspark Import Pandas
#Create DataFrame fra Pandas Pyspark
pyspark_pandas = pandas.DataFrame ('Student_lastname': ['Manasa', 'Chamundi', 'Lehara', 'Kapila', 'Hyna'], 'Mark1': [90,78,90,54,67], 'Mark2': [ 100,67,96,89,77], 'Mark3': [91,92,98,97,87])
#vise
print (pyspark_pandas)

Produksjon

Nå vil vi gå inn på opplæringen vår.

La oss se dem en etter en.

Pyspark - Pandas DataFrame: Shape ()

Pyspark.Pandas.Dataramme.form()

form () I pyspark pandas brukes dataaframe til å returnere antall rader og antall kolonner i en tuple.

Den første verdien i tupelen representerer antall rader, og den andre verdien representerer antall kolonner.

Syntaks

pyspark_pandas.form

Hvor pyspark_pandas er pyspark pandas dataaframe.

Hvis du bare vil returnere det totale antallet rader eller kolonner, kan du få det ved å bruke indeksposisjonen.

Syntaks
Returner totalt antall rader

pyspark_pandas.form [0]

Retur totalt antall kolonne

pyspark_pandas.form [1]

Eksempel
I dette eksemplet vil vi se hvor mange rader og kolonner som finnes i ovennevnte Pyspark Pandas DataFrame.

#import pandaer fra pyspark -modulen
Fra Pyspark Import Pandas
#Create DataFrame fra Pandas Pyspark
pyspark_pandas = pandas.DataFrame ('Student_lastname': ['Manasa', 'Chamundi', 'Lehara', 'Kapila', 'Hyna'], 'Mark1': [90,78,90,54,67], 'Mark2': [ 100,67,96,89,77], 'Mark3': [91,92,98,97,87])
#få formen
trykk ("Total rader og kolonner:", pyspark_pandas.form)
#Gett bare totalt antall rader
trykk ("Total rader:", pyspark_pandas.form [0])
#Gett bare totalt antall kolonner
trykk ("Total kolonner:", pyspark_pandas.form [1])

Produksjon

Totalt rader og kolonner: (5, 4)
Totalt rader: 5
Totalt kolonner: 4

Vi kan se at totale rader og kolonner ble returnert.

Pyspark - Pandas DataFrame: Axes ()

Pyspark.Pandas.Dataramme.Axes ()

Axes () I PySpark Pandas DataFrame brukes til å returnere rad- og kolonnenavn i en liste.

Den første verdien i listen representerer radnavnene, og den andre verdien representerer kolonnenavnene.

Syntaks

pyspark_pandas.akser

Hvor pyspark_pandas er pyspark pandas dataaframe.

Hvis du bare vil returnere radene eller kolonnene, kan du få det ved å bruke indeksposisjonen.

Syntaks

Returner rader navn

pyspark_pandas.akser [0]

Returkolonneavn

pyspark_pandas.akser [1]

Eksempel
I dette eksemplet vil vi se radene og kolonnene som finnes i ovennevnte Pyspark Pandas DataFrame.

#import pandaer fra pyspark -modulen
Fra Pyspark Import Pandas
#Create DataFrame fra Pandas Pyspark
pyspark_pandas = pandas.DataFrame ('Student_lastname': ['Manasa', 'Chamundi', 'Lehara', 'Kapila', 'Hyna'], 'Mark1': [90,78,90,54,67], 'Mark2': [ 100,67,96,89,77], 'Mark3': [91,92,98,97,87])
#Få alle aksene
trykk (pyspark_pandas.akser)
#få radaksene
trykk ("Radnavn:", pyspark_pandas.Axes [0])
#få kolonneaksene
print ("Kolonnenavn:", pyspark_pandas.Axes [1])

Produksjon

[Int64Index ([0, 1, 2, 3, 4], dtype = "int64"), index (['student_lastname', 'Mark1', 'Mark2', 'Mark3'], dtype = "Objekt")]
Radnavn: Int64Index ([0, 1, 2, 3, 4], dtype = "int64")
Kolonnenavn: indeks (['Student_lastname', 'Mark1', 'Mark2', 'Mark3'], dtype = "Object")

Vi kan se at rad- og kolonnenavn ble returnert.

Pyspark - Pandas DataFrame: NDIM ()

Pyspark.Pandas.Dataramme.ndim ()

ndim () i Pyspark Pandas DataFrame brukes til å returnere totale dimensjoner. Her inneholder Pyspark Pandas DataFrame to dimensjoner - rad og kolonne. Så det kommer tilbake 2.

Syntaks

pyspark_pandas.ndim

Hvor pyspark_pandas er pyspark pandas dataaframe.

Eksempel
I dette eksemplet vil vi få de totale dimensjonene fra Pyspark Pandas DataFrame.

#import pandaer fra pyspark -modulen
Fra Pyspark Import Pandas
#Create DataFrame fra Pandas Pyspark
pyspark_pandas = pandas.DataFrame ('Student_lastname': ['Manasa', 'Chamundi', 'Lehara', 'Kapila', 'Hyna'], 'Mark1': [90,78,90,54,67], 'Mark2': [ 100,67,96,89,77], 'Mark3': [91,92,98,97,87])
#få dimensjonene
trykk (pyspark_pandas.ndim)

Produksjon

2

Pyspark - Pandas DataFrame: Dypes ()

Pyspark.Pandas.Dataramme.dypes ()

dtypes () i pyspark pandas dataaframe brukes til å returnere datatypene for alle kolonner

Syntaks

pyspark_pandas.dypes

Hvor pyspark_pandas er pyspark pandas dataaframe.

Eksempel
I dette eksemplet vil vi få datatypene fra Pyspark Pandas DataFrame.

#import pandaer fra pyspark -modulen
Fra Pyspark Import Pandas
#Create DataFrame fra Pandas Pyspark
pyspark_pandas = pandas.DataFrame ('Student_lastname': ['Manasa', 'Chamundi', 'Lehara', 'Kapila', 'Hyna'], 'Mark1': [90,78,90,54,67], 'Mark2': [ 100,67,96,89,77], 'Mark3': [91,92,98,97,87])
#få datatypene til alle kolonnene
trykk (pyspark_pandas.dypes)

Produksjon

student_lastname objekt
Mark1 Int64
Mark2 Int64
Mark3 Int64
dtype: objekt

Det er også mulig å få datatypen fra en enkelt kolonne.

Syntaks

Pyspark_pandas.kolonne.dypes

Hvor kolonnen er kolonnenavnet

Eksempel
I dette eksemplet vil vi få datatypene til Student_lastname og Mark1 -kolonnen.

#import pandaer fra pyspark -modulen
Fra Pyspark Import Pandas
#Create DataFrame fra Pandas Pyspark
pyspark_pandas = pandas.DataFrame ('Student_lastname': ['Manasa', 'Chamundi', 'Lehara', 'Kapila', 'Hyna'], 'Mark1': [90,78,90,54,67], 'Mark2': [ 100,67,96,89,77], 'Mark3': [91,92,98,97,87])
#få datatypen student_lastname -kolonnen
trykk (pyspark_pandas.student_lastname.dypes)
#få datatypen til Mark1 -kolonnen
trykk (pyspark_pandas.Mark1.dypes)

Produksjon

gjenstand
INT64

Konklusjon

I denne Pyspark Pandas DataFrame -opplæringen så vi forskjellige metoder for å få DataFrame -informasjonen.

  1. Form brukes til å returnere størrelsen på Pyspark Pandas DataFrame.
  2. Axes brukes til å returnere raden og kolonnenavn.
  3. NDIM vil returnere et totalt antall dimensjoner i Pyspark Pandas DataFrame.
  4. Dypes returnerer alle kolonnedatatypene.