Pyspark - Pandas DataFrame representerer Pandas DataFrame, men den holder Pyspark DataFrame internt.
Pandas støtter dataframdatastruktur, og Pandas importeres fra Pyspark -modulen.
Før det må du installere Pyspark -modulen.”
Kommando
PIP installer pysparkSyntaks for å importere
Fra Pyspark Import PandasEtter det kan vi opprette eller bruke DataFrame fra Pandas -modulen.
Syntaks for å lage pandas dataaframe
Pyspark.Pandas.Dataramme()Vi kan passere en ordbok eller liste over lister med verdier.
La oss lage en Pandas dataaframe gjennom Pyspark som har fire søyler og fem rader.
#import pandaer fra pyspark -modulenProduksjon
Nå vil vi gå inn på opplæringen vår.
La oss se dem en etter en.
Pyspark - Pandas DataFrame: Shape ()
Pyspark.Pandas.Dataramme.form()form () I pyspark pandas brukes dataaframe til å returnere antall rader og antall kolonner i en tuple.
Den første verdien i tupelen representerer antall rader, og den andre verdien representerer antall kolonner.
Syntaks
pyspark_pandas.formHvor pyspark_pandas er pyspark pandas dataaframe.
Hvis du bare vil returnere det totale antallet rader eller kolonner, kan du få det ved å bruke indeksposisjonen.
Syntaks
Returner totalt antall rader
Retur totalt antall kolonne
pyspark_pandas.form [1]Eksempel
I dette eksemplet vil vi se hvor mange rader og kolonner som finnes i ovennevnte Pyspark Pandas DataFrame.
Produksjon
Totalt rader og kolonner: (5, 4)Vi kan se at totale rader og kolonner ble returnert.
Pyspark - Pandas DataFrame: Axes ()
Pyspark.Pandas.Dataramme.Axes ()Axes () I PySpark Pandas DataFrame brukes til å returnere rad- og kolonnenavn i en liste.
Den første verdien i listen representerer radnavnene, og den andre verdien representerer kolonnenavnene.
Syntaks
pyspark_pandas.akserHvor pyspark_pandas er pyspark pandas dataaframe.
Hvis du bare vil returnere radene eller kolonnene, kan du få det ved å bruke indeksposisjonen.
Syntaks
Returner rader navn
pyspark_pandas.akser [0]Returkolonneavn
pyspark_pandas.akser [1]Eksempel
I dette eksemplet vil vi se radene og kolonnene som finnes i ovennevnte Pyspark Pandas DataFrame.
Produksjon
[Int64Index ([0, 1, 2, 3, 4], dtype = "int64"), index (['student_lastname', 'Mark1', 'Mark2', 'Mark3'], dtype = "Objekt")]Vi kan se at rad- og kolonnenavn ble returnert.
Pyspark - Pandas DataFrame: NDIM ()
Pyspark.Pandas.Dataramme.ndim ()
ndim () i Pyspark Pandas DataFrame brukes til å returnere totale dimensjoner. Her inneholder Pyspark Pandas DataFrame to dimensjoner - rad og kolonne. Så det kommer tilbake 2.
Syntaks
pyspark_pandas.ndimHvor pyspark_pandas er pyspark pandas dataaframe.
Eksempel
I dette eksemplet vil vi få de totale dimensjonene fra Pyspark Pandas DataFrame.
Produksjon
2Pyspark - Pandas DataFrame: Dypes ()
Pyspark.Pandas.Dataramme.dypes ()
dtypes () i pyspark pandas dataaframe brukes til å returnere datatypene for alle kolonner
Syntaks
pyspark_pandas.dypesHvor pyspark_pandas er pyspark pandas dataaframe.
Eksempel
I dette eksemplet vil vi få datatypene fra Pyspark Pandas DataFrame.
Produksjon
student_lastname objektDet er også mulig å få datatypen fra en enkelt kolonne.
Syntaks
Pyspark_pandas.kolonne.dypesHvor kolonnen er kolonnenavnet
Eksempel
I dette eksemplet vil vi få datatypene til Student_lastname og Mark1 -kolonnen.
Produksjon
gjenstandKonklusjon
I denne Pyspark Pandas DataFrame -opplæringen så vi forskjellige metoder for å få DataFrame -informasjonen.