Konverter pyspark pandas dataaframe til forskjellige formater

Konverter pyspark pandas dataaframe til forskjellige formater
“I Python er Pyspark en Spark -modul som gir en lignende type prosessering for å Spark ved hjelp av DataFrame, som vil lagre de gitte dataene i rad- og kolonneformat.

Pyspark - Pandas DataFrame representerer Pandas DataFrame, men den holder Pyspark DataFrame internt.

Pandas støtter dataframdatastruktur, og pandaer importeres fra Pyspark -modulen.

Før det må du installere Pyspark -modulen.”

Kommando

PIP installer pyspark

Syntaks for å importere:

Fra Pyspark Import Pandas

Etter det kan vi opprette eller bruke DataFrame fra Pandas -modulen.

Syntaks for å lage Pandas dataaframe:

Pyspark.Pandas.Dataramme()

Vi kan passere en ordbok eller liste over lister med verdier.

La oss lage en Pandas dataaframe gjennom Pyspark med tre kolonner og fem rader.

#import pandaer fra pyspark -modulen
Fra Pyspark Import Pandas
#Create DataFrame fra Pandas Pyspark
pyspark_pandas = pandas.Dataframe ('Mark1': [90,56,78,54,67], 'Mark2': [100,67,96,89,32], 'Mark3': [91,92,98,97,87] )
print (pyspark_pandas)

Produksjon:

Nå vil vi gå inn på opplæringen vår.

Vi vil se forskjellige formater der ovennevnte opprettet Pyspark Pandas DataFrame er konvertert.

Pyspark.Pandas.Dataramme.to_html ()

Pyspark Pandas DataFrame konverteres til HTML -format slik at kolonnenavn er plassert under Tag og kolonneverdier er plassert under stikkord.

Syntaks:

pyspark_pandas.to_html ()

Hvor pyspark_pandas er pyspark pandas dataaframe.

Eksempel: 1

I dette eksemplet vil vi konvertere ovennevnte Pyspark Pandas DataFrame til HTML -format.

#import pandaer fra pyspark -modulen
Fra Pyspark Import Pandas
#Create DataFrame fra Pandas Pyspark
pyspark_pandas = pandas.Dataframe ('Mark1': [90,56,78,54,67], 'Mark2': [100,67,96,89,32], 'Mark3': [91,92,98,97,87] )
#convert pyspark_pandas til html
trykk (pyspark_pandas.to_html ())

Produksjon:

Du kan se at kolonnenavn er plassert inne Tagger og verdier er plassert inne Tagger.

Pyspark.Pandas.Dataramme.to_json ()

Pyspark Pandas DataFrame konverteres til JSON -format slik at kolonnenavn vil fungere som nøkler og kolonneverdier vil være verdier.

Syntaks:

pyspark_pandas.to_json ()

Hvor pyspark_pandas er pyspark pandas dataaframe.

Eksempel: 2

I dette eksemplet vil vi konvertere ovennevnte Pyspark Pandas DataFrame til JSON -format.

#import pandaer fra pyspark -modulen
Fra Pyspark Import Pandas
#Create DataFrame fra Pandas Pyspark
pyspark_pandas = pandas.Dataframe ('Mark1': [90,56,78,54,67], 'Mark2': [100,67,96,89,32], 'Mark3': [91,92,98,97,87] )
#convert pyspark_pandas til json
trykk (pyspark_pandas.to_json ())

Produksjon:

["Mark1": 90, "Mark2": 100, "Mark3": 91, "Mark1": 56, "Mark2": 67, "Mark3": 92, "Mark1": 78, "Mark2 ": 96," Mark3 ": 98, " Mark1 ": 54," Mark2 ": 89," Mark3 ": 97, " Mark1 ": 67," Mark2 ": 32," Mark3 ": 87 ]

Du kan se at kolonnenavn er nøkler.

Pyspark.Pandas.Dataramme.to_numpy ()

Pyspark Pandas DataFrame konverteres til array -format ved hjelp av To_Numpy () -metoden.

Syntaks:

pyspark_pandas.to_numpy ()

Hvor pyspark_pandas er pyspark pandas dataaframe.

Eksempel: 3

I dette eksemplet vil vi konvertere ovennevnte Pyspark Pandas DataFrame til Array -format.

#import pandaer fra pyspark -modulen
Fra Pyspark Import Pandas
#Create DataFrame fra Pandas Pyspark
pyspark_pandas = pandas.Dataframe ('Mark1': [90,56,78,54,67], 'Mark2': [100,67,96,89,32], 'Mark3': [91,92,98,97,87] )
#convert to numpy matrise
trykk (pyspark_pandas.to_numpy ())

Produksjon:

[[90 100 91]
[56 67 92]
[78 96 98]
[54 89 97]
[67 32 87]]

Du kan se at verdiene lagres i form av en 2-D-matrise med fem rader og tre kolonner.

Pyspark.Pandas.Dataramme.to_pandas ()

Pyspark Pandas DataFrame konverteres til Pandas DataFrame ved bruk av TO_PANDAS () -metoden.

Syntaks:

pyspark_pandas.to_pandas ()

Hvor pyspark_pandas er pyspark pandas dataaframe.

Eksempel: 4

I dette eksemplet vil vi konvertere ovennevnte Pyspark Pandas DataFrame til en Pandas DataFrame.

#import pandaer fra pyspark -modulen
Fra Pyspark Import Pandas
#Create DataFrame fra Pandas Pyspark
pyspark_pandas = pandas.Dataframe ('Mark1': [90,56,78,54,67], 'Mark2': [100,67,96,89,32], 'Mark3': [91,92,98,97,87] )
#convert i pandaer
trykk (pyspark_pandas.to_pandas ())

Produksjon:

Mark1 Mark2 Mark3
0 90 100 91
1 56 67 92
2 78 96 98
3 54 89 97
4 67 32 87

Du kan se at verdiene er lagret i form av en Pandas DataFrame med fem rader og tre kolonner.

Pyspark.Pandas.Dataramme.to_markdown ()

Pyspark Pandas DataFrame konverteres til Markdown ved bruk av TO_MARKDOWN () -metoden.

Syntaks:

pyspark_pandas.to_markdown ()

Hvor pyspark_pandas er pyspark pandas dataaframe.

Eksempel: 5

I dette eksemplet vil vi konvertere ovennevnte Pyspark Pandas DataFrame til Markdown -format.

#import pandaer fra pyspark -modulen
Fra Pyspark Import Pandas
#Create DataFrame fra Pandas Pyspark
pyspark_pandas = pandas.Dataframe ('Mark1': [90,56,78,54,67], 'Mark2': [100,67,96,89,32], 'Mark3': [91,92,98,97,87] )
#display i markdown -format
trykk (pyspark_pandas.to_markdown ())

Produksjon:

Du kan se at Pyspark Pandas DataFrame er konvertert til Markdown -format.

Pyspark.Pandas.Dataramme.to_dict ()

Pyspark Pandas DataFrame konverteres til en ordbok ved bruk av TO_DICT () -metoden.Kolonnenavn vil være nøkler.

Syntaks:

pyspark_pandas.to_dict ()

Hvor pyspark_pandas er pyspark pandas dataaframe.

Eksempel: 6

I dette eksemplet vil vi konvertere ovennevnte PySpark Pandas DataFrame til en ordbok ved hjelp av TO_DICT () -metoden.

#import pandaer fra pyspark -modulen
Fra Pyspark Import Pandas
#Create DataFrame fra Pandas Pyspark
pyspark_pandas = pandas.Dataframe ('Mark1': [90,56,78,54,67], 'Mark2': [100,67,96,89,32], 'Mark3': [91,92,98,97,87] )
#convert i ordbok
trykk (pyspark_pandas.to_dict ())

Produksjon:

'Mark1': 0: 90, 1: 56, 2: 78, 3: 54, 4: 67, 'Mark2': 0: 100, 1: 67, 2: 96, 3: 89, 4: 32, 'Mark3': 0: 91, 1: 92, 2: 98, 3: 97, 4: 87

Du kan se at Pyspark Pandas DataFrame er konvertert til en ordbok med nøkler som kolonnenavn.

Pyspark.Pandas.Dataramme.to_records ()

Pyspark Pandas DataFrame konverteres til en post ved hjelp av To_Records () -metoden. Her, for hver rad i posten, plasseres en ID som starter fra 1.

Syntaks:

pyspark_pandas.to_records ()

Hvor pyspark_pandas er pyspark pandas dataaframe.

Eksempel: 7

I dette eksemplet vil vi konvertere ovennevnte PySpark Pandas DataFrame til en post ved hjelp av To_Records () -metoden.

#import pandaer fra pyspark -modulen
Fra Pyspark Import Pandas
#Create DataFrame fra Pandas Pyspark
pyspark_pandas = pandas.Dataframe ('Mark1': [90,56,78,54,67], 'Mark2': [100,67,96,89,32], 'Mark3': [91,92,98,97,87] )
#convert til poster
trykk (pyspark_pandas.to_records ())

Produksjon:

[(0, 90, 100, 91) (1, 56, 67, 92) (2, 78, 96, 98) (3, 54, 89, 97)
(4, 67, 32, 87)]

Pyspark.Pandas.Dataramme.to_latex ()

Pyspark Pandas DataFrame konverteres til en post ved bruk av TO_LATEX () -metode.

Syntaks:

pyspark_pandas.to_latex ()

Hvor pyspark_pandas er pyspark pandas dataaframe.

Eksempel: 8

I dette eksemplet vil vi konvertere ovennevnte Pyspark Pandas DataFrame til Latex -format.

#import pandaer fra pyspark -modulen
Fra Pyspark Import Pandas
#Create DataFrame fra Pandas Pyspark
pyspark_pandas = pandas.Dataframe ('Mark1': [90,56,78,54,67], 'Mark2': [100,67,96,89,32], 'Mark3': [91,92,98,97,87] )
#convert to latex
trykk (pyspark_pandas.to_latex ())

Produksjon:

Vi kan se at Pyspark Pandas DataFrame er konvertert til latexformat.

Pyspark.Pandas.Dataramme.å gnistre()

Pyspark Pandas DataFrame konverteres til en Spark DataFrame ved hjelp av TO_Spark () -metoden. Den bruker Show () -metoden for å vise DataFrame i tabellformat.

Syntaks:

pyspark_pandas.å gnistre()

Hvor pyspark_pandas er pyspark pandas dataaframe.

Eksempel: 9

I dette eksemplet vil vi konvertere ovennevnte Pyspark Pandas DataFrame til en Spark DataFrame.

#import pandaer fra pyspark -modulen
Fra Pyspark Import Pandas
#Create DataFrame fra Pandas Pyspark
pyspark_pandas = pandas.Dataframe ('Mark1': [90,56,78,54,67], 'Mark2': [100,67,96,89,32], 'Mark3': [91,92,98,97,87] )
#Convert to Spark
pyspark_pandas.å gnistre().forestilling()

Produksjon:

Vi kan se at Pyspark Pandas Dataframe blir konvertert til en gnist DataFrame.

Pyspark.Pandas.Dataramme.to_string ()

Pyspark Pandas DataFrame konverteres til en streng ved bruk av TO_STRING () -metoden. Den vises i tabellformat.

Syntaks:

pyspark_pandas.to_string ()

Hvor pyspark_pandas er pyspark pandas dataaframe.

Eksempel: 10

I dette eksemplet vil vi konvertere ovennevnte Pyspark Pandas DataFrame til en streng

#import pandaer fra pyspark -modulen
Fra Pyspark Import Pandas
#Create DataFrame fra Pandas Pyspark
pyspark_pandas = pandas.Dataframe ('Mark1': [90,56,78,54,67], 'Mark2': [100,67,96,89,32], 'Mark3': [91,92,98,97,87] )
#convert til strengformat
trykk (pyspark_pandas.to_string ())

Produksjon:

Mark1 Mark2 Mark3
0 90 100 91
1 56 67 92
2 78 96 98
3 54 89 97
4 67 32 87

Vi kan se at Pyspark Pandas DataFrame er konvertert til en streng med tabellformat.

Konklusjon

I denne opplæringen så vi de forskjellige formatene som konverterer Pyspark Pandas DataFrame.

to_html () konverterer pyspark pandas dataaframe til html -format. Hvis du vil konvertere det til en Numpy -matrise, kan du velge To_Numpy () -metoden. Hvis du vil konvertere den til en Pandas dataaframe, kan du velge To_pandas () -metoden.

to_latex () formaterer pyspark pandas dataaframe til latex, to_markdown formaterer pyspark pandas dataaframe til markdown. Hvis du vil at kolonnen skal være en nøkkel, kan du foretrekke å_dict () og to_json ().