Pyspark - Pandas DataFrame representerer Pandas DataFrame, men den holder Pyspark DataFrame internt.
Pandas støtter dataframdatastruktur, og pandaer importeres fra Pyspark -modulen.
Før det må du installere Pyspark -modulen.”
Kommando
PIP installer pysparkSyntaks for å importere:
Fra Pyspark Import PandasEtter det kan vi opprette eller bruke DataFrame fra Pandas -modulen.
Syntaks for å lage Pandas dataaframe:
Pyspark.Pandas.Dataramme()Vi kan passere en ordbok eller liste over lister med verdier.
La oss lage en Pandas dataaframe gjennom Pyspark med tre kolonner og fem rader.
#import pandaer fra pyspark -modulenProduksjon:
Nå vil vi gå inn på opplæringen vår.
Vi vil se forskjellige formater der ovennevnte opprettet Pyspark Pandas DataFrame er konvertert.
Pyspark.Pandas.Dataramme.to_html ()
Pyspark Pandas DataFrame konverteres til HTML -format slik at kolonnenavn er plassert under
Syntaks:
pyspark_pandas.to_html ()Hvor pyspark_pandas er pyspark pandas dataaframe.
Eksempel: 1
I dette eksemplet vil vi konvertere ovennevnte Pyspark Pandas DataFrame til HTML -format.
#import pandaer fra pyspark -modulenProduksjon:
Du kan se at kolonnenavn er plassert inne
Pyspark.Pandas.Dataramme.to_json ()
Pyspark Pandas DataFrame konverteres til JSON -format slik at kolonnenavn vil fungere som nøkler og kolonneverdier vil være verdier.
Syntaks:
pyspark_pandas.to_json ()Hvor pyspark_pandas er pyspark pandas dataaframe.
Eksempel: 2
I dette eksemplet vil vi konvertere ovennevnte Pyspark Pandas DataFrame til JSON -format.
#import pandaer fra pyspark -modulenProduksjon:
["Mark1": 90, "Mark2": 100, "Mark3": 91, "Mark1": 56, "Mark2": 67, "Mark3": 92, "Mark1": 78, "Mark2 ": 96," Mark3 ": 98, " Mark1 ": 54," Mark2 ": 89," Mark3 ": 97, " Mark1 ": 67," Mark2 ": 32," Mark3 ": 87 ]Du kan se at kolonnenavn er nøkler.
Pyspark.Pandas.Dataramme.to_numpy ()
Pyspark Pandas DataFrame konverteres til array -format ved hjelp av To_Numpy () -metoden.
Syntaks:
pyspark_pandas.to_numpy ()Hvor pyspark_pandas er pyspark pandas dataaframe.
Eksempel: 3
I dette eksemplet vil vi konvertere ovennevnte Pyspark Pandas DataFrame til Array -format.
#import pandaer fra pyspark -modulenProduksjon:
[[90 100 91]Du kan se at verdiene lagres i form av en 2-D-matrise med fem rader og tre kolonner.
Pyspark.Pandas.Dataramme.to_pandas ()
Pyspark Pandas DataFrame konverteres til Pandas DataFrame ved bruk av TO_PANDAS () -metoden.
Syntaks:
pyspark_pandas.to_pandas ()Hvor pyspark_pandas er pyspark pandas dataaframe.
Eksempel: 4
I dette eksemplet vil vi konvertere ovennevnte Pyspark Pandas DataFrame til en Pandas DataFrame.
#import pandaer fra pyspark -modulenProduksjon:
Mark1 Mark2 Mark3Du kan se at verdiene er lagret i form av en Pandas DataFrame med fem rader og tre kolonner.
Pyspark Pandas DataFrame konverteres til Markdown ved bruk av TO_MARKDOWN () -metoden.
Syntaks:
pyspark_pandas.to_markdown ()Hvor pyspark_pandas er pyspark pandas dataaframe.
Eksempel: 5
I dette eksemplet vil vi konvertere ovennevnte Pyspark Pandas DataFrame til Markdown -format.
#import pandaer fra pyspark -modulenProduksjon:
Du kan se at Pyspark Pandas DataFrame er konvertert til Markdown -format.
Pyspark Pandas DataFrame konverteres til en ordbok ved bruk av TO_DICT () -metoden.Kolonnenavn vil være nøkler.
Syntaks:
pyspark_pandas.to_dict ()Hvor pyspark_pandas er pyspark pandas dataaframe.
Eksempel: 6
I dette eksemplet vil vi konvertere ovennevnte PySpark Pandas DataFrame til en ordbok ved hjelp av TO_DICT () -metoden.
#import pandaer fra pyspark -modulenProduksjon:
'Mark1': 0: 90, 1: 56, 2: 78, 3: 54, 4: 67, 'Mark2': 0: 100, 1: 67, 2: 96, 3: 89, 4: 32, 'Mark3': 0: 91, 1: 92, 2: 98, 3: 97, 4: 87Du kan se at Pyspark Pandas DataFrame er konvertert til en ordbok med nøkler som kolonnenavn.
Pyspark.Pandas.Dataramme.to_records ()
Pyspark Pandas DataFrame konverteres til en post ved hjelp av To_Records () -metoden. Her, for hver rad i posten, plasseres en ID som starter fra 1.
Syntaks:
pyspark_pandas.to_records ()Hvor pyspark_pandas er pyspark pandas dataaframe.
Eksempel: 7
I dette eksemplet vil vi konvertere ovennevnte PySpark Pandas DataFrame til en post ved hjelp av To_Records () -metoden.
#import pandaer fra pyspark -modulenProduksjon:
[(0, 90, 100, 91) (1, 56, 67, 92) (2, 78, 96, 98) (3, 54, 89, 97)Pyspark.Pandas.Dataramme.to_latex ()
Pyspark Pandas DataFrame konverteres til en post ved bruk av TO_LATEX () -metode.
Syntaks:
pyspark_pandas.to_latex ()Hvor pyspark_pandas er pyspark pandas dataaframe.
Eksempel: 8
I dette eksemplet vil vi konvertere ovennevnte Pyspark Pandas DataFrame til Latex -format.
#import pandaer fra pyspark -modulenProduksjon:
Vi kan se at Pyspark Pandas DataFrame er konvertert til latexformat.
Pyspark.Pandas.Dataramme.å gnistre()
Pyspark Pandas DataFrame konverteres til en Spark DataFrame ved hjelp av TO_Spark () -metoden. Den bruker Show () -metoden for å vise DataFrame i tabellformat.
Syntaks:
pyspark_pandas.å gnistre()Hvor pyspark_pandas er pyspark pandas dataaframe.
Eksempel: 9
I dette eksemplet vil vi konvertere ovennevnte Pyspark Pandas DataFrame til en Spark DataFrame.
#import pandaer fra pyspark -modulenProduksjon:
Vi kan se at Pyspark Pandas Dataframe blir konvertert til en gnist DataFrame.
Pyspark.Pandas.Dataramme.to_string ()
Pyspark Pandas DataFrame konverteres til en streng ved bruk av TO_STRING () -metoden. Den vises i tabellformat.
Syntaks:
pyspark_pandas.to_string ()Hvor pyspark_pandas er pyspark pandas dataaframe.
Eksempel: 10
I dette eksemplet vil vi konvertere ovennevnte Pyspark Pandas DataFrame til en streng
#import pandaer fra pyspark -modulenProduksjon:
Mark1 Mark2 Mark3Vi kan se at Pyspark Pandas DataFrame er konvertert til en streng med tabellformat.
Konklusjon
I denne opplæringen så vi de forskjellige formatene som konverterer Pyspark Pandas DataFrame.
to_html () konverterer pyspark pandas dataaframe til html -format. Hvis du vil konvertere det til en Numpy -matrise, kan du velge To_Numpy () -metoden. Hvis du vil konvertere den til en Pandas dataaframe, kan du velge To_pandas () -metoden.
to_latex () formaterer pyspark pandas dataaframe til latex, to_markdown formaterer pyspark pandas dataaframe til markdown. Hvis du vil at kolonnen skal være en nøkkel, kan du foretrekke å_dict () og to_json ().