Konverter Pyspark DataFrame til Pandas DataFrame

Konverter Pyspark DataFrame til Pandas DataFrame

I Python er Pyspark en Spark -modul som brukes til å gi en lignende type prosessering som Spark ved hjelp av DataFrame. Det gir flere metoder for å returnere de øverste radene fra Pyspark DataFrame.

Pandas er en modul som brukes til dataanalyse. Den støtter tre datastrukturer - serier, dataaframe og panel. Vi kan konvertere Pyspark DataFrame til Pandas DataFrame når vi har Pyspark DataFrame.

La oss lage Pyspark DataFrame først.

Eksempel:

#import Pyspark -modulen
Importer pyspark
#import SparkSession for å lage en økt
Fra Pyspark.SQL Import SparkSession
#Create en app som heter Linuxhint
Spark_app = SparkSession.bygger.AppName ('Linuxhint').getorCreate ()
# Lag studentdata med 5 rader og 6 attributter
Studenter = ['Rollno': '001', 'Navn': 'Sravan', 'Age': 23, 'Height': 5.79, 'vekt': 67, 'adresse': 'guntur',
'Rollno': '002', 'Navn': 'Ojaswi', 'Age': 16, 'Height': 3.79, 'vekt': 34, 'adresse': 'hyd',
'Rollno': '003', 'Navn': 'Gnanesh Chowdary', 'Age': 7, 'Height': 2.79, 'Vekt': 17, 'Adresse': 'Patna',
'Rollno': '004', 'Navn': 'Rohith', 'Age': 9, 'Height': 3.69, 'vekt': 28, 'adresse': 'hyd',
'Rollno': '005', 'Navn': 'Sridevi', 'Age': 37, 'Height': 5.59, 'vekt': 54, 'adresse': 'hyd']]
# Lag DataFrame
df = spark_app.CreateTataFrame (studenter)
# Dataramme
df.forestilling()

Produksjon:

Topandas () er en metode som vil konvertere Pyspark DataFrame til Pandas DataFrame.

Syntaks:

Dataramme.Topandas ()

Hvor DataFrame er inngangen Pyspark DataFrame.

Eksempel:

I dette eksemplet konverterer vi over Pyspark DataFrame til Pandas DataFrame.

#import Pyspark -modulen
Importer pyspark
#import SparkSession for å lage en økt
Fra Pyspark.SQL Import SparkSession
#Create en app som heter Linuxhint
Spark_app = SparkSession.bygger.AppName ('Linuxhint').getorCreate ()
# Lag studentdata med 5 rader og 6 attributter
Studenter = ['Rollno': '001', 'Navn': 'Sravan', 'Age': 23, 'Height': 5.79, 'vekt': 67, 'adresse': 'guntur',
'Rollno': '002', 'Navn': 'Ojaswi', 'Age': 16, 'Height': 3.79, 'vekt': 34, 'adresse': 'hyd',
'Rollno': '003', 'Navn': 'Gnanesh Chowdary', 'Age': 7, 'Height': 2.79, 'Vekt': 17, 'Adresse': 'Patna',
'Rollno': '004', 'Navn': 'Rohith', 'Age': 9, 'Height': 3.69, 'vekt': 28, 'adresse': 'hyd',
'Rollno': '005', 'Navn': 'Sridevi', 'Age': 37, 'Height': 5.59, 'vekt': 54, 'adresse': 'hyd']]
# Lag DataFrame
df = spark_app.CreateTataFrame (studenter)
#convert til pandas dataaframe
trykk (df.Topandas ())

Produksjon:

Vi kan iterere DataFrame gjennom Iterrows () ved å konvertere Pyspark til Pandas.

Iterrows ()

Denne metoden brukes til å iterere kolonnene i den gitte Pyspark DataFrame ved å konvertere til Pandas DataFrame, den kan brukes med for loop og tar kolonnavn gjennom Row Iterator og Index for å iterere kolonner. Til slutt vil den vise radene i henhold til de spesifiserte indeksene.

Syntaks:

For indeks, Row_Iterator i DataFrame.Topandas ().Iterrows ():
print (row_iterator [index_value], ...)

Hvor:

  1. DataFrame er inngangen Pyspark DataFrame.
  2. INDEX_VALUE er kolonneindeksposisjonen i Pyspark DataFrame.
  3. ROW_ITERATOR er iteratorvariabelen som brukes til å iterere radverdier i den spesifiserte kolonnen.

Eksempel 1:

I dette eksemplet itererer vi rader fra adressen og høydekolonnene fra ovennevnte Pyspark DataFrame.

#import Pyspark -modulen
Importer pyspark
#import SparkSession for å lage en økt
Fra Pyspark.SQL Import SparkSession
#import col -funksjonen
Fra Pyspark.SQL.Funksjoner importerer col
#Create en app som heter Linuxhint
Spark_app = SparkSession.bygger.AppName ('Linuxhint').getorCreate ()
# Lag studentdata med 5 rader og 6 attributter
Studenter = ['Rollno': '001', 'Navn': 'Sravan', 'Age': 23, 'Height': 5.79, 'vekt': 67, 'adresse': 'guntur',
'Rollno': '002', 'Navn': 'Ojaswi', 'Age': 16, 'Height': 3.79, 'vekt': 34, 'adresse': 'hyd',
'Rollno': '003', 'Navn': 'Gnanesh Chowdary', 'Age': 7, 'Height': 2.79, 'Vekt': 17, 'Adresse': 'Patna',
'Rollno': '004', 'Navn': 'Rohith', 'Age': 9, 'Height': 3.69, 'vekt': 28, 'adresse': 'hyd',
'Rollno': '005', 'Navn': 'Sridevi', 'Age': 37, 'Height': 5.59, 'vekt': 54, 'adresse': 'hyd']]
# Lag DataFrame
df = spark_app.CreateTataFrame (studenter)
#iterat adresse og høydekolonner
For indeks, ROW_ITERATOR I DF.Topandas ().Iterrows ():
Print (ROW_ITERATOR [0], ROW_ITERATOR [1])

Produksjon:

Guntur 23
hyd 16
Patna 7
hyd 9
hyd 37

Eksempel 2:

I dette eksemplet itererer vi rader fra adressen og navnekolonnene fra ovennevnte Pyspark DataFrame.

#import Pyspark -modulen
Importer pyspark
#import SparkSession for å lage en økt
Fra Pyspark.SQL Import SparkSession
#import col -funksjonen
Fra Pyspark.SQL.Funksjoner importerer col
#Create en app som heter Linuxhint
Spark_app = SparkSession.bygger.AppName ('Linuxhint').getorCreate ()
# Lag studentdata med 5 rader og 6 attributter
Studenter = ['Rollno': '001', 'Navn': 'Sravan', 'Age': 23, 'Height': 5.79, 'vekt': 67, 'adresse': 'guntur',
'Rollno': '002', 'Navn': 'Ojaswi', 'Age': 16, 'Height': 3.79, 'vekt': 34, 'adresse': 'hyd',
'Rollno': '003', 'Navn': 'Gnanesh Chowdary', 'Age': 7, 'Height': 2.79, 'Vekt': 17, 'Adresse': 'Patna',
'Rollno': '004', 'Navn': 'Rohith', 'Age': 9, 'Height': 3.69, 'vekt': 28, 'adresse': 'hyd',
'Rollno': '005', 'Navn': 'Sridevi', 'Age': 37, 'Height': 5.59, 'vekt': 54, 'adresse': 'hyd']]
# Lag DataFrame
df = spark_app.CreateTataFrame (studenter)
#iterat adresse og navnekolonner
For indeks, ROW_ITERATOR I DF.Topandas ().Iterrows ():
Print (ROW_ITERATOR [0], ROW_ITERATOR [3])

Produksjon:

Guntur Sravan
Hyd Ojaswi
Patna Gnanesh Chowdary
Hyd Rohith
Hyd Sridevi

Konklusjon

I denne opplæringen diskuterte vi konvertering av Pyspark DataFrame til Pandas DataFrame ved bruk.