I Python er Pyspark en Spark -modul som brukes til å gi en lignende type prosessering som Spark ved hjelp av DataFrame. Det gir flere metoder for å returnere de øverste radene fra Pyspark DataFrame.
Pandas er en modul som brukes til dataanalyse. Den støtter tre datastrukturer - serier, dataaframe og panel. Vi kan konvertere Pyspark DataFrame til Pandas DataFrame når vi har Pyspark DataFrame.
La oss lage Pyspark DataFrame først.
Eksempel:
#import Pyspark -modulen
Importer pyspark
#import SparkSession for å lage en økt
Fra Pyspark.SQL Import SparkSession
#Create en app som heter Linuxhint
Spark_app = SparkSession.bygger.AppName ('Linuxhint').getorCreate ()
# Lag studentdata med 5 rader og 6 attributter
Studenter = ['Rollno': '001', 'Navn': 'Sravan', 'Age': 23, 'Height': 5.79, 'vekt': 67, 'adresse': 'guntur',
'Rollno': '002', 'Navn': 'Ojaswi', 'Age': 16, 'Height': 3.79, 'vekt': 34, 'adresse': 'hyd',
'Rollno': '003', 'Navn': 'Gnanesh Chowdary', 'Age': 7, 'Height': 2.79, 'Vekt': 17, 'Adresse': 'Patna',
'Rollno': '004', 'Navn': 'Rohith', 'Age': 9, 'Height': 3.69, 'vekt': 28, 'adresse': 'hyd',
'Rollno': '005', 'Navn': 'Sridevi', 'Age': 37, 'Height': 5.59, 'vekt': 54, 'adresse': 'hyd']]
# Lag DataFrame
df = spark_app.CreateTataFrame (studenter)
# Dataramme
df.forestilling()
Produksjon:
Topandas () er en metode som vil konvertere Pyspark DataFrame til Pandas DataFrame.
Syntaks:
Dataramme.Topandas ()
Hvor DataFrame er inngangen Pyspark DataFrame.
Eksempel:
I dette eksemplet konverterer vi over Pyspark DataFrame til Pandas DataFrame.
#import Pyspark -modulen
Importer pyspark
#import SparkSession for å lage en økt
Fra Pyspark.SQL Import SparkSession
#Create en app som heter Linuxhint
Spark_app = SparkSession.bygger.AppName ('Linuxhint').getorCreate ()
# Lag studentdata med 5 rader og 6 attributter
Studenter = ['Rollno': '001', 'Navn': 'Sravan', 'Age': 23, 'Height': 5.79, 'vekt': 67, 'adresse': 'guntur',
'Rollno': '002', 'Navn': 'Ojaswi', 'Age': 16, 'Height': 3.79, 'vekt': 34, 'adresse': 'hyd',
'Rollno': '003', 'Navn': 'Gnanesh Chowdary', 'Age': 7, 'Height': 2.79, 'Vekt': 17, 'Adresse': 'Patna',
'Rollno': '004', 'Navn': 'Rohith', 'Age': 9, 'Height': 3.69, 'vekt': 28, 'adresse': 'hyd',
'Rollno': '005', 'Navn': 'Sridevi', 'Age': 37, 'Height': 5.59, 'vekt': 54, 'adresse': 'hyd']]
# Lag DataFrame
df = spark_app.CreateTataFrame (studenter)
#convert til pandas dataaframe
trykk (df.Topandas ())
Produksjon:
Vi kan iterere DataFrame gjennom Iterrows () ved å konvertere Pyspark til Pandas.
Iterrows ()
Denne metoden brukes til å iterere kolonnene i den gitte Pyspark DataFrame ved å konvertere til Pandas DataFrame, den kan brukes med for loop og tar kolonnavn gjennom Row Iterator og Index for å iterere kolonner. Til slutt vil den vise radene i henhold til de spesifiserte indeksene.
Syntaks:
For indeks, Row_Iterator i DataFrame.Topandas ().Iterrows ():
print (row_iterator [index_value], ...)
Hvor:
- DataFrame er inngangen Pyspark DataFrame.
- INDEX_VALUE er kolonneindeksposisjonen i Pyspark DataFrame.
- ROW_ITERATOR er iteratorvariabelen som brukes til å iterere radverdier i den spesifiserte kolonnen.
Eksempel 1:
I dette eksemplet itererer vi rader fra adressen og høydekolonnene fra ovennevnte Pyspark DataFrame.
#import Pyspark -modulen
Importer pyspark
#import SparkSession for å lage en økt
Fra Pyspark.SQL Import SparkSession
#import col -funksjonen
Fra Pyspark.SQL.Funksjoner importerer col
#Create en app som heter Linuxhint
Spark_app = SparkSession.bygger.AppName ('Linuxhint').getorCreate ()
# Lag studentdata med 5 rader og 6 attributter
Studenter = ['Rollno': '001', 'Navn': 'Sravan', 'Age': 23, 'Height': 5.79, 'vekt': 67, 'adresse': 'guntur',
'Rollno': '002', 'Navn': 'Ojaswi', 'Age': 16, 'Height': 3.79, 'vekt': 34, 'adresse': 'hyd',
'Rollno': '003', 'Navn': 'Gnanesh Chowdary', 'Age': 7, 'Height': 2.79, 'Vekt': 17, 'Adresse': 'Patna',
'Rollno': '004', 'Navn': 'Rohith', 'Age': 9, 'Height': 3.69, 'vekt': 28, 'adresse': 'hyd',
'Rollno': '005', 'Navn': 'Sridevi', 'Age': 37, 'Height': 5.59, 'vekt': 54, 'adresse': 'hyd']]
# Lag DataFrame
df = spark_app.CreateTataFrame (studenter)
#iterat adresse og høydekolonner
For indeks, ROW_ITERATOR I DF.Topandas ().Iterrows ():
Print (ROW_ITERATOR [0], ROW_ITERATOR [1])
Produksjon:
Guntur 23
hyd 16
Patna 7
hyd 9
hyd 37
Eksempel 2:
I dette eksemplet itererer vi rader fra adressen og navnekolonnene fra ovennevnte Pyspark DataFrame.
#import Pyspark -modulen
Importer pyspark
#import SparkSession for å lage en økt
Fra Pyspark.SQL Import SparkSession
#import col -funksjonen
Fra Pyspark.SQL.Funksjoner importerer col
#Create en app som heter Linuxhint
Spark_app = SparkSession.bygger.AppName ('Linuxhint').getorCreate ()
# Lag studentdata med 5 rader og 6 attributter
Studenter = ['Rollno': '001', 'Navn': 'Sravan', 'Age': 23, 'Height': 5.79, 'vekt': 67, 'adresse': 'guntur',
'Rollno': '002', 'Navn': 'Ojaswi', 'Age': 16, 'Height': 3.79, 'vekt': 34, 'adresse': 'hyd',
'Rollno': '003', 'Navn': 'Gnanesh Chowdary', 'Age': 7, 'Height': 2.79, 'Vekt': 17, 'Adresse': 'Patna',
'Rollno': '004', 'Navn': 'Rohith', 'Age': 9, 'Height': 3.69, 'vekt': 28, 'adresse': 'hyd',
'Rollno': '005', 'Navn': 'Sridevi', 'Age': 37, 'Height': 5.59, 'vekt': 54, 'adresse': 'hyd']]
# Lag DataFrame
df = spark_app.CreateTataFrame (studenter)
#iterat adresse og navnekolonner
For indeks, ROW_ITERATOR I DF.Topandas ().Iterrows ():
Print (ROW_ITERATOR [0], ROW_ITERATOR [3])
Produksjon:
Guntur Sravan
Hyd Ojaswi
Patna Gnanesh Chowdary
Hyd Rohith
Hyd Sridevi
Konklusjon
I denne opplæringen diskuterte vi konvertering av Pyspark DataFrame til Pandas DataFrame ved bruk.