Pyspark - Pandas DataFrame add_prefix og add_suffix

Pyspark - Pandas DataFrame add_prefix og add_suffix

“I Python er Pyspark en Spark -modul som gir en lignende type prosessering for å Spark ved hjelp av DataFrame, som vil lagre de gitte dataene i rad- og kolonneformat.

Pyspark - Pandas DataFrame representerer Pandas DataFrame, men den holder Pyspark DataFrame internt.

Pandas støtter dataframdatastruktur, og Pandas importeres fra Pyspark -modulen.

Før det må du installere Pyspark -modulen.”

Kommando

1
PIP installer pyspark

Syntaks for å importere:

1
Fra Pyspark Import Pandas

Etter det kan vi opprette eller bruke DataFrame fra Pandas -modulen.

Syntaks for å lage Pandas dataaframe:

1
Pyspark.Pandas.Dataramme()

Vi kan passere en ordbok eller liste over lister med verdier.

La oss lage en Pandas dataaframe gjennom Pyspark med fire søyler og fem rader.

1
2
3
4
5
6
7
8
9
10
11
12
1. 3
#import pandaer fra pyspark -modulen
Fra Pyspark Import Pandas
#Create DataFrame fra Pandas Pyspark
pyspark_pandas = pandas.DataFrame ('Student_lastname': ['Manasa', 'Trisha', 'Lehara', 'Kapila', 'Hyna'], 'Mark1': [90,56,78,54,67], 'Mark2': [ 100,67,96,89,32], 'Mark3': [91,92,98,97,87])
print (pyspark_pandas)

Produksjon:

Nå vil vi gå inn på opplæringen vår.

Det er mulig å legge til prefikser og suffikser til en bestemt kolonne eller alle kolonnene ved å bruke metodene Add_Prefix () og add_suffix (). La oss diskutere dem en etter en.

1
Pyspark.Pandas.Dataramme.add_prefix ()

add_prefix () brukes til å legge til en prefiksstreng til hver kolonne i begynnelsen av pyspark pandas dataaframe. Det er også mulig å legge til et prefiks til bare en enkelt kolonne ved å spesifisere kolonnenavnet. I dette scenariet vil det bli lagt til Row -etiketter.

Syntaks:

For hele DataFrame - pyspark_pandas.add_prefix ('streng')

For bestemt kolonne - pyspark_pandas.kolonne.add_prefix ('streng')

Hvor, pyspark_pandas er pyspark pandas dataaframe.

Parameter:

En streng er et prefiks lagt til i kolonnen i begynnelsen.

Eksempel 1

I dette eksemplet legger vi til prefikset - “Linux_hint” til alle ovennevnte kolonner for å lage Pyspark Pandas DataFrame.

1
2
3
4
5
6
7
8
9
10
11
12
1. 3
14
15
#import pandaer fra pyspark -modulen
Fra Pyspark Import Pandas
#Create DataFrame fra Pandas Pyspark
pyspark_pandas = pandas.DataFrame ('Student_lastname': ['Manasa', 'Trisha', 'Lehara', 'Kapila', 'Hyna'], 'Mark1': [90,56,78,54,67], 'Mark2': [ 100,67,96,89,32], 'Mark3': [91,92,98,97,87])
#Legg til prefikset - 'Linux_hint' til hele DataFrame
trykk (pyspark_pandas.add_prefix ('linux_hint'))

Produksjon:

Vi kan se at prefikset legges til alle kolonnene.

Eksempel 2

Legg prefiks til verdiene i Mark1 -kolonnen.

1
2
3
4
5
6
7
8
9
10
11
12
1. 3
14
15
#import pandaer fra pyspark -modulen
Fra Pyspark Import Pandas
#Create DataFrame fra Pandas Pyspark
pyspark_pandas = pandas.DataFrame ('Student_lastname': ['Manasa', 'Trisha', 'Lehara', 'Kapila', 'Hyna'], 'Mark1': [90,56,78,54,67], 'Mark2': [ 100,67,96,89,32], 'Mark3': [91,92,98,97,87])
#Legg til prefikset - 'Linux_hint' til Mark1 -kolonneverdiene
trykk (pyspark_pandas.Mark1.add_prefix ('linux_hint'))

Produksjon:

1
2
3
4
5
6
7
8
9
10
11
Linux_Hint0 90
Linux_Hint1 56
Linux_Hint2 78
Linux_Hint3 54
Linux_Hint4 67
Navn: Mark1, dtype: int64

Vi kan se at prefikset legges til alle verdiene i Mark1 -kolonnen.

1
Pyspark.Pandas.Dataramme.add_suffix ()

add_suffix () brukes til å legge til en suffiksstreng til hver kolonne på slutten av pyspark pandas dataaframe. Det er også mulig å legge til et suffiks til bare en enkelt kolonne ved å spesifisere kolonnenavnet. I dette scenariet vil det bli lagt til Row -etiketter.

Syntaks:

For hele DataFrame - pyspark_pandas.add_suffix ('streng')

For bestemt kolonne - pyspark_pandas.kolonne.add_suffix ('streng')

Hvor, pyspark_pandas er pyspark pandas dataaframe.

Parameter:

En streng er et suffiks lagt til i kolonnen i begynnelsen.

Eksempel 1

I dette eksemplet legger vi til suffikset - “Linux_hint” til alle kolonnene ovenfor for å lage Pyspark Pandas DataFrame.

1
2
3
4
5
6
7
8
9
10
11
12
1. 3
14
15
#import pandaer fra pyspark -modulen
Fra Pyspark Import Pandas
#Create DataFrame fra Pandas Pyspark
pyspark_pandas = pandas.DataFrame ('Student_lastname': ['Manasa', 'Trisha', 'Lehara', 'Kapila', 'Hyna'], 'Mark1': [90,56,78,54,67], 'Mark2': [ 100,67,96,89,32], 'Mark3': [91,92,98,97,87])
#Legg til suffikset - 'Linux_hint' til hele DataFrame
trykk (pyspark_pandas.add_suffix ('linux_hint'))

Produksjon:

Vi kan se at suffikset legges til alle kolonnene.

Eksempel 2

Legg til suffiks til verdiene i Mark1 -kolonnen.

1
2
3
4
5
6
7
8
9
10
11
12
1. 3
14
15
#import pandaer fra pyspark -modulen
Fra Pyspark Import Pandas
#Create DataFrame fra Pandas Pyspark
pyspark_pandas = pandas.DataFrame ('Student_lastname': ['Manasa', 'Trisha', 'Lehara', 'Kapila', 'Hyna'], 'Mark1': [90,56,78,54,67], 'Mark2': [ 100,67,96,89,32], 'Mark3': [91,92,98,97,87])
#Legg til suffikset - 'Linux_hint' til Mark1 -kolonneverdiene
trykk (pyspark_pandas.Mark1.add_suffix ('linux_hint'))

Produksjon:

1
2
3
4
5
6
7
8
9
10
11
0Linux_Hint 90
1Linux_Hint 56
2linux_hint 78
3linux_hint 54
4linux_hint 67
Navn: Mark1, dtype: int64

Vi kan se at suffikset legges til alle verdiene i Mark1 -kolonnen.

Konklusjon

I denne Pyspark Pandas -opplæringen så vi hvordan du kan legge til et prefiks ved hjelp av add_prefix () og suffiks ved hjelp av add_suffix () til pyspark pandas dataaframe. Det vil bli lagt til kolonnenavnene når vi spesifiserer hele DataFrame. Hvis vi bruker metodene ovenfor på en bestemt kolonne, vil prefikset/suffikset bli lagt til radposisjonene.