“I Python er Pyspark en Spark -modul som gir en lignende type prosessering for å Spark ved hjelp av DataFrame, som vil lagre de gitte dataene i rad- og kolonneformat.
Pyspark - Pandas DataFrame representerer Pandas DataFrame, men den holder Pyspark DataFrame internt.
Pandas støtter dataframdatastruktur, og Pandas importeres fra Pyspark -modulen.
Før det må du installere Pyspark -modulen.”
Kommando
1 | PIP installer pyspark |
Syntaks for å importere:
1 | Fra Pyspark Import Pandas |
Etter det kan vi opprette eller bruke DataFrame fra Pandas -modulen.
Syntaks for å lage Pandas dataaframe:
1 | Pyspark.Pandas.Dataramme() |
Vi kan passere en ordbok eller liste over lister med verdier.
La oss lage en Pandas dataaframe gjennom Pyspark med fire søyler og fem rader.
1 2 3 4 5 6 7 8 9 10 11 12 1. 3 | #import pandaer fra pyspark -modulen |
Produksjon:
Nå vil vi gå inn på opplæringen vår.
Det er mulig å legge til prefikser og suffikser til en bestemt kolonne eller alle kolonnene ved å bruke metodene Add_Prefix () og add_suffix (). La oss diskutere dem en etter en.
1 | Pyspark.Pandas.Dataramme.add_prefix () |
add_prefix () brukes til å legge til en prefiksstreng til hver kolonne i begynnelsen av pyspark pandas dataaframe. Det er også mulig å legge til et prefiks til bare en enkelt kolonne ved å spesifisere kolonnenavnet. I dette scenariet vil det bli lagt til Row -etiketter.
Syntaks:
For hele DataFrame - pyspark_pandas.add_prefix ('streng')
For bestemt kolonne - pyspark_pandas.kolonne.add_prefix ('streng')
Hvor, pyspark_pandas er pyspark pandas dataaframe.
Parameter:
En streng er et prefiks lagt til i kolonnen i begynnelsen.
Eksempel 1
I dette eksemplet legger vi til prefikset - “Linux_hint” til alle ovennevnte kolonner for å lage Pyspark Pandas DataFrame.
1 2 3 4 5 6 7 8 9 10 11 12 1. 3 14 15 | #import pandaer fra pyspark -modulen |
Produksjon:
Vi kan se at prefikset legges til alle kolonnene.
Eksempel 2
Legg prefiks til verdiene i Mark1 -kolonnen.
1 2 3 4 5 6 7 8 9 10 11 12 1. 3 14 15 | #import pandaer fra pyspark -modulen |
Produksjon:
1 2 3 4 5 6 7 8 9 10 11 | Linux_Hint0 90 |
Vi kan se at prefikset legges til alle verdiene i Mark1 -kolonnen.
1 | Pyspark.Pandas.Dataramme.add_suffix () |
add_suffix () brukes til å legge til en suffiksstreng til hver kolonne på slutten av pyspark pandas dataaframe. Det er også mulig å legge til et suffiks til bare en enkelt kolonne ved å spesifisere kolonnenavnet. I dette scenariet vil det bli lagt til Row -etiketter.
Syntaks:
For hele DataFrame - pyspark_pandas.add_suffix ('streng')
For bestemt kolonne - pyspark_pandas.kolonne.add_suffix ('streng')
Hvor, pyspark_pandas er pyspark pandas dataaframe.
Parameter:
En streng er et suffiks lagt til i kolonnen i begynnelsen.
Eksempel 1
I dette eksemplet legger vi til suffikset - “Linux_hint” til alle kolonnene ovenfor for å lage Pyspark Pandas DataFrame.
1 2 3 4 5 6 7 8 9 10 11 12 1. 3 14 15 | #import pandaer fra pyspark -modulen |
Produksjon:
Vi kan se at suffikset legges til alle kolonnene.
Eksempel 2
Legg til suffiks til verdiene i Mark1 -kolonnen.
1 2 3 4 5 6 7 8 9 10 11 12 1. 3 14 15 | #import pandaer fra pyspark -modulen |
Produksjon:
1 2 3 4 5 6 7 8 9 10 11 | 0Linux_Hint 90 |
Vi kan se at suffikset legges til alle verdiene i Mark1 -kolonnen.
Konklusjon
I denne Pyspark Pandas -opplæringen så vi hvordan du kan legge til et prefiks ved hjelp av add_prefix () og suffiks ved hjelp av add_suffix () til pyspark pandas dataaframe. Det vil bli lagt til kolonnenavnene når vi spesifiserer hele DataFrame. Hvis vi bruker metodene ovenfor på en bestemt kolonne, vil prefikset/suffikset bli lagt til radposisjonene.