Pyspark Fillna -metoden

Pyspark Fillna -metoden

Vi lærer om Pyspark -biblioteket i denne økten. Det er en generell formål, distribuert prosesseringsmotor som lar deg effektivt administrere dataene på flere arbeidsstasjoner. Vi lærer også om Pyspark Fillna () -metoden som brukes til å fylle nullverdiene i DataFrame med en tilpasset verdi, sammen med eksemplene.

Hva er Pyspark?

Pyspark er et av Sparks støttede språk. Spark er en stor databehandlingsteknologi som kan håndtere data i en petabyte skala. Pyspark er en Apache Spark og Python -samarbeid. Python er et moderne programmeringsspråk på høyt nivå, mens Apache Spark er en åpen kildekode som fokuserer på beregningsoppgaver av klynger og hovedsakelig målretter hastighet, brukervennlighet og streaminganalyse. Fordi Spark for det meste er innebygd i Scala, kan det få tilgang til Spark -programmer i Python eller R å lage Spark -apper i Scala eller Java. Pyspark støtter for eksempel ikke datasett for øyeblikket. Du kan utvikle Spark -applikasjoner for å behandle data og starte dem på gnistplattformen ved hjelp av pyspark. AWS tilbyr den administrerte EMR og gnistplattformen.

Hvis du gjør en datavitenskap, er Pyspark et bedre alternativ enn Scala fordi det er mange populære datavitenskapsbiblioteker skrevet i Python som Numpy, Tensorflow og Scikit-Learn. Du kan bruke Pyspark til å behandle dataene og etablere en EMR -klynge på AWS. Pyspark kan lese dataene fra en rekke filformater inkludert CSV, Parkett, JSON, samt databaser. For mindre datasett brukes Pandas. Sammenlignet med Pyspark, gir Pandas raskere resultater. Avhengig av minnetilgjengelighet og datastørrelse, kan du bytte mellom Pyspark og Pandas for å forbedre ytelsen. Bruk alltid pandaer over pyspark når dataene som skal behandles er nok for minnet. Spark har raskt blitt bransjens foretrukne teknologi for databehandling. Det er imidlertid ikke den første. Før Spark var prosesseringsmotoren MapReduce.

Hva er Pyspark Fillna ()?

Pyspark Fillna () er en Pyspark -metode som brukes til å erstatte nullverdiene i en enkelt eller mange kolonner i en Pyspark -dataramme -modell. Avhengig av forretningskravene, kan denne verdien være hva som helst. Det kan være 0 eller en tom streng og eventuell konstant bokstavelig. Denne fillna () -metoden er nyttig for dataanalyse siden den eliminerer nullverdier som kan forårsake vanskeligheter med dataanalyse.

Eksempel på å bruke Fillna ()

1
2
3
4
5
6
7
8
9
10
11
12
1. 3
14
15
16
Fra Pyspark.SQL Import SparkSession
Spark_Session = SparkSession.byggherre \
.Master ('Lokal [1]') \
.appname ('eksempel') \
.getorCreate ()
DF = Spark_Session.CreateTataFrame (
[
(1, 'Canada', 'Toronto', ingen),
(2, 'Japan', 'Tokyo', 8000000),
(3, 'India', 'Amritsar', ingen),
(4, 'Tyrkia', 'Ankara', 550000),
],
['id', 'land', 'by', 'befolkning']
)
df.forestilling()

Produksjon:

1
2
3
4
5
6
7
8
9
10
11
12
1. 3
14
15
+---+---------+--------------+-----------+
| id | land | by | Befolkning |
+---+---------+--------------+-----------+
| 1 | Canada | Toronto | null |
| 2 | Japan | Tokyo | 8000000 |
| 3 | India | Amritsar | null |
| 4 | Tyrkia | Ankara | 550000 |
+---+---------+--------------+-----------+

Vi kan nå bare bruke verdiargumentet for å erstatte alle nullverdiene i en dataaframe:

1
2
3
4
5
6
7
8
9
10
11
12
1. 3
14
15
16
17
18
19
20
21
df.na.Fyll (verdi = 0).forestilling()
df.na.Fyll (verdi = 0, undergruppe = ["populasjon"]).forestilling()
df.Fillna (verdi = 0).forestilling()
+---+---------+--------------+-----------+
| id | land | by | Befolkning |
+---+---------+--------------+-----------+
| 1 | Canada | Toronto | 0 |
| 2 | Japan | Tokyo | 8000000 |
| 3 | India | Amritsar | 0 |
| 4 | Tyrkia | Ankara | 550000 |
+---+---------+--------------+-----------+

Ovennevnte operasjon vil erstatte alle nullverdiene i heltalkolonnene med 0.

Konklusjon

Vi diskuterte Pyspark, Pyspark Fillna () -metoden, og dens eksempler i denne økten. Fillna () -metoden erstatter alle nullverdiene i DataFrame med våre tilpassede verdier.