Pyspark - Dropna

Pyspark - Dropna

I Python er Pyspark en Spark -modul som brukes til å gi en lignende type prosessering som Spark ved hjelp av DataFrame.

dropna () i pyspark brukes til å fjerne nullverdiene fra dataaframe. Før vi diskuterer denne metoden, må vi lage Pyspark DataFrame for demonstrasjon. Vi kan lage nullverdier ved å bruke ingen verdi.

Eksempel:

Vi skal lage en DataFrame med 5 rader og 6 kolonner med nullverdier og vise den ved hjelp av Show () -metoden.

#import Pyspark -modulen
Importer pyspark
#import SparkSession for å lage en økt
Fra Pyspark.SQL Import SparkSession
#import col -funksjonen
Fra Pyspark.SQL.Funksjoner importerer col
#Create en app som heter Linuxhint
Spark_app = SparkSession.bygger.AppName ('Linuxhint').getorCreate ()
# Lag studentdata med 5 rader og 6 attributter
Studenter = ['Rollno': '001', 'Navn': 'Sravan', 'Age': 23, 'Height': 5.79, 'vekt': 67, 'adresse': 'guntur',
'Rollno': '002', 'Navn': None, 'Age': 16, 'Height': 3.79, 'vekt': 34, 'adresse': 'hyd',
'Rollno': '003', 'Navn': 'Gnanesh Chowdary', 'Age': 56, 'Height': 2.79, 'vekt': 17,
'adresse': 'patna',
'Rollno': None, 'Name': 'Rohith', 'Age': 9, 'Height': 3.69, 'vekt': 28, 'adresse': ingen,
'Rollno': None, 'Name': None, 'Age': None, 'Height': None, 'Weight': None, 'Address': None]
# Lag DataFrame
df = spark_app.CreateTataFrame (studenter)
#Display DataFrame
df.forestilling()

Produksjon:

Syntaks:

Dataramme.Dropna (hvordan, terskel, undergruppe)

Hvor,

  1. Dataramme er inngangspyspark dataaframe
  2. hvordan er den første valgfrie parameteren som vil ta to mulige verdier
  1. noen - Denne verdien slipper radene, hvis noen av verdien er null i rader/kolonner.
  2. alle - Denne verdien slipper radene, hvis alle verdiene er null i rader/kolonner.
  1. Terres er en annen valgfri parameter brukes til å slippe radene / kolonnene basert på heltallverdi tilordnet den. Hvis ikke-nullverdiene som er til stede i rad/kolonne i Pyspark DataFrame er mindre enn den nevnte terkeverdien, kan nullverdiene slippes fra disse radene.
  2. undergruppe er en tredje valgfri parameter som brukes til å slippe verdiene fra den nevnte kolonnen/s. Det vil ta enkelt/flere kolonner som input gjennom en tuple av kolonnenavn.

Eksempel 1:

I dette eksemplet slipper vi radene fra ovennevnte DataFrame uten parametere og viser DataFrame ved hjelp av Show () -metoden. Så resultatet vil være den siste raden fordi den ikke inneholder nullverdier i den raden.

#import Pyspark -modulen
Importer pyspark
#import SparkSession for å lage en økt
Fra Pyspark.SQL Import SparkSession
#import col -funksjonen
Fra Pyspark.SQL.Funksjoner importerer col
#Create en app som heter Linuxhint
Spark_app = SparkSession.bygger.AppName ('Linuxhint').getorCreate ()
# Lag studentdata med 5 rader og 6 attributter
Studenter = ['Rollno': '001', 'Navn': 'Sravan', 'Age': None, 'Height': 5.79, 'vekt': ingen, 'adresse': 'guntur',
'Rollno': '002', 'Navn': None, 'Age': 16, 'Height': 3.79, 'vekt': 34, 'adresse': 'hyd',
'Rollno': '003', 'Navn': 'Gnanesh Chowdary', 'Age': 56, 'Height': 2.79, 'vekt': 17,
'adresse': 'patna',
'Rollno': None, 'Name': 'Rohith', 'Age': 9, 'Height': 3.69, 'vekt': 28, 'adresse': ingen,
'Rollno': None, 'Name': None, 'Age': None, 'Height': None, 'Weight': None, 'Address': None]
# Lag DataFrame
df = spark_app.CreateTataFrame (studenter)
#Drop DataFrame uten parametere
df.dropna ().forestilling()

Produksjon:

Eksempel 2:

I dette eksemplet slipper vi radene fra ovennevnte DataFrame ved å spesifisere hvordan parameter og satt til 'All' og vise DataFrame ved hjelp av Show () -metoden. Så resultatet vil være alle rader bortsett fra den siste raden fordi den inneholder alle nullverdiene.

#import Pyspark -modulen
Importer pyspark
#import SparkSession for å lage en økt
Fra Pyspark.SQL Import SparkSession
#import col -funksjonen
Fra Pyspark.SQL.Funksjoner importerer col
#Create en app som heter Linuxhint
Spark_app = SparkSession.bygger.AppName ('Linuxhint').getorCreate ()
# Lag studentdata med 5 rader og 6 attributter
Studenter = ['Rollno': '001', 'Navn': 'Sravan', 'Age': None, 'Height': 5.79, 'vekt': ingen, 'adresse': 'guntur',
'Rollno': '002', 'Navn': None, 'Age': 16, 'Height': 3.79, 'vekt': 34, 'adresse': 'hyd',
'Rollno': '003', 'Navn': 'Gnanesh Chowdary', 'Age': 56, 'Height': 2.79, 'vekt': 17,
'adresse': 'patna',
'Rollno': None, 'Name': 'Rohith', 'Age': 9, 'Height': 3.69, 'vekt': 28, 'adresse': ingen,
'Rollno': None, 'Name': None, 'Age': None, 'Height': None, 'Weight': None, 'Address': None]
# Lag DataFrame
df = spark_app.CreateTataFrame (studenter)
#Drop DataFrame med hvordan parameter
df.dropna (hvordan = 'alle').forestilling()

Produksjon:

Eksempel 3:

I dette eksemplet slipper vi radene fra ovennevnte DataFrame ved å spesifisere hvordan parameter og satt til 'noe' og vise DataFrame ved hjelp av Show () -metoden. Så resultatet vil være en enkelt rad som ikke inneholder nullverdier.

#import Pyspark -modulen
Importer pyspark
#import SparkSession for å lage en økt
Fra Pyspark.SQL Import SparkSession
#import col -funksjonen
Fra Pyspark.SQL.Funksjoner importerer col
#Create en app som heter Linuxhint
Spark_app = SparkSession.bygger.AppName ('Linuxhint').getorCreate ()
# Lag studentdata med 5 rader og 6 attributter
Studenter = ['Rollno': '001', 'Navn': 'Sravan', 'Age': None, 'Height': 5.79, 'vekt': ingen, 'adresse': 'guntur',
'Rollno': '002', 'Navn': None, 'Age': 16, 'Height': 3.79, 'vekt': 34, 'adresse': 'hyd',
'Rollno': '003', 'Navn': 'Gnanesh Chowdary', 'Age': 56, 'Height': 2.79, 'vekt': 17,
'adresse': 'patna',
'Rollno': None, 'Name': 'Rohith', 'Age': 9, 'Height': 3.69, 'vekt': 28, 'adresse': ingen,
'Rollno': None, 'Name': None, 'Age': None, 'Height': None, 'Weight': None, 'Address': None]
# Lag DataFrame
df = spark_app.CreateTataFrame (studenter)
#Drop DataFrame med hvordan parameter
df.dropna (hvordan = 'noen').forestilling()

Produksjon:

Eksempel 4:

I dette eksemplet slipper vi radene fra ovennevnte DataFrame ved å spesifisere terskelparameter og sette til 5 og vise DataFrame ved hjelp av Show () -metoden. Så resultatet vil være to rader, fordi disse radene har større enn 5 ikke-nullverdier.

#import Pyspark -modulen
Importer pyspark
#import SparkSession for å lage en økt
Fra Pyspark.SQL Import SparkSession
#import col -funksjonen
Fra Pyspark.SQL.Funksjoner importerer col
#Create en app som heter Linuxhint
Spark_app = SparkSession.bygger.AppName ('Linuxhint').getorCreate ()
# Lag studentdata med 5 rader og 6 attributter
Studenter = ['Rollno': '001', 'Navn': 'Sravan', 'Age': None, 'Height': 5.79, 'vekt': ingen, 'adresse': 'guntur',
'Rollno': '002', 'Navn': None, 'Age': 16, 'Height': 3.79, 'vekt': 34, 'adresse': 'hyd',
'Rollno': '003', 'Navn': 'Gnanesh Chowdary', 'Age': 56, 'Height': 2.79, 'vekt': 17,
'adresse': 'patna',
'Rollno': None, 'Name': 'Rohith', 'Age': 9, 'Height': 3.69, 'vekt': 28, 'adresse': ingen,
'Rollno': None, 'Name': None, 'Age': None, 'Height': None, 'Weight': None, 'Address': None]
# Lag DataFrame
df = spark_app.CreateTataFrame (studenter)
#Drop DataFrame med terskelparameter
df.Dropna (Thresh = 5).forestilling()

Produksjon:

Eksempel 5:

I dette eksemplet slipper vi radene fra ovennevnte DataFrame ved å spesifisere delmengde-parameter og tilordne "vekt" -kolonne og vise DataFrame ved hjelp av Show () -metoden.

#import Pyspark -modulen
Importer pyspark
#import SparkSession for å lage en økt
Fra Pyspark.SQL Import SparkSession
#import col -funksjonen
Fra Pyspark.SQL.Funksjoner importerer col
#Create en app som heter Linuxhint
Spark_app = SparkSession.bygger.AppName ('Linuxhint').getorCreate ()
# Lag studentdata med 5 rader og 6 attributter
Studenter = ['Rollno': '001', 'Navn': 'Sravan', 'Age': None, 'Height': 5.79, 'vekt': ingen, 'adresse': 'guntur',
'Rollno': '002', 'Navn': None, 'Age': 16, 'Height': 3.79, 'vekt': 34, 'adresse': 'hyd',
'Rollno': '003', 'Navn': 'Gnanesh Chowdary', 'Age': 56, 'Height': 2.79, 'vekt': 17,
'adresse': 'patna',
'Rollno': None, 'Name': 'Rohith', 'Age': 9, 'Height': 3.69, 'vekt': 28, 'adresse': ingen,
'Rollno': None, 'Name': None, 'Age': None, 'Height': None, 'Weight': None, 'Address': None]
# Lag DataFrame
df = spark_app.CreateTataFrame (studenter)
#Drop DataFrame med delmengde parameter
df.dropna (subset = "vekt").forestilling()

Produksjon:

Eksempel 6:

I dette eksemplet slipper vi radene fra ovennevnte DataFrame ved å spesifisere delmengde-parameter og tilordne “Vekt” og “Navn” -kolonner og vise DataFrame ved hjelp av Show () -metoden.

#import Pyspark -modulen
Importer pyspark
#import SparkSession for å lage en økt
Fra Pyspark.SQL Import SparkSession
#import col -funksjonen
Fra Pyspark.SQL.Funksjoner importerer col
#Create en app som heter Linuxhint
Spark_app = SparkSession.bygger.AppName ('Linuxhint').getorCreate ()
# Lag studentdata med 5 rader og 6 attributter
Studenter = ['Rollno': '001', 'Navn': 'Sravan', 'Age': None, 'Height': 5.79, 'vekt': ingen, 'adresse': 'guntur',
'Rollno': '002', 'Navn': None, 'Age': 16, 'Height': 3.79, 'vekt': 34, 'adresse': 'hyd',
'Rollno': '003', 'Navn': 'Gnanesh Chowdary', 'Age': 56, 'Height': 2.79, 'vekt': 17,
'adresse': 'patna',
'Rollno': None, 'Name': 'Rohith', 'Age': 9, 'Height': 3.69, 'vekt': 28, 'adresse': ingen,
'Rollno': None, 'Name': None, 'Age': None, 'Height': None, 'Weight': None, 'Address': None]
# Lag DataFrame
df = spark_app.CreateTataFrame (studenter)
#Drop DataFrame med delmengde parameter
df.Dropna (delett = ("vekt", "navn")).forestilling()

Produksjon:

Konklusjon

I denne artikkelen utdypet vi hvordan du bruker Dropna () -metoden med Pyspark DataFrame ved å vurdere alle parametrene. Vi kan også slippe alle nullverdiene fra DataFrame uten å spesifisere disse parametrene.