I Python er Pyspark en Spark -modul som brukes til å gi en lignende type prosessering som Spark ved hjelp av DataFrame.
dropna () i pyspark brukes til å fjerne nullverdiene fra dataaframe. Før vi diskuterer denne metoden, må vi lage Pyspark DataFrame for demonstrasjon. Vi kan lage nullverdier ved å bruke ingen verdi.
Eksempel:
Vi skal lage en DataFrame med 5 rader og 6 kolonner med nullverdier og vise den ved hjelp av Show () -metoden.
#import Pyspark -modulen
Importer pyspark
#import SparkSession for å lage en økt
Fra Pyspark.SQL Import SparkSession
#import col -funksjonen
Fra Pyspark.SQL.Funksjoner importerer col
#Create en app som heter Linuxhint
Spark_app = SparkSession.bygger.AppName ('Linuxhint').getorCreate ()
# Lag studentdata med 5 rader og 6 attributter
Studenter = ['Rollno': '001', 'Navn': 'Sravan', 'Age': 23, 'Height': 5.79, 'vekt': 67, 'adresse': 'guntur',
'Rollno': '002', 'Navn': None, 'Age': 16, 'Height': 3.79, 'vekt': 34, 'adresse': 'hyd',
'Rollno': '003', 'Navn': 'Gnanesh Chowdary', 'Age': 56, 'Height': 2.79, 'vekt': 17,
'adresse': 'patna',
'Rollno': None, 'Name': 'Rohith', 'Age': 9, 'Height': 3.69, 'vekt': 28, 'adresse': ingen,
'Rollno': None, 'Name': None, 'Age': None, 'Height': None, 'Weight': None, 'Address': None]
# Lag DataFrame
df = spark_app.CreateTataFrame (studenter)
#Display DataFrame
df.forestilling()
Produksjon:
Syntaks:
Dataramme.Dropna (hvordan, terskel, undergruppe)
Hvor,
- Dataramme er inngangspyspark dataaframe
- hvordan er den første valgfrie parameteren som vil ta to mulige verdier
- noen - Denne verdien slipper radene, hvis noen av verdien er null i rader/kolonner.
- alle - Denne verdien slipper radene, hvis alle verdiene er null i rader/kolonner.
- Terres er en annen valgfri parameter brukes til å slippe radene / kolonnene basert på heltallverdi tilordnet den. Hvis ikke-nullverdiene som er til stede i rad/kolonne i Pyspark DataFrame er mindre enn den nevnte terkeverdien, kan nullverdiene slippes fra disse radene.
- undergruppe er en tredje valgfri parameter som brukes til å slippe verdiene fra den nevnte kolonnen/s. Det vil ta enkelt/flere kolonner som input gjennom en tuple av kolonnenavn.
Eksempel 1:
I dette eksemplet slipper vi radene fra ovennevnte DataFrame uten parametere og viser DataFrame ved hjelp av Show () -metoden. Så resultatet vil være den siste raden fordi den ikke inneholder nullverdier i den raden.
#import Pyspark -modulen
Importer pyspark
#import SparkSession for å lage en økt
Fra Pyspark.SQL Import SparkSession
#import col -funksjonen
Fra Pyspark.SQL.Funksjoner importerer col
#Create en app som heter Linuxhint
Spark_app = SparkSession.bygger.AppName ('Linuxhint').getorCreate ()
# Lag studentdata med 5 rader og 6 attributter
Studenter = ['Rollno': '001', 'Navn': 'Sravan', 'Age': None, 'Height': 5.79, 'vekt': ingen, 'adresse': 'guntur',
'Rollno': '002', 'Navn': None, 'Age': 16, 'Height': 3.79, 'vekt': 34, 'adresse': 'hyd',
'Rollno': '003', 'Navn': 'Gnanesh Chowdary', 'Age': 56, 'Height': 2.79, 'vekt': 17,
'adresse': 'patna',
'Rollno': None, 'Name': 'Rohith', 'Age': 9, 'Height': 3.69, 'vekt': 28, 'adresse': ingen,
'Rollno': None, 'Name': None, 'Age': None, 'Height': None, 'Weight': None, 'Address': None]
# Lag DataFrame
df = spark_app.CreateTataFrame (studenter)
#Drop DataFrame uten parametere
df.dropna ().forestilling()
Produksjon:
Eksempel 2:
I dette eksemplet slipper vi radene fra ovennevnte DataFrame ved å spesifisere hvordan parameter og satt til 'All' og vise DataFrame ved hjelp av Show () -metoden. Så resultatet vil være alle rader bortsett fra den siste raden fordi den inneholder alle nullverdiene.
#import Pyspark -modulen
Importer pyspark
#import SparkSession for å lage en økt
Fra Pyspark.SQL Import SparkSession
#import col -funksjonen
Fra Pyspark.SQL.Funksjoner importerer col
#Create en app som heter Linuxhint
Spark_app = SparkSession.bygger.AppName ('Linuxhint').getorCreate ()
# Lag studentdata med 5 rader og 6 attributter
Studenter = ['Rollno': '001', 'Navn': 'Sravan', 'Age': None, 'Height': 5.79, 'vekt': ingen, 'adresse': 'guntur',
'Rollno': '002', 'Navn': None, 'Age': 16, 'Height': 3.79, 'vekt': 34, 'adresse': 'hyd',
'Rollno': '003', 'Navn': 'Gnanesh Chowdary', 'Age': 56, 'Height': 2.79, 'vekt': 17,
'adresse': 'patna',
'Rollno': None, 'Name': 'Rohith', 'Age': 9, 'Height': 3.69, 'vekt': 28, 'adresse': ingen,
'Rollno': None, 'Name': None, 'Age': None, 'Height': None, 'Weight': None, 'Address': None]
# Lag DataFrame
df = spark_app.CreateTataFrame (studenter)
#Drop DataFrame med hvordan parameter
df.dropna (hvordan = 'alle').forestilling()
Produksjon:
Eksempel 3:
I dette eksemplet slipper vi radene fra ovennevnte DataFrame ved å spesifisere hvordan parameter og satt til 'noe' og vise DataFrame ved hjelp av Show () -metoden. Så resultatet vil være en enkelt rad som ikke inneholder nullverdier.
#import Pyspark -modulen
Importer pyspark
#import SparkSession for å lage en økt
Fra Pyspark.SQL Import SparkSession
#import col -funksjonen
Fra Pyspark.SQL.Funksjoner importerer col
#Create en app som heter Linuxhint
Spark_app = SparkSession.bygger.AppName ('Linuxhint').getorCreate ()
# Lag studentdata med 5 rader og 6 attributter
Studenter = ['Rollno': '001', 'Navn': 'Sravan', 'Age': None, 'Height': 5.79, 'vekt': ingen, 'adresse': 'guntur',
'Rollno': '002', 'Navn': None, 'Age': 16, 'Height': 3.79, 'vekt': 34, 'adresse': 'hyd',
'Rollno': '003', 'Navn': 'Gnanesh Chowdary', 'Age': 56, 'Height': 2.79, 'vekt': 17,
'adresse': 'patna',
'Rollno': None, 'Name': 'Rohith', 'Age': 9, 'Height': 3.69, 'vekt': 28, 'adresse': ingen,
'Rollno': None, 'Name': None, 'Age': None, 'Height': None, 'Weight': None, 'Address': None]
# Lag DataFrame
df = spark_app.CreateTataFrame (studenter)
#Drop DataFrame med hvordan parameter
df.dropna (hvordan = 'noen').forestilling()
Produksjon:
Eksempel 4:
I dette eksemplet slipper vi radene fra ovennevnte DataFrame ved å spesifisere terskelparameter og sette til 5 og vise DataFrame ved hjelp av Show () -metoden. Så resultatet vil være to rader, fordi disse radene har større enn 5 ikke-nullverdier.
#import Pyspark -modulen
Importer pyspark
#import SparkSession for å lage en økt
Fra Pyspark.SQL Import SparkSession
#import col -funksjonen
Fra Pyspark.SQL.Funksjoner importerer col
#Create en app som heter Linuxhint
Spark_app = SparkSession.bygger.AppName ('Linuxhint').getorCreate ()
# Lag studentdata med 5 rader og 6 attributter
Studenter = ['Rollno': '001', 'Navn': 'Sravan', 'Age': None, 'Height': 5.79, 'vekt': ingen, 'adresse': 'guntur',
'Rollno': '002', 'Navn': None, 'Age': 16, 'Height': 3.79, 'vekt': 34, 'adresse': 'hyd',
'Rollno': '003', 'Navn': 'Gnanesh Chowdary', 'Age': 56, 'Height': 2.79, 'vekt': 17,
'adresse': 'patna',
'Rollno': None, 'Name': 'Rohith', 'Age': 9, 'Height': 3.69, 'vekt': 28, 'adresse': ingen,
'Rollno': None, 'Name': None, 'Age': None, 'Height': None, 'Weight': None, 'Address': None]
# Lag DataFrame
df = spark_app.CreateTataFrame (studenter)
#Drop DataFrame med terskelparameter
df.Dropna (Thresh = 5).forestilling()
Produksjon:
Eksempel 5:
I dette eksemplet slipper vi radene fra ovennevnte DataFrame ved å spesifisere delmengde-parameter og tilordne "vekt" -kolonne og vise DataFrame ved hjelp av Show () -metoden.
#import Pyspark -modulen
Importer pyspark
#import SparkSession for å lage en økt
Fra Pyspark.SQL Import SparkSession
#import col -funksjonen
Fra Pyspark.SQL.Funksjoner importerer col
#Create en app som heter Linuxhint
Spark_app = SparkSession.bygger.AppName ('Linuxhint').getorCreate ()
# Lag studentdata med 5 rader og 6 attributter
Studenter = ['Rollno': '001', 'Navn': 'Sravan', 'Age': None, 'Height': 5.79, 'vekt': ingen, 'adresse': 'guntur',
'Rollno': '002', 'Navn': None, 'Age': 16, 'Height': 3.79, 'vekt': 34, 'adresse': 'hyd',
'Rollno': '003', 'Navn': 'Gnanesh Chowdary', 'Age': 56, 'Height': 2.79, 'vekt': 17,
'adresse': 'patna',
'Rollno': None, 'Name': 'Rohith', 'Age': 9, 'Height': 3.69, 'vekt': 28, 'adresse': ingen,
'Rollno': None, 'Name': None, 'Age': None, 'Height': None, 'Weight': None, 'Address': None]
# Lag DataFrame
df = spark_app.CreateTataFrame (studenter)
#Drop DataFrame med delmengde parameter
df.dropna (subset = "vekt").forestilling()
Produksjon:
Eksempel 6:
I dette eksemplet slipper vi radene fra ovennevnte DataFrame ved å spesifisere delmengde-parameter og tilordne “Vekt” og “Navn” -kolonner og vise DataFrame ved hjelp av Show () -metoden.
#import Pyspark -modulen
Importer pyspark
#import SparkSession for å lage en økt
Fra Pyspark.SQL Import SparkSession
#import col -funksjonen
Fra Pyspark.SQL.Funksjoner importerer col
#Create en app som heter Linuxhint
Spark_app = SparkSession.bygger.AppName ('Linuxhint').getorCreate ()
# Lag studentdata med 5 rader og 6 attributter
Studenter = ['Rollno': '001', 'Navn': 'Sravan', 'Age': None, 'Height': 5.79, 'vekt': ingen, 'adresse': 'guntur',
'Rollno': '002', 'Navn': None, 'Age': 16, 'Height': 3.79, 'vekt': 34, 'adresse': 'hyd',
'Rollno': '003', 'Navn': 'Gnanesh Chowdary', 'Age': 56, 'Height': 2.79, 'vekt': 17,
'adresse': 'patna',
'Rollno': None, 'Name': 'Rohith', 'Age': 9, 'Height': 3.69, 'vekt': 28, 'adresse': ingen,
'Rollno': None, 'Name': None, 'Age': None, 'Height': None, 'Weight': None, 'Address': None]
# Lag DataFrame
df = spark_app.CreateTataFrame (studenter)
#Drop DataFrame med delmengde parameter
df.Dropna (delett = ("vekt", "navn")).forestilling()
Produksjon:
Konklusjon
I denne artikkelen utdypet vi hvordan du bruker Dropna () -metoden med Pyspark DataFrame ved å vurdere alle parametrene. Vi kan også slippe alle nullverdiene fra DataFrame uten å spesifisere disse parametrene.