I Python er Pyspark en Spark -modul som brukes til å gi en lignende type prosessering som Spark ved hjelp av DataFrame. Det gir flere metoder for å returnere de øverste radene fra Pyspark DataFrame. Vi vil gi eksempler på de 5 måtene å vise de øverste radene i Pyspark:
- Pyspark - Show ()
- Pyspark - samle ()
- Pyspark - ta ()
- Pyspark - Først ()
- Pyspark - Head ()
Pyspark - Show ()
Den brukes til å vise de øverste radene eller hele DataFrame i tabellformat.
Syntaks:
Dataramme.show (n, vertikal, avkortet)
Hvor, dataaframe er inngangspyspark dataaframe.
Parametere:
- N er den første valgfrie parameteren som representerer integerverdien for å få toppradene i DataFrame og N representerer antall topprader som skal vises. Som standard vil den vise alle rader fra DataFrame
- Vertikal parameter tar boolske verdier som brukes til å vise DataFrame i den vertikale parameteren når den er satt til sann. og vis DataFrame i horisontalt format når det er satt til FALSE. Som standard vises den i horisontalt format
- Avkortet brukes til å få antall tegn fra hver verdi i DataFrame. Det vil ta et heltall som noen tegn som skal vises. Som standard vil den vise alle tegnene.
Eksempel 1:
I dette eksemplet skal vi lage en Pyspark DataFrame med 5 rader og 6 kolonner og skal vise DataFrame ved å bruke Show () -metoden uten noen parametere. Så dette resulterer i tabular dataaframe ved å vise alle verdier i DataFrame
#import Pyspark -modulen
Importer pyspark
#import SparkSession for å lage en økt
Fra Pyspark.SQL Import SparkSession
#Create en app som heter Linuxhint
Spark_app = SparkSession.bygger.AppName ('Linuxhint').getorCreate ()
# Lag studentdata med 5 rader og 6 attributter
Studenter = [
'Rollno': '001', 'Navn': 'Sravan', 'Age': 23,
'Høyde': 5.79, 'vekt': 67, 'adresse': 'guntur',
'Rollno': '002', 'Navn': 'Ojaswi', 'Age': 16,
'Høyde': 3.79, 'vekt': 34, 'adresse': 'hyd',
'Rollno': '003', 'Navn': 'Gnanesh Chowdary', 'Age': 7,
'Høyde': 2.79, 'Vekt': 17, 'Adresse': 'Patna',
'Rollno': '004', 'Navn': 'Rohith', 'Age': 9,
'Høyde': 3.69, 'vekt': 28, 'adresse': 'hyd',
'Rollno': '005', 'Navn': 'Sridevi', 'Age': 37,
'Høyde': 5.59, 'vekt': 54, 'adresse': 'hyd']]
# Lag DataFrame
df = spark_app.CreateTataFrame (studenter)
# Dataramme
df.forestilling()
Produksjon:
Eksempel 2:
I dette eksemplet skal vi lage en Pyspark DataFrame med 5 rader og 6 kolonner og skal vise DataFrame ved å bruke Show () -metoden med N -parameter. Vi setter N -verdien til 4 for å vise de 4 øverste radene fra DataFrame. Så dette resulterer i et tabelldataframe ved å vise 4 verdier i DataFrame.
#import pyspaprk -modulen
Importer pyspark
#import SparkSession for å lage en økt
Fra Pyspark.SQL Import SparkSession
#Create en app som heter Linuxhint
Spark_app = SparkSession.bygger.AppName ('Linuxhint').getorCreate ()
# Lag studentdata med 5 rader og 6 attributter
Studenter = [
'Rollno': '001', 'Navn': 'Sravan', 'Age': 23,
'Høyde': 5.79, 'vekt': 67, 'adresse': 'guntur',
'Rollno': '002', 'Navn': 'Ojaswi', 'Age': 16,
'Høyde': 3.79, 'vekt': 34, 'adresse': 'hyd',
'Rollno': '003', 'Navn': 'Gnanesh Chowdary', 'Age': 7,
'Høyde': 2.79, 'Vekt': 17, 'Adresse': 'Patna',
'Rollno': '004', 'Navn': 'Rohith', 'Age': 9,
'Høyde': 3.69, 'vekt': 28, 'adresse': 'hyd',
'Rollno': '005', 'Navn': 'Sridevi', 'Age': 37,
'Høyde': 5.59, 'vekt': 54, 'adresse': 'hyd']]
# Lag DataFrame
df = spark_app.CreateTataFrame (studenter)
# Få topp 4 rader i DataFrame
df.Vis (4)
Produksjon:
Pyspark - samle ()
Collect () Metode i Pyspark brukes til å vise dataene som er til stede i DataFrame Row for Row fra toppen.
Syntaks:
Dataramme.samle inn()
Eksempel:
La oss vise hele DataFrame med Collect () -metoden
#import Pyspark -modulen
Importer pyspark
#import SparkSession for å lage en økt
Fra Pyspark.SQL Import SparkSession
#Create en app som heter Linuxhint
Spark_app = SparkSession.bygger.AppName ('Linuxhint').getorCreate ()
# Lag studentdata med 5 rader og 6 attributter
Studenter = [
'Rollno': '001', 'Navn': 'Sravan', 'Age': 23,
'Høyde': 5.79, 'vekt': 67, 'adresse': 'guntur',
'Rollno': '002', 'Navn': 'Ojaswi', 'Age': 16,
'Høyde': 3.79, 'vekt': 34, 'adresse': 'hyd',
'Rollno': '003', 'Navn': 'Gnanesh Chowdary', 'Age': 7,
'Høyde': 2.79, 'Vekt': 17, 'Adresse': 'Patna',
'Rollno': '004', 'Navn': 'Rohith', 'Age': 9,
'Høyde': 3.69, 'vekt': 28, 'adresse': 'hyd',
'Rollno': '005', 'Navn': 'Sridevi', 'Age': 37,
'Høyde': 5.59, 'vekt': 54, 'adresse': 'hyd']]
# Lag DataFrame
df = spark_app.CreateTataFrame (studenter)
# Vise
df.samle inn()
Produksjon:
[Rad (adresse = 'guntur', alder = 23, høyde = 5.79, navn = 'Sravan', Rollno = '001', vekt = 67),
Rad (adresse = 'hyd', alder = 16, høyde = 3.79, navn = 'Ojaswi', rollno = '002', vekt = 34),
Rad (adresse = 'patna', alder = 7, høyde = 2.79, navn = 'Gnanesh Chowdary', Rollno = '003', vekt = 17),
Rad (adresse = 'hyd', alder = 9, høyde = 3.69, navn = 'Rohith', rollno = '004', vekt = 28),
Rad (adresse = 'hyd', alder = 37, høyde = 5.59, name = 'Sridevi', rollno = '005', vekt = 54)]
Pyspark - ta ()
Den brukes til å vise de øverste radene eller hele DataFrame.
Syntaks:
Dataramme.ta (n)
Hvor, dataaframe er inngangspyspark dataaframe.
Parametere:
n er den nødvendige parameteren som representerer integerverdien for å få toppradene i DataFrame.
Eksempel 1:
I dette eksemplet skal vi lage en Pyspark DataFrame med 5 rader og 6 kolonner og skal vise 3 rader fra DataFrame ved å bruke Take () -metoden. Så dette er resultatet av de tre beste radene fra DataFrame.
#import Pyspark -modulen
Importer pyspark
#import SparkSession for å lage en økt
Fra Pyspark.SQL Import SparkSession
#Create en app som heter Linuxhint
Spark_app = SparkSession.bygger.AppName ('Linuxhint').getorCreate ()
# Lag studentdata med 5 rader og 6 attributter
Studenter = [
'Rollno': '001', 'Navn': 'Sravan', 'Age': 23,
'Høyde': 5.79, 'vekt': 67, 'adresse': 'guntur',
'Rollno': '002', 'Navn': 'Ojaswi', 'Age': 16,
'Høyde': 3.79, 'vekt': 34, 'adresse': 'hyd',
'Rollno': '003', 'Navn': 'Gnanesh Chowdary', 'Age': 7,
'Høyde': 2.79, 'Vekt': 17, 'Adresse': 'Patna',
'Rollno': '004', 'Navn': 'Rohith', 'Age': 9,
'Høyde': 3.69, 'vekt': 28, 'adresse': 'hyd',
'Rollno': '005', 'Navn': 'Sridevi', 'Age': 37,
'Høyde': 5.59, 'vekt': 54, 'adresse': 'hyd']]
# Lag DataFrame
df = spark_app.CreateTataFrame (studenter)
# Vis topp 3 rader fra DataFrame
df.ta (3)
Produksjon:
[Rad (adresse = 'guntur', alder = 23, høyde = 5.79, navn = 'Sravan', Rollno = '001', vekt = 67),
Rad (adresse = 'hyd', alder = 16, høyde = 3.79, navn = 'Ojaswi', rollno = '002', vekt = 34),
Rad (adresse = 'patna', alder = 7, høyde = 2.79, navn = 'Gnanesh Chowdary', Rollno = '003', vekt = 17)]
Eksempel 2:
I dette eksemplet skal vi lage en Pyspark DataFrame med 5 rader og 6 kolonner og skal vise 3 rader fra DataFrame ved å bruke Take () -metoden. Så dette er resultatet av topp 1 -raden fra DataFrame.
#import Pyspark -modulen
Importer pyspark
#import SparkSession for å lage en økt
Fra Pyspark.SQL Import SparkSession
#Create en app som heter Linuxhint
Spark_app = SparkSession.bygger.AppName ('Linuxhint').getorCreate ()
# Lag studentdata med 5 rader og 6 attributter
Studenter = [
'Rollno': '001', 'Navn': 'Sravan', 'Age': 23,
'Høyde': 5.79, 'vekt': 67, 'adresse': 'guntur',
'Rollno': '002', 'Navn': 'Ojaswi', 'Age': 16,
'Høyde': 3.79, 'vekt': 34, 'adresse': 'hyd',
'Rollno': '003', 'Navn': 'Gnanesh Chowdary', 'Age': 7,
'Høyde': 2.79, 'Vekt': 17, 'Adresse': 'Patna',
'Rollno': '004', 'Navn': 'Rohith', 'Age': 9,
'Høyde': 3.69, 'vekt': 28, 'adresse': 'hyd',
'Rollno': '005', 'Navn': 'Sridevi', 'Age': 37,
'Høyde': 5.59, 'vekt': 54, 'adresse': 'hyd']]
# Lag DataFrame
df = spark_app.CreateTataFrame (studenter)
# Vis topp 1 rad fra DataFrame
df.ta (1)
Produksjon:
[Rad (adresse = 'guntur', alder = 23, høyde = 5.79, name = 'Sravan', rollno = '001', vekt = 67)]
Pyspark - Først ()
Den brukes til å vise de øverste radene eller hele DataFrame.
Syntaks:
Dataramme.først()
Hvor, dataaframe er inngangspyspark dataaframe.
Parametere:
- Det vil ikke ta noen parametere.
Eksempel:
I dette eksemplet skal vi lage en Pyspark DataFrame med 5 rader og 6 kolonner og skal vise 1 rad fra DataFrame ved å bruke den første () metoden. Så dette resulterer bare første rad.
#import Pyspark -modulen
Importer pyspark
#import SparkSession for å lage en økt
Fra Pyspark.SQL Import SparkSession
#Create en app som heter Linuxhint
Spark_app = SparkSession.bygger.AppName ('Linuxhint').getorCreate ()
# Lag studentdata med 5 rader og 6 attributter
Studenter = [
'Rollno': '001', 'Navn': 'Sravan', 'Age': 23,
'Høyde': 5.79, 'vekt': 67, 'adresse': 'guntur',
'Rollno': '002', 'Navn': 'Ojaswi', 'Age': 16,
'Høyde': 3.79, 'vekt': 34, 'adresse': 'hyd',
'Rollno': '003', 'Navn': 'Gnanesh Chowdary', 'Age': 7,
'Høyde': 2.79, 'Vekt': 17, 'Adresse': 'Patna',
'Rollno': '004', 'Navn': 'Rohith', 'Age': 9,
'Høyde': 3.69, 'vekt': 28, 'adresse': 'hyd',
'Rollno': '005', 'Navn': 'Sridevi', 'Age': 37,
'Høyde': 5.59, 'vekt': 54, 'adresse': 'hyd']]
# Lag DataFrame
df = spark_app.CreateTataFrame (studenter)
# Vis topp 1 rad fra DataFrame
df.Først (1)
Produksjon:
[Rad (adresse = 'guntur', alder = 23, høyde = 5.79, name = 'Sravan', rollno = '001', vekt = 67)]
Pyspark - Head ()
Den brukes til å vise de øverste radene eller hele DataFrame.
Syntaks:
Dataramme.hode (n)
Hvor, dataaframe er inngangspyspark dataaframe.
Parametere:
N er den valgfrie parameteren som representerer integerverdien for å få toppradene i DataFrame og N representerer antall topprader som skal vises. Som standard vises den første rad fra DataFrame, hvis N ikke er spesifisert.
Eksempel 1:
I dette eksemplet skal vi lage en Pyspark DataFrame med 5 rader og 6 kolonner og skal vise 3 rader fra DataFrame ved å bruke Head () -metoden. Så dette resulterer i topp 3 rader fra DataFrame.
#import Pyspark -modulen
Importer pyspark
#import SparkSession for å lage en økt
Fra Pyspark.SQL Import SparkSession
#Create en app som heter Linuxhint
Spark_app = SparkSession.bygger.AppName ('Linuxhint').getorCreate ()
# Lag studentdata med 5 rader og 6 attributter
Studenter = [
'Rollno': '001', 'Navn': 'Sravan', 'Age': 23,
'Høyde': 5.79, 'vekt': 67, 'adresse': 'guntur',
'Rollno': '002', 'Navn': 'Ojaswi', 'Age': 16,
'Høyde': 3.79, 'vekt': 34, 'adresse': 'hyd',
'Rollno': '003', 'Navn': 'Gnanesh Chowdary', 'Age': 7,
'Høyde': 2.79, 'Vekt': 17, 'Adresse': 'Patna',
'Rollno': '004', 'Navn': 'Rohith', 'Age': 9,
'Høyde': 3.69, 'vekt': 28, 'adresse': 'hyd',
'Rollno': '005', 'Navn': 'Sridevi', 'Age': 37,
'Høyde': 5.59, 'vekt': 54, 'adresse': 'hyd']]
# Lag DataFrame
df = spark_app.CreateTataFrame (studenter)
# Vis topp 3 rader fra DataFrame
df.hode (3)
Produksjon:
[Rad (adresse = 'guntur', alder = 23, høyde = 5.79, navn = 'Sravan', Rollno = '001', vekt = 67),
Rad (adresse = 'hyd', alder = 16, høyde = 3.79, navn = 'Ojaswi', rollno = '002', vekt = 34),
Rad (adresse = 'patna', alder = 7, høyde = 2.79, navn = 'Gnanesh Chowdary', Rollno = '003', vekt = 17)]
Eksempel 2:
I dette eksemplet skal vi lage en Pyspark DataFrame med 5 rader og 6 kolonner og skal vise 1 rad fra DataFrame ved å bruke Head () -metoden. Så dette resulterer til topp 1 rad fra DataFrame.
#import Pyspark -modulen
Importer pyspark
#import SparkSession for å lage en økt
Fra Pyspark.SQL Import SparkSession
#Create en app som heter Linuxhint
Spark_app = SparkSession.bygger.AppName ('Linuxhint').getorCreate ()
# Lag studentdata med 5 rader og 6 attributter
Studenter = [
'Rollno': '001', 'Navn': 'Sravan', 'Age': 23,
'Høyde': 5.79, 'vekt': 67, 'adresse': 'guntur',
'Rollno': '002', 'Navn': 'Ojaswi', 'Age': 16,
'Høyde': 3.79, 'vekt': 34, 'adresse': 'hyd',
'Rollno': '003', 'Navn': 'Gnanesh Chowdary', 'Age': 7,
'Høyde': 2.79, 'Vekt': 17, 'Adresse': 'Patna',
'Rollno': '004', 'Navn': 'Rohith', 'Age': 9,
'Høyde': 3.69, 'vekt': 28, 'adresse': 'hyd',
'Rollno': '005', 'Navn': 'Sridevi', 'Age': 37,
'Høyde': 5.59, 'vekt': 54, 'adresse': 'hyd']]
# Lag DataFrame
df = spark_app.CreateTataFrame (studenter)
# Vis topp 1 rad fra DataFrame
df.Hode (1)
Produksjon:
[Rad (adresse = 'guntur', alder = 23, høyde = 5.79, name = 'Sravan', rollno = '001', vekt = 67)]
Konklusjon
I denne opplæringen diskuterte vi hvordan du får toppradene fra Pyspark DataFrame ved hjelp av show (), Collect (). ta (), hode () og første () metoder. Vi la merke til at Show () -metoden vil returnere de øverste radene i tabellformat og de gjenværende metodene vil returnere rad for rad.