Vis topprader fra Pyspark DataFrame

I Python er Pyspark en Spark -modul som brukes til å gi en lignende type prosessering som Spark ved hjelp av DataFrame. Det gir flere metoder for å returnere de øverste radene fra Pyspark DataFrame. Vi vil gi eksempler på de 5 måtene å vise de øverste radene i Pyspark:

Pyspark - Show ()
Pyspark - samle ()
Pyspark - ta ()
Pyspark - Først ()
Pyspark - Head ()

Pyspark - Show ()

Den brukes til å vise de øverste radene eller hele DataFrame i tabellformat.

Syntaks:

Dataramme.show (n, vertikal, avkortet)

Hvor, dataaframe er inngangspyspark dataaframe.

Parametere:

N er den første valgfrie parameteren som representerer integerverdien for å få toppradene i DataFrame og N representerer antall topprader som skal vises. Som standard vil den vise alle rader fra DataFrame
Vertikal parameter tar boolske verdier som brukes til å vise DataFrame i den vertikale parameteren når den er satt til sann. og vis DataFrame i horisontalt format når det er satt til FALSE. Som standard vises den i horisontalt format
Avkortet brukes til å få antall tegn fra hver verdi i DataFrame. Det vil ta et heltall som noen tegn som skal vises. Som standard vil den vise alle tegnene.

Eksempel 1:

I dette eksemplet skal vi lage en Pyspark DataFrame med 5 rader og 6 kolonner og skal vise DataFrame ved å bruke Show () -metoden uten noen parametere. Så dette resulterer i tabular dataaframe ved å vise alle verdier i DataFrame

#import Pyspark -modulen
Importer pyspark
#import SparkSession for å lage en økt
Fra Pyspark.SQL Import SparkSession
#Create en app som heter Linuxhint
Spark_app = SparkSession.bygger.AppName ('Linuxhint').getorCreate ()
# Lag studentdata med 5 rader og 6 attributter
Studenter = [
'Rollno': '001', 'Navn': 'Sravan', 'Age': 23,
'Høyde': 5.79, 'vekt': 67, 'adresse': 'guntur',
'Rollno': '002', 'Navn': 'Ojaswi', 'Age': 16,
'Høyde': 3.79, 'vekt': 34, 'adresse': 'hyd',
'Rollno': '003', 'Navn': 'Gnanesh Chowdary', 'Age': 7,
'Høyde': 2.79, 'Vekt': 17, 'Adresse': 'Patna',
'Rollno': '004', 'Navn': 'Rohith', 'Age': 9,
'Høyde': 3.69, 'vekt': 28, 'adresse': 'hyd',
'Rollno': '005', 'Navn': 'Sridevi', 'Age': 37,
'Høyde': 5.59, 'vekt': 54, 'adresse': 'hyd']]
# Lag DataFrame
df = spark_app.CreateTataFrame (studenter)
# Dataramme
df.forestilling()

Produksjon:

Eksempel 2:

I dette eksemplet skal vi lage en Pyspark DataFrame med 5 rader og 6 kolonner og skal vise DataFrame ved å bruke Show () -metoden med N -parameter. Vi setter N -verdien til 4 for å vise de 4 øverste radene fra DataFrame. Så dette resulterer i et tabelldataframe ved å vise 4 verdier i DataFrame.

#import pyspaprk -modulen
Importer pyspark
#import SparkSession for å lage en økt
Fra Pyspark.SQL Import SparkSession
#Create en app som heter Linuxhint
Spark_app = SparkSession.bygger.AppName ('Linuxhint').getorCreate ()
# Lag studentdata med 5 rader og 6 attributter
Studenter = [
'Rollno': '001', 'Navn': 'Sravan', 'Age': 23,
'Høyde': 5.79, 'vekt': 67, 'adresse': 'guntur',
'Rollno': '002', 'Navn': 'Ojaswi', 'Age': 16,
'Høyde': 3.79, 'vekt': 34, 'adresse': 'hyd',
'Rollno': '003', 'Navn': 'Gnanesh Chowdary', 'Age': 7,
'Høyde': 2.79, 'Vekt': 17, 'Adresse': 'Patna',
'Rollno': '004', 'Navn': 'Rohith', 'Age': 9,
'Høyde': 3.69, 'vekt': 28, 'adresse': 'hyd',
'Rollno': '005', 'Navn': 'Sridevi', 'Age': 37,
'Høyde': 5.59, 'vekt': 54, 'adresse': 'hyd']]
# Lag DataFrame
df = spark_app.CreateTataFrame (studenter)
# Få topp 4 rader i DataFrame
df.Vis (4)

Produksjon:

Pyspark - samle ()

Collect () Metode i Pyspark brukes til å vise dataene som er til stede i DataFrame Row for Row fra toppen.

Syntaks:

Dataramme.samle inn()

Eksempel:

La oss vise hele DataFrame med Collect () -metoden

Produksjon:

[Rad (adresse = 'guntur', alder = 23, høyde = 5.79, navn = 'Sravan', Rollno = '001', vekt = 67),
Rad (adresse = 'hyd', alder = 16, høyde = 3.79, navn = 'Ojaswi', rollno = '002', vekt = 34),
Rad (adresse = 'patna', alder = 7, høyde = 2.79, navn = 'Gnanesh Chowdary', Rollno = '003', vekt = 17),
Rad (adresse = 'hyd', alder = 9, høyde = 3.69, navn = 'Rohith', rollno = '004', vekt = 28),
Rad (adresse = 'hyd', alder = 37, høyde = 5.59, name = 'Sridevi', rollno = '005', vekt = 54)]

Pyspark - ta ()

Den brukes til å vise de øverste radene eller hele DataFrame.

Syntaks:

Dataramme.ta (n)

Hvor, dataaframe er inngangspyspark dataaframe.

Parametere:

n er den nødvendige parameteren som representerer integerverdien for å få toppradene i DataFrame.

Eksempel 1:

I dette eksemplet skal vi lage en Pyspark DataFrame med 5 rader og 6 kolonner og skal vise 3 rader fra DataFrame ved å bruke Take () -metoden. Så dette er resultatet av de tre beste radene fra DataFrame.

Produksjon:

Eksempel 2:

I dette eksemplet skal vi lage en Pyspark DataFrame med 5 rader og 6 kolonner og skal vise 3 rader fra DataFrame ved å bruke Take () -metoden. Så dette er resultatet av topp 1 -raden fra DataFrame.

Produksjon:

[Rad (adresse = 'guntur', alder = 23, høyde = 5.79, name = 'Sravan', rollno = '001', vekt = 67)]

Pyspark - Først ()

Den brukes til å vise de øverste radene eller hele DataFrame.

Syntaks:

Dataramme.først()

Hvor, dataaframe er inngangspyspark dataaframe.

Parametere:

Det vil ikke ta noen parametere.

Eksempel:

I dette eksemplet skal vi lage en Pyspark DataFrame med 5 rader og 6 kolonner og skal vise 1 rad fra DataFrame ved å bruke den første () metoden. Så dette resulterer bare første rad.

Produksjon:

[Rad (adresse = 'guntur', alder = 23, høyde = 5.79, name = 'Sravan', rollno = '001', vekt = 67)]

Pyspark - Head ()

Den brukes til å vise de øverste radene eller hele DataFrame.

Syntaks:

Dataramme.hode (n)

Hvor, dataaframe er inngangspyspark dataaframe.

Parametere:

N er den valgfrie parameteren som representerer integerverdien for å få toppradene i DataFrame og N representerer antall topprader som skal vises. Som standard vises den første rad fra DataFrame, hvis N ikke er spesifisert.

Eksempel 1:

I dette eksemplet skal vi lage en Pyspark DataFrame med 5 rader og 6 kolonner og skal vise 3 rader fra DataFrame ved å bruke Head () -metoden. Så dette resulterer i topp 3 rader fra DataFrame.

Produksjon:

Eksempel 2:

I dette eksemplet skal vi lage en Pyspark DataFrame med 5 rader og 6 kolonner og skal vise 1 rad fra DataFrame ved å bruke Head () -metoden. Så dette resulterer til topp 1 rad fra DataFrame.

Produksjon:

[Rad (adresse = 'guntur', alder = 23, høyde = 5.79, name = 'Sravan', rollno = '001', vekt = 67)]

Konklusjon

I denne opplæringen diskuterte vi hvordan du får toppradene fra Pyspark DataFrame ved hjelp av show (), Collect (). ta (), hode () og første () metoder. Vi la merke til at Show () -metoden vil returnere de øverste radene i tabellformat og de gjenværende metodene vil returnere rad for rad.

PostgreSql

Hvordan kopiere en tabell fra en database til en annen i PostgreSQL

Opplæring om trinn-for-trinn-prosessen om hvordan du kopierer tabeller fra en database til en annen ...

Oskar Fossum

Windows OS

Hva er Windows Package Manager

Windows Package Manager eller Winget er et kraftig verktøy for å installere og administrere programv...

Alexander Sørlie

Python

Pandas read_csv multiprocessing

For å forbedre databelastningshastigheten, inkludert fordelene og begrensningene PD.read_csv () ”-fu...

Daniel Berntsen