Seaborn Histplot

Seaborn Histplot

Histogrammer er visuelle fremstillinger av en samling kontinuerlig datatfordeling. Et histogram deler dataene i intervaller eller binger (typisk på x-aksen), med antall datapunkter som faller i hver søppelkasse lik høyden på stangen utover den søppelkassen. Disse søppelkassene er ikke i samme størrelse, men de er i nærheten av hverandre (uten hull). Dessuten er ikke disse binsens bredder like nødvendigvis like, men de er nær sammen (uten hull).

Vi vil gå over Seaborn Histogram Plot -forklaring i denne artikkelen, som vil hjelpe deg å visualisere datadistribusjonen i datavitenskap og maskinlæringsprogrammer. Denne artikkelen vil vise deg hvordan du bruker Seaborn.Histplot () -metode for å lage en rekke forskjellige slags histogramskjermer. Vi vil også forklare hva hver av sjøbornhistogramfunksjonens argumenter betyr.

Et annet verktøy for å undersøke datafordelinger er et tetthetsplott og kjernetetthetsplottet er et annet navn for dette. Det er et glattet histogram. Toppene til en tetthetsplott viser hvor verdiene er akkumulert gjennom tidene. Utjevningsmetoder er tilgjengelige i en rekke størrelser og former. En av metodene for å utjevne et histogram er estimering av kjernetetthet (KDE).

Syntaks av Seaborn Histplot

Seaborns Histplot -metode har en veldig grei syntaks. Seaborn.Histplot () -metode er en spesialisert funksjon for å produsere histogrammer i sjøborn.

sns.HisPlot (data = DataFrame_name, x = x-aksen)

Vi bruker normalt dataargumentet inne i parentesen for å identifisere datarammen vi ønsker å jobbe med, og X -argumentet for å spesifisere den spesifikke variabelen vi ønsker å plotte. Det er noen flere argumenter vi kan bruke for å endre oppførselen til histplot () -funksjonen.

KDE: Du kan sette inn en "kjernetetthetsestimat" -linje på toppen av histogrammet ditt ved å bruke KDE -alternativet. En KDE -linje er en kontinuerlig linje som skildrer datatettheten. KDE -linjer er en visuell representasjon av hvordan data blir distribuert som kan brukes i stedet for histogrammer. Imidlertid brukes KDE -linjer noen ganger i forbindelse med histogrammer. Som et argument tar dette alternativet et boolsk uttrykk (i.e., Sant eller usant).

fargetone: Denne parameteren hjelper til i fargekartleggingen av variabler for plott.

Vekter: Vekter hjelper til med å bestemme påvirkningen av hvert datasett på tellingen av hver søppel.

stat: De fire kategoriene av statistiske metoder som brukes for å beregne binverdier er “Count”, “Frequency”, “Density” og “Sannsynlighet”.

binger: BIN -parameteren som spesifiserer antall binger som skal brukes.

BinWidth: Binens bredde kan justeres her.

BinRange: De laveste og største verdiene for kanter kan settes ved hjelp av dette alternativet.

Palett: For Hue Semantic Mapping kan vi velge nyanser.

farge: Hvis ingen fargetaking er tilgjengelig, lar dette argumentet oss velge en farge fra matplotlib.

Eksempel 1:

Her opprettet vi et enkelt histogram ved å bruke standardparametrene. Vi importerte bibliotekene som hjelper oss å generere plottet. Etter det satte vi stylingen for sjøborn ved å bruke stilparameteren som DarkGrid i settfunksjonen. For Histplot lastet vi et datasett “MPG”. Seaborn Histplot -funksjonen påberopes deretter der dataene og X -parametrene sendes og tildeles en verdi. X -parameteren tar feltnavnakselerasjonen fra datasettet “MPG”.

Den enkle histogramplottrepresentasjonen er som følger:

Eksempel 2:

Vi bruker RANDN -funksjonen for visualisering av histogramplott. For dette inkluderte vi de nødvendige bibliotekene som er nødvendige for kodeimplementeringen. Deretter opprettet vi et datasett for det tilfeldige nummeret, og RANDN -funksjonen genererer tilfeldige tall innenfor det spesifiserte området. Seaborn Histplot -funksjonen tar dataparameteren som "tall" som er datasettet som er opprettet med RANDN -funksjonen og KDE -parameterverdien til True.

Følgende er histogramvisualiseringen med KDE -kurvelinjen:

Eksempel 3:

Eksempel datasettet “iris” fra Seaborn -pakken brukes i dette eksemplet. Vi la til matplotlib, sjøborn, panda og numpy biblioteker som er viktige for å lage histogramplottet. Deretter opprettet vi en variabel DF_IRIS der eksemplet datasettet Iris er lastet. Seaborn Histplot tar datasettet iris inni den og setter parameteren X som sepal_length fra IRIS -datasettet, KDE -verdien til True, og den semantiske variable arten er kartlagt ved hjelp av Hue -parameteren.

Flere arter sepal lengdefordeling sees i følgende enkelt histogramplott:

Eksempel 4:

I dette eksemplet normaliseres histogrammet slik at høyden på hver stolpe representerer en sannsynlighet i stedet for en telling av datapunkter. Her lastet vi et eksempel på datasett "prikker" som har noen forskjellige egenskaper. Blant disse egenskapene setter vi X -parameteren som FIRING_RATE i histplot -funksjonen fra datasettprikken. Vi spesifiserte også statsparameteren som en sannsynlighet og den diskrete verdien til True som kombinerer søppelkassen med stolper som er sentrert om deres respektive verdi for å skildre de distinkte verdiene i et datasett. Endelig er fargeparameteren satt til den grønne fargen.

Representasjonen av histogramplottet med sannsynligheten er i følgende øyeblikksbilde:

Eksempel 5:

Vi kan konstruere den andre formen for et histogram. Det bivariate histogrammet viser to variabler ved bruk av x- og y -aksene. Dette eksemplet illustrerer et bin-verdsatt bivariat histogram med en fargelinje for å indikere verdiene. Colormap brukes til å vise fargelinjen. Vi satte inn datarammen til pingviner som datasett. Variablene x og y, så vel som binger, diskrete og logskala -parametere, er deretter spesifisert i histplot -funksjonen. For å koble fargelinjen til plottet, ga vi i tillegg CBAR -alternativet. Den diskrete parameteren brukes til å håndtere histogramhull, og loggskalaen brukes til å angi en loggskala på dataaksen.

Visualiseringen av det bivariate histogramplottet er vist i følgende figur:

Konklusjon

Vi forklarte histplottet i sjøborn. Vi brukte histplot () -funksjonen i dette innlegget for å gå over Seaborn Histogram Plot Guide. Vi undersøkte en rekke forekomster av histogramoppretting for multivariate statistiske omstendigheter, så vel som binning -strategiene.