Boxplot i r

Boxplot i r
“Et boksplott, ofte kjent som en boks og whisker -plott, er en type plott i r. Det er en grafisk skildring som lar deg oppsummere dataens essensielle funksjoner og avgjøre om noen outliers eksisterer. Boxplot kan også brukes til å sammenligne spredningen i datainnsamlingen ved å generere et boksplott for hver. Evaluering av områder er enkelt å bruke en boksplott. Siden de sentrale, distribuerte og generelle områdene er synlige med en gang.

Boxplots er en type graf som viser hvordan ensartede data er spredt i et datasett. Datasettet er delt opp i tre kvartiler som et resultat av dette. Denne grafen viser datasettets minimale, maksimale, gjennomsnittlige, første, andre og tredje kvartil.

En boksekasse begynner i den aller første kvartilen (25 prosent) og avsluttes i den tredje (75 prosent). Som et resultat reflekterer boksen halvparten (50 prosent) av senterdataene gjennom en linje innenfor det som indikerer gjennomsnittet. Til tross for inkludert Boxplot -outliers, er en divisjon formet på hver side av boksen til de ytterste dataene, hvis de eksisterer, vil bli representert av sirkler.

Denne opplæringen vil utdanne deg til hvordan du bruker R til å lage boksplotter.”

Opprette boksplott i r

En boks og whisker -plot kan opprettes ved hjelp av Rs "Boxplot ()" -funksjon. Ulike innganger kan brukes til å lage denne grafen, inkludert vektorer og datarammer. I den tilsvarende grafen kan du også legge inn en formel som inngang når du produserer boksplotter for mange grupper.

Opprette boksplot ved hjelp av en vektor i r

Hvis du vil lage en boksplott i R fra en vektor, kan du bare overføre vektoren til "Boxplot ()" -funksjonen.

Her har vi laget en vektor “S” og tildelt den en liste over numeriske verdier. Ved å bruke "Boxplot ()" -funksjonen, pass denne vektoren "S" som en parameter. Boksplottet i R er satt til å være vertikal som standard, men hvis du vil endre den til horisontalt, kan du gjøre det ved å sette det "horisontale" uttrykket "sant.”

En horisontal boksplott opprettet fra en vektor vises nedenfor.

Det er viktig å huske på at boksplotter skjuver dataens underliggende distribusjon. For å løse dette problemet, kan "stripchart ()" -funksjonen i r brukes til å sette inn prikker i en boksplot.

Her har vi brukt metoden “Jitter.”“ PCH ”betyr plottkarakterer. Standard “PCH” i R er 1, som skaper en tom sirkel, mens “PCH = 19” betyr solide sirkler. Så det vi brukte er solide sirkler med en oransje farge. Outliers vil ikke bli overplottet hvis datapunktene er jitteret.

Opprette Boxplot ved å bruke “Notch” i R

Vi kan også lage et boksplott med et hakk i r. Det hjelper oss med å bestemme hvor godt medianene i forskjellige datagrupper samhandler med hverandre. Ved å spesifisere Notch -argumentet til True, kan du illustrere 95 prosent konfidensintervaller for medianen i R -boksen. Boksen representerer øvre og nedre grenser, mens midtlinjen kan se medianen.

Et "Notch" eller krymping av boksen, brukes rundt medianen i hakkede bokser. Hakk kan bidra til å bestemme viktigheten av et avvik i medianer. Hvis det ikke er noen overlapping mellom hakking av 2 bokser, er det en god sjanse for at medianene ikke er de samme.

Boksplottet trukket fra "hakket" er representert nedenfor.

Opprette Boxplot ved hjelp av et datasett i R

For å lage en boksplott i R, kan du også bruke DataFrames i "Boxplot ()" -funksjonen. I dette tilfellet vil vi bruke R-basen som er gitt innebygd datasett “Kikervekt.”

Her kan du se datasettet inne i "kickvekt" -tabellen. Den inneholder 4 kolonnervekt, tid, kylling og kosthold. Alle kolonnene har numeriske verdier lagret i seg.

Vi velger 2 kolonner, i.e., vekt og kosthold, fra datasettet. Ved hjelp av "Boxplot ()" -funksjonen vil vi tegne boksplotter for valgt dato.

I kodestykket ovenfor har vi designet en boks med "vekt" mot "dietten.”Vi har spesifisert variabelenes navn med datasettnavnet. Inne i seler av "Boxplot ()" -funksjonen har vi brukt DataFrame -navnet "Chickweight", "$" -operatøren for å spesifisere kolonnen, og kolonnenavnet "Vekt".”

Den resulterende boksplottet viser tydelig outlinerens spredning.

For å gjøre denne boksen visuelt bedre og mer detaljert, kan du legge til prikker. Du kan oppnå dette ved å bruke "StripChart ()" -funksjonen.

Du kan se prikkene vi opprettet for å vise den essensielle datadivisjonen i hver boksplot.

Opprette flere boksplott i r

Å lage flere boksplotter er en annen teknikk som kan brukes i R -programmering. For å implementere denne metoden bruker vi et innebygd datasett i R-basen.

Datasettet vi brukte her er "trær" levert av R -basen. Vi kan også legge til farger i boksen. I "Boxplot ()" -funksjonen setter vi fargen "Col" som "Rainbow", som vil sette i forskjellige farger til hver boksplot.

Hvis du vil plotte en distinkt boksplott for hver kolonne i R -dataframe, kan du gjøre det med bruken av "Lapply ()" -funksjonen.

Vi vil dele grafikken “par” til en rad, så vel som antall kolonner i datasettet i dette eksemplet. Individuelle grafer kan derimot plottes. Den "usynlige ()" -funksjonen forhindrer at "lapply" -funksjonens utgangstekst blir synlig.

Bildet nedenfor viser boksen som er opprettet for hver datakolonne individuelt.

Konklusjon

R -programmering gir en rekke operasjoner som kan utføres. Å lage en boksplott er en annen nyttig og enkel metode for å vise data visuelt i tomter. I denne artikkelen diskuterte vi hvilke boksplotter og hvordan de viser data. Vi forklarte fire forskjellige teknikker som kan brukes til å tegne boksplotter i R, ved å bruke RStudio i Ubuntu 20.04. Inkludert å bruke enkle vektorer for å lage boksplot. Vi demonstrerte hver metode ved å utdype forskjellige eksempler på koder. Dette vil gjøre læring R for å lage boksplotter mye enklere for deg.