Boxplots er en type graf som viser hvordan ensartede data er spredt i et datasett. Datasettet er delt opp i tre kvartiler som et resultat av dette. Denne grafen viser datasettets minimale, maksimale, gjennomsnittlige, første, andre og tredje kvartil.
En boksekasse begynner i den aller første kvartilen (25 prosent) og avsluttes i den tredje (75 prosent). Som et resultat reflekterer boksen halvparten (50 prosent) av senterdataene gjennom en linje innenfor det som indikerer gjennomsnittet. Til tross for inkludert Boxplot -outliers, er en divisjon formet på hver side av boksen til de ytterste dataene, hvis de eksisterer, vil bli representert av sirkler.
Denne opplæringen vil utdanne deg til hvordan du bruker R til å lage boksplotter.”
Opprette boksplott i r
En boks og whisker -plot kan opprettes ved hjelp av Rs "Boxplot ()" -funksjon. Ulike innganger kan brukes til å lage denne grafen, inkludert vektorer og datarammer. I den tilsvarende grafen kan du også legge inn en formel som inngang når du produserer boksplotter for mange grupper.
Opprette boksplot ved hjelp av en vektor i r
Hvis du vil lage en boksplott i R fra en vektor, kan du bare overføre vektoren til "Boxplot ()" -funksjonen.
Her har vi laget en vektor “S” og tildelt den en liste over numeriske verdier. Ved å bruke "Boxplot ()" -funksjonen, pass denne vektoren "S" som en parameter. Boksplottet i R er satt til å være vertikal som standard, men hvis du vil endre den til horisontalt, kan du gjøre det ved å sette det "horisontale" uttrykket "sant.”
En horisontal boksplott opprettet fra en vektor vises nedenfor.
Det er viktig å huske på at boksplotter skjuver dataens underliggende distribusjon. For å løse dette problemet, kan "stripchart ()" -funksjonen i r brukes til å sette inn prikker i en boksplot.
Her har vi brukt metoden “Jitter.”“ PCH ”betyr plottkarakterer. Standard “PCH” i R er 1, som skaper en tom sirkel, mens “PCH = 19” betyr solide sirkler. Så det vi brukte er solide sirkler med en oransje farge. Outliers vil ikke bli overplottet hvis datapunktene er jitteret.
Opprette Boxplot ved å bruke “Notch” i R
Vi kan også lage et boksplott med et hakk i r. Det hjelper oss med å bestemme hvor godt medianene i forskjellige datagrupper samhandler med hverandre. Ved å spesifisere Notch -argumentet til True, kan du illustrere 95 prosent konfidensintervaller for medianen i R -boksen. Boksen representerer øvre og nedre grenser, mens midtlinjen kan se medianen.
Et "Notch" eller krymping av boksen, brukes rundt medianen i hakkede bokser. Hakk kan bidra til å bestemme viktigheten av et avvik i medianer. Hvis det ikke er noen overlapping mellom hakking av 2 bokser, er det en god sjanse for at medianene ikke er de samme.
Boksplottet trukket fra "hakket" er representert nedenfor.
Opprette Boxplot ved hjelp av et datasett i R
For å lage en boksplott i R, kan du også bruke DataFrames i "Boxplot ()" -funksjonen. I dette tilfellet vil vi bruke R-basen som er gitt innebygd datasett “Kikervekt.”
Her kan du se datasettet inne i "kickvekt" -tabellen. Den inneholder 4 kolonnervekt, tid, kylling og kosthold. Alle kolonnene har numeriske verdier lagret i seg.
Vi velger 2 kolonner, i.e., vekt og kosthold, fra datasettet. Ved hjelp av "Boxplot ()" -funksjonen vil vi tegne boksplotter for valgt dato.
I kodestykket ovenfor har vi designet en boks med "vekt" mot "dietten.”Vi har spesifisert variabelenes navn med datasettnavnet. Inne i seler av "Boxplot ()" -funksjonen har vi brukt DataFrame -navnet "Chickweight", "$" -operatøren for å spesifisere kolonnen, og kolonnenavnet "Vekt".”
Den resulterende boksplottet viser tydelig outlinerens spredning.
For å gjøre denne boksen visuelt bedre og mer detaljert, kan du legge til prikker. Du kan oppnå dette ved å bruke "StripChart ()" -funksjonen.
Du kan se prikkene vi opprettet for å vise den essensielle datadivisjonen i hver boksplot.
Opprette flere boksplott i r
Å lage flere boksplotter er en annen teknikk som kan brukes i R -programmering. For å implementere denne metoden bruker vi et innebygd datasett i R-basen.
Datasettet vi brukte her er "trær" levert av R -basen. Vi kan også legge til farger i boksen. I "Boxplot ()" -funksjonen setter vi fargen "Col" som "Rainbow", som vil sette i forskjellige farger til hver boksplot.
Hvis du vil plotte en distinkt boksplott for hver kolonne i R -dataframe, kan du gjøre det med bruken av "Lapply ()" -funksjonen.
Vi vil dele grafikken “par” til en rad, så vel som antall kolonner i datasettet i dette eksemplet. Individuelle grafer kan derimot plottes. Den "usynlige ()" -funksjonen forhindrer at "lapply" -funksjonens utgangstekst blir synlig.
Bildet nedenfor viser boksen som er opprettet for hver datakolonne individuelt.
Konklusjon
R -programmering gir en rekke operasjoner som kan utføres. Å lage en boksplott er en annen nyttig og enkel metode for å vise data visuelt i tomter. I denne artikkelen diskuterte vi hvilke boksplotter og hvordan de viser data. Vi forklarte fire forskjellige teknikker som kan brukes til å tegne boksplotter i R, ved å bruke RStudio i Ubuntu 20.04. Inkludert å bruke enkle vektorer for å lage boksplot. Vi demonstrerte hver metode ved å utdype forskjellige eksempler på koder. Dette vil gjøre læring R for å lage boksplotter mye enklere for deg.