Scatterplot i r

Scatterplot i r
“Visuelle representasjoner av data inkluderer grafer og diagrammer. Målet ditt som dataforsker er å gi perfekt følelse av enorme mengder informasjon. Tre prosedyrer er involvert i dataanalyse. Å skaffe data, rengjøring og endre data er en viktig del av prosessen. For å evaluere dataene ytterligere, konstruere et visuelt display fra den. Datavisualiseringer med plottet er enorme verktøy for å gjøre komplisert analyse lettere å forstå. Men først, la oss gå gjennom noen grunnleggende plottingsprinsipper som spredningsplott. En scatterplot er et diagram som presenterer nivåene av to numeriske variabler i et sett med data som geometriske punkter i et kartesisk diagram.”

Hva er spredningsplottet på R -programmeringsspråket i Ubuntu 20.04?

Sammenligning av variabler gjøres ved hjelp av spredningsplott. Når vi trenger å vite hva ytterligere en variabel påvirkes av en annen, må vi sammenligne de to variablene. Spredningsplottet er en gruppe stiplede punkter på x- og y -aksene som representerer distinkte data. Oppsettet av de genererte punktene viser en sammenheng mellom to variabler når verdiene deres vises langs x-aksen og y-aksen.

Syntaks av spredningsplottet i R -programmeringsspråket i Ubuntu 20.04

I R kan du lage en spredningsplott i en rekke metoder. Plott (x, y), der x- og y -parametere er numeriske vektorer som spesifiserer (x, y) posisjonene til plottet, er den mest grunnleggende funksjonen.

Plot (x, y, main, xlab, ylab, xlim, ylim, axes)

Som nevnt ovenfor at X -parametere er obligatorisk for å tegne spredningsplottet, men spredningsplottet støtter også noen valgfrie parametere, som er beskrevet som følger:

x: De horisontale koordinatene er satt med dette alternativet.

y: De vertikale koordinatene er satt med dette alternativet.

xlab: Etiketten for den horisontale aksen.

ylab: Den vertikale aksen.

hoved-: Temaet for diagrammet er definert av parameteren Main.

xlim: XLIM -parameteren brukes til å skildre X -verdier.

ylim: Det ylimske alternativet brukes til å plotte verdier av y.

akser: Dette alternativet avgjør om plottet skal inneholde begge aksene.

Hvordan konstruere spredningsplottet i R i Ubuntu 20.04?

La oss se på et eksempel for å vise hvordan vi kan bruke plottfunksjonen til å lage en scatterplot. Vi vil bruke eksemplet datasettet i eksemplene våre, som er et forhåndskonfigurert datasett i R -miljøet.

Eksempel 1: Bruke plottmetoden for å konstruere spredningsplottet R i Ubuntu 20.04

Plott () -metoden på R -programmeringsspråket kan brukes til å lage et spredt plot.

For å konstruere spredningsplottet, trenger vi datasettet. Så her har vi satt inn datasettet USARrests fra R -språket. Vi har valgt de to kolonnene fra dette datasettet for å lage spredningsplottet. De første par oppføringene vises av datasettet USARest. Deretter har vi plottfunksjonen der de to inngangene, x og y, er satt. For X -inngang er kolonnen "Murder" valgt, og for Y -inngangen har vi "UrbanPop" -kolonnen. Noen valgfrie innganger sendes inne i funksjonen, som etiketter for X og Y er satt med XLAB og Ylab. Innenfor XLIM og Ylim -serien er verdiene til X- og Y -parametrene satt. Også tittelen på spredningsplottet er satt ved å kalle alternativet “Main.”

Utgangen fra spredningsplottet genereres nedenfor.

Eksempel 2: Bruke parmetoden for å konstruere spredningsplottmatriser r i Ubuntu 20.04

Vi bruker en scatterplot -matrise når vi har flere variabler og ønsker å korrelere en variabel med de andre. Scatterplot -matriser opprettes ved hjelp av Pairs () -metoden.

Her har vi valgt eksemplet datasett iris fra R -språket. Skriv deretter ut de seks beste oppføringene i IRIS -datasettet. Til kolonnene i datasettet Iris har vi brukt parmetoden. Hver kolonne blir sammenkoblet med den gjenværende kolonnen i parfunksjonen.

Scatterplot -beregningene blir visualisert i følgende figur.

Eksempel nr. 3: Bruke monterte verdier i en scatterplot i R i Ubuntu 20.04

Du kan utvide grafen ved å legge til et nytt nivå av data. I lineær regresjon kan du visualisere den monterte verdien. For å konstruere en scatterplot, bruker vi GGPLOT2 -pakken GGPLOT () og Geom_Point () -metodene.

Begynn med dette eksemplet; Vi har importert GGPLOT2 -modulen fra R. Deretter har vi brukt GGPLOT -metoden der datasettnavnet “Mtcars” er gitt. "AES" -funksjonen brukes inne i GGPLOT -metoden for å lage loggene for X- og Y -parametrene. For lineær regresjon brukes et ekstra sett med funksjoner, "stat_smooth",. Utjevningsmetoden styres av alternativet Stat_ Smooth (). Standardfeilen (SE) holdes usant, og størrelseslinjen er satt til verdien 1.

Eksempel 4: Bruke et dynamisk navn for spredningsplottetittelen i R i Ubuntu 20.04

Vi har ikke lagt noen data på tomtene ennå. Informasjonsgrafer er påkrevd. Uten å ty til ekstra dokumentasjon, skal leseren kunne forstå meldingen bak analysen av data bare ved å se på plottet. Som et resultat kreves det gode etiketter når du bruker tomter. Etiketter kan legges til ved hjelp av Labs () -funksjonen.

Vi har en variabel her som Scatter_graph som GGPLOT -metoden er tildelt. GGPLOT satte sin parameter det samme som eksemplet ovenfor, men for et annet datasett. Datasettet som brukes her er iris. Deretter har vi igjen brukt sprednings_garph -variabelen, og denne gangen har vi satt de dynamiske navnene på spredningsplottet.

Du kan se tilleggsinformasjonen om spredningsplottet inne i følgende figur.

Eksempel 5: Bruke 3DSCatterplot -metoden for å konstruere spredningsplottet i R i Ubuntu 20.04

ScatterPlot3D-pakken lar deg lage en tredimensjonal Scatterplot. ScatterPlot3D er en nyttig teknikk som bruker (x, y, z) syntaks.

Vi har tatt med ScatterPlot3D -modulen i R -skriptet vårt ovenfor. Nå kan vi bruke ScatterPlot3D -funksjonen. Til ScatterPlot3D -funksjonen har vi passert tre parametere som er kolonnene valgt fra datasett -tannvekst.

3D Scatterplot er gjengitt i følgende graf SNAP.

Konklusjon

Denne artikkelen tar sikte på å orientere deg om spredningsplottet i r. Spredningsplott er spredningsgrafer som brukes til å vise datapunkter fra parametere (vanligvis to, men tre er mulig). Hovedformålet med R -spredningsplottet er å hjelpe til med å visualisere dataene og om numeriske variabler har noe forhold. Vi har sett forskjellige tilnærminger som hjelper oss å lage spredningsplottet på den enkleste måten. Hver metode har sin funksjonalitet og er veldig lett å forstå.