Statistiske analyser utføres ved hjelp av de forskjellige innebygde funksjonene i r. Disse funksjonene er inkludert i basepakkene til r. For å generere resultatene i R sammen med argumentene, blir vektorer tatt som en inngang. Disse innebygde funksjonene er middel, median og modus, men vi vil bare diskutere om middelet i dette innlegget. Gjennomsnittet spiller en viktig rolle når vi trenger å finne hvor den sentrale verdien av et datasett er lokalisert. Gjennomsnittet av et datasett holder også informasjonen om alle data i settet.
Generelt er gjennomsnittet definert som summen av data/elementer/observasjoner delt på det totale antallet data/elementer/observasjoner.
Hva er R -gjennomsnittsfunksjonen i Ubuntu 20.04
Gjennomsnittet kan ikke inneholde både numeriske tegn og numeriske data, som modus. Det kan bare generere resultater som en numerisk verdi. Beregningsmodus er et innebygd funksjon av R som betyr at den har en definert funksjonalitet på R-programmeringsspråket. Disse forhåndsdefinerte funksjonene aksepterer en vektor som en inngang og gir et resultat som en numerisk verdi.
Syntaksen til middelfunksjonen er som følger:
1 | Gjennomsnitt (x, na.RM) |
Hvor x er inngangsvektoren og na.RM er en boolsk verdi for å ignorere inngangsvektorens manglende verdier.
Hvordan fungerer R fungerer i Ubuntu 20.04?
I R brukes den innebygde funksjonen ().
Vi vil vise deg hvordan du beregner gjennomsnittet på R -programmeringsspråket i Ubuntu 20.04 I denne opplæringen. Det er mange eksempler på de forskjellige datascenariene.
Eksempel nr. 1: Enkelt R -middel av en vektor
For å finne gjennomsnittet av en vektor, må vi ta en vektor som har numeriske data. La oss lage en vektor x for å lære deg hvordan vi kan bruke middelfunksjonen når vi må finne gjennomsnittet av en vektor.
Når gjennomsnittet blir brukt på vektoren x, vil det oppsummere alle verdiene i vektoren x og dele dem med det totale antall verdier, som er 9.
Som vi kan se, tar gjennomsnittet vektoren x som en inngang og genererer en numerisk verdi som er 12.66667. Dette var enkelt siden det ikke var noen nullverdier involvert i dataene. Hvis noen nullverdi ble inkludert, vil resultatet være annerledes.
Eksempel nr. 2: Gjennomsnitt av den numeriske vektoren som har Na -verdier i r
Deretter en.RM er et alternativ som brukes til å ignorere null- eller na -verdiene. Det er en logisk parameter som hjelper funksjonen til å bestemme om de skal fjerne NA -verdiene eller ikke, så det kan ikke påvirke resultatet etter beregninger. I en gjennomsnittlig funksjon, hvis Na.RM = sant, det eliminerer NA -verdiene. Deretter en.RM er verken en operasjon eller en funksjon. Det er en parameter som brukes av de forskjellige funksjonene til rammedataene.
For å finne gjennomsnittet av en vektor der Na -verdier er involvert, kan vi møte et typisk problem.
Etter å ha lagt en Na -verdi til vektoren X1, tildelte vi den til vektoren X2 som gir oss følgende resultat:
Vektoren X2 ser akkurat ut som vektoren x1. Men nå blir NA -verdien lagt til på slutten av den. Når vi bruker gjennomsnittet på vektoren x2, vil følgende problem oppstå:
Resultatet, gjennomsnittet (x2) returnerer Na, er ikke det vi forventet. Som tidligere nevnt, kan middelfunksjonen i R bare inneholde numeriske data. Siden NA -verdien ikke er en numerisk data, NA.RM brukes til å ignorere NA -verdiene for å unngå at dette problemet oppstår.
Det er tydelig illustrert at NA.RM -alternativet har eliminert NA -verdiproblemet og generert riktig gjennomsnitt av vektoren X2 som er 4.625.
Eksempel nr. 3: Gjennomsnitt av den numeriske vektoren med TRIM -alternativet
Akkurat som NA.RM, TRIM er også en logisk parameter som brukes av funksjonene til datarammen. Generelt sett er trimalternativet i gjennomsnitt gjennomsnittet av datasettet etter å ha slettet en viss prosentandel fra de minste og største verdiene fra datasettet. Du kan også si at før du finner gjennomsnittet av et datasett, fjernes en spesifisert prosentandel av de minste og største verdiene.
Syntaksen til det trimmede gjennomsnittet er som følger:
1 | Gjennomsnitt (x, trim = 0) |
La oss prøve en 20 prosent trim til vår forrige vektor x1.
Som du kan se i forrige bilde, er gjennomsnittet av V1 uten trim 4.625. Men hva om vi bruker en 20% trim på den?
Etter å ha brukt en trim på 20%, fjernes 20% fra den største og minste verdien av datasettet, og verdien av de gjennomsnittlige endringene til 4.8333333.
Eksempel nr. 4: betyr i r fra eksemplet datasett
For å tilby deg et mer realistisk eksempel, vil vi implementere middelfunksjonen til en dataramme -kolonne fra et ekte datasett. Her har vi valgt en dataramme “Iris”. Først må vi laste ned datafilen slik at vi kan implementere middelfunksjonen på den.
Dataene (iris) henter dataene fra iris.CSV -fil til konsollen vår. Å ringe hodet () henter hodetitlene til iris -dataene våre. Datasettet vises for oss som sett i følgende:
For å finne gjennomsnittet av den første kolonnen fra den forrige tabellen i datasettet, kan følgende skript brukes:
Samme som den første kolonnen, kan du også finne middelverdien for de andre kolonnene (i.e. Sepal.bredde, kronblad.lengde, og kronblad.bredde). Som diskutert tidligere i dette emnet, kan ikke gjennomsnittet inneholde karakterdata. Et problem vil oppstå når vi prøver å finne gjennomsnittet av den 5. kolonnen siden det ikke er noen numerisk verdi i artenes kolonne.
Du kan se at resultatet ikke er en numerisk data. I stedet viser det en advarsel om at argumentet ikke er numerisk eller logisk.
Konklusjon
Etter å ha dekket denne opplæringen, bør du nå ha en bedre forståelse av middelverdien. Du skal også kunne beregne gjennomsnittet ved hjelp av R -skriptspråket i Ubuntu 20.04. Gjennomsnittet er en av de viktige beregningene i statistisk forskning. Å være klar over gjennomsnittet kan vise seg å være nyttig for oss i videre forskning. Evnen til å evaluere gjennomsnittet innebærer imidlertid ikke at du forstår den statistiske forskningen og prinsippet om gjennomsnittet. I R, for å finne gjennomsnittet av et datasett, implementerte vi praktisk talt flere eksempler på gjennomsnittet med vektorer, logiske parametere og datasett.