Kvantil i r

Kvantil i r

Før du konstruerer maskinlæringsalgoritmer på et datasett, er inferensiell statistisk analyse viktig. Å skaffe statistiske slutninger fra data er også en del av denne prosessen. I statistikk beskriver noen få viktige konsepter variasjonen i en numerisk variabel. Disse begrepene er IQR, kvartiler, kvantiler, middel og median. De hjelper til med å identifisere eventuelle avvik i kolonnen og kolonnenes distribusjon. Dette innlegget er for å bestemme kolonnens kvantil. Datas variabilitet måles ved hjelp av kvantitetsfunksjonene. Etter å ha sortert dataene, kan du bruke kvantiler for å dele tallene i en gitt distribusjon i like undergrupper. Vi kan enkelt beregne kvantiler i R ved å bruke kvantitetsfunksjonen, som returnerer alle kvantiler på 0%, 25%, 50%, 75%og 100%.

Kvantiler i R -programmeringsspråk i Ubuntu 20.04

Kvantil er en generisk funksjon som genererer prøvekvantiler for spesifiserte sannsynligheter. En sannsynlighet på 0 tilsvarer den minste observasjonen, mens en sannsynlighet på 1 tilsvarer den største. Der har vi syntaks for kvantiler som brukes på et R -programmeringsspråk.

1
kvantil (x, probs = seq (0, 1, 1/4), na.RM = falsk, navn = True, Type = 5, Sigits = 5, ...)

Følgende er en beskrivelse av det forrige argumentet som er gitt innenfor kvantefunksjonen:

X: Et element i en kategori som en funksjon er spesifisert eller en numerisk vektor der det er nødvendig med prøvekvantiler. Med mindre na.RM er "sant", Na og NAN -verdier kan ikke brukes i numeriske vektorer.

Probs: Sannsynligheten med verdier i en numerisk vektor; Verdier utenfor dette området opp til “2E-14” blir gjenkjent og overført til følgende nærmeste sluttpunkt.

na.rm: Hvis det er sant, blir NA- og NAN -verdier i X eliminert før kvantilene blir evaluert.

Navn: Når det er sant, inkluderer funksjonen et navnattributt. Satt til "falsk" for å redusere tiden det tar å løse et problem med et stort antall variabler.

Sifre: Når sant, implementerer presisjonen for å bruke formateringsprosenter. Internt, i R -versjoner før 4.0.X, dette var satt til Max (2, GetOption (“Sifmes”)).

Denne artikkelen vil lære deg hva kvantiler er og hvordan du beregner dem i R (kvartiler, oktiler, desiler og persentiler). For å få prøvekvantiler for et datasett, bruk kvantil () verktøyet i r.

Eksempel 1: Bruke en enkel kvantefunksjon for pendlingsvektorer i R i Ubuntu 20.04

La oss se på hvordan kvantilfunksjonen i R fungerer med et enkelt eksempel som genererer kvantilene for datainngangen. Vi må lage data for å anvende kvantefunksjonene. Her har vi definert de variable dataene inne i, som inneholder vektorens data. Deretter brukes kvantilfunksjonen der vi har passert de tidligere spesifiserte dataene sammen med den deklarerte sekvensen. Når vi utførte denne kvantefunksjonskommandoen, fikk vi kvantilene til vektorene som vist i følgende R -ledetekst:

I den følgende R -ledeteksten har vi igjen brukt kvantitetsfunksjonen for å beregne desilene. For dette har vi passert sekvensen 0, 1 og ¼.

Her har vi evaluert interessen for de tilfeldige kvantilene. Vi har satt dataene innenfor probs -argumentet, samtidig som viser persentilenes utgang. Legg merke til at kvantilfunksjonen delte dataene i like store deler, med medianen som senter.

Eksempel 2: Bruke kvantilfunksjonen for beregning av kolonnen i en dataramme i R i Ubuntu 20.04

Vi kan også finne kvantilet til den gitte kolonnen fra datarammen. Vi har definert dataene i datarammefunksjonen i følgende R -skript. Vi har generert lister med navnene “List1”, “List2” og “List3” med tilfeldige numeriske verdier.

Etter det, kall kvantilfunksjonen og legg inn kolonnenavnet med symbolet “$” som hvordan vi har spesifisert “$ list3” for kvantil. Som du ser, setter kvantilfunksjonen inngangsverdiene i stigende rekkefølge før du returnerer de nødvendige prosentilene.

Vi kan bruke Sapply () -funksjonen som vist inne i R -ledeteksten hvis vi ønsker å evaluere kvantilene med mange kolonner samtidig. Vi har passert funksjonen (X) i Sepply -funksjonen sammen med kvantilfunksjonen, som har parametrene X og Probs. Utgangen fra denne funksjonen viser alle kvantilene på kolonnene samtidig.

Eksempel 3: Bruke kvantilfunksjonen og håndtere NAN -feilen i R i Ubuntu 20.04

Nans kan finnes i nesten enhver situasjon. Disse NAN-ene, også kjent som manglende verdier, blir mer vanlig i dagens datadrevne digitale verden. Hvis dataene inneholder disse manglende tallene, kan utgangen inneholde NANS eller feil. Vi har også vektortata som inkluderer noen Na -verdier som kalles vektortata i kvantilfunksjonen. Unntaket blir kastet av R -kompilatoren vist nedenfor:

Vi kan fjerne denne feilen ved å bruke kvantitetsparameteren NA.rm. Vi må sette NA.RM -verdi til “True”, som hjelper oss med å eliminere dette NANS -unntaket. Som du kan se i utgangen, fikk vi persentilverdiene og fjernet NA -verdiene med hell.

Eksempel 4: Bruke Quantiles -funksjonen med SMS -parameter i R i Ubuntu 20.04

Det er også alternativet "Probs", som lar deg spesifisere de nødvendige persentilene. Probs -argumentet, også kjent som "sannsynligheten" -argumentet, bør være mellom 0 og 1. Inne i det følgende R -skriptet har vi brukt Probs -alternativet med verdiene 33 og 66 innenfor kvantefunksjonen. Utgangen har en feilmelding som probs er utenfor rekkevidden.

Når du angir Probs -alternativet innen 0 og 1, viser det persentilverdiene i stedet for falske verdier.

Konklusjon

Vi har prøvd å gjøre vårt beste for å beskrive og utforske R Quantile () -funksjonen i flere dimensjoner ved hjelp av forskjellige eksempler. Kvantilformen er den mest verdifulle funksjonen i dataanalyse, siden den effektivt viser ytterligere data om spesifikk informasjon. Vi har illustrert noen eksempler som viser arbeidet med kvantilfunksjonen tydelig. Jeg håper du nå forstår Rs Quantile () -funksjon bedre.