Fjern duplikater i r

Fjern duplikater i r
“En av de vanskeligste pliktene for en dataforsker er datarengjøring. Vi sletter ofte duplikater avhengig av bestemte forhold, for eksempel kolonneverdier, for å undersøke datasettet nøyaktig. I denne artikkelen vil vi se på hvordan du eliminerer datavulighet basert på rad- eller kolonneverdiene og de forskjellige metodene for å gjøre det. Dupliserte verdier kan eksistere i et datasett, og dupliserte rader må gjenkjennes og elimineres for å bevare det redundansfrie og nøyaktig. Vi vil se om datasettet vårt inneholdt duplikatdata, og i så fall vil vi slette det.”

Hvordan fjerne duplikater i R i Ubuntu 20.04?

Du vil oppdage hvordan du fjerner duplisering fra en dataramme i denne R -opplæringen. Du vil forstå hvordan du blir kvitt dupliserte rader først, deretter kolonner. Vi vil se på hvordan du bruker base R og DPLYR for å eliminere dupliserte oppføringer fra datarammen.

Eksempel 1: Gjenkjenne duplikatdata i R i Ubuntu 20.04

Vi bruker den dupliserte () -funksjonen for å identifisere dupliserte rader, som returnerer en tallverdi av totale duplikatrader.

Her har vi vist de registrerte dataene, som inneholder navnene på kolonnene som engelsk, vitenskap og matematikk. Vi har også forskjellige duplikatrader i disse dataene. Deretter har vi en duplisert funksjon som vi har bestått resultatvariabelen som et argument. Når vi har utført denne dupliserte funksjonens kommando, genereres de boolske verdiene. Det viser alle de falske verdiene da det ikke er noen redundans funnet i datarammen.

Eksempel 2: Fjerning av duplikatdata ved hjelp av den unike metoden i R i Ubuntu 20.04

For å få unike elementer ut av de spesifiserte dataene, bruk den unike () -funksjonen i r.

Her har vi en dataramme som inneholder feltnavnet, ID og lønnen til den ansatte og er lagret inne i variabelen emp_data. EMP_DATA blir deretter utført, som genererer datarammen i tabellformen. Nå har vi brukt en unik funksjon for å trekke ut den unike posten fra dataene. Inne i den unike funksjonen har vi passert emp_data. Utgangen som genereres fra den unike funksjonen har fjernet duplikatraden fra den gitte datarammen.

Eksempel nr. 3: Fjerning av duplikatdata ved hjelp av den distinkte metoden i R i Ubuntu 20.04

Den distinkte funksjonen er et av de mest brukte datamanipulasjonsbibliotekene på R -språket, og det er gitt av DPLYR -pakken. Den distinkte funksjonen velger rader i en dataramme som alle er unike. Datarammen er det første argumentet, etterfulgt av variablene du må vurdere under utvalget. For filtrering av unike rader kan mange variable kolonner leveres, men vi vil vise enkeltvariable forekomster i følgende prøve. Det tredje argumentet er ikke obligatorisk og har verdien falsk som standard; Imidlertid, hvis brukeren uttrykkelig spesifiserer sant, vil funksjonen opprettholde alle variabler i datarammen etter filtrering. Det er verdt å merke seg at DPLYR benytter en operatørfunksjon som kalles rør for formen %> %, som forstås som å passere venstre variabel som høyre funksjons første parameter. Spesifikt notasjonen x %? % f (y) blir f (x, y).

Her har vi en dataramme Products_results som vises i tabellform. Du kan se de overflødige radene i Products_Result Data Frame. Vi kan fjerne disse duplikatene ved å bruke den distinkte funksjonen. I vår neste kommando har vi brukt Products_Result inne i den distinkte funksjonen som et argument. Nå viser datarammen posten til datarammen uten dupliserte rader.

I den forrige datarammen dukket to rader opp to ganger i datarammen, men etter å ha brukt den distinkte funksjonen ble den dupliserte raden fjernet.

Eksempel 4: Fjerning av duplikatdata ved hjelp av Group_by -filtermetoden i R i Ubuntu 20.04

Et annet alternativ for å fjerne dupliserte rader basert på kolonner er å gruppere datasettet med kolonnvariabelen og deretter bruke filteret og dupliserte metoder for å filtrere elementer. Det første trinnet er fullført ved hjelp av DPLYR -pakkenes gruppe etter funksjon. Den foregående operasjonens resultat blir deretter overført til filterfunksjonen, som fjerner dupliserte rader.

Her er vårt første trinn å importere DPLYR -biblioteket som støtter Group_by -filterfunksjonen i R -skriptet. Deretter opprettet vi en dataramme som har posten over lagene som vises på tilfeldige dager. Vi har også spesifisert kjønn for datarammen. Når datarammen er skrevet ut på skjermen, kan vi se redundansen i hver kolonne. Vi kan eliminere dette ved å bruke Group_by -filterfunksjonen. I den følgende figuren påberopes Group_by -funksjonen, og den tar kolonnen "Day" som et argument i variabelen T1. Deretter brukes filteret på den dupliserte funksjonen der "Dagen" -kolonnen sendes. Når vi utfører T1, fjerner den bare duplikatene fra kolonnen “Dagen.”

Samme som ovenfor har vi brukt Group_by -filterfunksjonen på kolonnen “Sex.”

Her har vi fjernet duplikatene fra kolonnen “Team” fra Group_by Filter -funksjonen.

Eksempel 5: Fjerning av duplikatdata ved hjelp av Group_by Slice -metoden i R i Ubuntu 20.04

Alternativt kan gruppen etter funksjon brukes i forbindelse med en skive for å slette dupliserte rader basert på kolonneverdier. Slice er en DPLYR -pakke som velger rader etter indeks. Når den gitte datarammen er gruppert, velger skiven radene i hver gruppe basert på den medfølgende indeksen, som sett i følgende prøvekode.

Over har vi opprettet og vist datameldingsposten. Her har vi bare to kolonner som har overflødige verdier. Dette kan vi eliminere av Group_by -funksjonen ved å tilby COL1 inni den og deretter bruke skivefunksjonen på den.

Nå er duplikatradene fjernet fra Col1, så vi har også fjernet COL2 -redundansen ved å bruke Group_by -skivefunksjonen. Derfor er duplikatraden eliminert fra datarammen nedenfor.

Konklusjon

På dette tidspunktet i leksjonen har du lært hvordan du bruker R -språket til å identifisere og eliminere dupliserte rader som vises flere ganger. Bruk grunnleggende funksjoner som unike () og duplisert () for å eliminere overflødige rader eller kolonner fra en vektor eller dataramme. Bruk den distinkte () metoden i DPLYR -pakken hvis du jobber med et stort datasett og vil fjerne dupliserte oppføringer. Vi kan også bruke group_by, filter og skive -metoden for å fjerne den dupliserte raden og kolonnene i r.