Kombiner kolonner i r

Kombiner kolonner i r
"Det er et mangfold av scenarier der datasett er delt inn i mange tabeller og en rekke årsaker til at dette kan være tilfelle. Noen ganger er det enklere å samle informasjon i mindre biter, mens det i noen situasjoner er bedre å minimere størrelsen på filen. Uansett hvorfor datasett er fragmentert i separate tabeller, må de være strukturert på en måte som det skal være minimum en kolonne som er lignende mellom begge tabellene, slik at de kan kombineres om nødvendig om nødvendig.Det er tre hovedstrategier vi ser på for å redusere arbeidsmengden og sikre at hver viktig kolonne og parameter fra dine forskjellige datasett er integrert på riktig måte.Etter å ha gått gjennom alle teknikkene og deres tilsvarende praktiske eksempelkoder, vil du kunne gjøre et sterkt grep om konseptet med å kombinere kolonner i r.”

Kombinere kolonner i r

R gir oss flere måter å kombinere kolonner i en dataaframe. I denne artikkelen vil vi gjøre deg kjent med 3 av dem; Ved å bruke "Paste ()" -funksjonen, ved å bruke "Unite ()" -funksjonen, og ved å bruke "Str_c ()" -funksjonen.

Kombiner kolonner med "lim inn ()" -funksjon

En av metodene for å kombinere kolonner i en DataFrame i R er å bruke "Paste ()" -funksjonen. Denne funksjonen fungerer ved å kombinere kolonner fra to forskjellige DataFrame så vel som innenfor samme DataFrame.

Før vi fokuserer på implementeringen, må vi først forstå syntaks for "Paste ()" -funksjonen.

# Lim inn (data $ c1, data $ c2, sep = “”)

Syntaksen for "Paste ()" -funksjonen har 3 parametere. “Data” er navnet på DataFrame som du vil legge inn, og “C1” er kolonnenavnet til den DataFrame. “C2” refererer til et annet kolonnenavn i DataFrame som du trenger å kombinere med den første. Mens "SEP" betyr en separator som skiller to kolonner og ("") refererer til alt som en separator trenger å legge til mellom de to kolonnene. Her brukes det til å legge til plass mellom begge kolonnene mens du blir med dem.

Vi har opprettet en DataFrame med 3 kolonner; “FirstName,” “LastName,” og “Age.”Ved å bruke“ C () ”-funksjonen, tilordne verdier til alle kolonnene. "FirstName" og "LastName" har verdier av karakterdatatype, mens kolonnen "Alder" har lagret verdier av numerisk datatype. Vi har opprettet en DataFrame som heter “Info” og lagret verdiene til “Data.ramme () ”funksjon i den. "Print ()" -uttalelsen vil vise DataFrame vi nettopp har opprettet.

I utgangsskjermen kan du se en tabell med 3 kolonner.

Nå vil vi bruke "lim ()" -funksjonen. Først må du skrive navnet på DataFrame der du lagret verdier; Som vi kalte den "info", legger du deretter til en "$" -operatør ved siden av, som vi bruker for å velge en kolonne eller for å tildele en ny verdi til en kolonne. Fortsetter videre ved å lage en ny kolonne med navnet "Fullname", som vi vil tilordne de kombinerte verdiene til de to forskjellige kolonnene. Inne i "lim ()" -funksjonen, nevn navnet på DataFrame med en "$" -operatør og kolonnen du vil velge. Etter å ha satt et komma, skriver du navnet på DataFrame, "$" -operatøren og den andre kolonnen du vil slå sammen. “(Sep =“ ”)” vil legge til plass mellom begge kolonnene mens du kombinerer dem.

Bildet nedenfor viser begge tabellene; Den første med den første DataFrame og den andre med en kombinert kolonne “Fullnavn.”

Du kan fjerne forrige DataFrame ved å eliminere den første "print ()" -uttalelsen.

Utgangen finner du på bildet nedenfor.

Kombiner kolonner med "Unite ()" -funksjon

En annen metode for å slå sammen kolonnene i R -programmering er ved å bruke "Unite ()" -funksjonen. Vi må laste inn pakken som holder denne funksjonen som er "Tidyr" -pakken.

For å bruke "Unite ()" -funksjonen, er syntaksen vi følger:

# UNITE (DataFrame -navn, kombinert kolonnenavn, C (kolonne1, kolonne2))

Hvor "DataFrame -navn" er DataFrame du vil legge inn. “Combined Column Name” er navnet på kolonnen der du ønsker å lagre de sammenslåtte dataene. Og inne i “C ()” -funksjonen er “Column1” og “Column2”, kolonnene du trenger for å kombinere.

I eksemplet i hånden har vi først installert “Tidyr” -pakken fra R -biblioteket. Opprettet en dataaframe på samme måte som vi opprettet den i eksemplet ovenfor. Vi ønsker å kombinere 2 kolonner; "fornavn og etternavn.”Inne i“ Unite () ”-funksjonen vil vi skrive DataFrame -navnet, som er“ Info.”Deretter vil navnet på kolonnen der de kombinerte kolonneverdiene blir lagret som“ Fullnavn.”Bruke“ C () ”-funksjonen for å ringe de to kolonnene som skal kombineres. Endelig vil "print ()" -uttalelsen vise utgangen.

En ny kolonne med navnet “Fullname” lagring av sammenslåingsverdier av “FirstName” og “LastName” -kolonner.

Kombinere kolonner med "str_c ()" -funksjon

Nå går vi sammen med flere kolonner med STR_C () -metoden. For dette må vi til å begynne med installere pakken “Stringr.”

“Str_c ()” -funksjon fungerer med denne syntaks:
STR_C (DataFrame $ Column1, “”, DataFrame $ Column2)

“DataFrame” er DataFrame vi har laget. “Column1” og “Column2” er de to kolonnene som vi vil sammenkoble. Hvis du har lagt merke til det, er det plass ("") mellom kolonnenavnene. Hvis vi ikke legger til denne ekstra plassen, vil dette slå seg sammen begge kolonnene uten plass.

Her er et eksempel på hva vi har gjort.

Helt i begynnelsen har vi lastet inn en pakke "Stringr" som lar oss bruke "str_c ()" -funksjonen. Vi brukte DataFrame som ble opprettet i eksemplene ovenfor, og med de samme trinnene som nevnt før, lagret de verdiene i en ny DataFrame som heter “Info.”

Inne.

Du kan se den resulterende kombinerte kolonnen i eksemplet demonstrert ovenfor.

Konklusjon

Å kombinere kolonner i R -programmering er et superenkelt og nyttig konsept. Dette kan gjøres ved flere teknikker ved bruk av RStudio i Ubuntu 20.04. Vi har gjort en innsats for å introdusere deg for metodene og teknikkene som kan brukes til sammenkobling av søyler i r. Ved å demonstrere eksempler på koder og utdype alle små detaljer om det, er vårt forsettlige mål og formål å veilede deg enkelt og pålitelig å lære og nyte kombinasjonen av kolonner i R -programmering.