Lag en dataaframe i r

Lag en dataaframe i r
I R er DataFrames det hyppigst utnyttede objektet for lagring av data. Det er en samling vektorer av identiske lengder. En dataaframe er en tabell eller en struktur som ligner en todimensjonal matrise, der hver kolonne representerer en enkelt variabels verdi mens hver kolonnes verdier er representert i en enkelt rad.

En dataaframe må oppfylle noen egenskaper som vi har nevnt i dette avsnittet. Kolonnene i DataFrame må navngis og ikke være tomme. Hver rad i DataFrame må kalles unikt.

Opprette DataFrame i r

R -programmering gir forskjellige metoder for å lage en dataaframe. Vi kan konstruere en dataaframe ved å bruke vektorene fra en annen dataaframe og ved å importere en fil. I denne artikkelen vil vi diskutere disse teknikkene som vil hjelpe deg med å lære konseptet med å lage en dataaframe i r.

Bruke vektorer for å lage en dataaframe i r

R -programmering lar deg bygge en dataaframe ved å bruke vektorer som er like i størrelse. For dette formålet gir R deg en innebygd funksjon “Data.ramme()".Denne funksjonen kan fange så mange vektorer som vi ønsker.

Følgende er syntaks for å kalle denne funksjonen:

df <- data.frame(v1, v2, v3, v4)

I en hvilken som helst dataaframe, En kolonne er representert med hver vektor, og antall rader vil bli bestemt av lengden på en hvilken som helst vektor.

Det er to måter å generere en dataaframe ved hjelp av vektorer, en ved å lage de nødvendige vektorene og deretter sende dem til “Data.ramme () ”-funksjon. Og den videre erstatningen er å direkte gi vektorene til “dataene.ramme () ”funksjon og tilordne dem verdier inne i funksjonstagningene.

Vi vil hjelpe deg å forstå begge metodene ved å demonstrere praktiske eksempler i RStudio i Ubuntu 20.04.

Vi vil utføre et eksempel for å lage en dataaframe fra vektorer. Vi vil først opprette vektorer og deretter passere dem alle som en parameter for “Data.ramme()".

I programmet vi har demonstrert i bildet ovenfor, brukte vi fire-vektorer. Alle vektorene opprettes ved hjelp av “C ()” -funksjonen. Den første vektoren vi genererte er "Navn", som vil lagre navnene på 3 personer som har karaktertypeverdier. Den andre vektoren er "språk" og lagrer navnene på 3 programmeringsspråk. Det lagrer også karakterdatatyper. Vår tredje vektor er "alder", som lagrer numeriske datatyper. Den siste vektoren, "kjønn", lagrer også 3 verdier av karakterdatatype. Alle de 4 vektorene sendes til “Dataene. ramme () ”-funksjon som parameter. "DF" DataFrame lagret utdataene fra “Dataene.ramme () ”funksjon i den. I det aller siste trinnet i koden brukte vi "print ()" -uttalelsen for å vise utdataene.

Den resulterende DataFrame har 4 kolonner, som hver har samme størrelse av vektorer.

Den andre alternative metoden for å generere en dataaframe i R ved hjelp av vektorene er at du kan gi vektorer verdier i “Data.ramme () ”-funksjon.

Dette kodebiten opprettet ganske enkelt vektorer og tildelte dem verdier i kroppen til “Data.Frame () ”-funksjon og lagret denne funksjonen i DataFrame“ DF.”“ Print () ”viste utdataene.

Den resulterende tabellen gir den samme utgangen, som kan sees på bildet nedenfor.

Det er verdt å gjenta at for å generere en dataaframe fra en liste over vektorer, må hver vektor på listen ha samme mengde elementer; ellers vil skriptet rapportere en feil.

Bruker andre dataframes for å lage et dataaframe

Å lage en dataaframe ved å bruke to eller flere DataFrame er en annen teknikk brukt i R -programmering. Vi kan gjøre for gruppering av kolonner med en datafram til en annen, så vel som for å bli med i radene.

Vi vil utføre to programmer her, det ene for den horisontale gruppering og den andre for vertikal gruppering.

For kolonnene er funksjonen vi vil bruke “CBIND ().”La oss lage 2 dataframmer først og deretter kombinere dem ved å bruke" CBIND () "-funksjonen.

I den første delen av kode vil det bli konstruert 2 kolonner, og verdiene lagres i DataFrame “DF1”.

Den resulterende tabellen gir den samme utgangen, som kan sees på bildet nedenfor.

En annen dataaframe, "DF2," genereres med 2 kolonner, "Alder" og "Kjønn.”

Den resulterende tabellen gir den samme utgangen, som kan sees på bildet nedenfor.

En dataaframe “DF3 'er konstruert og bruker“ CBIND () ”-funksjonen for å kombinere“ DF1 ”og“ DF2 ”.

Den ultimate utgangen viser en tabell generert fra å slå sammen de to dataframene.

Tilsvarende, for å lage DataFrame -radene, kan vi bruke "RBIND ()" -funksjonen. Inne. Denne funksjonen vil sammenkoble de to mindre vertikale dataframene i en hel tabell. Husk at antall rader må være det samme for alle dataframene du vil lage.

Leser en fil i en dataaframe

Bortsett fra å generere en dataaframe, er det noen flere ting du kan gjøre. Vi kan importere et tabulært datasett og lagre det som en dataaframe. Det er den hyppigste metoden for å konstruere en dataaframe i R -programmering.

Vi har opprettet en CSV -fil, lagrede verdier i tabellformat, og kalt den “tabell.CSV.”Vi har lagret denne filen i vår" dokumenter "-mappe. I RStudio vil vi lese den ved hjelp av “Les.CSV () ”-funksjon som en ny DataFrame som heter“ Tabell.”

For å lese en CSV -fil i RStudio, er det første du trenger å gjøre å sette opp din nåværende arbeidskatalog. Ved å bruke funksjonen "getwd ()" kan du finne din nåværende arbeidskatalog. I det neste trinnet må du sette katalogen din dit du har lagret ".CSV ”-fil. Hvis du ikke vurderer disse trinnene, vil du få en feil mens du sliter med å lese filen.

Når du riktig angitt banen til den gjeldende arbeidskatalogen til katalogen der du har lagret CSV -filen din, vil du nå bruke "Les.CSV () ”-funksjon. Skrive den ".CSV ”filnavn med et anførselstegn (“ ”) inne i“ Les.CSV () ”og bruk et DataFrame med hvilket navn du vil lagre verdiene.

Dataene vi har lagret i CSV -filen vår vises her.

Konklusjon

I dagens emne utforsket vi opprettelsen av Dataframes. Dataframes er nødvendige strukturer for R -programmering. Vi har diskutert forskjellige måter å konstruere DataFrames i RStudio i Ubuntu 20.04 Miljø ved å utdype hvert med et hendig eksempel. Å sette praktisk praksis til disse eksempelkodene vil ikke bare introdusere deg for behovet for å bruke DataFrames, men også de alternative måtene å bygge dem.