Pandas dataaframe fra CSV

En DataFrame er en todimensjonal datastruktur i Python som får tilgang til Pandas-modulen som lagrer innholdet i et tabellformat. Med andre ord, bruk kolonner og rader. Hver kolonne i en dataaframe kan inneholde en variert type vare.

CSV-filer eller "komma-separerte verdier" er verdiene atskilt med komma og kan sees på samme måte som en Excel-fil. “Pandas” er den mest essensielle datavitenskapspakken i Python. Mens vi analyserer dataene, må vi håndtere store datasett, som vanligvis er i CSV -format. Det er flere tilnærminger til å bruke CSV -filene for å lage en Pandas DataFrame. Teknikken som vi valgte å forklare og implementere i denne artikkelen er Pandas “read_csv ()” -metoden. For å lese og behandle CSV -filene, er Pandas 'Les CSV () ”-metode viktig.

Vi vil se dens praktiske demonstrasjon gjennom eksemplet som er forklart og utført i følgende:

Eksempel: Bruke Pandas “read_csv ()” -metoden for å lage en dataaframe fra CSV

I denne illustrasjonen vil vi se hvordan vi kan lage en dataaframe fra en CSV -fil ved å bruke Pandas “PD.read_csv () ”-metode. La oss fortsette med å implementere dette konseptet praktisk talt.

For hvert programmeringsspråk du velger å jobbe med i henhold til kravene, må du finne en programvare eller et verktøy for å sette sammen dette språket på. Når du begynner å søke etter det, finner du en haug med valg. I vår artikkel er programmeringsspråket som brukes “Python”. Vi må få verktøyet eller programvaren som vil sette sammen språket og er funnet kompatibel med systemet vårt. Fra en rekke valg valgte vi “Spyder” -verktøyet. Vi må laste den ned fra det offisielle nettstedet til "Spyder".

Når nedlastingen er fullført, lanserer vi installasjonsveiviseren. Når installasjonen er ferdig, kan du få tilgang til verktøyet ved bare. Å klikke på det åpner grensesnittet til "Spyder" -verktøyet. Her er vi klar til å starte med vår praktiske demonstrasjon.

På grensesnittet til "Spyder" -verktøyet, klikker du på "Ny fil" -knappen eller trykker på "Ctrl+N" for å åpne en ny fil. Denne filen åpnes, og du kan se at navnet på filen har en ".py ”utvidelse. Denne utvidelsen refererer til “Python” -filen. Vi er klar til å begynne å skrive koden. Nå, som begynner med koden, er det første og fremste kravet når du skriver en kode, å importere de relevante bibliotekene hvis funksjoner du vil få tilgang til. I vårt tilfelle er illustrasjonen basert på implementering av "Pandas" -funksjonene. Så vi importerer først biblioteket ved å bruke kodelinjen “Importer Pandas som PD”. Denne "PD" er en kort form for pandaer som betyr at vi nå kan laste Pandas -metodene ved å bruke “PD”.

Nå er vi ferdige med å importere det nødvendige Pandas -biblioteket. Den neste oppgaven er å lære hvordan vi kan opprette en DataFrame ved hjelp av CSV -filen. Her har du to valg: enten må du opprette CSV -filen din på Microsoft Excel eller Google -regneark eller noe relevant verktøy med ".CSV ”-utvidelse hvis du trenger å utføre noen operasjoner på den i Python, eller du kan laste ned en prøve CSV -fil fra Internett for læringsformål. Vi derimot lastet ned en eksempler på CSV -fil fra Internett for læringsprosessen. Vi påkalte “PD.read_csv () ”-metoden som leser den medfølgende CSV -filen. Mellom parentesene, oppgi navnet på CSV -filen.

Som vi nevnte, "ukedagen.CSV ”filnavn. En viktig ting å vurdere her er at CSV -filen du opprettet eller lastet ned, må være i samme mappe der ".py ”-filer ligger inne i“.Spyder-Py3 ”-mappe. Ellers, når du prøver å utføre programmet, vil det kaste en feil. Når vi kaller “PD.read_csv (“ukedag.CSV ”)” -metode, den leser innholdet i denne filen og oppretter en DataFrame. Nå, for å lagre denne DataFrame, opprettet vi en DataFrame -objekt “prøve” som holder utgangen generert fra “PD.read_csv () ”-metode. Til slutt påkalte vi metoden “Print ()” for å vise denne dataaframmen på terminalen.

Å være roman for “Python” og “Spyder”, tenker du kanskje på hvordan du utfører koden som tidligere er skrevet. Du trenger bare å trykke på "Kjør fil" -knappen på "Spyder" -grensesnittet eller bare treffe "Shift+Enter" -tastene for å kjøre programmet. Her er vår DataFrame opprettet fra den medfølgende CSV -filen.

I den gitte DataFrame har vi fire kolonner og syv rader. Den første kolonnen er "Navn" som lagrer navnene på ukedagene som "Mandag", "Tirsdag", "Onsdag", "Torsdag", "Fredag", "Saturday" og "Sunday". Den andre kolonnen “Forkortelse” lagrer de korte vilkårene for dataene som “MON.”,“ Tir.”,“ Onsdag.”,“ Thu.”,“ Fre.”,“ Sat ”, og“ Sun ”. De tredje og fjerde kolonnene er “Numeric” og “Numeric-2”. De lagrer tallene fra “0” til “7”. De har begge numeriske verdier for ukedagene.

Det kan være en situasjon der du bare vil opprette en dataaFrame fra de valgte kolonnene i CSV -filen. Dette kan gjøres ved hjelp av samme “PD.read_csv () ”-funksjon ved bare å legge til en" usecol "-parameter. Denne parameteren tar navnet på kolonnene du vil hente fra CSV -filen for DataFrame. Som vi allerede har sett, bruker kolonnene i DataFrame vår som er importert fra CSV -filen "Navn" -kolonnen og "Numerisk" -kolonnen som skal brukes fra CSV -filen for å opprette en DataFrame. Deretter påkalte vi metoden “Print ()” for å vise de valgte kolonnene i DataFrame.

Å kjøre denne koden gir oss utdata -dataaframe med bare to kolonner fra CSV -filen. Dataframe vises i følgende bilde:

Bortsett fra å opprette en dataaframe ved hjelp av de valgte kolonnene fra den medfølgende CSV -filen, kan du også gjøre noen andre operasjoner. Det kan være en CSV -fil som inneholder store data, og ikke alt det nødvendigvis er nødvendig å vises for DataFrame fordi en stor unødvendig data noen ganger skaper rot. Så vi prøver ofte å unngå det. Vi kan gjøre det ved å hoppe over de irrelevante radene fra DataFrame. Vi må legge til en "Skiprows" -parameter og spesifisere radnumrene du vil utelukke. Vi spesifiserte radnumrene “[1, 3, 5]” her. "Print ()" -metoden kalles for å vise den nye DataFrame.

Her i utgangsbildet kan du observere at DataFrame opprettet fra CSV -filen ikke inneholder radene “1”, “3” og “5”.

Vi kan også endre navnet på kolonnen i CSV -filen i henhold til våre krav til DataFrame når vi kaller “PD.read_csv () ”-funksjon. For å fullføre denne operasjonen, må vi overføre en liste over karakterstrenger til “PD.read_csv () "-funksjonens" navn "-parameter. Disse karakterstrengene fungerer som navnene på de nye kolonnene. I tillegg virker det logisk å ekskludere den første raden i inngangsdatasettet fordi den inneholder CSV -filens originale tittel. Vi ga navnene på kolonnene som "Navn = ['C1', 'C2', 'C3', 'C4']". Til slutt viste vi DataFrame med nye kolonnenavn.

Dette får oss følgende utdata DataFrame:

Konklusjon

Dataframes er de mest utnyttede og viktige blokker av Python Pandas. Det finnes flere måter å lage en dataaframe i pandaer. Av dem diskuterte vi om hvordan du oppretter en DataFrame fra en CSV -fil i denne artikkelen. Vi brukte en pandas “read_csv ()” -metode for å lese den medfølgende CSV -filen og deretter opprette en DataFrame fra den. Gjennom den praktiske implementeringen av eksemplene som ble utført på “Spyder”, utdypet vi bruken av denne funksjonen. Vi forklarte og implementerte også de forskjellige nyttige parametrene levert av denne metoden for å oppnå ønsket utfall. Vi forventer at vår innsats for å gjøre læring i Pandas Modules Easy virkelig vil hjelpe deg i Python -ferdighetsbygningen din.

Oracle Database

Gjør oracle fusion ansett som bedre enn sap?

Oracle Fusion (skybasert ERP) har et brukervennlig grensesnitt, mens SAP (sky og på stedet ERP) er s...

Daniel Berntsen

Docker

Hvordan er volumene definert i Docker Compose Yaml?

Volumene er definert ved hjelp av Volum -tasten i Docker Compose Yaml -filen. Brukere kan definere D...

Tobias Andresen

Linux -kommandoer

Hvordan få versjonen av CUDA installert på Linux

Omfattende opplæring om hvordan du finner ut versjonene av CUDA som støttes av de for tiden installe...

Simen Ødegård