Hvordan eksportere DataFrame til CSV i Python

Hvordan eksportere DataFrame til CSV i Python

Når du jobber med et datasett og utfører nødvendig forbehandling, må forbehandlede data lagres i et dataformat som CSV, Excel eller en annen. I databaserte applikasjoner brukes CSV (komma-separert verdier) ofte for datakommunikasjon. Vi lagrer vanligvis dataene til webapplikasjoner i en dataaframe, matrise, liste, tuple, ordbok osv. Kunder kan kreve at dataene blir eksportert som en CSV -fil. Data lagres i CSV -filer som en datasekvens. Vi kan bruke Python Pandas til å skrive data til en CSV -fil som på andre programmeringsspråk.

Hva er en Pandas dataaframe?

I Python inkluderer Pandas -modulen en funksjon “Pandas.DataFrame () ”for å lage en dataaframe. I likhet med et regneark er en dataaframe en datastruktur som organiserer data i en 2D -tabell med kolonner og rader. På grunn av deres tilpasningsevne og enkelhet i lagring og manipulering av data, er dataframmer blant de mest populære og effektive datastrukturene i moderne dataanalyse.

Syntaks:

Pandas.DataFrame (data, indeks, kolonner, dtype, kopi)

Hvordan eksportere en dataaframe til en CSV i Python?

TO_CSV () -metoden i Python Pandas kan konvertere en DataFrame til en CSV -fil. Vi kan skrive utdataene til en fil hvis en filparameter/argument er gitt. Hvis ikke, vil en CSV -streng bli returnert. Selv om TO_CSV () -funksjonen har mange attributter, har vi bare nevnt de som ofte brukes her.

Syntaks:

Dataramme.TO_CSV (Sti, SEP, NA_REP, FLOAT_FORMAT, KOMLUMRER, HOVEDER, INDEX, MODE, komprimering)

Hvor,

sti: Det refererer til fil- eller STR -håndtak. Generelt spesifiserer den banen/plasseringen av en fil eller et objekt. Ingen som standard. Når ingen leveres, returneres en strengverdi.

september: Det er en strengverdi som har en lengde på 1. Komma er standardverdien (,).

na_rep: En strengdataverdi som symboliserer eller representerer manglende eller nullverdier. Standardverdien er den tomme strengen.

float_format: Den inneholder en strengverdi for formatering eller strukturering av en streng med flytende punkttall.

kolonner: Det er en parameter som er valgfri og refererer til en serie som spesifiserer kolonnene som må være til stede i utgangen CSV.

Overskrift: En samling strenger eller en boolsk verdi. Hvis det er satt til FALSE. Navnene på kolonner blir ikke skrevet i utgangen. Sant er standardverdien.

Indeks: Hvis den er satt til sann, inkluderer CSV -dataene indeksen. Ellers har ikke output CSV indeksverdien.

Modus: I skrivemodus refererer det til en strengverdi. W er standardverdien.

Komprimering: En strengverdi som komprimerer modusen ved hjelp av et av følgende alternativer: utlede, gzip, xz, bz2, zip eller ingen. Hvis "utlede" og "sti" er banelignende, identifiserer den komprimering fra filutvidelsene ".GZ ”,“.BZ2 ”,“ Zip ”eller“ XZ ”. Ellers foregår ingen komprimering.

Vi oppretter nå en Pandas DataFrame som vi kan bruke til å eksportere dataene til CSV i eksemplene på denne opplæringen.

Opprette et eksempel på DataFrame

For å lage vår dataframe, vil vi først importere den nødvendige modulen, jeg.e., Pandas. Etter å ha importert modulen, vil DataFrame () -funksjonen opprette DataFrame.

Vi har opprettet vår dataaframe ved å passere et Python -dikter inne i PD.DataFrame () -funksjon. Dataframe består av tre kolonner (navn, alder og merker).

La oss nå lære å eksportere en DataFrame til en CSV -fil.

Eksportere DataFrame til CSV uten indeks

Når du bruker DF.TO_CSV () Metode For å eksportere en DataFrame fra Pandas til en CSV -fil, er en indeks for DataFrame automatisk inkludert. Angi indeks = falsk til sant hvis du ikke vil ha det eller krever inkludert en indeks.

Output-fil:

Når indeksen er meningsløs, kan det være nyttig å gjøre det. Men hvis indeksen lagrer viktige eller meningsfulle data, som tidsseriedata, bør du ikke fjerne dem. Sant er standardverdien for indeksparameteren. Som et resultat kan du ganske enkelt la parameteren være alene hvis du vil at indeksen skal bli inkludert

Eksportere DataFrame til CSV med spesifikke kolonner

Før du eksporterer, kan du være klar over størrelsen på dataene dine når du eksporterer den. Begrensning av kolonnene du eksporterer er en metode for å redusere den genererte CSV -filstørrelsen. Ved hjelp av kolonnens parameter kan vi spesifisere en liste som inneholder navnene på kolonner som vi ønsker å inkludere i eksportfilen vår. Eksporten vil ekskludere alle kolonner som ikke er til stede på listen.

Output-fil:

Vi spesifiserte kolonneparameteren med en liste som inneholder kolonnenavn “Navn” og “Marks”, så bare disse to kolonnene er eksportert til CSV -filen vår.

Eksportere DataFrame til CSV og endre separatoren

Vi kan avgrense CSV-filen med andre tegn enn et komma, selv om komma er tegnet som gir dem deres navn (komma-separerte verdifiler). Faneverdien, for eksempel, er en typisk separator og er representert \ t. I pandaer kan vi endre separatoren vår ved å bruke SEP -argumentet.

Output-fil:

Eksportere DataFrame til CSV og håndtere manglende/ingen verdier

Informasjonen om manglende data er ikke inkludert som standard i CSV -filer. En tom celle vil bli generert når manglende data blir eksportert til CSV. NA_REP -argumentet lar deg vise en alternativ verdi, som null eller n/a, i stedet for alle manglende verdier. Dette tar noen form for streng som input, men standard er en tom streng. For dette vil vi bruke en annen DataFrame som inneholder noen manglende dataverdier.

La oss stille inn strengen “Null” som verdien av NA_REP -parameteren.

Output-fil:

Eksporterer DataFrame til CSV uten overskrift

I datavitenskap kan et datasett kreve eksportdata fra en dataaframe uten overskrift på et tidspunkt. Dette er ofte tilfelle når du eksporterer enorme datasett som må kobles sammen senere. En dataaframe kan enkelt konverteres til CSV uten overskriften. For å oppnå dette kan overskriftsargumentet brukes. Det er sant som standard, noe som indikerer at overskriften vil bli inkludert.

Output-fil:

Komprimere data når du eksporterer DataFrame til CSV

Det kan være nyttig å komprimere store datasett når du jobber med de beregnet på langsiktig lagring, spesielt når du lagrer dem i CSV-format. Filstørrelsen avtar når et datasett komprimeres. Imidlertid vil dataaframeksport til CSV -prosessen ta lengre tid. Tilsvarende vil det ta lengre tid for pandaer å forvandle CSV til en dataaframe. Fordi komprimering krever mer tid enn enkel eksport, tar det lengre tid. La oss se hvordan vi kan komprimere dataene våre ved å bruke komprimeringsargumentet:

Produksjon:

Utgangen CSV -filen er nå komprimert.

Eksportere DataFrame til CSV -fil med forskjellig koding

Du må ofte kryptere data når du jobber med strengdata. Hvis du har å gjøre med kodede eller numeriske data, er dette sjeldnere, men strenger trenger ofte ytterligere instruksjon om hvordan de skal tolkes.

UTF-8-kodingsformatet, et av de mest brukte kodingsformatene, er kodingstypen som standard som standard. La oss bruke UTF-16-kodingen for å eksportere DataFrame til CSV.

Produksjon:

Konklusjon

I denne opplæringen så vi først introduksjonen av CSV -filer og Pandas DataFrame. Vi diskuterte hvordan en dataaframe kunne eksporteres til en CSV i Python. Vi prøvde å forklare hvordan vi skulle bruke pandaene.TO_CSV () -metode effektivt og hvordan vi kan bruke forskjellige argumenter for TO_CSV () -funksjonen for å endre hvordan dataene blir eksportert. Etter å ha dekket dette innlegget, bør dere alle kunne opprette en CSV -fil fra en Pandas DataFrame.