Pandas read_csv multiprocessing

Pandas read_csv multiprocessing

Multiprosessering er en teknikk for å bruke flere prosessorer eller kjerner for å utføre oppgaver parallelt. I Python implementeres multiprosessering gjennom multiprosesseringsmodulen. Den autoriserer brukeren til å utføre flere oppgaver samtidig, og dermed utnytte den fulle kraften til maskinens CPU.

I denne Python-guiden vil vi presentere en dyptgående guide om "Pandas.read_csv ()”Funksjon med en multiprosesseringsmodul. Følgende emner vil bli dekket:

    • read_csv () funksjon i python
    • Leser CSV ved å bruke “Pandas.read_csv ()”Funksjon
    • Leser CSV ved å bruke “Pandas.read_csv ()”Med multiprosessering

“Pandas.read_csv () ”-funksjon i python

Pandas.read_csv ()”Er en funksjon i Pythons Pandas -modul som leser/tar en CSV -fil og henter et DataFrame -objekt som inneholder dataene fra CSV.

Syntaks

PD.read_csv (filepath_or_buffer, sep = ',', header = 'infer', index_col = ingen, usecols = ingen, motor = ingen, skiprows = ingen, nrows = ingen)


Eksempel 1: Lese CSV ved å bruke “Pandas.read_csv () ”-funksjon

I eksemplet nedenfor, “Pandas.read_csv () ”-funksjon brukes til å lese CSV -dataene:


Kode

Importer pandaer
df = pandas.read_csv ('eksempel.CSV ')
trykk (DF)


I ovennevnte kodebit:

    • Modulen som heter “Pandas”Importeres.
    • PD.read_csv ()”Funksjon brukes til å lese den medfølgende CSV -filen.
    • skrive ut()”Funksjon brukes til å vise/vise CSV -dataene.

Produksjon


Som observert har CSV -filinnholdet blitt vist.

Eksempel 2: Lese CSV ved å bruke “Pandas.read_csv () ”med multiprosessering

Følgende kode bruker "PD.read_csv ()”Funksjon for å lese flere CSV -filer parallelt ved bruk av multiprosesseringsbiblioteket i Python:

Importer pandaer
Importer multiprosessering
if __name__ == '__main__':
Basseng = Multiprosessering.Basseng()
Files = ['Eksempel.CSV ',' Eksempel1.CSV ',' Eksempel2.CSV ']
DataFrames = Pool.Kart (Pandas.read_csv, filer)
For DF i DataFrames:
trykk (DF)


I henhold til koden ovenfor:

    • Modulene som heter “Pandas”Og“Multiprosessering”Moduler importeres.
    • __Navn__”Og“__hoved__”Attributter brukes med“hvis”Tilstand for å sikre at koden i den kjøres direkte fra skriptet i stedet for å bli importert.
    • Inne i tilstanden, “Multiprosessering.Basseng()”Brukes til å lage et multiprosesseringsbassengobjekt ved å bruke standard antall prosesser som er tilgjengelige på systemet.
    • Listen over filnavn for CSV -filene som skal leses blir initialisert og lagret i en variabel som heter “filer”.
    • basseng.kart()”Metode brukes til å bruke“PD.read_csv”Funksjon til hver fil parallelt. Dette betyr at hver fil blir lest samtidig av en egen prosess, som kan fremskynde den samlede behandlingstiden.
    • Endelig "til”Loop brukes til å iterere gjennom hver dataramme.

Produksjon


I dette utfallet, “PD.read_csv () ”-funksjon brukes med multiprosessering for å lese CSV -filer.

Konklusjon

For å forbedre datainnlastingshastigheten, inkludert fordelene og begrensningene "PD.read_csv ()”Funksjon brukes med multiprosesseringsmodulen. Multiprosesseringsmodellen gir en måte å fremskynde databelastning ved å bruke flere CPU -kjerner for å laste inn dataene parallelt. Denne Python-opplæringen presenterte en dyptgående guide om Python Read_CSV Multiprocessing.