Hvordan du bruker textract for å trekke ut tekst fra filer

Hvordan du bruker textract for å trekke ut tekst fra filer
Denne artikkelen vil dekke en guide om bruk av “Textract” Python -modul og kommandolinjeverktøy for å trekke ut tekstbasert innhold fra en rekke forskjellige filformater. Den kan trekke ut tekst fra over 20 forskjellige filformater, og du kan bruke den programmatisk i ditt eget Python -program ved å importere hovedmodulen. Du har kanskje brukt andre lignende tekstutvinningskommandolinjeverktøy. Imidlertid er de stort sett begrenset til ett eller to spesifikke filformater. Textract gir en one -stop -løsning med et enhetlig grensesnitt for å trekke ut tekst fra et mangfold av forskjellige filformater. Den kan til og med bruke optisk karaktergjenkjenning (OCR) og talegjenkjenningsteknologier for å hente ut tekst fra henholdsvis bilde- og lydfiler.

Installere textract i Linux

Du kan installere Textract i Linux fra Pip Package Manager. Du kan installere Pip Package Manager i Ubuntu ved å kjøre kommandoen nedenfor:

$ sudo apt install python3-pip

Når du har installert Pip Manager, kjører du følgende kommando for å installere avhengigheter for Textract:

$ sudo apt install python3-dev libxml2-dev libxslt1-dev antiword unrtf poppler-utils pstotext tesseract-acr flac ffmpeg lame libmad0 libsox-fmt-mp3 sox libjpeg-dev swig python3-testRestReStestReStestReStestRestRestRestRestRestRestRestRestRestRestReStestRestRestRestRestRestReStResourt-MP3 Sox Lame-DeG-Dev-dev-lame lame lame Libmad0 Libmad0

Bruk nå Pip Package Manager for å installere Textract i Ubuntu:

$ pip3 installer textract

Du kan installere Pip Package Manager i andre Linux -distribusjoner fra Package Manager. Alternativt kan du installere Pip Package Manager i Linux ved å følge offisielle installasjonsinstruksjoner som er tilgjengelige her. Når Pip Package Manager er installert, kan du enten bruke PIP -kommandoen som er spesifisert ovenfor eller følge ytterligere installasjonsinstruksjoner tilgjengelig i den offisielle dokumentasjonen av Textract (bare for Linux -distribusjoner enn Ubuntu).

Trekke ut tekst fra filer

I henhold til den offisielle dokumentasjonen av Textract, kan du bruke den til å trekke ut tekst fra følgende filformater:

For å trekke ut tekst fra noen av disse støttede filene og vise utdataene som stdout i terminalen, kjør en kommando i følgende format:

$ textract -fil.PDF

Du kan erstatte “Fil.PDF ”med ethvert annet filformat støttet av Textract. Avhengig av innholdet i en fil, bør du se noen utdata som ligner på dette:

For å lagre den ekstraherte utgangen i en annen fil, kjør en kommando i følgende format:

$ textract -fil.pdf -o -fil.tekst

Du kan erstatte filnavn etter behov. "-O" -bryteren brukes til å spesifisere navnet på utdatafilen der ekstrahert tekst vil bli lagret.

Textract oppdager automatisk filforlengelse og bruker passende teknologi for å analysere innholdet. Så for å oppdage og trekke ut tekst fra en bildefil, kan du bare bruke ovennevnte kommando og levere en støttet bildefiltype som et argument. Så lenge du bruker den støttede filtypen og spesifiserer filnavnet med utvidelse på kommandolinjen, vil Textract gjøre alt arbeidet for deg. For å trekke ut tekstinnhold fra en "PNG" eller en "OGG" -fil, kan du ganske enkelt kjøre disse kommandoene:

$ textract -fil.png -o -fil.tekst
$ textract -fil.OGG -o -fil.tekst

For å vite mer om bruk av textract -kommandolinje, kjør følgende kommando:

$ Textract --hjelp

Bruker textract som en python -modul

Du kan bruke Textract i et Python -program som starter med følgende kodeprøve:

Importer textract
tekst = textract.prosess ("Fil.png ")
trykk (tekst)

Den første uttalelsen importerer den viktigste textract -modulen. Deretter kalles "prosess" -metoden ved å gi den et filnavn som et argument. I likhet med kommandolinjeverktøyet, oppdager prosessmetoden automatisk den gjeldende filtypen ved å bruke utvidelsesnavnet og bruker deretter en passende innholdspaser og avtrekk som er egnet for filtypen.

Du kan også manuelt overstyre filforlengelse ved hjelp av "utvidelse" -argument. Her er en kodeeksempel:

Importer textract
tekst = textract.prosess ("Fil.OGG ", Extension =" Ogg ")
trykk (tekst)

Hvis du vil overstyre en automatisk ekstraksjonsmetode som brukes av Textract manuelt, kan du bruke "metode" -argumentet (som vist i kodeprøven nedenfor):

Importer textract
tekst = textract.prosess ("Fil.OGG ", Method =" Sox ")
trykk (tekst)

Støttede filtyper og ekstraksjonsmetoder er listet opp her.

For å vite mer om Textract Python -metoder og deres bruk, kan du se API -dokumentasjonen som er tilgjengelig her.

Konklusjon

Textract gir et enkelt enhetlig kommandolinjegrensesnitt og Python API for å trekke ut tekst fra en rekke forskjellige filtyper. Du kan til og med bruke det til å hente ut innhold fra mediefiler. Det er spesielt egnet i tilfeller der du ikke vil gå gjennom en rekke forskjellige kommandolinjeverktøy for å håndtere tekstutvinning og vil bruke et enkelt API for alt.