Beste OCR -apper for Linux

Beste OCR -apper for Linux
Denne artikkelen vil dekke en liste over nyttig programvare for "optisk karaktergjenkjenning" tilgjengelig for Linux. En programvare for optisk karaktergjenkjenning (OCR) prøver å oppdage tekstinnhold i ikke-tekstfiler hvis innhold ikke kan velges eller kopieres, men kan vises eller leses. For eksempel kan en OCR -programvare identifisere tekst fra bilder, PDF eller andre skannede dokumenter i digitale filformater ved bruk av forskjellige algoritmer og AI -baserte løsninger.

Denne OCR -programvaren er spesielt nyttige for å konvertere og bevare gamle dokumenter, da de kan brukes til å identifisere tekst og lage digitale kopier. Noen ganger kan den identifiserte teksten ikke være 100% nøyaktig, men OCR -programvaren fjerner behovet for manuelle redigeringer i stor grad ved å trekke ut så mye tekst som mulig. Manuelle redigeringer kan gjøres senere for å forbedre nøyaktigheten videre og lage en-til-en-replikker. Mest OCR -programvare kan trekke ut tekst i separate filer, selv om noen også støtter å overlegge et skjult tekstlag på originale filer. OPPROLERT Tekst lar deg lese innhold i original utskrift og format, men lar deg også velge og kopiere tekst. Denne teknikken brukes spesielt til å digitalisere gamle dokumenter i PDF -format.

Tesseract Ocr

Tesseract OCR er en gratis og åpen kildekode -programvare tilgjengelig for Linux. Sponset av Google, og vedlikeholdt av mange frivillige, er det sannsynligvis den mest omfattende OCR -suiten som er tilgjengelig der ute som til og med kan slå noen betalte, proprietære løsninger. Den gir kommandolinjeverktøy så vel som et API som du kan integrere i dine egne programmer. Det kan oppdage tekst på mange språk med god nøyaktighet. Den kommer med et sett med forhåndsutdannede data som kan brukes til å identifisere og trekke ut tekst. Du kan også bruke dine egne trente data hvis du trenger en tilpasset løsning, eller du kan få flere modeller fra tredjeparter. Tesseract OCR kommer med flere deteksjonsmotorer, og du kan bruke dem i henhold til dine behov avhengig av installasjonsmetoden.

For å installere Tesseract OCR i Ubuntu, bruk kommandoen som er spesifisert nedenfor:

$ sudo apt install Tesseract-ACR

Du kan installere det i andre Linux -distribusjoner fra standard depoter gjennom pakkebehandleren. En universell appimage -fil og flere installasjonsinstruksjoner er tilgjengelige her.

Tesseract OCR kommer med støtte for å oppdage engelskspråklig innhold som standard. Hvis du vil aktivere flere språk, kan det hende du må laste ned flere språkpakker. Koblingen gitt ovenfor har instruksjoner for å installere flere språkpakker. I Ubuntu kan du direkte finne språkpakker ved å kjøre kommandoen nedenfor:

$ apt-cache-søk tesseract-ACR-

Kommandoen over vil sende ut pakkenavn for forskjellige språkpakker. Bare installer dem ved å kjøre en kommando i følgende format:

$ sudo apt installasjon

Du kan få en liste over alle installerte språkpakker ved å kjøre kommandoen nedenfor:

$ Tesseract--list-Langs

Når den viktigste Tesseract OCR -pakken og flere språkpakker er installert, kan du begynne å oppdage tekst fra bilder og PDF -filer. For å trekke ut tekst, bruk kommandoer i følgende formater:

$ tesseract image.png output -l eng
$ tesseract image.PNG -utgang -L Eng+Spa
$ tesseract image.PNG -utgang -L Eng PDF

Den første kommandoen vil hente ut tekst fra “Bilde.PNG ”-fil på“ Eng ”-språk og lagrer den i en fil som heter“ Output ”. Den andre kommandoen vil analysere bildet ved hjelp av flere språkpakker. Den tredje kommandoen kan brukes til å opprette en PDF -fil med et tekstlag som er lagt ut på bildefilen.

For mer informasjon om kommandolinjebruk av Tesseract OCR, bruk følgende to kommandoer:

$ Tesseract --hjelp
$ mann tesseract

GimageReader

GimageReader er en grafisk klient for Tesseract OCR -motor nevnt ovenfor. Du kan bruke den til å kjøre de fleste av kommandolinjealternativene og handlingene støttet av Tesseract OCR, inkludert å trekke ut tekst fra flere filer, stavekontroll av den ekstraherte teksten og utføre etterbehandling på den identifiserte teksten.

For å installere GimageReader i Ubuntu, bruk kommandoen som er spesifisert nedenfor:

$ sudo apt install gimageReader

Du kan installere det i andre Linux -distribusjoner fra standard depoter gjennom pakkebehandleren. Flere distribusjonsspesifikke pakker er tilgjengelige her.

Papirarbeid

Papirarbeid er en gratis og open source dokumentsjef. Du kan bruke den til å administrere biblioteket med dokumenter effektivt, spesielt hvis du har en stor samling. Den kommer også med en innebygd OCR-modus som bruker “Pyocr”, en Python-modul basert på Tesseract og Cuneiform OCR-motorer. Andre hovedfunksjoner i papirarbeid inkluderer evne til å redigere skannede dokumenter, en søkefelt for å søke i dokumentbibliotek, evne til å sortere dokumenter, skannerstøtte og så videre.

For å installere papirer i Ubuntu, bruk kommandoen som er spesifisert nedenfor:

$ sudo apt installer papirarbeid-gtk

Du kan installere det i andre Linux -distribusjoner fra standard depoter gjennom pakkebehandleren. En universell flatpak -pakke er også tilgjengelig her.

Ocrfeeder

OCRFeeder er en gratis og open source grafisk OCR -programvare vedlikeholdt av GNOME -teamet. Den støtter gjenkjennelse av tekst på mange språk og kan eksportere innhold i en rekke filformater. Det støtter mange OCR -motorer, inkludert Tesseract OCR, GOCR, OCRAD og Cuneiform. Det lar deg også gjøre noe etterbehandling for å forbedre formateringen og utformingen av det ekstraherte tekstinnholdet.

For å installere OCRFeeder i Ubuntu, bruk kommandoen som er spesifisert nedenfor:

$ sudo apt install ocrfeeder

Du kan installere det i andre Linux -distribusjoner fra standard depoter gjennom pakkebehandleren. En universell flatpak -pakke er også tilgjengelig her.

Legg merke til at i min testing kom Ocrfeeder installert fra Ubuntu -depoter med bare en OCR -motor. Flatpak -bygget kom imidlertid med alle fire støttede OCR -motorer, selv om den lastet ned rundt 2 GB -data. Pakken som ble inkludert i Ubuntu -depotet var mye mindre i størrelse.

gscan2pdf

GSCAN2PDF er et gratis og open source grafisk verktøy som kan identifisere og trekke ut tekst fra en rekke filformater. Det kan direkte fungere med skannere for å skanne papirer og deretter eksportere OCR oppdaget tekstinnhold til PDF -filer. Den støtter også flere OCR -motorer inkludert Tesseract OCR, GOCR, Ocropus og Cuneiform, så lenge pakker for disse motorene er installert på systemet ditt. Annet enn direkte skanning av papirer, kan du også importere bildefiler og trekke ut tekst fra dem.

For å installere GSCAN2PDF i Ubuntu, bruk kommandoen som er spesifisert nedenfor:

$ sudo apt install GSCAN2PDF GOCR Cuneiform Tesseract-ACR

Du kan installere det i andre Linux -distribusjoner fra standard depoter gjennom pakkebehandleren. Kildekode og kjørbare binærfiler er også tilgjengelig her.

Konklusjon

Dette er noen av de mest nyttige kommandolinjene og grafiske OCR -motorene og programvaren som er tilgjengelige for Linux. Tesseract OCR er det mest aktivt utviklede og mest omfattende verktøyet for å oppdage tekst, og det skal være nok for de fleste av dine behov. Selv om du også kan prøve andre apper som er nevnt i denne artikkelen hvis du ikke er fornøyd med resultatene fra Tesseract OCR.