Linuxhint publiserte allerede en tutorial som forklarer hvordan du installerer og forstår Tesseracts trening.
Denne opplæringen viser Tesseracts installasjonsprosess i Debian/Ubuntu Systems, men vil ikke utvidet seg til treningsfunksjoner, hvis du ikke blir kjent med denne programvaren som leser den nevnte artikkelen kan være en god introduksjon. Da vil vi vise deg hvordan du behandler et GIF -bilde med Tesseract for å få teksten ut av det.
Løpe:
Apt installer Tesseract-ACR
Nå må du installere ImageMagick som er en bildekonverter.
Når vi er installert, kan vi allerede teste Tesseract, for å teste den fant jeg en GIF -lisens for gjenbruk.
La oss nå se hva som skjer når vi kjører Tesseract på GIF -bildet:
Tesseract 2002NY40.GIF 1Result
Gjør nå en "mindre" på 1Result.tekst
Mindre 1Result.tekst
Her er bildet med teksten:
I denne Tesseract er standardinnstillinger ganske nøyaktige, vanligvis for å få slik nøyaktighet krever det trening. La oss prøve et annet gratis bilde jeg fant på Wiki Commons, etter å ha lastet ned det kjørt:
Tesseract Actualizar_gnulinux_terminal_apt-get.GIF 2Result
Sjekk nå filens innhold.
Mindre 2resultat.tekst
Det var resultatet mens det originale bildens innhold var:
For å forbedre karaktergjenkjenningen har vi mange alternativer og trinn å følge som ble detaljert i vår forrige opplæring: fjerning av grense, støyfjerning, størrelsesoptimalisering og sidrotasjon blant andre funksjoner som avling.
For denne opplæringen bruker vi TextCleaner, et manus utviklet av Fred's ImageMagick -skript.
Last ned manuset og kjørt:
./textcleaner -g -e strekk -f 25 -o 10 -s 1
Actualizar_gnulinux_terminal_apt-get.GIF -test.gif
Merk: Før du kjører skriptet, gi det utførelsesstillatelser ved å kjøre "CHMOD +X TEXTCLEANER”Som rot eller med sudo prefiks.
Hvor:
TEXTCLEANER: Ringer programmet
-g: Konverter bildet til gråtoner
-e: Enache
-f: Filterstørrelse
-s: Sharpamt, mengde pikselskarping som skal brukes på resultatet.
For informasjon og eksempler på bruk med TextCleaner besøk http: // www.FMWConcepts.com/imagemagick/textcleaner/indeks.PHP
Når du ser TextCleaner, endret bakgrunnsfargen, og øker kontrasten mellom skrift og bakgrunn.
Hvis vi kjører Tesseract, vil sannsynligvis resultatet være annerledes:
Tesseract -test.GIF TestOutput
Mindre testoutput
Som du ser ble resultatet virkelig forbedret selv når det ikke er helt nøyaktig.
Kommandoen konvertere Levert av ImageMagick lar oss trekke ut rammer fra GIF -bilder som skal behandles senere av Tesseract, er dette nyttig hvis det er ekstra innhold i forskjellige rammer av GIF -bildet.
Syntaksen er enkel:
konvertere
Resultatet vil bli generert som antall filer som rammer i GIF, i det angitte eksemplet vil resultatene være: output-0.jpg, utgang-1.jpg, utgang-2.jpg, etc.
Deretter kan du behandle dem med Tesseract, og instruere den om å behandle alle filer med et jokertegn som lagrer resultatet i en enkelt fil ved å kjøre:
for jeg i output-*; gjør tesseract $ i outputResult; gjort;
ImageMagick har et stort utvalg av alternativer for å optimalisere bilder, og det er ikke en generisk modus, for hver slags scenario bør du lese Convert's Command Man -side.
Jeg håper du fant denne opplæringen om Tesseract resulterte nyttig.