Tesseract er et fritt tilgjengelig open source tekstgjenkjenningsverktøy også kjent som OCR (optisk karaktergjenkjenning). Det brukes først og fremst til å identifisere og trekke ut tekst fra bilder. Den vil lese tekst fra bildedata og skrive utgang i en ny .txt -fil. Tesseract jobber også under Python, da det hovedsakelig brukes til å gjenkjenne håndskrift fra bilder. Den bruker LSTR (lang korttidsminne) modell. Tesseract jobber under Apache 2.0 Lisens.
Vi vil utdype metoden for å installere Tesseract på Windows i denne bloggen.
Så la oss komme i gang!
Hvordan installere tesserakt på Windows?
Tesseract er et kommandolinjeverktøy som brukes til tekstutvinning fra bilder. For å installere Tesseract på Windows, må du følge opp instruksjonene under gitte under.
Trinn 1: Last ned Tesseract -installasjonsprogrammet
For det første, navigerer du til den nedenfor leverte lenken og last ned Tesseract-installasjonsprogrammet i henhold til systemspesifikasjonen din:
https: // github.com/ub-mannheim/tesseract/wiki
Trinn 2: Kjør Tesseract -installasjonsprogrammet
Besøk "Nedlastinger”Katalog der Tesseract -installasjonsprogrammet lastes ned. For å installere Tesseract på Windows, kjør Tesseract -installasjonsprogrammet ved å dobbeltklikke på den:
Trinn 3: Velg språk
Mange språk støttes av Tesseract -installasjonsprogrammet. For å samhandle med installasjonsgrensesnittet, velg “Engelsk”Som språket ditt og klikk på“Ok”:
Trinn 4: Installer Tesseract
Når du gjør det, vises Tesseract OCR Setup Wizard på skjermen på skjermen. For å begynne Tesseract -installasjonen, treffer du “NESTE”Knapp:
Å godta “Lisensavtale", Klikk på "Jeg er enig”Knapp:
Velg “Installer for alle som bruker denne datamaskinen”Alternativ og trykk på“NESTE”Knapp:
Hvis du vil legge til skriptdata eller inkludere et annet språk, må du merke deres respektive avmerkingsbokser og treffe "NESTE”-Knappen. Siden vi ikke ønsker noe ekstra dataprik eller språk, vil vi fortsette med standard valgte alternativer:
Velg installasjonsstedet og klikk på "NESTE”Knapp:
Hvis du ikke vil opprette en snarvei i startmenyen, så merk "Ikke lag snarveier”Avkrysningsrute og trykk på“Installere”Knapp:
Etter det vil Tesseract -installasjonen bli startet. Vent til installasjonen vil fullføre og treffe “NESTE”Knapp:
Til slutt, klikk på "Bli ferdig”Knapp:
Trinn 5: Angi miljøvariabel
Etter installasjon må du angi miljøvariabelen til Tesseract. For å gjøre det, besøk først katalogen der du har installert Tesseract og kopierer banen fra "Adresse”Bar:
Gjør et søk etter “Miljøvariabler”I“Oppstart”Meny og åpen”Rediger systemmiljøvariablene”:
Inne i innstillingene, naviger til “Avansert”Innstilling meny og klikk på“Miljøvariabler”Knapp:
Velg "Sti”Variabel fra“Systemvariabler”Panel, og treffer“Redigere”Knapp:
Etter det "Rediger miljøvariabel”Vinduet vises på skjermen. Trykk "Ny”Knapp og lim inn den kopierte Tesseract -installasjonskatalogstien her. Til slutt, klikk på "Ok”Knapp:
Trinn 6: Bekreft installasjon av Tesseract
For å bekrefte Tesseract -installasjonen, åpne Windows -ledeteksten ved å søke “Ledeteksten”I“Oppstart" Meny:
Sjekk ut Tesseract -versjonen ved hjelp av gitt kommando:
> Tesseract -Versjon
Den undergitte utgangen indikerer at vi har installert Tesseract-versjonen "v5.2.0”På Windows:
La oss gå videre for å sjekke ut hvordan du bruker Tesseract på Windows.
Hvordan bruke tesserakt på Windows?
Tesseract brukes til å lese håndskrift eller trekke ut tekst fra bilder. La oss se hvordan det fungerer:
Trinn 1: Velg bilde
Velg bildet du vil trekke ut tekst fra. Som vi har valgt “1.png”:
Trinn 2: Pakk ut tekst fra bildet
Når CMD er åpnet. Bruk “CD”Kommando for å endre katalogen der bildet er lagret. Kjør deretter “Tesseract”Kommando og definere bildefilnavnet slik vi har spesifisert“1.png”. “Tekst”Parameter viser betegner navnet på utdatafilen:
> CD C: \ Brukere \ Anuma \ OneDrive \ Pictures \ Lagrede bilder
> Tesseract 1.PNG "Tekst"
Trinn 3: Bekreft tekstutvinning
For å bekrefte tekstutvinning, naviger katalogen der bildefilen eksisterer. Du kan se at utgangsfilen "Tekst”Redres også her. Dobbeltklikk på utdatafilen for å sjekke om Tesseract har trukket ut teksten fra bildet eller ikke:
Du kan se at vi har hentet teksten med hell ved hjelp av Tesseract Command Line Tool:
Vi har demonstrert teknikken for å installere og bruke tesserakt på Windows.
Konklusjon
For å installere Tesseract på Windows, er det påkrevd å laste ned Tesseract -installasjonsprogrammet. For dette formålet, følg den første økten i denne artikkelen. Sett deretter Path Environment Variable for bruk og tilgang til Tesseract fra Windows Command Prompt. Velg deretter bildefilen og bruk "Tesseract”Kommando for å gjenkjenne og trekke ut teksten fra bildet. Her har du lært å installere i tillegg til å bruke “Tesseract”På vinduer.