Tale til tekst

Tale til tekst
Talegjenkjenning er en teknikk som konverterer den menneskelige stemmen til tekst. Dette er et veldig viktig konsept i den kunstige intelligensverdenen der vi må gi kommandoer til en maskin som en førerløs bil osv.

Vi kommer til å implementere talen til tekst i Python. Og for dette må vi installere følgende pakker:

  1. Pip installer talegjenkjenning
  2. Pip installer Pyaudio

Så vi importerer bibliotekets talegjenkjenning og initialiserer talegjenkjenningen fordi vi uten å initialisere gjenkjenneren ikke kan bruke lyden som en inndata, og den vil ikke gjenkjenne lyden.

Det er to måter å overføre inngangslyden til gjenkjenneren:

  1. Spilt inn lyd
  2. Bruke standardmikrofonen

Så denne gangen implementerer vi standardalternativet (mikrofon). Derfor henter vi modulmikrofonen, som vist nedenfor:

Med Linuxhint.Mikrofon () som mikrofon

Men hvis vi vil bruke den forhåndsinnspilte lyden som kildeinngang, vil syntaksen være slik:

Med Linuxhint.AudioFile (filnavn) som kilde

Nå bruker vi postmetoden. Syntaksen til postmetoden er:

post (kilde, varighet)

Her er kilden vår mikrofon og varighetsvariabelen aksepterer heltall, som er sekunder. Vi passerer varigheten = 10 som forteller systemet hvor mye tid mikrofonen vil godta stemme fra brukeren og deretter lukker den automatisk.

Så bruker vi gjenkjenne_google () Metode som godtar lyden og skjulte lyden til et tekstskjema.

Ovennevnte kode godtar inndata fra mikrofonen. Men noen ganger ønsker vi å gi innspill fra den forhåndsinnspilte lyden. Så for det er koden gitt nedenfor. Syntaksen for dette ble allerede forklart ovenfor.

Vi kan også endre språkalternativet i anerkjennelse_google -metoden. Når vi endrer språket fra engelsk til hindi, som vist nedenfor: