Oppdag mønstrene og skjult informasjon i dataene dine ved hjelp av Apache UIMA i Linux

Oppdag mønstrene og skjult informasjon i dataene dine ved hjelp av Apache UIMA i Linux

Når du jobber med store datamengder som blir fanget med et bredt sett med parametere, kan du prøve å finne forholdene og mønstrene mellom funksjoner bli en slitsom oppgave. Til tross for at de har forskjellige eksisterende modeller som allerede er tilgjengelige i dataanalyseområdet, kan du bruke en for å faktisk finne en meningsfull slutning på store datasett, bli en kompleks og omfattende kunnskapsoppdagelsesoppgave. Store datasett med et veldig bredt sett med datainnsamlingsparametere har en tendens til å ha flere forskjellige typer data slutninger alle lagret sammen. Lett intelligens i å finne algoritmer klarer derfor ikke å finne alle sammenhengene som er inneholdt i et slikt datasett.

Det er her Apache Uima kommer inn. Ustrukturerte informasjonsadministrasjonsapplikasjoner (UIMA) er spesielt bygget for dette formålet - for å finne betydningen i en ellers tilsynelatende ubetinget datadistribusjon. Det brukes vanligvis til å sortere ustrukturerte data og for å kategorisere betydningene som er inneholdt i forholdet mellom forskjellige funksjoner som er til stede i et datasett. Det Apache UIMA gjør er å gjøre det mulig for brukerne å forstå hvilke funksjoner som er avhengige av hverandre, hvilke forhold som er viktige for hvilke kategorier i et datasett, og hvordan alle forekomstene i et datasett ender opp med å skyve datasettet i en viss retning.

UIMA er ikke begrenset til å jobbe med tekstbaserte data; Det kan også brukes med signalbaserte data (video- og lyddata). Dette betyr at ikke bare UIMA kan finne betydningen i tekstdata, den kan også analysere de store datasettene som inneholder lyd- eller videoprøver og generere betydningen for brukeren basert på et sett med oppgitt parametere. For å oppsummere, muliggjør Apache UIMA kunnskapsoppdagelse ved å bruke en multimodal analytisk tilnærming som ser på datasettet fra forskjellige perspektiver for å finne alle forholdene som er inneholdt i.

Installasjon

For å starte med Apache UIMA -installasjonen, starter vi med å oppdatere det apt lokale depotet som inneholder pakkenavn og informasjon.

1. Kjør følgende kommando i terminalen for å oppdatere APT lokale depoter og informasjon:

$ sudo apt -get update -y

Du bør se en utgang som ligner på følgende:

2. Vi installerer nå Apache UIMA ved å kjøre følgende kommando i terminalen:

$ sudo apt-get install -y uima-doc

MERK: -Y -argumentet sikrer at installasjonen skjer stille uten at du trenger å legge inn "ja" for enhver anmodning om at installasjonsoppsettet krever.

Du bør se en utgang som ligner på følgende:

3. Vi laster nå ned den foretrukne UIMA -distribusjonspakken ved å enten besøke lenken eller bruke WGET -verktøyet og kjøre kommandoen i terminalen (kun for Linux -brukere):

$ wget https: // dlcdn.Apache.org // uima // uimaj-3.3.1/UIMAJ-3.3.1-bin.tjære.gz

Du bør se en utgang som ligner på følgende:

4. Når nedlastingen er fullført, trekker vi ut den nedlastede filen og CD -en i den.

Kjør følgende kommando i terminalen:

$ tar xzf

Som så:

Gå deretter inn i den ekstraherte mappen ved å kjøre følgende kommando:

$ CD Apache-Uima

5. Vi oppretter nå en UIMA -miljøvariabel og gir den banen der den ekstraherte mappen er bosatt.
Kjør følgende kommando i terminalen:

$ eksport uima_home = ""

6. Kjør følgende kommandoer i terminalen. Du vil se en forekomst av Apache Uima som åpner seg:

$ $ UIMA_HOME/BIN/JUITTEXAMPLEPATHS.sh $ $ uima_home/bin/documentanalyzer.sh

Brukerhåndboken

Med Apache Uima som nå er klar til bruk, begynner vi med å velge plasseringen av analysemotoren XML -deskriptor. For formålene med denne guiden velger vi en premade datadistribusjon for å kjøre analysen på og finne mønstrene i denne datafordelingen.

Vi kjører nå modellen og undersøker utgangene den genererer.

La oss se på en av de genererte utgangene:

Vi kan se at ut av hele datasettet som inneholder mange tekstbaserte passasjer som inneholder forskjellig informasjon om forskjellige emner, er UIMA i stand til å sortere dem til mindre distribusjoner som inneholder informasjonen om et bestemt emne.

Ved å velge personell i de tilgjengelige merknadene, kan vi se at den er i stand til å fremheve alle menneskene som er nevnt i datadistribusjonen.

Konklusjon

Å finne betydningen og slutningen i store ustrukturerte datasett kan være en vanskelig oppgave. Antall forskjellige parametere å se etter og analysere gjør målrommet virkelig stort, og det blir noe ineffektivt å analysere et slikt datasett med tradisjonelle algoritmer. Apache UIMA hjelper deg. Ikke bare utfører den strålende på tekstbaserte data, det gjør det også veldig bra på lyd- eller videodata.