Når du jobber med store datamengder som blir fanget med et bredt sett med parametere, kan du prøve å finne forholdene og mønstrene mellom funksjoner bli en slitsom oppgave. Til tross for at de har forskjellige eksisterende modeller som allerede er tilgjengelige i dataanalyseområdet, kan du bruke en for å faktisk finne en meningsfull slutning på store datasett, bli en kompleks og omfattende kunnskapsoppdagelsesoppgave. Store datasett med et veldig bredt sett med datainnsamlingsparametere har en tendens til å ha flere forskjellige typer data slutninger alle lagret sammen. Lett intelligens i å finne algoritmer klarer derfor ikke å finne alle sammenhengene som er inneholdt i et slikt datasett.
Det er her Apache Uima kommer inn. Ustrukturerte informasjonsadministrasjonsapplikasjoner (UIMA) er spesielt bygget for dette formålet - for å finne betydningen i en ellers tilsynelatende ubetinget datadistribusjon. Det brukes vanligvis til å sortere ustrukturerte data og for å kategorisere betydningene som er inneholdt i forholdet mellom forskjellige funksjoner som er til stede i et datasett. Det Apache UIMA gjør er å gjøre det mulig for brukerne å forstå hvilke funksjoner som er avhengige av hverandre, hvilke forhold som er viktige for hvilke kategorier i et datasett, og hvordan alle forekomstene i et datasett ender opp med å skyve datasettet i en viss retning.
UIMA er ikke begrenset til å jobbe med tekstbaserte data; Det kan også brukes med signalbaserte data (video- og lyddata). Dette betyr at ikke bare UIMA kan finne betydningen i tekstdata, den kan også analysere de store datasettene som inneholder lyd- eller videoprøver og generere betydningen for brukeren basert på et sett med oppgitt parametere. For å oppsummere, muliggjør Apache UIMA kunnskapsoppdagelse ved å bruke en multimodal analytisk tilnærming som ser på datasettet fra forskjellige perspektiver for å finne alle forholdene som er inneholdt i.
Installasjon
For å starte med Apache UIMA -installasjonen, starter vi med å oppdatere det apt lokale depotet som inneholder pakkenavn og informasjon.
1. Kjør følgende kommando i terminalen for å oppdatere APT lokale depoter og informasjon:
$ sudo apt -get update -yDu bør se en utgang som ligner på følgende:
2. Vi installerer nå Apache UIMA ved å kjøre følgende kommando i terminalen:
$ sudo apt-get install -y uima-docMERK: -Y -argumentet sikrer at installasjonen skjer stille uten at du trenger å legge inn "ja" for enhver anmodning om at installasjonsoppsettet krever.
Du bør se en utgang som ligner på følgende:
3. Vi laster nå ned den foretrukne UIMA -distribusjonspakken ved å enten besøke lenken eller bruke WGET -verktøyet og kjøre kommandoen i terminalen (kun for Linux -brukere):
$ wget https: // dlcdn.Apache.org // uima // uimaj-3.3.1/UIMAJ-3.3.1-bin.tjære.gzDu bør se en utgang som ligner på følgende:
4. Når nedlastingen er fullført, trekker vi ut den nedlastede filen og CD -en i den.
Kjør følgende kommando i terminalen:
$ tar xzfSom så:
Gå deretter inn i den ekstraherte mappen ved å kjøre følgende kommando:
$ CD Apache-Uima5. Vi oppretter nå en UIMA -miljøvariabel og gir den banen der den ekstraherte mappen er bosatt.
Kjør følgende kommando i terminalen:
6. Kjør følgende kommandoer i terminalen. Du vil se en forekomst av Apache Uima som åpner seg:
$ $ UIMA_HOME/BIN/JUITTEXAMPLEPATHS.sh $ $ uima_home/bin/documentanalyzer.shBrukerhåndboken
Med Apache Uima som nå er klar til bruk, begynner vi med å velge plasseringen av analysemotoren XML -deskriptor. For formålene med denne guiden velger vi en premade datadistribusjon for å kjøre analysen på og finne mønstrene i denne datafordelingen.
Vi kjører nå modellen og undersøker utgangene den genererer.
La oss se på en av de genererte utgangene:
Vi kan se at ut av hele datasettet som inneholder mange tekstbaserte passasjer som inneholder forskjellig informasjon om forskjellige emner, er UIMA i stand til å sortere dem til mindre distribusjoner som inneholder informasjonen om et bestemt emne.
Ved å velge personell i de tilgjengelige merknadene, kan vi se at den er i stand til å fremheve alle menneskene som er nevnt i datadistribusjonen.
Konklusjon
Å finne betydningen og slutningen i store ustrukturerte datasett kan være en vanskelig oppgave. Antall forskjellige parametere å se etter og analysere gjør målrommet virkelig stort, og det blir noe ineffektivt å analysere et slikt datasett med tradisjonelle algoritmer. Apache UIMA hjelper deg. Ikke bare utfører den strålende på tekstbaserte data, det gjør det også veldig bra på lyd- eller videodata.