Massive Online Analytics (MOA) er et gratis programvareverktøy for åpen kildekode som lar brukerne jobbe med datastrømmer. Datastrømmer er kontinuerlige pakker med data som sendes i sanntid for å bli brukt når de mottas. Det som gjør MOA spesiell er at den er i stand til å motta datastrømmer som input og skalere opp utførelsen av en underliggende algoritme for å passe til behovene til innkommende data.
MOA er mye brukt av datavitenskapssamfunnet for å generere innsikt i data som er kontinuerlig i naturen. Den inneholder gruppering, klassifisering, regresjon, outlierdeteksjon, konseptdrift og aktive læringsalgoritmer som kan bruke de innkommende datastrømmene for å generere verdifulle slutninger. Disse slutningene kan deretter evalueres ved hjelp av de innebygde evalueringsalgoritmene.
Verktøy som MOA som kommer med intuitive grafiske brukergrensesnitt gjør det enkelt for alle å lage komplekse algoritmer som er i stand til å generere nyttig innsikt i data som ellers vil kreve koding på et programmeringsspråk. MOA lar folk fra ikke-programmeringsbakgrunner jobbe med komplekse maskinlæringsmodeller, og gjør dem også i stand til å få verdifulle resultater som utganger i forskjellige former, inkludert grafer, tabeller og diagrammer.
Installasjon
For å installere MOA på hvilken som helst Linux -maskin, begynner vi med å laste ned MOA -filen først.
1. Last ned filen fra MOAs webside.
2. Etter at filen er lastet ned, trekker vi ut den nedlastede filen og plasserer den der vi trenger den.
3. Vi åpner nå den ekstraherte mappen og flytter inn i rotkatalogen for MOA.
4. Etter å ha flyttet til rotkatalogen, åpner vi en terminalforekomst her ved å høyreklikke og velge Åpent i terminal alternativ.
5. Vi kjører nå følgende kommando for å utføre MOA på hvilken som helst Linux -maskin:
$ bin/moa.sh
Du bør få en terminalutgang som ligner på dette:
Med dette bør en forekomst av MOA starte en henrettelse på Linux -maskinen din.
Det ser ut til noe som ligner på dette:
Brukerhåndboken
Med Moa Nå installert og klar til bruk på Linux -maskinen din, kan du begynne å bygge din dataanalysearbeidsflyt.
For å begynne, må du klikke på Konfigurere Alternativ øverst i MOA grafisk brukergrensesnitt. Dette gir deg forskjellige kategorier og alternativer du kan velge mellom og velge basert på hva slags data mining -modellen krever din spesifikke applikasjon.
For dette eksperimentet lager vi en Klassifisering modell ved å velge klassifiseringsalternativet på venstre side.
De tre hovedkategoriene du kan endre eller rettere sagt velger er Lærer, Strøm, og Evaluerer.
Lærer
Dette spesifiserer hva slags modell du vil at arbeidsflyten din skal bruke til trening på dataene dine. Det er flere alternativer å velge mellom, hvorav noen er:
For dette eksperimentet bruker vi Multinomialnaivebayes modell.
Strøm
Dette spesifiserer hva slags dataforekomster vi ønsker at modellen vår skal generere. Det er flere alternativer å velge mellom som inkluderer:
Dette alternativet avhenger spesifikt av typen genererte forekomster som brukssaken din krever.
Vi bruker Bølgeformgenerator for denne guiden.
Evaluerer
Dette spesifiserer hva slags vurdering som vi ønsker at de genererte utgangene skal gå gjennom. Det er tre hovedalternativer å velge mellom i denne kategorien som inkluderer:
Vi bruker WindowClassification evaluator med presisjon, tilbakekalling, presisjon per klasse, tilbakekalling per klasse og F1 -score per klasse som alle blir utgitt som resultat. Disse ytelsesmålingene hjelper oss å bedre forstå klassens kloke distribusjons- og resultatresultater individuelt for dataene våre.
Det er andre alternativer etter de tre hovedmodellrelaterte alternativene som vi også kan finjustere. De inkluderer ting som å begrense antall forekomster til modellen og informasjon om hvor de skal sende ut prediksjonsresultatene generert av modellen. Vi overlater dem til standard forhåndsinnstillinger siden de ikke er påkrevd for formålene med dette eksperimentet.
Etter at vi er ferdige med å konfigurere modellen slik at de passer til våre eksakte behov, klikker vi på Løpe alternativ som i hovedsak utfører modellen som den er. Når kontinuerlige data blir matet til det via datastrømmer, fortsetter de å kjøre iterasjonene av modellen når den fortsetter å motta dataene som inndata. Med hver iterasjon som kjøres, blir resultatene den genererer utført til skjermen.
Følgende bilde viser de forskjellige resultatene som modellen har generert. Disse inkluderer kategorier som antall forekomster som modellen har trent over og evalueringstiden som CPU tar for å generere resultatene på disse dataene.
Hvis vi blar videre, kan vi se klassens kloke ytelsesmålinger sendes ut. Disse ytelsesmålingene forteller oss klassens kloke presisjon, tilbakekalling og F1 -score. Som alle er aktivert under konfigurasjonstrinnet i modellopprettelsen.
Konklusjon
Verden av dataanalyse har mange verktøy som kan brukes til å utføre datautvinningsarbeidene. Noen av dem kommer med grafiske brukergrensesnitt, mens andre er strengt programmeringsbasert. Massiv online analyse er et slikt verktøy som bruker en intuitiv GUI. Dette hjelper mennesker med liten eller ingen programmeringsopplevelse å også lage og utføre komplekse intelligente modeller som hjelper dem å generere resultater på datastrømmene sine.
Den viktigste fordelen med å bruke MOA er at det gjør det mulig for brukerne å jobbe med datastrømmer. Dette betyr at algoritmer i sanntids dataanalyse kan opprettes og brukes til visse brukstilfeller. Som et resultat har dette verktøyet blitt den go-to-løsningen for de fleste sanntidsverdensgenereringsapplikasjoner.