Hvordan installere og bruke Apache Mahout i Linux

Hvordan installere og bruke Apache Mahout i Linux

Mahout er et open source-prosjekt av Apache Software Foundation. Det brukes til å lage maskinlæringsalgoritmer og statistiske eller matematiske analyser. Mahout er i stand til å ta på seg ganske store data mining og maskinlæringsoppgaver på grunn av den distribuerte databehandlingsmetoden til slike problemer. Ved å bruke Hadoop i bakgrunnen, er Mahout i stand til å dele opp de store datautfylte oppgavene i mindre underoppgaver som deretter er planlagt å kjøre i forskjellige tilfeller på en parallell måte. Dette gjør at brukeren kan utføre en kompleks oppgave relativt raskt ved å dele den inn i mindre oppgaver og kjøre dem alle sammen i forskjellige forekomster av applikasjonen ved hjelp av skyinfrastrukturen.

Mahout gir brukerne en rekke forskjellige funksjoner. Disse inkluderer teknikker relatert til maskinlæring og dataanalyse, hvorav noen er anbefaling modeller, klassifisering teknikker, og gruppering modeller. Siden den er bygget på toppen av Hadoop, gjør det at brukerne kan benytte seg av Hadoops distribuerte Cloud Computing. Arbeider sømløst ved siden av Hadoop, er Mahout i stand til å utføre store data mining og analyseoppgaver veldig raskt, noe som gjør det til en av de beste løsningene på store data miningproblemer.

Installasjon

Å bruke Mahout, Du trenger først Java (JDK) versjon 1.7, Maven versjon 3.0 eller høyere, og undergraving. Uten disse tre avhengighetene vil Apache Mahout ikke fungere på Linux -maskinen din.

Java JDK -installasjon

1. Gå til siden Java Downloads ved å klikke på denne lenken.

2. Velg Linux X64: JDK-7U45-Linux-X64.tjære.GZ, godta lisensvilkårene og last ned filen.

3. Gå til katalogen der du lastet ned filen og åpner terminalen her.


Kjør følgende kommando:

$ sudo cp jdk-7u45-linux-x64.tjære.GZ/USR/LOCAL/LIB/

Dette kopierer den ekstraherte mappen inn i /usr/local/lib/.

4. Flytt inn i /usr/local/lib/ Mappe ved å kjøre følgende kommando:

$ cd/usr/local/lib/

5. Kjør følgende kommando i terminalen for å trekke ut innholdet i den komprimerte mappen:

$ sudo tar -xzvf jdk-7u45-linux-x64.tjære.gz


6. Fjern den komprimerte filen som vi nettopp hentet ut:

$ sudo rm jdk-7u45-linux-x64.tjære.gz

7. Flytt inn i din Hjem/Brukernavn/ Ved å kjøre følgende kommando:

$ CD /Hjem //

8. Legg Java hjem til stien ved å utføre følgende trinn:

Kjør følgende kommando:

$ nano .profil

Legg til følgende to linjer på slutten av profil at vi nettopp åpnet.

Eksporter java_home = "/usr/local/lib/jdk1.7.0_45 "
Eksportbane = "$ java_home/bin: $ bane"


Maven installasjon

1. Med en Java JDK som nå er installert, installerer vi nå Maven, som er det andre kravet om å kjøre Mahout.

Kjør følgende kommando i terminalen:

$ sudo apt-get install maven

Du bør se en utgang som ligner på følgende illustrasjon:

For å sjekke om Maven har blitt installert på maskinen din, kjør følgende kommando i terminalen:

$ mvn -v



Subversionsinstallasjon

1. Med Maven nå installert, installerer vi nå Subversion. Subversion er et gratis å bruke programvare revisjonskontrollsystem. Det gjør det mulig for brukerne å holde rede på forskjellige versjoner av kildekode på maskinene sine.

Kjør følgende kommando:

$ sudo apt-get install subversion

Du bør se en lignende utgang i terminalen din:

Kjør følgende kommando for å sjekke om undergraving er installert med hell:

$ SVN -Versjon


2. Med undergraving nå installert, har vi installert alle avhengighetene for Mahout.

Vi vil nå fortsette å laste ned og installere mahout.

Først må du gå inn i katalogen du vil installere Mahout i.

Kjør følgende kommando:

$ svn co http: // svn.Apache.org/repos/asf/mahout/bagasjerom

Du bør se en lignende terminalutgang:

Vi flytter nå inn i stamme Katalog:

$ CD -bagasjerommet

Kjør nå følgende kommando:

$ mvn -dskiptests

Du skal nå ha Apache Mahout klar til bruk på Linux -maskinen din.

Brukerhåndboken

Mahout bruker et programmeringsgrensesnitt for å låse opp potensialet til Mahout Distribuert databehandling. Språket som brukes til å samhandle med dette rammeverket er Java.

Mahout er en omfattende løsning på komplekse maskinlæring og data miningoppgaver. Siden det ikke gir et interaktivt brukergrensesnitt, må brukerne kjenne bruken av Java -språket for å slippe løs det fulle potensialet i denne rammen.

Dette betyr at Mahout ikke kan brukes av mennesker som ikke er flytende i Java. Dette betyr imidlertid ikke at man ikke trenger å prøve. Å lære et nytt programmeringsspråk er noe som ikke er sammensatt i dag. Med ressurser lett tilgjengelig, kan man enkelt lære Java og samhandle med Mahout -rammeverket for å lage algoritmer som kan brukes med store datasett for å finne løsninger og mønstre til problemer i et distribuert miljø.

Konklusjon

Det er mange data mining- og maskinlæringsrammer som er tilgjengelige på markedet i dag. Mahout av Apache er et av disse rammene. Mahout er kjent for å tillate bruk av et distribuert miljø ved hjelp av Hadoop over skyen for å dele de komplekse data miningoppgavene i mindre subtasks som kan kjøres på flere forekomster av applikasjonen. Dette resulterer i at den større oppgaven blir fullført i kortere tid, mens den også skalerer ned den generelle beregningskraften som brukes til mindre enheter.

Mahout brukes ved å skrive koden i Java, som er et språk som har gitt navnet sitt ved å overleve tidens tester. Dette gjør Java til en veldig nyttig ferdighet å ha. Å lære Java for å bruke denne funksjonaliteten som tilbys av Apache er noe som de fleste dataforskere gjør på et tidspunkt i karrieren. Mens de fleste fagfolk innen min gruvedrift aldri trenger å bruke den distribuerte Cloud Computing innen datavitenskap, eksisterer den imidlertid for den lille mengden oppgaver som krever en mer skalerbar distribuert løsning.