Hvordan installere og konfigurere Apache Hadoop på Ubuntu

Simen Stensrud

Apache Hadoop er en Java-basert, åpen kildekode, fritt tilgjengelig programvareplattform for lagring og analyse av store datasett på systemklyngene dine. Den holder dataene sine i Hadoop Distribued File System (HDFS) og behandler det ved å bruke MapReduce. Hadoop har blitt brukt i maskinlæring og data mining -teknikker. Det brukes også til å administrere flere dedikerte servere.

De primære komponentene i Apache Hadoop er:

HDFS: I Apache Hadoop er HDFS et filsystem som er distribuert over mange noder.
Kart reduksjon: Det er et rammeverk for å utvikle applikasjoner som håndterer en enorm mengde data.
Hadoop vanlig: Det er et sett med biblioteker og verktøy som er nødvendig av Hadoop -moduler.
Hadoop Garn: I Hadoop administrerer Hadoop Garn lagene med ressurser.

Nå, sjekk ut de gitte metodene under Installere og konfigurere Apache Hadoop på Ubuntu -systemet ditt. Så la oss starte!

Hvordan installere Apache Hadoop på Ubuntu

Først av alt vil vi åpne Ubuntu -terminalen ved å trykke “Ctrl+alt+t”, Du kan også skrive”terminal”I søknadens søkefelt som følger:

Neste trinn er å oppdatere systemlageret:

$ sudo apt oppdatering

Nå skal vi installere Java På vårt Ubuntu -system ved å skrive ut følgende kommando i terminalen:

$ sudo apt install openjdk-11-jdk

Tast inn "å/å”For å la installasjonsprosessen fortsette:

Kontroller nå eksistensen av den installerte Java ved å sjekke versjonen:

$ java -version

Vi vil opprette en egen bruker for å kjøre Apache Hadoop på systemet vårt ved å bruke "Adduser”Kommando:

$ sudo adduser hadoopuser

Skriv inn den nye brukerens passord, dets fulle navn og annen informasjon. Skriv inn "å/å”For å bekrefte at den oppgitte informasjonen er riktig:

Det er på tide å bytte den nåværende brukeren med den opprettede Hadoop -brukeren, som er "Hadoopuser”I vårt tilfelle:

$ su - Hadoopuser

Bruk nå den undergitte kommandoen for å generere private og offentlige nøkkelpar:

$ SSH -KeyGen -t RSA

Skriv inn filadressen der du vil lagre nøkkelparet. Etter dette, legg til en passordfrase som du skal brukes i hele oppsettet av Hadoop -brukeren:

Deretter legger du til disse nøkkelparene til SSH Authorised_Keys:

på ~/.SSH/ID_RSA.pub >> ~/.SSH/Authorised_Keys

Siden vi har lagret det genererte nøkkelparet i SSH -autorisert nøkkel, vil vi nå endre filtillatelsene til "640”Som betyr at bare vi som“Eieren"Av filen vil ha lest og skrivetillatelser,"grupper”Har bare lest tillatelse. Ingen tillatelse vil bli gitt til “andre brukere”:

$ chmod 640 ~/.SSH/Authorised_Keys

Autentiser nå Localhost ved å skrive ut følgende kommando:

$ ssh localhost

Bruk det undergitte under WGET Kommando for å installere Hadoop -rammeverket for systemet ditt:

$ wget https: // nedlastinger.Apache.org/hadoop/vanlig/hadoop-3.3.0/Hadoop-3.3.0.tjære.gz

Pakk ut den nedlastede "Hadoop-3.3.0.tjære.gz”Fil med TAR -kommandoen:

$ tar -xvzf hadoop -3.3.0.tjære.gz

Du kan også gi nytt navn til den ekstraherte katalogen som vi vil gjøre ved å utføre den undergitte kommandoen:

$ MV Hadoop-3.3.0 Hadoop

Konfigurer nå Java -miljøvariabler for å sette opp Hadoop. For dette vil vi sjekke plasseringen av vår "Java_home”Variabel:

$ dirname $ (dirname $ (readlink -f $ (som java))))

Åpne "~/.Bashrc”-Filen i“Nano”Text Editor:

$ nano ~/.Bashrc

Legg til følgende stier i det åpnet "~/.Bashrc”Fil:

Eksport Java_Home =/usr/lib/jvm/java-11-openjdk-amd64
Eksporter Hadoop_Home =/Home/Hadoopuser/Hadoop
Eksporter Hadoop_Install = $ Hadoop_Home
Eksporter Hadoop_Mapred_Home = $ Hadoop_Home
Eksporter Hadoop_Common_Home = $ Hadoop_Home
Eksporter Hadoop_HDFS_HOME = $ HADOOP_HOME
Eksporter Hadoop_yarn_Home = $ Hadoop_Home
Eksporter Hadoop_Common_Lib_Native_Dir = $ Hadoop_Home/lib/native
Eksportbane = $ PATH: $ HADOOP_HOME/SBIN: $ HADOOP_HOME/BIN
Eksporter Hadoop_opts = "-Djava.bibliotek.bane = $ hadoop_home/lib/native "

Trykk etter det "Ctrl+O”For å lagre endringene vi gjorde i filen:

Nå, skriv ut den undergitte kommandoen for å aktivere “Java_home”Miljøvariabel:

$ kilde ~/.Bashrc

Det neste vi må gjøre er å åpne for miljøvariabelen Fil of Hadoop:

$ nano $ hadoop_home/etc/hadoop/hadoop-env.sh

Vi må sette våre “Java_home”Variabel i Hadoop -miljøet:

Eksport Java_Home =/usr/lib/jvm/java-11-openjdk-amd64

Igjen, trykk “Ctrl+O”For å lagre filinnholdet:

Hvordan konfigurere Apache Hadoop på Ubuntu

Inntil dette punktet har vi installert Java og Hadoop, opprettet Hadoop-brukere, konfigurert SSH-nøkkelbasert autentisering. Nå vil vi komme videre for å vise deg Hvordan konfigurere Apache Hadoop på Ubuntu system. For dette er trinnet å lage to kataloger: Datanode og Namenode, Inne i hjemmekatalogen til Hadoop:

$ mkdir -p ~/hadoopdata/hdfs/namenode

$ mkdir -p ~/hadoopdata/hdfs/datanode

Vi vil oppdatere Hadoop “kjernested.XML”Filen ved å legge til vertsnavnet vårt, så for det første, bekrefte systemets vertsnavn ved å utføre denne kommandoen:

$ vertsnavn

Nå, åpne opp “kjernested.XML”-Filen i“Nano”Redaktør:

$ nano $ hadoop_home/etc/hadoop/core-site.XML

Vårt system vertsnavn i “Linuxhint-Vbox”, Kan du legge til følgende linjer med systemets vertsnavn i det åpnede“ kjernesiden.XML ”Hadoop -fil:

fs.Standardfs
hdfs: // hadoop.Linuxhint-Vbox.com: 9000

Trykk "Ctrl+O”Og lagre filen:

I “HDFS-sted.XML”Fil, vi vil endre katalogstien til“Datanode”Og“Namenode”:

$ nano $ hadoop_home/etc/hadoop/hdfs-site.XML

DFS.Replikering
1

DFS.Navn.dir
Fil: /// Hjem/Hadoopuser/HadoopData/HDFS/Namenode

DFS.data.dir
Fil: /// Hjem/Hadoopuser/HadoopData/HDFS/Datanode

Igjen, for å skrive ut den ekstra koden i filen, trykk “Crtl+o”:

Neste, åpne opp “Mapred-Site.XML”Fil og legg til den undergitte koden i den:

$ nano $ hadoop_home/etc/hadoop/mapred-site.XML

kart reduksjon.rammeverk.Navn
garn

Trykk "Ctrl+O”For å lagre endringene du gjorde i filen:

Den siste filen som må oppdateres er "garn-sted.XML”. Åpne denne Hadoop -filen i “Nano”Redaktør:

$ nano $ hadoop_home/etc/hadoop/garn-sted.XML

Skriv ut undergitte linjer i “garn-sted.XML”Fil:

garn.Nodemanager.aux-tjenester
mapReduce_shuffle

Vi må starte Hadoop -klyngen for å betjene Hadoop. For dette vil vi formatere våre “Namenode”Først:

$ hdfs namenode -format

Start nå Hadoop-klyngen ved å skrive ut den gitte kommandoen nedenfor i terminalen din:

$ start-dfs.sh

I prosessen med å starte Hadoop -klyngen, hvis du får "Kan løse vertsnavnfeil”Så må du spesifisere vertsnavnet i“/etc/host”Fil:

$ sudo nano /etc /verter

Lagre "/etc/host”Fil, og nå er dere alle klar til å starte Hadoop -klyngen:

$ start-dfs.sh

I neste trinn starter vi "garn”Hadoops tjeneste:

$ start-garn.sh

Utførelsen av ovennevnte kommando vil vise deg følgende utdata:

For å sjekke statusen til alle tjenester i Hadoop, utfør "JPS”Kommando i terminalen din:

$ JPS

Utgangen viser at alle tjenester kjører vellykket:

Hadoop lytter ved havnen 8088 og 9870, Så du må tillate disse portene gjennom brannmuren:

$ Firewall-CMD-Permanent-ADD-PORT = 9870/TCP

$ Firewall-CMD-Permanent-ADD-PORT = 8088/TCP

Nå, last inn brannmurinnstillingene på nytt:

$ Firewall-CMD-Reload

Nå, åpne nettleseren din, og få tilgang til Hadoop “Namenode”Ved å legge inn IP -adressen din med porten 9870:

Bruk porten “8080”Med din IP -adresse for å få tilgang til Hadoop Resource Manager:

På Hadoop -nettgrensesnittet kan du se etter “Bla gjennom katalogen”Ved å bla nedover den åpne websiden som følger:

Det handlet om å installere og konfigurere Apache Hadoop på Ubuntu -systemet. For å stoppe Hadoop -klyngen, må du stoppe tjenestene til "garn”Og“Namenode”:

$ stop-dfs.sh

$ stopp-garn.sh

Konklusjon

For forskjellige big data -applikasjoner, Apache Hadoop er en fritt tilgjengelig plattform for å administrere, lagre og behandle data som opererer på grupperte servere. Det er et feiltolerant distribuert filsystem som tillater parallellbehandling. I Hadoop brukes MapReduce -modellen for lagring og henting av data fra nodene. I denne artikkelen har vi vist deg metoden For å installere og konfigurere Apache Hadoop på Ubuntu -systemet ditt.

Python

Seaborn Tsplot

I Python, “Seaborn.LinePlot () ”-metode brukes til å plotte flere linjer i et enkelt plott, tilpasse...

Oskar Fossum

Docker

Hva er docker bind monteringer?

En Docker Bind Mount er en type montering som tillater brukere å kartlegge en katalog eller fil på v...

Alexander Sørlie

Oracle Database

Gjør oracle fusion ansett som bedre enn sap?

Oracle Fusion (skybasert ERP) har et brukervennlig grensesnitt, mens SAP (sky og på stedet ERP) er s...

Daniel Berntsen