De primære komponentene i Apache Hadoop er:
Nå, sjekk ut de gitte metodene under Installere og konfigurere Apache Hadoop på Ubuntu -systemet ditt. Så la oss starte!
Hvordan installere Apache Hadoop på Ubuntu
Først av alt vil vi åpne Ubuntu -terminalen ved å trykke “Ctrl+alt+t”, Du kan også skrive”terminal”I søknadens søkefelt som følger:
Neste trinn er å oppdatere systemlageret:
$ sudo apt oppdatering
Nå skal vi installere Java På vårt Ubuntu -system ved å skrive ut følgende kommando i terminalen:
$ sudo apt install openjdk-11-jdk
Tast inn "å/å”For å la installasjonsprosessen fortsette:
Kontroller nå eksistensen av den installerte Java ved å sjekke versjonen:
$ java -version
Vi vil opprette en egen bruker for å kjøre Apache Hadoop på systemet vårt ved å bruke "Adduser”Kommando:
$ sudo adduser hadoopuser
Skriv inn den nye brukerens passord, dets fulle navn og annen informasjon. Skriv inn "å/å”For å bekrefte at den oppgitte informasjonen er riktig:
Det er på tide å bytte den nåværende brukeren med den opprettede Hadoop -brukeren, som er "Hadoopuser”I vårt tilfelle:
$ su - Hadoopuser
Bruk nå den undergitte kommandoen for å generere private og offentlige nøkkelpar:
$ SSH -KeyGen -t RSA
Skriv inn filadressen der du vil lagre nøkkelparet. Etter dette, legg til en passordfrase som du skal brukes i hele oppsettet av Hadoop -brukeren:
Deretter legger du til disse nøkkelparene til SSH Authorised_Keys:
på ~/.SSH/ID_RSA.pub >> ~/.SSH/Authorised_Keys
Siden vi har lagret det genererte nøkkelparet i SSH -autorisert nøkkel, vil vi nå endre filtillatelsene til "640”Som betyr at bare vi som“Eieren"Av filen vil ha lest og skrivetillatelser,"grupper”Har bare lest tillatelse. Ingen tillatelse vil bli gitt til “andre brukere”:
$ chmod 640 ~/.SSH/Authorised_Keys
Autentiser nå Localhost ved å skrive ut følgende kommando:
$ ssh localhost
Bruk det undergitte under WGET Kommando for å installere Hadoop -rammeverket for systemet ditt:
$ wget https: // nedlastinger.Apache.org/hadoop/vanlig/hadoop-3.3.0/Hadoop-3.3.0.tjære.gz
Pakk ut den nedlastede "Hadoop-3.3.0.tjære.gz”Fil med TAR -kommandoen:
$ tar -xvzf hadoop -3.3.0.tjære.gz
Du kan også gi nytt navn til den ekstraherte katalogen som vi vil gjøre ved å utføre den undergitte kommandoen:
$ MV Hadoop-3.3.0 Hadoop
Konfigurer nå Java -miljøvariabler for å sette opp Hadoop. For dette vil vi sjekke plasseringen av vår "Java_home”Variabel:
$ dirname $ (dirname $ (readlink -f $ (som java))))
Åpne "~/.Bashrc”-Filen i“Nano”Text Editor:
$ nano ~/.Bashrc
Legg til følgende stier i det åpnet "~/.Bashrc”Fil:
Eksport Java_Home =/usr/lib/jvm/java-11-openjdk-amd64
Eksporter Hadoop_Home =/Home/Hadoopuser/Hadoop
Eksporter Hadoop_Install = $ Hadoop_Home
Eksporter Hadoop_Mapred_Home = $ Hadoop_Home
Eksporter Hadoop_Common_Home = $ Hadoop_Home
Eksporter Hadoop_HDFS_HOME = $ HADOOP_HOME
Eksporter Hadoop_yarn_Home = $ Hadoop_Home
Eksporter Hadoop_Common_Lib_Native_Dir = $ Hadoop_Home/lib/native
Eksportbane = $ PATH: $ HADOOP_HOME/SBIN: $ HADOOP_HOME/BIN
Eksporter Hadoop_opts = "-Djava.bibliotek.bane = $ hadoop_home/lib/native "
Trykk etter det "Ctrl+O”For å lagre endringene vi gjorde i filen:
Nå, skriv ut den undergitte kommandoen for å aktivere “Java_home”Miljøvariabel:
$ kilde ~/.Bashrc
Det neste vi må gjøre er å åpne for miljøvariabelen Fil of Hadoop:
$ nano $ hadoop_home/etc/hadoop/hadoop-env.sh
Vi må sette våre “Java_home”Variabel i Hadoop -miljøet:
Eksport Java_Home =/usr/lib/jvm/java-11-openjdk-amd64
Igjen, trykk “Ctrl+O”For å lagre filinnholdet:
Hvordan konfigurere Apache Hadoop på Ubuntu
Inntil dette punktet har vi installert Java og Hadoop, opprettet Hadoop-brukere, konfigurert SSH-nøkkelbasert autentisering. Nå vil vi komme videre for å vise deg Hvordan konfigurere Apache Hadoop på Ubuntu system. For dette er trinnet å lage to kataloger: Datanode og Namenode, Inne i hjemmekatalogen til Hadoop:
$ mkdir -p ~/hadoopdata/hdfs/namenode
$ mkdir -p ~/hadoopdata/hdfs/datanode
Vi vil oppdatere Hadoop “kjernested.XML”Filen ved å legge til vertsnavnet vårt, så for det første, bekrefte systemets vertsnavn ved å utføre denne kommandoen:
$ vertsnavn
Nå, åpne opp “kjernested.XML”-Filen i“Nano”Redaktør:
$ nano $ hadoop_home/etc/hadoop/core-site.XML
Vårt system vertsnavn i “Linuxhint-Vbox”, Kan du legge til følgende linjer med systemets vertsnavn i det åpnede“ kjernesiden.XML ”Hadoop -fil:
fs.Standardfs hdfs: // hadoop.Linuxhint-Vbox.com: 9000
Trykk "Ctrl+O”Og lagre filen:
I “HDFS-sted.XML”Fil, vi vil endre katalogstien til“Datanode”Og“Namenode”:
$ nano $ hadoop_home/etc/hadoop/hdfs-site.XML
DFS.Replikering 1 DFS.Navn.dir Fil: /// Hjem/Hadoopuser/HadoopData/HDFS/Namenode DFS.data.dir Fil: /// Hjem/Hadoopuser/HadoopData/HDFS/Datanode
Igjen, for å skrive ut den ekstra koden i filen, trykk “Crtl+o”:
Neste, åpne opp “Mapred-Site.XML”Fil og legg til den undergitte koden i den:
$ nano $ hadoop_home/etc/hadoop/mapred-site.XML
kart reduksjon.rammeverk.Navn garn
Trykk "Ctrl+O”For å lagre endringene du gjorde i filen:
Den siste filen som må oppdateres er "garn-sted.XML”. Åpne denne Hadoop -filen i “Nano”Redaktør:
$ nano $ hadoop_home/etc/hadoop/garn-sted.XML
Skriv ut undergitte linjer i “garn-sted.XML”Fil:
garn.Nodemanager.aux-tjenester mapReduce_shuffle
Vi må starte Hadoop -klyngen for å betjene Hadoop. For dette vil vi formatere våre “Namenode”Først:
$ hdfs namenode -format
Start nå Hadoop-klyngen ved å skrive ut den gitte kommandoen nedenfor i terminalen din:
$ start-dfs.sh
I prosessen med å starte Hadoop -klyngen, hvis du får "Kan løse vertsnavnfeil”Så må du spesifisere vertsnavnet i“/etc/host”Fil:
$ sudo nano /etc /verter
Lagre "/etc/host”Fil, og nå er dere alle klar til å starte Hadoop -klyngen:
$ start-dfs.sh
I neste trinn starter vi "garn”Hadoops tjeneste:
$ start-garn.sh
Utførelsen av ovennevnte kommando vil vise deg følgende utdata:
For å sjekke statusen til alle tjenester i Hadoop, utfør "JPS”Kommando i terminalen din:
$ JPS
Utgangen viser at alle tjenester kjører vellykket:
Hadoop lytter ved havnen 8088 og 9870, Så du må tillate disse portene gjennom brannmuren:
$ Firewall-CMD-Permanent-ADD-PORT = 9870/TCP
$ Firewall-CMD-Permanent-ADD-PORT = 8088/TCP
Nå, last inn brannmurinnstillingene på nytt:
$ Firewall-CMD-Reload
Nå, åpne nettleseren din, og få tilgang til Hadoop “Namenode”Ved å legge inn IP -adressen din med porten 9870:
Bruk porten “8080”Med din IP -adresse for å få tilgang til Hadoop Resource Manager:
På Hadoop -nettgrensesnittet kan du se etter “Bla gjennom katalogen”Ved å bla nedover den åpne websiden som følger:
Det handlet om å installere og konfigurere Apache Hadoop på Ubuntu -systemet. For å stoppe Hadoop -klyngen, må du stoppe tjenestene til "garn”Og“Namenode”:
$ stop-dfs.sh
$ stopp-garn.sh
Konklusjon
For forskjellige big data -applikasjoner, Apache Hadoop er en fritt tilgjengelig plattform for å administrere, lagre og behandle data som opererer på grupperte servere. Det er et feiltolerant distribuert filsystem som tillater parallellbehandling. I Hadoop brukes MapReduce -modellen for lagring og henting av data fra nodene. I denne artikkelen har vi vist deg metoden For å installere og konfigurere Apache Hadoop på Ubuntu -systemet ditt.