Installere Apache Spark på Ubuntu

Installere Apache Spark på Ubuntu
Apache-Spark er et rammeverk for åpen kildekode for big data-prosessering, brukt av profesjonelle dataforskere og ingeniører for å utføre handlinger på store datamengder med data. Ettersom behandlingen av store datamengder trenger rask prosessering, må prosesseringsmaskinen/pakken være effektiv for å gjøre det. Spark bruker DAG -planlegger, hukommelsesbufring og utførelse av spørring for å behandle dataene så raskt som mulig og dermed for stor datahåndtering.

Datastrukturen til Spark er basert på RDD (forkortelse av spenstig distribuert datasett); RDD består av uforanderlig distribuert samling av objekter; Disse datasettene kan inneholde alle typer objekter relatert til Python, Java, Scala og kan også inneholde de brukerdefinerte klassene. Den brede bruken av Apache-Spark er på grunn av dens arbeidsmekanisme at den følger:

Apache Spark jobber med master- og slavefenomener; Etter dette mønsteret er en sentral koordinator i Spark kjent som “sjåfør”(Fungerer som en mester) og dens distribuerte arbeidere er navngitt som“ Executors ”(fungerer som slave). Og den tredje hovedkomponenten i Spark er “Cluster Manager”; Som navnet indikerer er det en leder som administrerer eksekutører og drivere. Utførerne blir lansert av “Cluster Manager”Og i noen tilfeller lanseres også sjåførene av denne manageren av Spark. Til slutt er den innebygde manageren for Spark ansvarlig for å lansere enhver Spark-applikasjon på maskinene: Apache-Spark består av en rekke bemerkelsesverdige funksjoner som er nødvendige for å diskutere her for å fremheve det faktum at de brukes i stor databehandling? Så funksjonene til Apache-Spark er beskrevet nedenfor:

Egenskaper

Her er noen særegne funksjoner som gjør Apache-Spark til et bedre valg enn konkurrentene:

Hastighet: Som diskutert ovenfor, bruker den DAG -planleggeren (planlegger jobbene og bestemmer passende sted for hver oppgave), utførelse av spørring og støttende biblioteker for å utføre enhver oppgave effektivt og raskt.

Multispråkstøtte: Det flerspråklige funksjonen til Apache-Spark lar utviklerne bygge applikasjoner basert på Java, Python, R og Scala.

Sanntidsbehandling: I stedet for å behandle lagrede data, kan brukere få behandling av resultater ved å behandle sanntidsbehandling av data, og derfor gir de øyeblikkelige resultater.

Bedre analyser: For analyser bruker Spark en rekke biblioteker for å tilby analyser som, maskinlæringsalgoritmer, SQL -spørsmål osv. Imidlertid bruker konkurrenten Apache-Mapreduce bare kart og reduserer funksjoner for å gi analyser; Denne analytiske differensieringen indikerer også hvorfor Spark overgår MapReduce.

Å fokusere viktigheten og fantastiske trekk ved Apache Spark; Dagens forfatter vil bane vei for deg å installere Apache Spark på Ubuntu

Hvordan installere Apache Spark på Ubuntu

Denne delen vil guide deg til å installere Apache Spark på Ubuntu:

Trinn 1: Oppdater systemet og installer Java

Før du får innsikt i kjernedelen av installasjonen; La oss oppdatere systemet ved å bruke kommando nevnt nedenfor:

$ sudo apt oppdatering

Etter oppdateringen vil kommandoen skrevet nedenfor installere Java-miljøet, da Apache-Spark er en Java-basert applikasjon:

$ sudo apt install standard-jdk

Trinn 2: Last ned Apache Spark -filen og utdrag

Når Java er installert, er du klar til å laste ned Apache Spark -filen fra nettet, og følgende kommando vil laste ned den siste 3.0.3 Bygg av gnist:

$ wget https: // arkiv.Apache.org/dist/gnist/gnist-3.0.3/Spark-3.0.3-bin-Hadoop2.7.tgz

Du må trekke ut den nedlastede filen slik; Følgende kommando vil utføre utvinningen (i mitt tilfelle):

$ tar XVF Spark-3.0.3-bin-Hadoop2.7.tgz

Etter det, flytt den ekstraherte mappen til “/OPT/”Katalog ved å følge den nedenfor-nevnte kommandoen:

$ sudo mv Spark-3.0.3-bin-Hadoop2.7//opt/gnist

Når du har fullført de ovennevnte prosessene, betyr det at du er ferdig med å laste ned Apache Spark, men vent; Det fungerer ikke før du konfigurerer Spark -miljøet De kommende seksjonene vil veilede deg til å konfigurere og bruke Spark:

Hvordan konfigurere gnistmiljø

For dette må du angi noen miljøvariabler i konfigurasjonsfilen "~/.profil”;

Få tilgang til denne filen ved å bruke redaktøren din (Nano I mitt tilfelle), vil kommandoen skrevet nedenfor åpne denne filen i Nano Editor:

$ sudo nano ~/.profil

Og skriv følgende linjer på slutten av denne filen; Når du er ferdig, trykk “Ctrl+s”For å lagre filen:

Eksporter Spark_Home =/Opt/Spark
Eksportbane = $ Sti: $ Spark_Home/Bin: $ Spark_Home/SBIN
Eksporter pyspark_python =/usr/bin/python3

Last inn filen for å få endringene for Spark -miljø:

$ kilde ~/.profil

Hvordan starte frittstående masterserver av Spark

Når miljøvariablene er satt; Nå kan du starte prosessen for frittstående masterserver ved å bruke kommandoen skrevet nedenfor:

$ start-master.sh

Når du har startet prosessen; Nettgrensesnittet til Master Server kan hentes ved å bruke adressen som er nevnt nedenfor; Skriv følgende adresse i nettleseradressefeltet

https: // localhost: 8080/

Hvordan starte slave/arbeiderserver av Spark

Slaveserveren kan startes ved å bruke kommandoen som er angitt nedenfor: Det blir lagt merke til at du trenger URL for Master Server for å starte Worker:

$ start-slave.SH Spark: // Adnan: 7077

Når du har startet; Kjør adressen (https: // localhost: 8080) og du vil merke at det er en arbeider lagt til i “Arbeidere" seksjon. Det blir lagt merke til at arbeideren bruker "1" kjerne av prosessor og 3.3 GB RAM som standard:

For eksempel vil vi begrense antall kjerner av arbeiderne ved å bruke "-c" -flagg: for eksempel vil kommandoen nevnt nedenfor starte en server med "0" kjerner av prosessorbruk:

$ start-slave.Sh -c 0 Spark: // Adnan: 7077

Du kan se endringene ved å laste inn siden på nytt (https: // localhost: 8080/):

I tillegg kan du også begrense minnet til de nye arbeiderne ved å bruke "-m”Flagg: Kommandoen skrevet nedenfor vil starte en slave med minnebruk på 256MB:

$ start-slave.Sh -m 256m Spark: // Adnan: 7077

Den ekstra arbeidstakeren med begrenset minne er synlig ved nettgrensesnitt (https: // localhost: 8080/):

Hvordan starte/stoppe mester og slave

Du kan stoppe eller stjerne mester og slave på en gang ved å bruke kommandoen nevnt nedenfor:

$ start-all.sh

Tilsvarende vil kommandoen angitt nedenfor stoppe alle forekomster på en gang:

$ stop-all.sh

For å starte og stoppe bare Master Instance, bruk følgende kommandoer:

$ start-master.sh

Og for å stoppe den løpende mesteren:

$ stop-master.sh

Hvordan kjøre Spark Shell

Når du er ferdig med å konfigurere gnistmiljøet; Du kan bruke kommandoen som er nevnt nedenfor for å kjøre Spark Shell; På denne måten testes det også:

$ Spark-Shell

Hvordan kjøre Python i Spark Shell

Hvis Spark Shell kjører på systemet ditt, kan du kjøre Python på dette miljøet; Kjør følgende kommando for å få dette:

$ pyspark

Merk: Kommandoen ovenfor vil ikke fungere hvis du jobber med Scala (standardspråk i Spark Shell), kan du komme deg ut av dette ved å skrive “: q”Og presserende”Tast inn”Eller bare trykk”Ctrl+c”.

Konklusjon

Apache Spark er en Open Source Unified Analytics-motor som brukes til big data-prosessering ved bruk av flere biblioteker og for det meste brukt av dataingeniører og andre som må jobbe med enorme datamengder. I denne artikkelen har vi gitt en installasjonsveiledning av Apache-Spark; I tillegg til konfigurasjonen av gnistmiljø er også beskrevet i detalj. Tillegg av arbeidere med begrenset antall eller kjerner og spesifisert minne vil være nyttig i å spare ressurser mens du jobber med Spark.