Datastrukturen til Spark er basert på RDD (forkortelse av spenstig distribuert datasett); RDD består av uforanderlig distribuert samling av objekter; Disse datasettene kan inneholde alle typer objekter relatert til Python, Java, Scala og kan også inneholde de brukerdefinerte klassene. Den brede bruken av Apache-Spark er på grunn av dens arbeidsmekanisme at den følger:
Apache Spark jobber med master- og slavefenomener; Etter dette mønsteret er en sentral koordinator i Spark kjent som “sjåfør”(Fungerer som en mester) og dens distribuerte arbeidere er navngitt som“ Executors ”(fungerer som slave). Og den tredje hovedkomponenten i Spark er “Cluster Manager”; Som navnet indikerer er det en leder som administrerer eksekutører og drivere. Utførerne blir lansert av “Cluster Manager”Og i noen tilfeller lanseres også sjåførene av denne manageren av Spark. Til slutt er den innebygde manageren for Spark ansvarlig for å lansere enhver Spark-applikasjon på maskinene: Apache-Spark består av en rekke bemerkelsesverdige funksjoner som er nødvendige for å diskutere her for å fremheve det faktum at de brukes i stor databehandling? Så funksjonene til Apache-Spark er beskrevet nedenfor:
Egenskaper
Her er noen særegne funksjoner som gjør Apache-Spark til et bedre valg enn konkurrentene:
Hastighet: Som diskutert ovenfor, bruker den DAG -planleggeren (planlegger jobbene og bestemmer passende sted for hver oppgave), utførelse av spørring og støttende biblioteker for å utføre enhver oppgave effektivt og raskt.
Multispråkstøtte: Det flerspråklige funksjonen til Apache-Spark lar utviklerne bygge applikasjoner basert på Java, Python, R og Scala.
Sanntidsbehandling: I stedet for å behandle lagrede data, kan brukere få behandling av resultater ved å behandle sanntidsbehandling av data, og derfor gir de øyeblikkelige resultater.
Bedre analyser: For analyser bruker Spark en rekke biblioteker for å tilby analyser som, maskinlæringsalgoritmer, SQL -spørsmål osv. Imidlertid bruker konkurrenten Apache-Mapreduce bare kart og reduserer funksjoner for å gi analyser; Denne analytiske differensieringen indikerer også hvorfor Spark overgår MapReduce.
Å fokusere viktigheten og fantastiske trekk ved Apache Spark; Dagens forfatter vil bane vei for deg å installere Apache Spark på Ubuntu
Hvordan installere Apache Spark på Ubuntu
Denne delen vil guide deg til å installere Apache Spark på Ubuntu:
Trinn 1: Oppdater systemet og installer Java
Før du får innsikt i kjernedelen av installasjonen; La oss oppdatere systemet ved å bruke kommando nevnt nedenfor:
$ sudo apt oppdatering
Etter oppdateringen vil kommandoen skrevet nedenfor installere Java-miljøet, da Apache-Spark er en Java-basert applikasjon:
$ sudo apt install standard-jdk
Trinn 2: Last ned Apache Spark -filen og utdrag
Når Java er installert, er du klar til å laste ned Apache Spark -filen fra nettet, og følgende kommando vil laste ned den siste 3.0.3 Bygg av gnist:
$ wget https: // arkiv.Apache.org/dist/gnist/gnist-3.0.3/Spark-3.0.3-bin-Hadoop2.7.tgz
Du må trekke ut den nedlastede filen slik; Følgende kommando vil utføre utvinningen (i mitt tilfelle):
$ tar XVF Spark-3.0.3-bin-Hadoop2.7.tgz
Etter det, flytt den ekstraherte mappen til “/OPT/”Katalog ved å følge den nedenfor-nevnte kommandoen:
$ sudo mv Spark-3.0.3-bin-Hadoop2.7//opt/gnist
Når du har fullført de ovennevnte prosessene, betyr det at du er ferdig med å laste ned Apache Spark, men vent; Det fungerer ikke før du konfigurerer Spark -miljøet De kommende seksjonene vil veilede deg til å konfigurere og bruke Spark:
Hvordan konfigurere gnistmiljø
For dette må du angi noen miljøvariabler i konfigurasjonsfilen "~/.profil”;
Få tilgang til denne filen ved å bruke redaktøren din (Nano I mitt tilfelle), vil kommandoen skrevet nedenfor åpne denne filen i Nano Editor:
$ sudo nano ~/.profil
Og skriv følgende linjer på slutten av denne filen; Når du er ferdig, trykk “Ctrl+s”For å lagre filen:
Eksporter Spark_Home =/Opt/Spark
Eksportbane = $ Sti: $ Spark_Home/Bin: $ Spark_Home/SBIN
Eksporter pyspark_python =/usr/bin/python3
Last inn filen for å få endringene for Spark -miljø:
$ kilde ~/.profil
Hvordan starte frittstående masterserver av Spark
Når miljøvariablene er satt; Nå kan du starte prosessen for frittstående masterserver ved å bruke kommandoen skrevet nedenfor:
$ start-master.sh
Når du har startet prosessen; Nettgrensesnittet til Master Server kan hentes ved å bruke adressen som er nevnt nedenfor; Skriv følgende adresse i nettleseradressefeltet
https: // localhost: 8080/
Hvordan starte slave/arbeiderserver av Spark
Slaveserveren kan startes ved å bruke kommandoen som er angitt nedenfor: Det blir lagt merke til at du trenger URL for Master Server for å starte Worker:
$ start-slave.SH Spark: // Adnan: 7077
Når du har startet; Kjør adressen (https: // localhost: 8080) og du vil merke at det er en arbeider lagt til i “Arbeidere" seksjon. Det blir lagt merke til at arbeideren bruker "1" kjerne av prosessor og 3.3 GB RAM som standard:
For eksempel vil vi begrense antall kjerner av arbeiderne ved å bruke "-c" -flagg: for eksempel vil kommandoen nevnt nedenfor starte en server med "0" kjerner av prosessorbruk:
$ start-slave.Sh -c 0 Spark: // Adnan: 7077
Du kan se endringene ved å laste inn siden på nytt (https: // localhost: 8080/):
I tillegg kan du også begrense minnet til de nye arbeiderne ved å bruke "-m”Flagg: Kommandoen skrevet nedenfor vil starte en slave med minnebruk på 256MB:
$ start-slave.Sh -m 256m Spark: // Adnan: 7077
Den ekstra arbeidstakeren med begrenset minne er synlig ved nettgrensesnitt (https: // localhost: 8080/):
Hvordan starte/stoppe mester og slave
Du kan stoppe eller stjerne mester og slave på en gang ved å bruke kommandoen nevnt nedenfor:
$ start-all.sh
Tilsvarende vil kommandoen angitt nedenfor stoppe alle forekomster på en gang:
$ stop-all.sh
For å starte og stoppe bare Master Instance, bruk følgende kommandoer:
$ start-master.sh
Og for å stoppe den løpende mesteren:
$ stop-master.sh
Hvordan kjøre Spark Shell
Når du er ferdig med å konfigurere gnistmiljøet; Du kan bruke kommandoen som er nevnt nedenfor for å kjøre Spark Shell; På denne måten testes det også:
$ Spark-Shell
Hvordan kjøre Python i Spark Shell
Hvis Spark Shell kjører på systemet ditt, kan du kjøre Python på dette miljøet; Kjør følgende kommando for å få dette:
$ pyspark
Merk: Kommandoen ovenfor vil ikke fungere hvis du jobber med Scala (standardspråk i Spark Shell), kan du komme deg ut av dette ved å skrive “: q”Og presserende”Tast inn”Eller bare trykk”Ctrl+c”.
Konklusjon
Apache Spark er en Open Source Unified Analytics-motor som brukes til big data-prosessering ved bruk av flere biblioteker og for det meste brukt av dataingeniører og andre som må jobbe med enorme datamengder. I denne artikkelen har vi gitt en installasjonsveiledning av Apache-Spark; I tillegg til konfigurasjonen av gnistmiljø er også beskrevet i detalj. Tillegg av arbeidere med begrenset antall eller kjerner og spesifisert minne vil være nyttig i å spare ressurser mens du jobber med Spark.