Installer Apache Spark på Windows Top 10

Lars Solberg

Mens du jobber med programmeringsdata, er det vanligvis ganske vanskelig for nettutviklere å behandle en så stor mengde data. Sammen med det pleier du noen ganger å jobbe med forskjellige programmeringsspråk samtidig for å designe systemet ditt. I slike situasjoner kan det hende du må gå gjennom en enorm mengde kode og behandle den. Derfor trenger vi et system for å behandle arbeidsmengden vår uten å gå gjennom hele prosessen med hele systemet. Apache Spark gir oss muligheten til å jobbe med mange språk om gangen, som Java, R, Python og Scala. Det skjuler også den komplekse behandlingen og lar oss jobbe med færre koder. Denne guiden vil hjelpe deg med å installere Apache Shark på Windows 11.

Installer Java:

Begynner med lanseringen av den mest brukte nettleseren din, last ned og installer den nyeste versjonen av Java. For dette, søk etter det offisielle "Java" -siden og ruten til nedlastingssiden. Last ned den nyeste Java -versjonen fra siden nedenfor.

Kjør den nedlastede “JRE” -filen ved å bruke alternativet “Run as Administrator”. Etter å ha kjørt denne nedlastede “JRE” -filen, blir du presentert med et nytt vindu vist nedenfor. Du må samtykke til lisensavtalen til Java for å installere den. Så trykk på "Installer" -knappen for å fortsette.

Java -installasjonsoppsettet vil begynne å installere det på Windows 11 -operativsystemet vårt.

Etter at installasjonen av Java er fullført, trykker du på "Lukk" -knappen for å lukke vinduet.

Når du sjekker versjonen av Java i ledeteksten, vil du se versjonen av Java installert på systemet vårt i den første linjen i kommandoutgangen "-Verion".

Installer Python:

Det er på tide å installere den nyeste versjonen av Python på vårt Windows 11 -operativsystem. Uten Python fungerer kanskje ikke vår Apache -gnist. Gå derfor til det offisielle nettstedet til Python ved hjelp av nettleseren og naviger mot nedlastingssiden. Du vil bli vist den nyeste utgivelsen av Python. Trykk på den anbefalte lenken for å laste den ned på systemet ditt, i.E, Windows 11.

Kjør den nedlastede “Python” EXE -filen og vent til den begynner installasjonsprogresjonen.

Installasjonsvinduet til Python vil vises, og viser oss informasjonen om installasjonen. Du må bruke alternativet "Installer nå" fra de tilgjengelige alternativene. Ikke merk "Legg til Python 3.20 til banen ”avkrysningsruten. Installasjonen vil bli startet etter det.

Etter en stund vil Python bli installert med hell, og du kan lukke installasjonsvinduet som vises nedenfor ved å bruke "Lukk" -knappen på høyre bunn.

Ved å bruke versjonskommandoen for Python på ledeteksten, vil du se den installerte versjonen av Python, i.e., Python 3.10.6.

Last ned Spark:

Etter de vellykkede installasjonene av Java og Python, er systemet vårt nå klart til å installere Spark. For dette, last den ned fra det offisielle nettstedet først. Sørg for å velge den nyeste versjonen og alternativet “forhåndsbygget for Apache Hadoop 3.3 og alter ”fra rullegardinlisten og enkeltklikk på“ TGZ ”-filen foran den tredje linjen, i.e., “Last ned Spark”.

Du blir omdirigert til en annen side der du kan velge speilfilen for Spark i henhold til ditt valg. Vi anbefaler at du bruker den første lenken som er gitt på bildet nedenfor.

Nå som Spark “TGZ” -filen er lastet ned, er det på tide å bruke den til installasjon.

Bekreft gnistfil:

For å sjekke den nedlastede programvarens pålitelighet, må du bruke den vist-below sertifiseringskommandoen. Det vil sikre filens integritet ved å bruke Checksum fra alternativet "Checksums" på linje 4 på nedlastingssiden. Du må oppgi filens vei i denne kommandoen med alternativet "-hashfile". Utgangen viser sjekksum sammen med den vellykkede fullføringsmeldingen for denne kommandoen. Du kan bekrefte det ved å besøke nedlastingssiden.

Installer Apache Spark:

Etter dette må du opprette en ny mappe for en gnist i rotmappen din der du pleier å installere operativsystemet og andre også, i.e., “C” stasjon. Så bruk "mkdir" -instruksjonen for å opprette en "gnist" -mappe i den.

Nå, åpne C -stasjonen din og naviger i "Spark" -mappen. Du må trekke ut den nedlastede “Spark” ZIP -filen i den som vist på bildet.

Legg til winutils.exe -fil:

Åpne GitHub -siden ved hjelp av “Stien” fra bildet nedenfor og trykk på “Winutils.EXE ”. Et annet skjermbilde vil vises, og du må slå "Last ned" -knappen for å få den.

Du må opprette "Hadoop" -mappen i "C" -stasjonen og opprette en "bin" -mappe i den via MKDIR -spørringen.

Plasser de nedlastede “Winutils.exe ”-filen i den nyopprettede mappen“ Hadoop \ bin ”.

Konfigurer miljøvariabler for Spark:

Det er på tide å legge Spark, Hadoop og Java til miljøvariablene våre. Så søk etter nøkkelordet "Miljø" i søkefeltet og trykk på "Rediger systemmiljøvariablene" -verktøyet som nettopp dukket opp på skjermen.

Vinduet som heter "Systemegenskaper" åpnes på skjermen din. Fra delen nedenfor trykker du på “Miljøvariablene…” -knappen for å fortsette.

Du kan se alle systemvariablene dine oppført der. Trykk på den "nye" -knappen for å generere et friskt miljø som er mutabelt for "gnist" først.

En dialog med "Rediger brukervariabel" vises i et øyeblikk, og du må navngi en variabel "Spark_home" med banen til Spark -mappen som variabel verdi, i.e., “C: \ Spark \ Spark-3.3.0-bin-Hadoop3 ”. Hvis du klikker på "OK" -knappen, angir du en ny miljøvariabel i et system.

Du vil se en variabel som heter “Spark_Home” i brukervariablene. Trykk på variabelen som heter “Path” og knus "Rediger" -knappen.

En skjerm "Rediger miljøvariabel" åpnes. Trykk på den "nye" -knappen for å legge til variabelenes bane. Vurder å bruke variabelnavnet %Spark_Home %”med" \ bin "-mappen.

Tilsvarende lag en ny variabel for “Hadoop”.

Opprett deretter en ny variabel for “Java” også og trykk på “OK”.

På samme måte, trykk på "banen" -variabelen og legg til en sti for "Java" og "Hadoop" -variablene som vi nettopp har opprettet jeg.e. Bruke “%hadoop_home%”, og “%java_home%” variabelnavn med "\ bin" -mappen som vist på skjermen nedenfor.

Start nå "CMD" -applikasjonen som "administrator" via bruk av "Run as Administrator" -valget. Legg til den nedenfor-skurrende kommandoen i spørringsområdet med "Sparkshell" for å se om gnisten er konfigurert med hell eller ikke. Et nytt informasjonsflytvindu åpnes, og du må bruke "Tillat" -knappen for å gi tilgang. Hvis ledeteksten viser "Spark" -designlogoen sammen med den installerte versjonen, er gnisten fullstendig konfigurert og klar til bruk.

C: \ Spark \ Spark-3.3.0-bin-Hadoop3 \ bin \ Sparkshell

Åpne din foretrukne nettleser og skriv inn banen “LocalHost: 4040/Jobs/” inn i den. Apache Sparks nettbrukergrensesnitt vises, og viser sammendraget av systemhendelsene dine.

Konklusjon:

Etter å ha gått gjennom denne guiden, vil du kunne bruke Apache Spark på Windows 11 -operativsystemet, da vi har implementert hver bit av den nødvendige konfigurasjonen for å sette opp Apache Spark. For å sikre at Apache -gnisten din fungerer bra på slutten, bør du ikke legge igjen et eneste trinn som er nevnt ovenfor i guiden, fra og med å installere Java, Python, Spark, legge til Winutils.exe -fil, og den viktigste delen av å sette miljøvariablene.

Python

Matplotlib 2D -histogram

I Python, “PLT.hist2d () ”-funksjon av“ Pyplot ”-modulen i“ Matplotlib ”-biblioteket brukes til å pl...

Elias Krogh Svendsen

Python

Konverter en streng til Json Python

JSON -modulen fungerer, AST -modulfunksjonen eller eval () -funksjonen brukes til å konvertere en st...

Erik Røed

Docker

Hva er docker bind monteringer?

En Docker Bind Mount er en type montering som tillater brukere å kartlegge en katalog eller fil på v...

Alexander Sørlie