Kommandolinjeverktøy for datavitenskap i Linux

Kommandolinjeverktøy for datavitenskap i Linux
Det er forskjellige verktøy og metoder tilgjengelig for å utføre dataanalyse og datavitenskap. Noen av de mer populære programvarene og verktøyene som brukes inkluderer Python, Excel, SQL, etc.

Nå er det gode grunner til at dataforskere foretrekker å bruke de ovennevnte verktøyene, da verktøyene er godt utstyrt for å håndtere mange oppgaver relatert til data. Dette er imidlertid ikke de eneste brukervennlige verktøyene som er tilgjengelige for dem eller oss.

Menneskene som er faste brukere av Linux vet hvor kraftig Linux -kommandoterminalen er. Brukere kan utføre praktisk talt alt relatert til systemene deres ved hjelp av kommandoterminalen. Selv om Linux gir brukerne en attraktiv GUI, er kommandeterminalen morsommere og interaktiv.

Imidlertid er det bare noen få mennesker som faktisk vet hvordan de skal bruke terminalen til å utføre vanlige datavitenskapelige oppgaver. Videre, hvis du er interessert i å finne ut hvordan du bruker terminalen som et verktøy for datavitenskap, er du på rett sted, da vi skal gå over noen av kommandoene du kan bruke til å gjøre nettopp det.

$ WC

Den første kommandoen vi skal forklare er $ WC, og den brukes til å finne ut ordtellingen, karaktertellingen, linjetall og byte teller av en bestemt fil. Denne kommandoen kan være viktig, da du kan sjekke ut hvor stor filen er at du skal sjekke ut. Det er forskjellige utganger med forskjellige operatører brukt med $ WC. Standardutgangen gir oss henholdsvis linjetall, ordtelling og karaktertelling fra venstre til høyre. Syntaksen for denne kommandoen er:

$ WC

$ WGET

En annen viktig kommando som regelmessig kan brukes av dataforskere er $ WGET -kommandoen. Denne kommandoen laster ned filer fra eksterne steder. I tilfelle datasettet, vil du gå gjennom må lastes ned, kan du bruke $ WGET -kommandoen for å få den hentet rett til datamaskinen. Syntaksen for $ wget er:

$ WGET

$ hode og $ halekommandoer.

Tenk på scenariet der du har lastet ned et datasett som består av mange filer. Nå leter du etter en spesifikk fil med spesifikt innhold av interessen din. Du kan bruke $ Head og $ Tail -kommandoer for å bli kjent med innholdet i filene.

Kommandoen $ Head skriver ut de første linjene i filen som utdata. Standardutgangen er 10 linjer, og du kan velge å se så mange linjer du vil.

Kommandoen $ hale gir deg linjene på slutten av filen som utdata. Det har også en standardutgang på 10 linjer. Syntaksen for begge kommandoene er som følger:

$ head -n
$ hale -n

$ Finn

Den neste kommandoen vi skal se på er $ Find -kommandoen. Nå vet du at datasettet forskerne må håndtere er vanligvis veldig stort. Den består av tusenvis av filer, og i tilfelle de vil se etter en bestemt fil, kan den bli hodepine. Skjønt, Linux -terminalen har gitt brukerne sine $ Find -kommandoen. Hvis en person vet navnet på filen han eller hun leter etter, bare bruk $ Finn -kommandoen for å finne den umiddelbart.

$ Finn -Navn <'filename'> - type

$ katt

$ CAT -kommandoen har en rekke bruksområder i datavitenskapens verden. Den mest grunnleggende bruken av $ CAT -kommandoen er at den sender ut alt innholdet i en bestemt fil.

$ katt står for "concatenate", og den kan brukes til å kombinere to eller flere filer sammen for å danne en enkelt fil.

Syntaksen for å få innholdet i en fil er som følger:

$ katt

Andre bruksområder av $ CAT -kommandoen inkluderer nummerering av linjene som er til stede i filen, legger til tekst til filer, oppretter nye filer og etc.

$ kutt

Kommandoen $ kuttet brukes til å fjerne innholdsdelene i en bestemt fil. Du kan også kopiere disse seksjonene og lime dem inn i en annen fil. Det skal vise seg nyttig når du vil trekke ut noen få linjer med nyttig informasjon fra en bestemt fil.

$ kutt -

awk

Før dette så vi på Linux -kommandoer som kan vise seg nyttige for dataforskere. AWK derimot er et fullverdig programmeringsspråk som i utgangspunktet tar for seg å behandle tekst som er til stede i filer eller generelt. Dette er et kraftig verktøy som kan tilkalles i terminalen med korte kommandoer. Det finnes en rekke oppgaver som kan utføres ved hjelp av AWK, og det anbefales at du lærer hvordan du bruker AWK i Linux -terminalen.

Grep

GREP er et annet tekstbehandlingsverktøy som ligner noe på AWK, men det kan også utføre andre oppgaver med minimum oppstyr og syntaks med lett å implementere. Det er et annet verktøy som du kan lære raskt og bruke til din fordel for å utføre tekstlige datarelaterte oppgaver.

Konklusjon

I denne artikkelen så vi på de forskjellige verktøyene og kommandoene som er tilgjengelige på Linux -terminalen som kan hjelpe til med å utføre datavitenskapelige oppgaver. Som du ser, er det flere måter Linux -terminalen kan vise seg å være nyttig, spesielt når det gjelder å håndtere og håndtere data.