Velg flere kolonner i pandaer

Velg flere kolonner i pandaer

Vi vil diskutere pandaer i Python, et open source-bibliotek som leverer datastrukturer med høy ytelse og dataanalyseverktøy som er klare til bruk. Vi vil også lære om DataFrame, fordelene med pandaer, og hvordan du kan bruke pandaer til å velge flere kolonner i en DataFrame . La oss komme i gang!

Hva er pandaer i Python?

Pandas er et Python open source-bibliotek. Den leverer effektive strukturer og verktøy for dataanalyse som er klare til bruk. Pandas er en Python -modul som fungerer på toppen av Numpy og er mye brukt til datavitenskap og analyse. Numpy er et annet sett med datastrukturer på lavt nivå som kan håndtere flerdimensjonale matriser og en rekke matematiske array-operasjoner. Pandas har et mer avansert brukergrensesnitt. Den har også robust tidsseriefunksjon og effektiv tabelldatajustering. Pandas 'primære datastruktur er DataFrame. En 2-D datastruktur lar oss lagre og endre tabelldata. Pandaer gir noen funksjonalitet til DataFrame som datamanipulering, sammenkobling, sammenslåing, gruppering osv.

Hva er en dataafram?

Den mest essensielle og omfattende brukte datastrukturen er DataFrame. Det er en vanlig metode for datalagring. DataFrame lagrer data i rader og kolonner, akkurat som en SQL -tabell eller en regnearkdatabase.

Fordeler med pandaer

Mange brukere ønsker at SQL har inkludert muligheter som Gaussian Random Number Generation eller Quantiles fordi de sliter med å innlemme en prosessuell forestilling i en SQL -spørring. Brukere kan si: "Hvis jeg bare kunne skrive dette i Python og raskt bytte tilbake til SQL," og Pandas gir en tabelldatatype med velutformede grensesnitt som lar dem gjøre akkurat det. Det er flere ordrike alternativer, for eksempel å bruke et spesifikt prosedyrespråk som Oracle's PLSQL eller Postgres 'PLPGSQL eller et databasegrensesnitt på lavt nivå. Pandaer har et en-liner SQL Read-grensesnitt (PD.Les SQL) og et SQL-grensesnitt med én linje (PD.til SQL), sammenlignbar med R -datarammer.

En annen betydelig fordel er at kartbibliotekene som Seaborn kan behandle datarammekolonnene som grafattributter på høyt nivå. Så pandaer gir en rimelig måte å administrere tabelldataene i Python og noen veldig fantastiske lagrings- og kartleggings -API -er.

Alternativ 1: Bruke den grunnleggende nøkkelindeksen

1
2
3
4
5
6
7
8
9
10
Importer pandaer som PD
data = 'navn': ['a', 'b', 'c', 'd'],
'Alder': [27, 24, 22, 32]
df = pd.DataFrame (data)
DF [['Navn', 'Age']]

Produksjon:

1
2
3
4
5
6
7
8
9
Navn Alder
0 a 27
1 B 24
2 C 22
3 D 32

Alternativ 2: Bruke .loc []

1
2
3
4
5
6
7
8
9
10
11
12
1. 3
14
Importer pandaer som PD
data = 'frukt': ['eple', 'banan', 'druer', 'oransje'],
'Pris': [160, 100, 60, 80]
df = pd.DataFrame (data)
df.loc [0: 2, ['frukt', 'pris']]

Produksjon:

1
2
3
4
5
6
7
8
9
Fruktpris
0 Apple 160
1 banan 100
2 druer 60
3 oransje 80

Alternativ 3: Bruke .iloc []

1
2
3
4
5
6
7
8
9
10
11
12
1. 3
14
15
16
17
18
Importer pandaer som PD
data = 'hund': ['a', 'b', 'c', 'd'],
'Alder': [2, 4, 3, 1]
df = pd.DataFrame (data)
df.iloc [:, 0: 2]

Produksjon:

1
2
3
4
5
6
7
8
9
Hundealder
0 a 2
1 B 4
2 C 3
3 d 1

Alternativer 4: Bruke .ix []

1
2
3
4
5
6
7
8
9
10
11
12
1. 3
14
15
16
17
18
Importer pandaer som PD
data = 'navn': ['a', 'b', 'c', 'd'],
'Rull nummer': [21, 25, 19, 49]
df = pd.DataFrame (data)
trykk (df.ix [:, 0: 2])

Produksjon:

1
2
3
4
5
6
7
8
9
Navnrullnummer
0 A 21
1 B 25
2 C 19
3 D 49

Konklusjon

Vi diskuterte om pandaer i Python, DataFrame, fordelene med pandaer, og hvordan du bruker pandaer for å velge flere kolonner i en DataFrame. Det er fire alternativer som vi diskuterte ved valg av flere kolonner: ved å bruke den grunnleggende nøkkelindekseringen, ".ix ”,“.loc ”, og“.iloc ”, henholdsvis.