Python Regex -kamp

Python Regex -kamp
En notasjon (RE) er et bestemt innholdsuttrykk som brukes til å indikere et spesifikt mønster i Python. Det er fantastisk for datautvinning fra forskjellige typer tekst. Det første poenget å nevne når du bruker et vanlig uttrykk viser at alt er en bokstav, og vi lager mønstre for å relatere en viss ordsekvens, ofte kjent som en streng. Bokstavene inneholder alle spesialtegn, så vel som heltall og tegnsettingsmerker. Disse brukes til å matche innholdet. I denne artikkelen vil vi undersøke hvordan du gjør Regex -kampen i Python.

Eksempel nr. 1:

Søk () -funksjonen til et element ser etter hver regex -matching i strengen det er utstyrt med. Gruppen () -funksjonen på matchende enheter henter det samme innholdet fra den hentede teksten.

Import re
MOBNUMREGEX = RE.kompilere (r '\ d \ d \ d- \ d \ d \ d- \ d \ d \ d \ d')
num = MobnumRegex.Søk ('nummer er 031-837-5061.')
Skriv ut ('mobbnummer:' + num.gruppe())

For å starte programmet, må vi integrere ett bibliotek 're' for å bruke regex -funksjonen i koden. Vi har brukt regex -funksjonen for det tilfeldige mobilnummeret. Vi erklærer kompilering (). Innenfor kompilasjonen indikerer vi formatet for å skrive mobilnummeret. Det er 'r' før formatet.

I neste trinn initialiserer vi en ny variabel 'Num' for å lagre mobilnummeret. Her bruker vi funksjonen regex.Søk(). Denne funksjonen inneholder det nødvendige mobilnummeret. Til slutt kalte vi kommandoen Print () for å få utdataene. Vi har gitt parameteren i skjemaet +NUM.gruppe () for å hente hele mobilnummeret:

Eksempel nr. 2:

I dette eksemplet vil vi matche elementene ved hjelp av et gruppeformat. Anta at vi vil skille en del av mobilnummeret fra den gjenværende delen. I regexen oppretter innsetting av braketter sett. Deretter vil vi bruke gruppen () samsvarende elementfunksjon for å få identiske data fra det eneste enkeltsettet.

Import re
MOBNUMREGEX = RE.kompilere (r '(\ d \ d \ d)-(\ d \ d \ d- \ d \ d \ d \ d)')
num = MobnumRegex.Søk ('nummer er 031-837-5061.')
trykk (Num.gruppe (2))

I begynnelsen av koden må vi først skaffe oss 'RE' -pakken som lar oss bruke regex -metoden i dette tilfellet. For ethvert tilfeldig mobiltelefonnummer har vi brukt regex -metoden. Compile () er spesifisert. Vi definerer syntaks for å sette inn mobilnummeret i koden.

Før mønsteret er det et alfabet 'r'. For å lage en ny variabel kalt 'Num' som vil bli brukt til å holde kontaktnummeret, bruk regex.Søk(). Det nødvendige mobilnummeret sendes i denne metoden. For å få resultatet bruker vi PRINT () -kommandoen på slutten. For å få tilgang til den andre delen av det angitte mobilnummeret, har vi spesifisert et argument i stilen +NUM.gruppe (2).

Eksempel nr. 3:

I mønstermatching har parenteser et bestemt formål, men selv om vi må sammenligne en parentes i meldingen. Områdekoden kan spesifiseres i parentes for mobilnummeret som vi prøver å etterligne. I dette tilfellet er det nødvendig med en tilbakeslag for å skille elementene. I den rå linjen som leveres for å kompilere () -funksjonen, ville de rømmingsbrevene samsvare med de virkelige elementene i parentesene.

Import re
MOBNUMREGEX = RE.kompilere (r '(\ (\ d \ d \ d \)) (\ d \ d \ d- \ d \ d \ d \ d)')
num = MobnumRegex.Søk ('Mitt telefonnummer er (015) 932-0394.')
trykk (Num.gruppe (1))

Etter å ha introdusert biblioteket 're', skal vi først oppgi formatet for å legge inn nummeret ved å bruke alfabetet 'r'. Vi deler formatet i to halvdeler. Så ga vi et hvilket som helst tall. Antallet er gitt som en parameter for funksjonen regex.Søk(). Den siste linjen i koden inneholder setningen (). Innenfor denne kommandoen indikerer vi at en del av nummeret vi vil vise. Så vi legger til NUM.gruppe (1). Her viser 1 at vi ønsker å hente det første segmentet av nummeret.

Eksempel nr. 4:

Vi kommer til å matche elementene ved å bruke mange sett ved hjelp av symbolet '|'. '|' symbolet er kjent som et rør. Det kan brukes når vi trenger å sammenligne et av en rekke vilkår.

Import re
CountryRegex = re.kompilere (R'australia | Spania ')
Cu1 = CountryRegex.Søk ('Australia og Spania.')
trykk (Cu1.gruppe())

I dette eksemplet inkluderer vi rammene 're', så skriver vi inn uttrykket innen kompilering () ved å bruke | symbol i form av 'Australia | Spania'. Det ville være å søke etter enten 'Australia' eller 'Spania'. Dette kan gjøres ved hjelp av regexen.Søk () Metode. Kommandoen Print () blir brukt på den angitte strengen. Hvis både Australia og Spania vises i det hentede uttrykket, vil den matchede enheten bli gitt som den første delen av det tilsvarende innholdet.

Eksempel nr. 5:

Krøllete seler kan brukes til å korrelere visse iterasjoner. Hvis vi har et sett som vi ønsker å gjenskape en viss mangfold av ganger, vil vi sette den figuren i krøllete seler etter å ha brukt regex. For å holde den laveste eller høyeste udefinerte, eliminerer vi den første eller andre delen fra krøllete tannregulering. Vi kan indikere et område i stedet for et enkelt datapunkt ved å legge inn det laveste, et komma og det høyeste antallet i de krøllete seler.

Import re
ItRegex = re.kompilere (r '(it) 6')
AU1 = itRegex.søk ('itititititit')
trykk (AU1.gruppe())

Her samsvarer vi med repetisjonene ved å bruke parentesene. Så vi setter inn argumentet det som (det) 6 til funksjonen kompilerer (). Verdien 6 viser at vi vil ha 6 ganger den i utgangen. Regex (it) 6 ville være den samme som strengen 'itititititit'. Mens det ikke ville matche 'ititititit, da dette (det) settet bare vil bli gjentatt fem ganger i sistnevnte. Utskrift () uttalelse skriver ut hele repetisjonene av det.

Konklusjon

I denne artikkelen har vi diskutert hvordan vi skal matche Regex -elementene i Python og få den spesifikke delen av det matchede innholdet. Vi har utført forskjellige programmer angående teknikkene som brukes til å matche dataene. Vi ser også hvordan vi skal matche elementene i settene ved å bruke krøllete seler og | PIP -symbol. Regexes er forkortelsen som brukes til vanlige strenger, som analyserer tekstsekvens. RE -komponenten inkluderer all regex -funksjonalitet. Vanlige kommandoer gjør det mulig for brukerne å søke etter en viss sekvens av innhold.