Mens vi viser Unicode -strenger, kan vi få en 'UnicodeenCodeError.'Unicode er et sett med kodingsbiter i Python. Siden to av bokstavene (og) ikke vil være i den vanlige visningsdelen, slipper kildekoden dem og slipper dem mens de gir den kastede verdien. Unicode er opprettet med informasjonsutvinning. Tekst er en serie datapunkter som kan utvide mer enn en byte.
Innholdet vil bli kodet i et spesifikt format for å vise dataene som en rå byte. Denne artikkelen vil snakke over deg før streng i betydelig detalj.
Bruk enumerate () -funksjonen
Databasen med innhold om kodingsenheter er inkludert i Unicode -definisjonen. Metadataene for hver spesifisert kodingsenhet inneholder karakter, klassifisering og sett med tall, hvis tilgjengelig. Demonstrasjonsparametere, inkludert hvordan du bruker kodingsenhetene i toveis tegn, er også gitt også.
Ved hjelp av enumerate () -metoden representerer den foregående koden data angående forskjellige tegn og gir ut heltallsverdien for dem alle. Eksempelkoden for denne eksempelfunksjonen kan forstås i det vedlagte bildet.
I den første linjen i koden vil vi importere de nødvendige bibliotekets unicode -data. Alle Unicode -bokstavenes egenskaper påvirkes i denne modulen. Som vi diskutert ovenfor, betyr 'U' før strengen at den definerte strengen nå tilhører Unicode -databasen. Så tildeler vi noen innebygde verdier for å sjekke om disse verdiene tilhører Unicode-databasen eller ikke.
Etter dette benyttet vi en for loop og satte sitt område til verdien av 'u' ved å passere verdien som parametrene til den enumerate () -funksjonen. Denne funksjonen tar sikte på å gi en telling som itererer gjentatte ganger og henter den som et oppregnet objekt.
Nå må vi skrive ut indeksen for loopen og indeksen for koden i databasen. Vi passerer variabel 'A' som parameter for Unicodedata () -metoden. På slutten av programmet bruker vi utskrift () uttalelse for å vise kategorien av Unicode som vi tildeler i variabelen 'u.'Verdien av' U 'er gitt som et argument for funksjonen numerisk (). Ved å gjøre dette, skriver vi ut Unicode Numeric Values.
Kodene er akronymer som indikerer bokstavens natur i utgangen. 'LL' står for 'Brev, små bokstaver, "Nei" står for "Number, Other," og' MN 'er for "Mark, ikke -pacing.”
Sammenlign to strenger ved å bruke normalisere () -funksjonen
Unicode forenkler strengsammenligninger siden den identiske bokstavens sekvens kan uttrykkes ved distinkte kodingspunktmønstre. Normaliseringen () -metoden til biblioteket 'Unicodedata' oversetter strenger til visse andre sorterte rekkefølge, med tegn foran med et sammenføyningsbrev erstattet av enkeltbiter.
Når strenger inneholder distinkte kombinerte elementer, vil normalisere () bli brukt for å gjøre streng -sammenligning som kanskje ikke hevder segregering. Eksempelkoden for denne eksempelfunksjonen kan forstås i det vedlagte bildet.
Først av alt integrerer vi biblioteket 'Unicodedata' som forbinder oss med databasen til Unicode. I neste linje definerer vi funksjonen 'Compare_strs ()'. Vi har passert to strenger, 'S1' og 'S2', som argumenter for denne funksjonen. I funksjonen av funksjonen definerer vi igjen en funksjon NFD (), og denne funksjonen holder en substring som parameter. Vi brukte returerklæringen sammen med normaliseringsmetoden () metoden. Det brukes for å gi det vanlige formatet på Unicode -strengen. Denne funksjonen inneholder verdien av 'NFD' og verdien av Substring 'S' som argumenter. Og den gyldige verdien for denne parameteren er NFD, som er en av de normaliserte formene.
Deretter tildeler vi strengen vår til en annen streng og gir parametrene til NFD () -funksjonen. Vi initialiserte to strenger. Den første strengen lagrer en enkelt verdi, og den andre har flere verdier. Uttalelsen () uttalelsen blir påkalt. I utskriftserklæringen sjekker vi lengden på begge strengene ved å bruke Len () -funksjonen. Endelig sammenligner vi begge strengene ved hjelp av Compare_strs () -funksjonen. Fordi begge ikke er like, returnerer det 'usant' som vist i utgangen.
Bruk Casefold () -funksjon
Normaliseringsmetoden () tar en streng som den første parameteren, som spesifiserer den tiltenkte normaliserte skjemaet. Sammenligning av strenger ved å bruke Casefold () -metoden er også definert i Unicode -standarden. Eksempelkoden for denne eksempelfunksjonen kan forstås i det festede bildet.
Etter å ha importert biblioteket 'Unicodedata, "må vi definere funksjonen Compare_Caseless (). For å bruke denne funksjonen, kaller vi en annen funksjon NFD (). Den returnerer en av de normaliserte formene. Vi brukte også normaliseringsfunksjonen () i "retur" -erklæringen.
Deretter vil vi tilordne den første strengen til den andre som parametrene til NFD () -metoden ved hjelp av Casefold () -funksjonen. De to strengene vil bli erklært. Den ene strengen består av en enkelt karakter, og den andre har flere tegn. Til slutt, for å sammenligne begge disse strengene, påkaller vi Compare_caseless () -metoden.
I utgangen returnerer koden 'sanne.'Casefold () -metoden gir en streng som ikke er normalisert på grunn av noen bokstaver; Utgangen må standardiseres igjen.
Konklusjon
Denne artikkelen har undersøkt hva den betyr i Python å legge til deg før en streng ved å bruke forskjellige forekomster. Brevet 'U' rett før strengen spesifiserer at den vil bli konvertert til Unicode. Python Unicode-Escape-koding kan brukes til å imøtekomme spesialtegn i en sekvens. Headerfilen 'Unicode' gir oss tilgjengeligheten til UCD mens vi bruker identiske tegn og identifikatorer som brukes av Unicode -symbolet i databasen.