Programmeringsspråk følger et sett med standarder for karakterkoding. Disse standardene representerer skriftlige språk og definerer noen regler som må følges for å kode tegn som tilhører de skriftlige språkene. Akkurat som andre programmeringsspråk har Java også en karakterkodingsstandard som blir referert til som Unicode -system. Dette innlegget kaster lys over Java Unicode -systemet.
Hva er et Unicode -system?
Unicode System er en verdensomspennende standard som brukes til å kode 16-biters tegn. Dette systemet kan representere nesten ethvert kjent språk i verden.
Hvorfor Unicode -system?
Før fremveksten av Unicode -systemet var det mange standarder som ble brukt til koding av tegn. Disse var:
- Ascii
ASCII, forkortelse for amerikansk standardkode for informasjonsutveksling er en av de eldste og vanligste standardene for koding av tegn og inkluderer bokstaver A-Z (store bokstaver og små bokstaver) og nummer 0-9, og noen grunnleggende symboler. - ISO 8859-1
ISO 8859-1 er en standard som ble utviklet for det vesteuropeiske språket som inkluderer 128 ASCII-tegn samt 128 ekstra tegn. - Koi-8
KOI-8 er en standard som opprinnelig ble utviklet for russisk som muliggjør koding av 8-biters tegn og inkluderer latinske alfabeter og russiske alfabet (store og små bokstaver begge deler). - GB 18030 og BIG-5
GB 18030 og BIG-5 er standarder som ble utviklet for kineserne. GB18030 representerer alle 20.902 Han -tegn og flere DBCS -symboler, i mellomtiden, Big5, representerer konvensjonelle kinesiske tegn.
I ovennevnte standarder var problemet som skjedde at en spesifikk kodeverdi ble brukt til å representere forskjellige tegn på flere språk. Dessuten var det større karaktersett for forskjellige språk som varierer som 1 byte, 2 byte eller mer.
Så for å løse dette problemet ble Unicode -systemet for språk utviklet. Hver karakter i dette systemet holder 2 byte, i Java 2 -byte brukes for hver karakter.
Konklusjon
Unicode System er en global standard som brukes til karakterkoding av 16-biters tegn. Det oppsto som en løsning på problemene som skjedde i tidligere utviklede språkstandarder. Java bruker dette systemet som er designet for å holde 2 byte for hver karakter. Dette innlegget diskuterer Java Unicode -systemet i dybden.