ASCII ja Unicode on mõlemad standardid, mis viitavad teksti digitaalsele esitamisele, täpsemalt teksti moodustavatele tähemärkidele. Need kaks standardit on siiski märkimisväärselt erinevad ja paljud omadused peegeldavad nende vastavat loomise järjekorda.

Ameerika versus universum

Ameerika teabevahetuse standardkoodeks (ASCII) näeb üllatuslikult ette Ameerika publikut, kirjutades inglise tähestikus. See käsitleb rõhutamata tähti, näiteks A-Z ja a-z, lisaks vähest arvu kirjavahemärke ja kontrollmärke.

Eelkõige ei saa kuidagi kujutada teistest keeltest, näiteks kohvik ASCII-s, ilma et neid rõhutavate märkidega asendataks (nt kohvik). Lokaliseeritud ASCII laiendused töötati välja erinevate keelte vajaduste rahuldamiseks, kuid need jõupingutused muutsid koostalitlusvõime ebamugavaks ja laiendasid selgelt ASCII võimalusi.

Seevastu universaalne kodeeritud tähemärkide komplekt (Unicode) asub ambitsiooniskaala teises otsas. Unicode püüab rahuldada võimalikult paljusid maailma kirjutamissüsteeme, kuivõrd see hõlmab iidseid keeli ja kõigi lemmik ekspressiivsete sümbolite kogumit - emotikone.

instagram viewer

Tähemärkide komplekt või märkide kodeerimine?

Lihtsamalt öeldes on märgistik tähemärkide valik (nt A-Z), samas kui märk kodeerimine on kaardistamine märgistiku ja väärtuse vahel, mida saab digitaalselt esitada (nt A = 1, B = 2).

ASCII standard on tegelikult mõlemad: see määratleb tähemärkide komplekti, mida see esindab, ja meetodi iga märgi vastendamiseks arvväärtusega.

Seevastu sõna Unicode kasutatakse mitmes erinevas kontekstis erinevate asjade tähistamiseks. Võite mõelda sellest kui kõikehõlmavast terminist, näiteks ASCII, tähistamaks märgistikku ja mitut kodeeringut. Kuna kodeeringuid on mitu, kasutatakse terminit Unicode sageli tähistamaks kogu tähemärkide komplekti, mitte nende kaardistamise viisi.

Suurus

Ulatuse tõttu esindab Unicode palju rohkem märke kui ASCII. Standardne ASCII kasutab 7-bitist vahemikku 128 erineva kodeerimiseks tähemärki. Unicode on seevastu nii suur, et peame sellest rääkimiseks kasutama erinevat terminoloogiat!

Unicode vastab 1 111 998 aadressile koodipunktid. Koodipunkt on laias laastus analoogne tegelasele reserveeritud ruumiga, kuid olukord on palju keerulisem kui detailidesse süvenema hakata!

Kasulikum võrdlus on see, kui palju skripte (või kirjutamissüsteeme) praegu toetatakse. Muidugi tegeleb ASCII ainult inglise tähestikuga, peamiselt ladina või rooma kirjaga. 2020. aastal toodetud Unicode'i versioon läheb palju kaugemale: see sisaldab tuge kokku 154 skriptile.

Ladustamine

ASCII 7-bitine vahemik tähendab, et iga märk salvestatakse ühes 8-bitises baidis; varuots on standardses ASCII-s kasutamata. See muudab suurusarvutused tühiseks: teksti pikkus tähemärkides on faili suurus baitides.

Seda saate kinnitada järgmise bashi käskude jadaga. Kõigepealt loome faili, mis sisaldab 12 tähte teksti:

$ echo -n 'Tere, maailm'> foo

Et kontrollida, kas tekst on ASCII-kodeeringus, saame kasutada faili käsk:

$ fail foo
foo: ASCII tekst, ilma rida lõpetajateta

Lõpuks, faili täpse baitide arvu saamiseks kasutame stat käsk:

$ stat -f% z foo
12

Kuna Unicode'i standard käsitleb palju suuremat tähemärkide vahemikku, võtab Unicode'i fail loomulikult rohkem salvestusruumi. Kui palju täpselt sõltub kodeerimisest.

Varasemate käskude komplekti kordamine, kasutades märki, mida ei saa ASCII-s esindada, annab järgmise:

$ echo -n '€'> foo
$ fail foo
foo: UTF-8 Unicode'i tekst, ilma reaterminaatoriteta
$ stat -f% z foo
3

See üks märk hõivab Unicode'i failis 3 baiti. Pange tähele, et bash lõi automaatselt UTF-8 faili, kuna ASCII fail ei saa valitud tähemärki (€) salvestada. UTF-8 on ülekaalukalt kõige tavalisem Unicode'i märkide kodeering; UTF-16 ja UTF-32 on kaks alternatiivset kodeeringut, kuid neid kasutatakse palju vähem.

UTF-8 on muutuva laiusega kodeering, mis tähendab, et see kasutab erinevate koodipunktide jaoks erinevat mahtu. Iga koodipunkt võtab enda alla ühe kuni neli baiti, eesmärgiga, et tavalisemad märgid nõuaksid vähem ruumi, pakkudes sisseehitatud tihenduse tüüpi. Puuduseks on see, et antud tekstitüki pikkuse või suuruse nõuete määramine muutub palju keerulisemaks.

ASCII on Unicode, kuid Unicode pole ASCII

Tagasiühilduvuse tagamiseks tähistavad esimesed 128 Unicode'i koodipunkti samaväärseid ASCII märke. Kuna UTF-8 kodeerib neid tähemärke ühe baidiga, on mis tahes ASCII tekst ka UTF-8 tekst. Unicode on ASCII superset.

Kuid nagu eespool näidatud, ei saa paljusid Unicode'i faile kasutada ASCII kontekstis. Iga tähemärk, mis on väljaspool piire, kuvatakse ootamatul viisil, sageli asendatud märkidega, mis on täiesti erinevad kavandatutest.

Kaasaegne kasutamine

Enamikul eesmärkidel peetakse ASCII enamasti pärandstandardiks. Isegi olukordades, mis toetavad ainult ladinakeelset kirja - kus toetatakse täielikult Unicode'i keerukust näiteks mittevajalik - tavaliselt on mugavam kasutada UTF-8 ja kasutada ära selle ASCII ühilduvus.

Eelkõige tuleks veebilehti salvestada ja edastada UTF-8 abil, mis on HTML5 jaoks vaikimisi. See on erinevalt varasemast veebist, mis käsitles ASCII-s vaikimisi enne, kui selle asendas ladina 1.

Standard, mis muutub

ASCII viimane läbivaatamine toimus 1986. aastal.

Seevastu Unicode'i uuendatakse jätkuvalt igal aastal. Uusi skripte, tähemärke ja eriti uusi emotikone lisatakse regulaarselt. Kui eraldatud on vaid väike osa neist, kasvab tõenäoliselt kogu tähemärkide komplekt lähitulevikus.

Seotud: 100 kõige populaarsemat selgitatud emotikoni

100 kõige populaarsemat selgitatud emotikoni

Emotikaid on nii palju, võib olla raske teada, mida need kõik tähendavad. Siin on kõige populaarsemad selgitatud emotikonid.

ASCII versus Unicode

ASCII täitis oma eesmärki mitu aastakümmet, kuid Unicode on selle nüüd tõhusalt asendanud kõigil muudel praktilistel eesmärkidel kui pärandsüsteemid. Unicode on suurem ja seega ka väljendusrikkam. See tähistab ülemaailmset koostööd ja pakub palju suuremat paindlikkust, ehkki teatud keerukuse arvelt.

E-post
Mis on ASCII tekst ja kuidas seda kasutatakse?

ASCII tekst on krüptiline, kuid seda on Internetis palju kasutatud.

Seotud teemad
  • Tehnoloogia selgitatud
  • Emotikonid
  • Žargoon
  • Veebikultuur
  • Unicode
Autori kohta
Bobby Jack (23 artiklit on avaldatud)

Bobby on tehnoloogiaentusiast, kes töötas tarkvaraarendajana peaaegu kaks aastakümmet. Ta on mängude vastu kirglik, töötab Switch Player Magazine'is arvustuste toimetajana ning on süvenenud veebiväljaannete ja veebiarenduse kõigisse aspektidesse.

Veel Bobby Jackilt

Telli meie uudiskiri

Liituge meie uudiskirjaga, kus leiate tehnilisi näpunäiteid, ülevaateid, tasuta e-raamatuid ja eksklusiivseid pakkumisi!

Veel üks samm !!!

Palun kinnitage oma e-posti aadress meilis, mille me just saatsime.

.