KompiuteriaiInformacinės technologijos

Kodavimas "Unicode": charakteris kodavimo standartas

Kiekvienas interneto vartotojas, bandant sukurti vieną ar kitą jos funkcija bent kartą pamačiau ekrane raštiško lotyniškomis raidėmis žodis "Unicode". Kas tai yra, jums bus išmokti skaityti šį straipsnį.

apibrėžimas

Kodavimas "Unicode" - simbolių kodavimo standartas. Jis pasiūlė "Unicode Inc. ne pelno organizacija 1991. Standartas skirtas suburti kuo daugiau įvairių tipų simbolių dokumente. Puslapis, kuris buvo įsteigtas jo pagrindu, gali sudaryti raidės ir simboliai iš įvairių kalbų (iš rusų į korėjiečių) ir matematinius ženklus. Šiuo atveju, visi iš simbolių rinkinį simbolių rodomi be jokių problemų.

Už kūrimo priežastys

Kažkada, seniai prieš vieną sistemą išvaizdos "Unicode" kodavimas pasirinktas remiantis dokumento autoriaus pageidavimus. Dėl šios priežasties, dažnai skaityti dokumentą, buvo būtina naudoti skirtingus lenteles. Kartais būtina padaryti kelis kartus, o tai labai apsunkina, kad vidutinis vartotojas gyvenimą. Kaip jau minėta, šios problemos sprendimas 1991 buvo pakviestas į Unicode Inc. ne pelno organizacija siūlo naujo tipo simbolių koduotę. Ji buvo sukurta siekiant sujungti sena ir standartų įvairovė. "Unicode" "- kodavimo kad ozvolila pasiekti neįsivaizduojamas metu: sukurti įrankį, kuris palaiko daugybę simbolių. Rezultatas viršijo daug lūkesčių - ten buvo dokumentai tuo pat metu, kuriuose anglų ir rusų tekstą, lotynų ir matematines išraiškas.

Bet vieningą kodavimo prieš kurį poreikio sukūrimas išspręsti problemas, kurios iškilo skaičių dėl didžiulės įvairovės standartus jau esamų tuo metu. Dažniausi iš jų:

  • Elfų raštu, arba "svaičiojimas";
  • charakterio rinkinys apribojimai;
  • problema transformuoti koduotės;
  • šrifto dubliavimo.

Mažas istorinis ekskursas

Įsivaizduokite, kad kiemo 80.. Kompiuterinė įranga yra ne taip dažnai ir turi formą skiriasi nuo šiandien. Nors kiekviena OS yra unikalus ir rafinuotas konkrečius kiekvieno entuziastas poreikius. Reikia keistis informacija paverčiama papildomą Rework visko. Bando skaityti dokumentą, sukurtą kitos operacinės sistemos, dažnai rodo keistą simbolių rinkinį, o žaidimas prasideda su koduotę. Tai ne visada tai padaryti greitai, ir kartais reikia dokumentas Nepavyko atidaryti per šešis mėnesius, ir net vėliau. Žmonės, kurie dažnai keistis informacija, sukurti sau konversijos lentelę. Ir tada dirbti jiems atskleidžia įdomią detalę: reikia kurti juos dviem kryptimis, "iš mano savo" pirmyn ir atgal. Padaryti banali inversija skaičiavimo mašina negali, už tai, dešiniame stulpelyje šaltinio, o kairėje - rezultatas, bet ne atvirkščiai. Jei matote, kad reikia naudoti jokių specialių simbolių dokumente, jie turėjo būti pridėta, ir tada kitą, ir paaiškinti partneriui, ką jis turi daryti, kad šių simbolių neturi tapti "svaičiojimas." Ir nepamirškime, kad kiekvienas kodavimas turėjo sukurti ar įgyvendinti savo šriftus, kuris privedė prie didžiulio skaičiaus dublikatų į OS kūrimą.

Įsivaizduokite toliau, kad dėl puslapio šriftus, pamatysite 10 vienetų identiški Times New Roman su nedideliu Pastaba: už UTF-8, UTF-16, ANSI, UCS-2. Dabar jūs suprantate, kad universalių standartų kūrimas buvo būtina?

"įkūrėjus iš kūrėjų"

Šio Unicode kūrimo ištakos galima rasti 1987 m, kai Dzho Bekker Xerox, kartu su Lee Collins ir Mark Davis iš "Apple" pradėjo tyrimus į praktinę kuriant visuotinę simbolių rinkinį srityje. 1988 rugpjūčio mėn Dzho Bekker išleido pasiūlymo projekto 16 bitų daugiakalbėje tarptautinės kodavimo sistemos sukūrimo.

Po kelių mėnesių "Unicode" darbo grupė buvo išplėsta, kad apimtų Ken Whistler ir Mike Kernegana nuo RLG, Glenn Rayt Sun Microsystems ir keletas kitų specialistų, leidžianti darbo užbaigimą dėl preliminaraus formavimo bendros kodavimo standartą.

bendras aprašymas

Unicode remiantis simboliu koncepciją. Pagal šį apibrėžimą remiasi abstraktaus reiškinio, kad egzistuoja tam tikros formos raštu bei patirtų per grafemos (jų "Portretai"). Kiekvienas personažas yra pateikta "Unicode" unikaliu kodu, priklausančio tam tikro vieneto standartą. Pvz Slovo naud B yra taip pat anglų ir rusų kalbos abėcėlė, bet jis atitinka "Unicode" 2 skirtingų charakterių. Jie taikomi konvertavimo į mažąsias, T. E. kurių kiekviena apibūdina pagrindinį duomenų bazės, savybių rinkinys ir pavardė.

Privalumai Unicode

Iš kitų amžininkų, koduojančių "UNICODE" Yra didžiulis akcijų žymenų "šifravimo" simbolių. Tas faktas, kad jo pirmtakai turėjo 8 bitai, kad remia 28 simbolių, tačiau naujas dizainas jau buvo 216 simbolių, tai buvo milžiniškas žingsnis į priekį. Tai leido koduoti beveik visų esamų ir bendros abėcėlės.

Su "Unicode" atėjimas nebereikia naudoti konversijos lentelę: kaip vieną standartą jis tiesiog išnykti jų poreikis. Be to, jie nuskendo į užmarštį, ir "svaičiojimas" - vienas standartinis padarė juos neįmanoma, taip pat paneigti būtinybę sukurti pasikartojančius šriftus.

plėtra Unicode

Žinoma, pažanga yra ne vieta, ir nuo pirmojo pristatymo praėjo 25 metų. Tačiau charset "Unicode" atkakliai išlaiko savo pozicijas pasaulyje. Daugeliu atžvilgių tai tapo įmanomas dėka to, kad jis tapo lengva įgyvendinti ir išplito, pripažįstamas kūrėjai nuosavybės (mokama) ir atviro kodo programinę įrangą.

Mes neturėtume manyti, kad šiandien mes matome tą patį kodą "Unicode" kaip ir prieš ketvirtį amžiaus. Šiuo metu, tai buvo pakeistas versija 5.h.h ir koduotų simbolių skaičius išaugo iki 231. Remiantis naudojant didesnį skirtumą ženklai atsisakė vis dar išlaikyti paramą Unicode 16 galimybe (kodavimo, kur maksimalus jų ribotą skaičių 216). Nuo savo veiklos pradžios ir iki versijos 2.0.0 "Unicode standartas" išaugo simbolių, kad ji apėmė beveik 2 kartų. galimybės ir toliau augimas ateinančiais metais. Versijos 4.0.0 jau yra poreikis didinti pati standartą, ir kad buvo padaryta. Kaip rezultatas, "Unicode" rado formą, kurioje mes jį žinome šiandien.

Kas kita yra Unicode?

Be to, didžioji, nuolat atnaujinama su simbolių skaičių, "Unicode" -užšifravimo tekstinę informaciją yra dar viena naudinga savybė. Tai vadinamasis normalizavimas. Užuot slinkti per visą dokumento pobūdį, charakterį, ir pakeisti korespondencijos stalo piktogramas, naudokite vieną iš esamų normalizavimo algoritmai. Kas tai yra?

Užuot eikvoti kompiuterio išteklius reguliariai patikrinti to paties pobūdžio, kuris gali būti panašus į skirtingų abėcėlių, naudojant specialų algoritmą. Tai leidžia jums padaryti panašūs simboliai atskira skiltis peržvalgos lentelę ir jau taiko jiems, o ne vėl ir vėl dar kartą patikrinti visus duomenis.

Tokie algoritmai kuriami ir įgyvendinami keturi. Kiekvienos konversijos vyksta griežtai tikrą principą, skiriasi nuo kitų, todėl skambinti bet viena iš jų nėra efektyviausias įmanoma. Kiekvienas skirtas specialiųjų poreikių, buvo įdėta ir sėkmingai naudojamas.

sklaida standartas

Per 25 metų savo istoriją kodavimo "Unicode" Aš gavau turbūt labiausiai paplitęs pasaulyje. Pagal šį standartą yra koreguojami programų ir interneto puslapių. Taikymo plotis gali nurodyti, kad "Unicode" dabar naudojasi daugiau nei 60% interneto išteklių.

Dabar, žinote, kai "Unicode" standartą atsirado. Kas tai yra, jūs taip pat žinoti ir gebėti įvertinti visą reikšmę išradimą, padarytą ekspertų Unicode Inc. grupės Daugiau nei prieš 25 metų.

Similar articles

 

 

 

 

Trending Now

 

 

 

 

Newest

Copyright © 2018 lt.birmiss.com. Theme powered by WordPress.