Студопедия

Главная страница Случайная страница

Разделы сайта

АвтомобилиАстрономияБиологияГеографияДом и садДругие языкиДругоеИнформатикаИсторияКультураЛитератураЛогикаМатематикаМедицинаМеталлургияМеханикаОбразованиеОхрана трудаПедагогикаПолитикаПравоПсихологияРелигияРиторикаСоциологияСпортСтроительствоТехнологияТуризмФизикаФилософияФинансыХимияЧерчениеЭкологияЭкономикаЭлектроника






Кодировки Unicode, UTF-8. ISO 8859-5 и 10646.






 

Unicode разработан Apple и Xerox в 1988 г. Unicode представляет собой 16-битную кодировку и позволяет кодировать 65536 знаков вместо 256 8-битных знаков.

Около 29000 кодовых позиций Unicode не заняты. 6000 - зарезервированы для использования программистами. Unicode решает проблему национальных алфавитов ценой удвоенного расхода памяти, а также позволяет единообразно представлять строки, допуская смешение алфавитов.

UTF-8 - распространённая кодировка символов Юникода, совместимая с 8-битными форматами передачи текста. В UTF-8 можно кодировать значения кодов символов от 0 до 7FFFFFFF16 включительно. Каждый символ кодируется переменным количеством последовательных 8-битных байт. Количество может варьироваться от 1 до 6 байт включительно (реально только до 4 байт, поскольку использование кодов больше 221 не планируется) и определяется самым первым байтом. UTF-8 является самосинхронизирующейся кодировкой: при потере одного байта последующие байты будут раскодированы корректно. Текст, состоящий только из символов Юникода с номерами меньше 128, при записи в UTF-8 превращается в обычный текст ASCII. И наоборот, в тексте UTF-8 любой байт со значением меньше 128 изображает символ ASCII с тем же кодом.

ISO 8859-5 - 8-битная кодовая страница из семейства кодовых страниц стандарта ISO-8859 для представления кириллицы. SO 8859-5 была создана на базе «основной кодировки» (все русские буквы сохранили своё расположение, за исключением заглавной Ё). В целом ISO 8859-5 — не очень удобная кодировка, поскольку в ней отсутствуют многие нужные символы, такие как тире (—), кавычки-ёлочки («»), градус (°) и др. Нет также буквы Ґ, используемой в украинской письменности. Порядок символов этой кодовой страницы использовался при размещении букв кириллицы в наборе символов Unicode (со сдвигом вверх на 864 позиции). В России эта кодировка почти не употребляется, тем не менее на некоторых иностранных системах для русского языка по умолчанию ставится ISO 8859-5.

Международный стандарт ISO 10646 дает определение универсальному набору символов – юникоду. UCS содержит символы, необходимые для представления практически всех известных сейчас языков. Основные коды стандарта Unicode составляют первые 65, 536 кодов стандарта ISO 10646 и содержат все знаки, в настоящее время определенные ISO 10646. Остальные коды ISO 10646 остаются незаполненными и зарезервированы для будущего расширения. Чтобы отразить знаки, имеющиеся в ISO 10646, стандарт Unicode включил более чем 3600 новых китайских, японских и корейских знаков и более чем 1000 других знаков.

 






© 2023 :: MyLektsii.ru :: Мои Лекции
Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав.
Копирование текстов разрешено только с указанием индексируемой ссылки на источник.