UTF-16 — Википедия

UTF-16 (англ. Unicode Transformation Format) в информатике — один из способов кодирования символов из Юникода в виде последовательности 16-битных слов.

Данная кодировка позволяет записывать символы Юникода в диапазонах U+0000..U+D7FF и U+E000..U+10FFFF (общим количеством 1 112 064). При этом каждый символ записывается одним или двумя словами (суррогатная пара). Кодировка UTF-16 описана в приложении Q к международному стандарту ISO/IEC 10646, а также ей посвящён IETF RFC 2781 «UTF-16, an encoding of ISO 10646».

История появления[править | править код]

Первая версия Юникода (1991 г.) представляла собой 16-битную кодировку с фиксированной шириной символа; общее число разных символов было 2¹⁶ (65 536). Во второй версии Юникода (1996 г.) было решено значительно расширить кодовую область; для сохранения совместимости с теми системами, где уже был реализован 16-битный Юникод, и была создана UTF-16. Область 0xD800—0xDFFF, отведённая для суррогатных пар, ранее принадлежала к области «символов для частного использования».

Поскольку в UTF-16 можно отобразить 2²⁰+2¹⁶−2048 (1 112 064) символов, то это число и было выбрано в качестве новой величины кодового пространства Юникода.

Принцип кодирования[править | править код]

	DC00	…	DFFE	DFFF
D800	010000	…	0103FE	0103FF
D801	010400	…	0107FE	0107FF
…	…
DBFF	10FC00	…	10FFFE

В UTF-16 символы кодируются двухбайтовыми словами с использованием всех возможных диапазонов значений (от 0 до FFFF₁₆). При этом можно кодировать символы Unicode в диапазонах 0000₁₆..D7FF₁₆ и E000₁₆..FFFF₁₆. Исключенный отсюда диапазон D800₁₆..DFFF₁₆ используется как раз для кодирования так называемых суррогатных пар — символов, которые кодируются двумя 16-битными словами.

Символы Unicode до FFFF₁₆ включительно (исключая диапазон для суррогатов) записываются как есть 16-битным словом.

Символы же в диапазоне 10000₁₆..10FFFF₁₆ (больше 16 бит) кодируются по следующей схеме:

Из кода символа вычитается 10000₁₆. В результате получится значение от нуля до FFFFF₁₆, которое помещается в разрядную сетку 20 бит.

Старшие 10 бит (число в диапазоне 0000₁₆..03FF₁₆) суммируются с D800₁₆, и результат идёт в ведущее (первое) слово, которое входит в диапазон D800₁₆..DBFF₁₆.

Младшие 10 бит (тоже число в диапазоне 0000₁₆..03FF₁₆) суммируются с DC00₁₆, и результат идёт в последующее (второе) слово, которое входит в диапазон DC00₁₆..DFFF₁₆.

Порядок байтов[править | править код]

Один символ кодировки UTF-16 представлен последовательностью двух байтов или двух пар байтов. Который из двух байтов идёт впереди, старший или младший, зависит от порядка байтов. Систему, совместимую с процессорами x86, называют little endian, а с процессорами m68k и SPARC — big endian.

Для определения порядка байтов используется метка порядка байтов (англ. Byte order mark). В начале текста записывается код U+FEFF. При считывании, если вместо U+FEFF считалось U+FFFE, значит порядок байтов обратный (little endian), поскольку код U+FFFE в Юникоде не кодирует символ и зарезервирован как раз для целей определения порядка байтов. Так как в кодировке UTF-8 не используются значения 0xFE и 0xFF, можно использовать метку порядка байтов как признак, позволяющий различать UTF-16 и UTF-8.

UTF-16LE и UTF-16BE[править | править код]

Предусмотрена также возможность внешнего указания порядка байтов — для этого кодировка должна быть описана как UTF-16LE или UTF-16BE (little-endian / big-endian), а не просто UTF-16. В этом случае метка порядка байтов (U+FEFF) не нужна.

UTF-16 в ОС Windows[править | править код]

В API Win32, распространённом в современных версиях операционной системы Microsoft Windows, имеется два способа представления текста: в форме традиционных 8-битных кодовых страниц и в виде UTF-16.

При использовании UTF-16, Windows не накладывает ограничений на прикладные программы касательно кодирования текстовых файлов, позволяя им использовать как UTF-16LE, так и UTF-16BE посредством установки и трактовки соответствующей метки порядка байтов. Однако внутренний формат Windows — всегда UTF-16LE. Этот момент следует учитывать при работе с исполняемыми файлами, использующими юникодовые версии функций WinAPI. Строки в них всегда кодируются в UTF-16LE^[1].

В файловых системах NTFS, а также FAT с поддержкой длинных имён, имена файлов записываются также в UTF-16LE.

Примеры процедур[править | править код]

Примеры ниже записаны на псевдокоде и в них не учитывается маска порядка байтов — они лишь показывают суть кодирования. Порядок байтов — от младшего к старшему (Little-Endian, интеловский x86). Тип Word — двухбайтовое слово (16-битное беззнаковое целое), а тип UInt32 — 32-битное беззнаковое целое. Шестнадцатеричные значения начинаются со знака доллара «$».

Кодирование[править | править код]

В примере WriteWord() — условная процедура, которая пишет одно слово (при этом сдвигает внутренний указатель). Функция LoWord() возвращает младшее слово от 32-битного целого (старшие биты, не глядя, отбрасываются).

// Допустимые значения Code: $0000..$D7FF, $E000..$10FFFF. Procedure WriteUTF16Char(Code: UInt32)     If (Code < $10000) Then         WriteWord(LoWord(Code))     Else         Code = Code - $10000         Var Lo10: Word = LoWord(Code And $3FF)         Var Hi10: Word = LoWord(Code Shr 10)         WriteWord($D800 Or Hi10)         WriteWord($DC00 Or Lo10)     End If End Procedure

Декодирование[править | править код]

В примере ReadWord() читает слово из потока (сдвигая при этом внутренний указатель). Она же при необходимости может корректировать порядок байтов. Функция WordToUInt32 расширяет двухбайтовое слово до четырёхбайтового беззнакового целого, заполняя старшие биты нулями. Error() прерывает выполнение (по сути исключение).

// В случае успеха возвращаются значения // в диапазонах $0000..$D7FF и $E000..$10FFFF. Function ReadUTF16Char: UInt32     Var Leading:  Word  // Лидирующее (первое) слово.     Var Trailing: Word  // Последующее (второе) слово.      Leading = ReadWord();     If (Leading < $D800) Or (Leading > $DFFF) Then         Return WordToUInt32(Leading)     Else If (Leading >= $DC00) Then         Error("Недопустимая кодовая последовательность.")     Else         Var Code: UInt32         Code = WordToUInt32(Leading And $3FF) Shl 10         Trailing = ReadWord()         If ((Trailing < $DC00) Or (Trailing > $DFFF)) Then             Error("Недопустимая кодовая последовательность.")         Else             Code = Code Or WordToUInt32(Trailing And $3FF)             Return (Code + $10000)         End If     End If End Function

Примечания[править | править код]

↑ Using Byte Order Marks (англ.). Дата обращения: 18 февраля 2016. Архивировано 22 января 2016 года.

Ссылки[править | править код]

Unicode Technical Note #12: Обработка UTF-16 (англ.)
Unicode FAQ: В чём разница между UCS-2 и UTF-16? (англ.)
RFC 2781: UTF-16, an encoding of ISO 10646 (англ.)
Полное описание стандарта Unicode (англ.)
ISO-10646-UTF-16 (Информация о конвертировании больших значений в два слова UTF-16) (англ.)

[1] Using Byte Order Marks (англ.). Дата обращения: 18 февраля 2016. Архивировано 22 января 2016 года.

[1]

Кодировки символов
алфавит текст файл данные набор символов конверсия
Исторические кодировки	докомп. семафорная (Макарова) Морзе Бодо МТК-2 комп. 6-битная УПП RADIX-50 EBCDIC ДКОИ КОИ-7 ISO 646
современное 8-битное представление	символы ASCII управляющие печатные не-ASCII псевдографика 8-битные код.стр. кириллица КОИ-8 Основная кодировка MacCyrillic ISO 8859 1 (лат.) 2 3 4 5 (кир.) 6 7 8 9 10 11 12 13 14 15 (€) 16 Windows 1250 1251 (кир.) 1252 1253 1254 1255 1256 1257 1258 WGL4 IBM & DOS 437 850 852 855 866 «альтернативная» МИК
Многобайтные	традиционные DBCS GB2312 HTML юникод UTF-32 UTF-16 UTF-8 список символов кириллица
раскладка клавиатуры локаль перевод строки шрифт транслит нестандартные шрифты утилиты iconv recode