Просмотр полной версии : Из жизни кодировок
Evgeniy Sklyarevskiy
12.05.2008, 01:33
Статья про историю кодировок (http://infocom.uz/more.php?id=3448_0_1_0_M) и про utf-8
Опубликована посреди конкурсных статей,но это не на конкурс :-)
Напомню, что это не первая статья о кодировках, была уже в 2005 году под названием «Полезные опыты со шрифтами» - http://ru.infocom.uz/more.php?id=A862_0_1_0_M – в ней можно найти историю разных кодировок, опыты на EXCEL’e по выводу символов на экран. А еще раньше была опубликована статья «Макрос с цитрусом и немного о шрифтах» - http://ru.infocom.uz/more.php?id=P329_0_1_0_C&which=weblog – в ней тоже было рассказано о кодах символов. И приведена уникальная коллекция панграмм – фраз, содержащих все буквы алфавита.
Djalolatdin Rakhimov
12.05.2008, 01:51
«Полезные опыты со шрифтами» - http://ru.infocom.uz/more.php?id=A862_0_1_0_M –
там битая ссылка. вот эта - "http://arbuz.uz/x_revich_znsila.html)" - зацепили скобку
Djalolatdin Rakhimov
12.05.2008, 01:52
«Полезные опыты со шрифтами» - http://ru.infocom.uz/more.php?id=A862_0_1_0_M –
там битая ссылка. вот эта - "http://arbuz.uz/x_revich_znsila.html)" - зацепили скобку
и эта "http://arbuz.uz/t_international.html,". Явно не проверяете сборку статей. Уже не в первый раз :)
Ruslan Juldashev
12.05.2008, 08:12
Например, для символов того же английского языка в UTF-8 текст по-прежнему отображается одним байтом, для расширенных символов кириллицы, иврите, иероглифов, скандинавских, индийских и африканских текстов задействуется второй байт.
Выделенное — не совсем корректно. Те же иероглифы могут содержать и два и четыре байта (http://ru.wikipedia.org/wiki/%D0%AE%D0%BD%D0%B8%D0%BA%D0%BE%D0%B4#UTF-8).
Evgeniy Sklyarevskiy
12.05.2008, 10:18
Например, для символов того же английского языка в UTF-8 текст по-прежнему отображается одним байтом, для расширенных символов кириллицы, иврите, иероглифов, скандинавских, индийских и африканских текстов задействуется второй байт.
Выделенное — не совсем корректно. Те же иероглифы могут содержать и два и четыре байта (http://ru.wikipedia.org/wiki/%D0%AE%D0%BD%D0%B8%D0%BA%D0%BE%D0%B4#UTF-8).
Да, согласен, упустил про UTF-16 - трехбайтовая и UTF-32 - четырехбайтная. Как внедрится широко - придется писать :-)
Ruslan Juldashev
12.05.2008, 10:26
Да, согласен, упустил про UTF-16 - трехбайтовая и UTF-32 - четырехбайтная. Как внедрится широко - придется писать :-)
Не так. В UTF-8 тоже есть трёхбайтовые и четырёхбайтовые символы (в теории могут до шести байт быть символы). В UTF-16 символы содержат строго два байта (есть исключения, где используются пара двухбайтовых). А в UTF-32 только четыре байта, для любых символов.
http://softwaremaniacs.org/blog/2006/07/28/unicode-and-bytes/
vBulletin® v3.8.5, Copyright ©2000-2025, Jelsoft Enterprises Ltd. Перевод: zCarot