uForum.uz

uForum.uz (https://uforum.uz/index.php)
-   Журнал infoCOM.UZ (https://uforum.uz/forumdisplay.php?f=431)
-   -   Из жизни кодировок (https://uforum.uz/showthread.php?t=5045)

Evgeniy Sklyarevskiy 12.05.2008 01:33

Из жизни кодировок
 
Статья про историю кодировок и про utf-8

Опубликована посреди конкурсных статей,но это не на конкурс :-)

Напомню, что это не первая статья о кодировках, была уже в 2005 году под названием «Полезные опыты со шрифтами» - http://ru.infocom.uz/more.php?id=A862_0_1_0_M – в ней можно найти историю разных кодировок, опыты на EXCEL’e по выводу символов на экран. А еще раньше была опубликована статья «Макрос с цитрусом и немного о шрифтах» - http://ru.infocom.uz/more.php?id=P32...C&which=weblog – в ней тоже было рассказано о кодах символов. И приведена уникальная коллекция панграмм – фраз, содержащих все буквы алфавита.

Djalolatdin Rakhimov 12.05.2008 01:51

Цитата:

Сообщение от Evgeniy Sklyarevskiy (Сообщение 99027)
«Полезные опыты со шрифтами» - http://ru.infocom.uz/more.php?id=A862_0_1_0_M

там битая ссылка. вот эта - "http://arbuz.uz/x_revich_znsila.html)" - зацепили скобку

Djalolatdin Rakhimov 12.05.2008 01:52

Цитата:

Сообщение от Djalolatdin Rakhimov (Сообщение 99033)
Цитата:

Сообщение от Evgeniy Sklyarevskiy (Сообщение 99027)
«Полезные опыты со шрифтами» - http://ru.infocom.uz/more.php?id=A862_0_1_0_M

там битая ссылка. вот эта - "http://arbuz.uz/x_revich_znsila.html)" - зацепили скобку

и эта "http://arbuz.uz/t_international.html,". Явно не проверяете сборку статей. Уже не в первый раз :)

Ruslan Juldashev 12.05.2008 08:12

Цитата:

Например, для символов того же английского языка в UTF-8 текст по-прежнему отображается одним байтом, для расширенных символов кириллицы, иврите, иероглифов, скандинавских, индийских и африканских текстов задействуется второй байт.
Выделенное — не совсем корректно. Те же иероглифы могут содержать и два и четыре байта.

Evgeniy Sklyarevskiy 12.05.2008 10:18

Цитата:

Сообщение от Ruslan Yuldashev (Сообщение 99065)
Цитата:

Например, для символов того же английского языка в UTF-8 текст по-прежнему отображается одним байтом, для расширенных символов кириллицы, иврите, иероглифов, скандинавских, индийских и африканских текстов задействуется второй байт.
Выделенное — не совсем корректно. Те же иероглифы могут содержать и два и четыре байта.

Да, согласен, упустил про UTF-16 - трехбайтовая и UTF-32 - четырехбайтная. Как внедрится широко - придется писать :-)

Ruslan Juldashev 12.05.2008 10:26

Цитата:

Сообщение от Evgeniy Sklyarevskiy (Сообщение 99106)
Да, согласен, упустил про UTF-16 - трехбайтовая и UTF-32 - четырехбайтная. Как внедрится широко - придется писать :-)

Не так. В UTF-8 тоже есть трёхбайтовые и четырёхбайтовые символы (в теории могут до шести байт быть символы). В UTF-16 символы содержат строго два байта (есть исключения, где используются пара двухбайтовых). А в UTF-32 только четыре байта, для любых символов.

http://softwaremaniacs.org/blog/2006...ode-and-bytes/


Текущее время: 12:16. Часовой пояс GMT +5.

Powered by vBulletin® Version 3.8.5
Copyright ©2000 - 2024, Jelsoft Enterprises Ltd. Перевод: zCarot
OOO «Единый интегратор UZINFOCOM»