В какой кодировке всё же лучше делать сайт?

Коля Митин

Артём!

Для меня ответ на этот вопрос очевиден: нужно использовать UTF-8.

Изначально программисты разных стран кодировали текст, не думая о том, что в мире есть ещё другие языки со своими символами. Когда цифровой мир объединил интернет, возникла необходимость отображать письма и страницы так, чтобы их можно было прочитать или написать на любом компьютере мира. Так появились кодовые страницы или кодировки. Как метаинформация они прилагались к каждому тексту, говоря браузеру или почтовому клиенту, каким образом расшифровывать байты в печатные символы. Неудивительно, что часто кодировку забывали указать или ошибались с ней. Программам пришлось учиться определять её автоматически, что не всегда удавалось. Стало совершенно очевидно, что миру нужен цифровой Эсперанто. Если в роли обычного языка Эсперанто постиг былинный отказ, то в информационных технологиях он стал панацеей. Только назвали его Юникод.

Самой перспективной версией Юникода стал UTF-8. Он обратносовместим с аски-кодировкой, не ломается, если в строке обнаруживается неправильный символ, и имеет динамический размер кода символа от одного до шести байт.

Есть вещи, которые нужно помнить при работе с Юникодом. Всегда передавайте кодировку с сервера в ХТТП-заголовках и указывайте её в мета-тегах:

<meta charset="UTF-8" />

Помимо хтмлек, нужно убедиться что у файлов с явасксиптами и стилями тоже стоит правильная кодировка. Пример файла .htaccess для Апача:

AddCharset UTF-8 .js
AddCharset UTF-8 .css

Если вы пишете на Руби, то не забывайте ставить в начале файла

# encoding: utf-8

Самые большие проблемы с обработкой UTF-8 в ПХП. Во-первых, нужно использовать mb-аналоги строковых функций, например: mb_substr, вместо substr. Для этого модуль mbstring должен быть загружен в рантайм ПХП. Можно даже сразу настроить его на работу с нужной кодировкой:

mb_internal_encoding('UTF-8');
mb_regex_encoding('UTF-8');

Во-вторых, есть определённые проблемы с нелатинскими символами в регулярных выражениях. Например, даже при указании модификатора u, русские буквы не входят в \w, поэтому их надо указывать явно [А-Яа-яЁё] (Код буквы ё не идёт следом за е в таблице, поэтому она добавляется отдельно).

Код, находящий все слова в строке и помещающий их в переменную $matches

preg_match_all('/[А-Яа-яЁё\w]+/u', $string, $matches);

Популярный в вебе Май-эс-ку-эль пятой версии не имеет никаких противопоказаний к использованию Юникода. После соединения с ним просто выполните команду

SET NAMES ‘utf8’ COLLATE ‘utf8_general_ci’

Правильный коллейшн позволяет считать буквы ё, е и все остальные, которые на них похожи, одним и тем же символом. Это значит, что полнотекстовый поиск выдаст одинаковые результаты по запросам «елка» и «ёлка».

Смотрите также:
совет о Юникоде в ХТМЛ
и заметку Сергея Мартынова об истории кодировок.

Седьмой и восьмой Интернет-эксплореры в русской версии Виндоус Икс-пи передают все русские буквы из адресной строки в кодировке cp1251, независимо от кодировки сайта. Это может причинить неудобства, если вы используете роутер в своём фреймворке. Мне не известен надёжный способ отличить cp1251 и UTF-8 средствами ПХП. Предполагая, что на входе будет кириллица, можно поискать последовательности %d(0|1) плюс любой байт в строке и на основании этого заключить, что это UTF-8.

Когда-то у меня была задача переконвертировать все треклисты альбомов архива CDDB в UTF-8, в 99,9% файлов кодировку правильно определил chardet.

Предлагаю уважаемым советчикам поделиться другими нюансами работы с UTF-8.

P. S.

Это был совет о разработке сайтов. Хотите узнать всё об умной вёрстке, правильных скриптах, грациозной деградации, трюках и работе технолога с дизайнером? Присылайте вопросы.

	Ваш комментарий	Цель рубрики — обсуждение вопросов дизайна всех видов, текста в дизайне и взаимоотношений дизайнеров с клиентами. Мы публикуем комментарии, которые добавляют к уже сказанному новые мысли и хорошие примеры. Мы ожидаем, что такие комментарии составят около 20% от общего числа. Решение о публикации принимается один раз; мы не имеем возможности комментировать или пересматривать свое решение, хотя оно может быть ошибочно. Уже опубликованные комментарии могут быть удалены через некоторое время, если без них обсуждение не становится менее ценным или интересным. Вот такой веб 2.0.

Имя и фамилия	обязательны полностью для публикации комментария
Электронная почта	адрес не будет опубликован
Ваши соображения
Иллюстрация	гиф или джипег шириной не более 700 пикселей

Комментарии

Ваш комментарий

Недавно всплыло