Кто считает, что UCS-4 решает все проблемы
lionet — 15.02.2012 ... с многобайтовыми кодировками, тот пусть попытается представить букву «д́» (с диакритикой) одним Unicode код-поинтом.Я уже замучался говорить народу, что ничего нет лучше UTF-8. Для представления человекочитаемого символа что в UTF-16, что в UCS-4 ("UTF-32"), что в UTF-8 может потребоваться несколько комбинаций байт (8 и больше байт в UCS-4!). Это родовая болезнь Unicode, которая делает использование UTF-8 гораздо более правильным и привлекательным, чем все остальные кодировки.
Никогда с юникодом не будет $str[n]="A" правильно работать (заменять произвольный символ на «A») за гарантированную (не amortized) константу времени. Но все пытаются эти грабли непременно пошевелить.