nezlomitelna mezera (WAS: LyX a vlna, opet cestina)

Thu Oct 24 10:41:54 CEST 2002

> Pro pouziti ceske a slovenske abecedy kodovane v UTF-8 v TeXu neni, podle
> meho nazoru, nutne prechazet na Omegu. Staci dva tri radky maker.
> Podle ceskych dokumentu v UTF-8 jsem totiz nabyl dojmu, ze se tam mota
> jeden nebo dva prefixove znaky, za kterym nasleduji dalsi znak(y) a podle
> toho se pozna, co to je za pismeno. Neni problem ty prefixove znaky udelat
> aktivni a expandovat napr. do kodovani CSfontu. Na zacatku dokumentu by se
> pak napsalo neco jako
>
> \activeUTFeight
>
> a bylo by vystarano. Zda se mi, ze se ty prefixove znaky vubec neperou se
> znaky ceske a slovenske abecedy v ISO-8859-2, takze expanze do logu a do
> \write souboru by nevadila a opakovane nacteni by normalne akceptovalo
> vstupni kodovani ISO-8859-2, jak tomu je uz dlouho obvykle.
> Mylim se snad?

Je to definovano v RFC 2044. Funguje to takto:

UCS-4 range (hex.)    UTF-8 octet sequence (binary)
0000 0000-0000 007F   0xxxxxxx
0000 0080-0000 07FF   110xxxxx 10xxxxxx
0000 0800-0000 FFFF   1110xxxx 10xxxxxx 10xxxxxx

0001 0000-001F FFFF   11110xxx 10xxxxxx 10xxxxxx 10xxxxxx
0020 0000-03FF FFFF   111110xx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx
0400 0000-7FFF FFFF   1111110x 10xxxxxx ... 10xxxxxx

Napr. pro urceni znaku v pasmu 0000 0080-0000 07FF je potreba 11 bitu, ty se
zkopiruji na pozice oznacene 'x', pocet jednickovych bitu na zacatku UTF-8
jednoznacne urcuje pasmo.

Pro dvoubytovy Unicode by bylo nutno zaktivnit 48 znaku (110xxxxx : 32 znaku,
1110xxxx : 16 znaku). Pro cely Unicode jeste dalsich 14 znaku.

Josef Svoboda