nezlomitelna mezera (WAS: LyX a vlna, opet cestina)
Josef Svoboda
j.svoboda at phoenix.cz
Thu Oct 24 10:41:54 CEST 2002
> Pro pouziti ceske a slovenske abecedy kodovane v UTF-8 v TeXu neni, podle
> meho nazoru, nutne prechazet na Omegu. Staci dva tri radky maker.
> Podle ceskych dokumentu v UTF-8 jsem totiz nabyl dojmu, ze se tam mota
> jeden nebo dva prefixove znaky, za kterym nasleduji dalsi znak(y) a podle
> toho se pozna, co to je za pismeno. Neni problem ty prefixove znaky udelat
> aktivni a expandovat napr. do kodovani CSfontu. Na zacatku dokumentu by se
> pak napsalo neco jako
>
> \activeUTFeight
>
> a bylo by vystarano. Zda se mi, ze se ty prefixove znaky vubec neperou se
> znaky ceske a slovenske abecedy v ISO-8859-2, takze expanze do logu a do
> \write souboru by nevadila a opakovane nacteni by normalne akceptovalo
> vstupni kodovani ISO-8859-2, jak tomu je uz dlouho obvykle.
> Mylim se snad?
Je to definovano v RFC 2044. Funguje to takto:
UCS-4 range (hex.) UTF-8 octet sequence (binary)
0000 0000-0000 007F 0xxxxxxx
0000 0080-0000 07FF 110xxxxx 10xxxxxx
0000 0800-0000 FFFF 1110xxxx 10xxxxxx 10xxxxxx
0001 0000-001F FFFF 11110xxx 10xxxxxx 10xxxxxx 10xxxxxx
0020 0000-03FF FFFF 111110xx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx
0400 0000-7FFF FFFF 1111110x 10xxxxxx ... 10xxxxxx
Napr. pro urceni znaku v pasmu 0000 0080-0000 07FF je potreba 11 bitu, ty se
zkopiruji na pozice oznacene 'x', pocet jednickovych bitu na zacatku UTF-8
jednoznacne urcuje pasmo.
Pro dvoubytovy Unicode by bylo nutno zaktivnit 48 znaku (110xxxxx : 32 znaku,
1110xxxx : 16 znaku). Pro cely Unicode jeste dalsich 14 znaku.
Josef Svoboda
More information about the csTeX
mailing list