[cstex] Kodovani UTF8

Thu Jan 31 11:05:39 CET 2008

31.1.08, Petr Olsak <petr at olsak.net>:
> ...
> Dovolil bych si upresnit, ze i "skutecny unicode" lze pouzivat s encTeXem
> (pri vynalozeni urciteho uslili), protoze jednotlive UTF-8 kody je mozno
> navazat na kontrolni sekvence, kterych muze byt libovolne mnoho. Pravda,

Dokonce to jde v encTeXu lepe nez pomoci aktivnich znaku. EncTeX totiz
umi poznat sve kontrolni sekvence. Kdyz tedy mate system pracujici v
UTF8, encTeXem prekonvertujete vstup na kontrolni sekvence, pak pro
tisk se provede expanze podle kodovani pouziteho 8bitoveho fontu, ale
pri zapisu do logu se pri vhodnem nastaveni \mubytelog prevedou
kontrolni sekvence zpet na puvodni znaky v UTF8.

> stringy uvnitr TeXu zustavaji 8bitove a fonty na ne navazujici take,
> coz je omezujici. Tohoto omezeni se skutecne bez opusteni puvodniho
> TeXu zbavit neda.
>
Ono to vetsinou nevadi, problem cini napr. indicka pisma. V nich
dochazi k preskupovani znaku takovym zpusobem, ze to pomoci ligatur
nelze vyresit. V 8bitovem TeXu je tedy nutno pouzit preprocesor, fonty
ve formatu OpenType maji pro tyto ucely "features", ktere umi XeTeX
vyuzit. Dale umi XeTeX lepe sazet zprava doleva, coz se hodi pro
jazyky pouzivajici arabske pismo, a shora dolu (japonstina a cinstina
dolu a zprava doleva, stara mongolstina dolu a zleva doprava). Nevim,
zda si XeTeX umi poradit se starym fenickym pismem, kdy se radky psaly
stridave zleva doprava a zprava doleva.

> Zdravim
>
> Petr Olsak

-- 
Zdeněk Wagner
http://hroch486.icpf.cas.cz/wagner/
http://icebearsoft.euweb.cz