8-bit fonty a prekodovanie cestiny v logu

Petr Olsak olsak at math.feld.cvut.cz
Wed Sep 2 17:37:47 CEST 1998


On Mon, 31 Aug 1998, Jozef Hitzinger wrote:

> Hm. Co ked je clovek niekde vonku, kde ziadne TCP a prekodovacie patche
> nepoznaju? Ked navyse nema moznost prelozit si vlastne binarky (alebo to
> nevie, nema cas atd), vychadza mi, ze jedinym riesenim je rozlucit sa s
> bud s 8-bit zdrojakmi, alebo so slusnym vystupom do logu. Co je smutne.

Vazeni,

kdyz jsem pred rokem vytvoril encTeX (uprava TeXu umoznujici prekodovani
uvnitr TeXu a moznost prehlednych logu) samozrejme jsem se pokusil encTeX
prosadit do oficialni distribuce web2c. Kdyby se mi to podarilo, nemusely
by takove dotazy dnes vubec existovat, protoze by se vec prirozenou cestou
dostala do ostatnich distribuci TeXu. Nepodarilo se.

Mel jsem tenkrat na toto tema ostrou vymenu nazoru s Karl Berrym (autor a
udrzovatel web2c distribuce) a s nekolika dalsimi TeXovymi protagonisty.
Pokusim se zde shrnout moji a jejich argumentaci, aby bylo verejne znamo,
v cem je problem.

Tvrdim, ze v prostredi ceskeho TeXu se pravdepodobne nejvic vyuzivala
(mozna dosud vyuziva) distribuce emTeX pro OS2 a DOS. Ta umoznovala
prekodovani prostrednictvim TCP tabulek a pri parametru -8 v iniTeXu umela
i prehledne logy). Vzhledem k tomu, ze uzivatele masove prechazeji z DOSu
na jine OS (UNIXove nebo MS WIN), pokud chteji TeX nadale pouzivat, mohou
provozovat emTeX v DOSovem emulatoru (to je pomerne zrudna predstava) nebo
prejit na jinou distribuci TeXu velmi pravdepodobne odvozenou primo
z web2c. Protoze tato distribuce neumoznuje ani prekodovani ani prehledne
logy pro cesky jazyk, je takovy prechod pro vetsinu uzivatelu cestou zpet.

Prekodovani na urovni aktivnich znaku (LaTeXovy balicek inputenc/fontenc)
je sice okamzite pouzitelny pro LaTeX a pro jine formaty se da z nej pouzit
myslenka, ale narazi na problemy. Samozrejme, ze nedokaze resit problem
prehlednych logu a navic, pokud byli uzivatele z emTeXu zvykli pouzivat
akcentova pismena napriklad v \kontrlonich \sekvencich, mohou se s touto
moznosti rozloucit a stare dokumenty, ktere takovou vlastnost mely, vyhodit
nebo prepsat.

Jsem zastancem koncepce, pri ktere se problem prekodovani (mezi kodem
pouzivanym v systemu a vnitrnim kodem TeXovych fontu) ma resit pri
instalaci formatu (v dobe iniTeXu) a nikoli nechavat tuto vec na uzivateli,
aby napsal nejaky parametr pro inputenc do hlavicky sveho dokumentu.
Uzivatel mnohdy ani nevi, v jakem kodovani jeho OS pracuje. Pri vymene
dokumentu e-mailem uzivatelskymi mailovymi programy, ktere umeji MIME,
se navic uzivatel o prekodovani nestara, je-li text primo napsan v tele
dokumentu. Udela to za nej mailovy program. Je-li tedy dokument posilan
touto cestou, pak zaznam v hlavicce dokumetnu muze byt dokonce chybny.

Podrobneji o mych argumentech viz
ftp://math.feld.cvut.cz/pub/olsak/enctex/README.eng.

Protiargumenty se vesmes opiraly o predstavu multilingualniho TeXu, kdy je
potreba jednim formatem zpracovavat dokumenty v ruznych jazycich ruzne
kodovanych treba i uvnitr jedineho dokumentu. V takovem prostredi se jevi
pouziti inputenc/fontenc velmi vyhodne a pozadavek na prehlene cteni logu
ve vsech jazycich se jevi jako principialne nemozne. Tudiz nevznika potreba
tento problem resit. Tisk varovnych hlasek do logu a zvlaste na terminal
v takov^^e9 notaci je bezpecny, protoze ani na starych terminalech se
nerozhodi text vlivem osmibitovych znaku, ktere tam mohou zpusobit efekt
"rozsypany caj". Karl Berry vymyslel sam pro web2c tzv. TCX tabulky, ktere
pak sam zavrhl v komentari, ktery najdeme ve zdrojovem textu k web2c.
Myslim, ze nejbolestivejsi je skutecnost, ze koncepce prekodovani na urovni
takovych tabulek (nebo encTeXem) se pere s koncepci inputenc. Pokud by totiz
format mel definovano vnitrni prekodovani temito tabulkami, pak dokument by
musel byt pripraven v kodovani odpovidajici vstupu podle tabulek a parametr
v inputenc by musel byt zapsan podle vystupu z techto tabulek, tj. uzivatel
nuceny psat tento parametr do sveho dokumentu by byl totalne zmaten.
Zda se, ze pokud si uzivatel zvykl na urcity komfort v emTeXu, mel by si
rychle odvykat, protoze v zajmu prenositelnosti dokumentu ve vicejazykovem
prostredi byla koncepce TCP tabulek a prehlednych logu podle nazoru
nekterych zahranicnich TeXistu uplne spatne.

V techto argumentech se neuvadi, ze tabulky ani encTeX si nedelaji ambici
na reseni multilingualniho TeXu, ale je to pouze moznost, jak prizpusobit
co nejlepe TeX jednomu jazyku na urovni formatu. Neni to nutnost.
Uzivatele mohou pouzit tez jiny format ve stejne instalaci, ktery zadne
prekodovani nedela a ktery tedy predpoklada vyuziti baliku
inputenc/fontenc. Pro reseni multilingualnich problemu bych samozrejme tyto
baliky doporucoval. Pokud se ale v nasem jazyku v ruznych OS pouzivaji
ruzna kodovani textu a tato jsou vesmes odlisna od vnitrniho kodovani
TeXovych fontu, je encTeX nebo TCP tabulky urcite vitana moznost.

Karl Berry me v ramci nasi diskuse pozadal, abych napsal na toto tema
clanek do TUGboatu. Napsal jsem jej (dalo me to vice prace, nez jinym,
protoze jsem hodne slaby v anglictine). Je tomu uz skoro rok, co jsem ho
podal redakci. Pred pul rokem jsem se ptal, v jakem stavu clanek je a dosud
jsem se o jeho osudu nic nedozvedel. Pripada me, jako by i kolem TeXu
fungovala silna lobby. Phill Taylor (koordinator vyvoje e-TeXu) po
zverejneni meho encTeXu chvili jasal, ze to je velmi zajimava myslenka a ze
ji jiste zaradi do e-TeXu. Zrejme po "vnitrostranicke diskusi" vramci
skupiny NTS uz tolik nejasa.

Petr Olsak





More information about the csTeX mailing list