pdflatex, pismenka bez diakritiky po copy-and-paste z Acrobatu

Luboš Kloc kloc at ipm.cz
Wed Sep 1 17:38:31 CEST 2004


Richard Pecl wrote:
> Dobry den.
> 
> Pouzivam pdflatex a babel (miktex 2.4).
> Kdyz vygeneruju pdf soubor a prohlizim ho v Acrobat Readeru, jsou hacky a carky zobrazeny spravne. Ale kdyz text oznacim a vlozim ho do textoveho editoru (treba do notepadu), tak jsou tam pismena bez diakritiky a diakriticka znamenka jako samostatna vzdycky pred pismenem, napr. "tv´arn´ost".
> Nevite nekdo, jak pdflatex prinutit, aby do pdfka daval primo ceska pismena (jestli je teda problem v pdflatex)?
> Dik.
> 
> risa

V podstate jde o to, ze Adobe Standard Encoding neobsahuje ceske znaky,
ale obsahuje diakriticka znamenka. Takze ceske znaky se vytvareji ze
dvou znaku - z prislusneho diakritickeho znamenka a prislusneho pismena
a mezi nimi je nejaky posuv. Pokud se to ma znovu zpracovavat jako
prosty text, t.j. pri "copy and paste" a take pri vyhledavani, tak
se to rozpadne na dva samostatne znaky a posun se ignoruje. To je presne
vysledek, ktery dostavate. Problem tedy neni tak uplne v pdfLaTeXu.

Pokud chcete vytvorit cesky PDF soubor, v kterem bude vse vyse uvedene
fungovat, musite splnit dve podminky:

1) pouzit pro sazbu font, ktery ceske znaky primo obsahuje.
2) vysvetlit Acrobatu, jake ma pouzity font kodovani

Ad 1) v Babelu nevim, jinak CS-fonty nebo treba Lido.

Ad 2) vlozit do dokumentu prislusnou tabulku ToUnicode. Tady je trochu
problem, nevim zda prislusne tabulky existuji a jak je vkladat.
Pred casem o tom byla zde diskuse (viz archiv konference), ale
jasny zaver z ni nevzesel.

Taky to lze obejit pouzitim nejakych specialnich nastroju, ktere
dokazi z tech dvouznakovych sekvenci zpetne text rekonstruovat
(TextSpy?), ale nepouzivam Win tak se v tom moc nevyznam.
ale moc se v tom

S pranim uspechu,

          Lubos Kloc






More information about the csTeX mailing list