pdflatex, pismenka bez diakritiky po copy-and-paste z Acrobatu

Thu Sep 2 11:38:16 CEST 2004

Luboš Kloc wrote:
> Richard Pecl wrote:
>> Pouzivam pdflatex a babel (miktex 2.4).
>> Kdyz vygeneruju pdf soubor a prohlizim ho v Acrobat Readeru, jsou 
>> hacky a carky zobrazeny spravne. Ale kdyz text oznacim a vlozim ho do 
>> textoveho editoru (treba do notepadu), tak jsou tam pismena bez 
>> diakritiky a diakriticka znamenka jako samostatna vzdycky pred 
>> pismenem, napr. "tv´arn´ost".
>> Nevite nekdo, jak pdflatex prinutit, aby do pdfka daval primo ceska 
>> pismena (jestli je teda problem v pdflatex)?
>> risa
> 
> 
> V podstate jde o to, ze Adobe Standard Encoding neobsahuje ceske znaky,
> ale obsahuje diakriticka znamenka. Takze ceske znaky se vytvareji ze
> dvou znaku - z prislusneho diakritickeho znamenka a prislusneho pismena
> a mezi nimi je nejaky posuv. Pokud se to ma znovu zpracovavat jako
> prosty text, t.j. pri "copy and paste" a take pri vyhledavani, tak
> se to rozpadne na dva samostatne znaky a posun se ignoruje. To je presne
> vysledek, ktery dostavate. Problem tedy neni tak uplne v pdfLaTeXu.
> 
> Pokud chcete vytvorit cesky PDF soubor, v kterem bude vse vyse uvedene
> fungovat, musite splnit dve podminky:
> 
> 1) pouzit pro sazbu font, ktery ceske znaky primo obsahuje.
> 2) vysvetlit Acrobatu, jake ma pouzity font kodovani

No, ja si myslim, ze mate pravdu jen v bode 1. Do dokumentu se vskutku 
musi vlozit ceske znaky (opatrene spravnym kodovanim) a nikoliv 
kompozity. To by pro spravne kopirovani do schranky melo stacit (a 
urcite mi to staci pro AR 6.0.2 CZ Win, mapovani do Unicode urcite v 
tomto pripade nepouzivam).

Adobe Standard Encoding nebo Unicode maji co do cineni s bookmarkama, 
anotacema ap., protoze v nich je jine kodovani nepristupne.

Pozorovani:
Mapovani ruznych kodovani vsak musi byt v AR imlementovane samo o sobe. 
Napr. pri vyhledavani najde ceska slova s diakritikou, zadavat se vsak 
musi bez diakritiky a vysledek se zobrazi s diakritikou jen pro znaky 
pritomne v Adobe Standard Encoding (?), zbyle prevede na znaky bez 
diakritickych znamenek (!).

Reseni (jak uvedl pan Kloc v bode 1):
Ja babel nepouzivam, ale podle toho, co pisete se zda, ze ceske znaky 
tvori pomoci kompozitu. Asi, lze toto chovani zmenit (napr. pouzitim EC 
fontu), ale nemam s tim zkusenosti, pouzivam CS fonty; v LaTeXu:
   \usepackage{czech}
   pdfcslatex file.tex

Vit Zyka
> 
> Ad 1) v Babelu nevim, jinak CS-fonty nebo treba Lido.
> 
> Ad 2) vlozit do dokumentu prislusnou tabulku ToUnicode. Tady je trochu
> problem, nevim zda prislusne tabulky existuji a jak je vkladat.
> Pred casem o tom byla zde diskuse (viz archiv konference), ale
> jasny zaver z ni nevzesel.
> 
> Taky to lze obejit pouzitim nejakych specialnich nastroju, ktere
> dokazi z tech dvouznakovych sekvenci zpetne text rekonstruovat
> (TextSpy?), ale nepouzivam Win tak se v tom moc nevyznam.
> ale moc se v tom
> 
> S pranim uspechu,
> 
>          Lubos Kloc
> 
> 
> 
>