Jak dostat české znaky z pdf

Sun Apr 9 18:31:56 CEST 2006

Pavel Lisý napsal(a):
> Dobrý den
> 
> potřeboval bych vyřešit problém, na který jsem narazil. 
> 
> Dělám zpěvník v LaTeXu a potřeboval bych jeho výstup poskytnout i lidem
> pracujícím pouze ve windows ve Wordu a spol. 
> 
> Původně jsem si myslel, že to půjde přes pdflatex, ale má to vážné
> úskalí. Výstup je možné správně zobrazit, ale nelze z něj nic zkopírovat
> (přes clipboard), resp. kopírovat lze, ale české znaky jsou "rozbité",
> tj. diakritika a znak jsou samostatně.
> 
> Chápu, že je to asi dáno způsobem, jak tex daný výstup sestavuje, ale
> potřebuji výsledky nějak předat pro možnost dalšího zpracování jinými
> programy.
> 
> Dá se to nějak vyřešit?
> 
> Lze k tomu nějak přesvědčit pdftex/pdflatex. Nebo existuje prošlapaná
> cesta jinudy? Např. přes konverzi do html, resp. rtf? 
> 
> Jde mi o to, aby v tom nějakým způsobem zůstala i formátovací informace.
> 
> Máte s tím někdo zkušenosti?
> 
> Předm díky za typy, jakým směrem se mám v hledání řešení ubírat.
> 
> Pavel Lisý
> 

Dobrý den,

řešení existuje, ale ne úplné. Pro pdfTeX existuje balík cmap, který dokáže do 
PDF správně zakódovat české znaky. Z výsledného PDF se pak dá text správně 
kopírovat přes schránku a v PDF se dá i správně česky vyhledávat. Musí být ale 
použito písmo Computer Modern (respektive nesmí být použit virtuální písmo, což 
je např. Times (balík ctimes) apod.) a také nesmí být zapnuta dynamická změna 
velikosti písma pomocí balíku microtype. Těch podmínek je možná víc, ale na tyto 
dvě jsem osobně narazil. Oba problémy jsem (již před delší dobou) reportovat 
autorům pdfTeXu a balíku microtype. Minimálně ohledně virtuálních písem je to 
ale složitější a týká se to prý přímo pdfTeXu. Jestli to bude vůbec kdy vyřešeno 
nevím.
V hlavičce svých dokumentů tedy používám mimo jiné toto (předpokládá překlad 
pdfTeXem, a to jak při výstupu do PDF, tak do DVI):

\usepackage{ifpdf} % Umožní testovat, zda je překládáno do PDF nebo do DVI.
\usepackage[czech]{babel} % Nastavení češtiny pro sazbu (pdf)LaTeXem s pomocí
                           % balíčku Babel.
\usepackage{cslatexquotes} % Balík s definicí příkazů pro sazbu českých,
                            % anglických a francouzských uvozovek.
\usepackage[latin2]{inputenc} % Nastavení kódování tohoto zdrojového textu na
                               % ISO 8859-2 (někdy označované jako ISO Latin 2).
\ifpdf % Pokud se překládá do PDF...
     \usepackage{cmap} % Zajistí správné zakódování národních znaků při výstupu
                       % do PDF.
\fi % Konec výhradní sekce pro překlad do PDF.
\usepackage[T1]{fontenc} % Nastavení kódování fontu na formát T1. (Mimo jiné
                          % řeší i problémy s dělením slov s národními znaky
                          % pomocí příkazu \hyphenation{}.)

Pozor na pořadí přidávání balíků, myslím, že jsem s tím měl problémy. (Ale to 
bez záruky, už je to nějakou dobu a nejsem si úplně jistý, že to bylo u tohoto 
balíčku. Od té doby výše uvedené pracuje spolehlivě.)
Co se týče zachování formátování odstavce (funkce tagovaného PDF), tak to myslím 
žádný balík neumí. A pokud ano, tak budu velmi rád, pokud mi dáte vědět.

S pozdravem
Michal Růžička