PDF -> Text

Wed Jul 24 18:45:55 CEST 2002

On Wed, Jul 24, 2002 at 06:23:02PM +0200, oldfrog wrote:

> >Z vyse uvedeneho plyne, ze nejjistejsi je donutit kazdou aplikaci vytvarejici
> >PDF, aby ke kazde definici fontu pridala i polozku ToUnicode. A pokud rozklada
> >znak do vice znaku (akcent+zakladni znak), tak navic musi spolehat na to, ze
> >pdftotext umi skladat znaky podle UNICODE, tj. ze umi poznat kombinaci
> >akcent+znak a nahradit ji ve vystupnim kodovani akcentovanym znakem.
> >
> Lze to nejak realizovat v pdfTeXu?

Popis problemu kolegy Vancury byl velmi presny.
Pridavat polozku ToUnicode lze v pdftexu jiz cca dva roky,
Thanh tam tehdy na mou zadost pridal primitiv, ktery umoznuje
pridat prislusny CMAP (character mapping) k pouzitemu fontu.
Tim se aplikace ctouci PDF (Reader, pdftotext/htdig) teprve dozvi
jednoznacne ktere znaky (Unicode) odpovidaji sekvencim sazenych
glyphu (na samotne nazvy glyphu se vetsinou nelze moc spolehnout).
Nechce se nekomu ty cmap soubory pripadne dalsi podporu maker
pro casto pouzivane sady fontu vytvorit a venovat do sirene
distribuce (texlive)?

> Bohuzel bych docela potreboval
> prevadet pdf vytvorena
> v pdfTeXu do cisteho textu - kvuli indexaci ve vyhledavacim stroji
> htdig. A jak jsem rekl,
> funguje to jen s Computer Modern fonty, coz mne dost omezuje...
A funguji i ligatury?

Zdravim
--ps