PDF -> Text

Wed Jul 24 10:37:44 CEST 2002

> Poradi nekdo, jak pouzivat 35 zakladnich PostScriptovych
> fontu, aby fungoval program pdftotext vcetne cestiny?

Bohuzel se jedna o mnohem slozitejsi problem, a to nejen s pdftexem. Adobe ma
velmi zvlastni (a dost arogantni) pristup ke vsem kodovanim krome sveho
vlastniho (nadstavba nad iso-8859-1), coz se projevuje napr. na nasledujici
vete ve specifikaci PDF:

Kazde kodovani fontu, ktere obsahuje alespon jeden znak mimo
AdobeStandardEncoding, je oznacen za font se symboly.

Tj. i vsechny ceske fonty jsou pak oznaceny jako "symbolove" misto toho, ze
obsahuji znaky. Nevztahuji se pak na ne ruzne algoritmy pro cache apod. A navic
pokud "creator" pdf souboru neuvede ke kodovani fontu i tabulku ToUnicode nebo
neuvede Encoding s nazvy znaku podle navrhu Adobe (s cestinou mame kliku,
vsechny jeji znaky tam myslim jsou, ale jine jazyky jsou uz na tom hur,
projevuje se zde uplne stejna ignorance od Adobe), tak z toho zadny program
pdftotext nema sanci ziskat spravny text.

Z vyse uvedeneho plyne, ze nejjistejsi je donutit kazdou aplikaci vytvarejici
PDF, aby ke kazde definici fontu pridala i polozku ToUnicode. A pokud rozklada
znak do vice znaku (akcent+zakladni znak), tak navic musi spolehat na to, ze
pdftotext umi skladat znaky podle UNICODE, tj. ze umi poznat kombinaci
akcent+znak a nahradit ji ve vystupnim kodovani akcentovanym znakem.

Tolik me zkusenosti s programovanim pdftotext.

Preji hezky den,

Milan Vancura

P.S.: Dalsi problem je, ze polozky jako bookmarky a anotace jsou podle
specifikace v PDFDocEncoding, coz je opet iso-8859-1 (resp. jeji nadstavba) a
tudiz pokus cspdftexu o ceske texty v bookmarkach jsou opet odsouzeny k
neuspechu.