PDF -> Text

Zdenek Wagner wagner at cesnet.cz
Wed Jul 24 10:59:54 CEST 2002


On Wed, 24 Jul 2002, Milan Vancura wrote:

> Tj. i vsechny ceske fonty jsou pak oznaceny jako "symbolove" misto toho, ze
> obsahuji znaky. Nevztahuji se pak na ne ruzne algoritmy pro cache apod. A navic
> pokud "creator" pdf souboru neuvede ke kodovani fontu i tabulku ToUnicode nebo
> neuvede Encoding s nazvy znaku podle navrhu Adobe (s cestinou mame kliku,
> vsechny jeji znaky tam myslim jsou, ale jine jazyky jsou uz na tom hur,
> projevuje se zde uplne stejna ignorance od Adobe), tak z toho zadny program
> pdftotext nema sanci ziskat spravny text.
>
Ja jsem zkousel export ceskeho textu pomoci Acrobatu 5 ve Windows, a
samozrejme jsem to testoval na dokumentech ziskanych TeXem. Pri pouziti
fontu Lido, ktery jsem mel ve windows instalovan, jsem nemel problemy.
Jiste potize (export jako RTF) jsem mel s CS-fonty. Maly pozitivni kerning
mezi "p" a "o" se casto nespravne interpretoval jako mezislovni mezera,
takze misto slova "podle" jsem mel "p odle" a na velmi stazenych radkach
se zase mezislovni mezery uplne ztratily. A jeste horsi je, ze cast textu
se mi z neznameho duvodu prevedla do hebrejstiny. Ale v te cast, ktera
zustala ceska, byla diakritika spravne.

> Z vyse uvedeneho plyne, ze nejjistejsi je donutit kazdou aplikaci vytvarejici
> PDF, aby ke kazde definici fontu pridala i polozku ToUnicode. A pokud rozklada
> znak do vice znaku (akcent+zakladni znak), tak navic musi spolehat na to, ze
> pdftotext umi skladat znaky podle UNICODE, tj. ze umi poznat kombinaci
> akcent+znak a nahradit ji ve vystupnim kodovani akcentovanym znakem.
>
Takovou vec (tedy ne v Unicode a jen pro DVI) umi dvispell v emTeXu.
Zkousel jsem to s CM-fonty, ale jestli to umi s jakymkoliv fontem, to
nevim.

> Tolik me zkusenosti s programovanim pdftotext.
>
> Preji hezky den,
>
> Milan Vancura
>
> P.S.: Dalsi problem je, ze polozky jako bookmarky a anotace jsou podle
> specifikace v PDFDocEncoding, coz je opet iso-8859-1 (resp. jeji nadstavba) a
> tudiz pokus cspdftexu o ceske texty v bookmarkach jsou opet odsouzeny k
> neuspechu.
>
Bookmarky mohou byt v Unicode. Je to napsano jiz v dokumentaci PDF 1.2,
ale empiricky jsem vyzkousel, ze Acrobat 3 si s tim neporadi. Acrobat 4
jiz ano, ale kdyz si pak nekdo takovy text precte Acrobatem 3 (a bohuzel
Adobe nedela ani Reader pro vsechny systemy, takze posledni "portable"
verze je 1.2, tj. Acrobat 3), je vysledek jeste horsi nez bookmarky bez
diakritiky.

>
>
>

Zdenek Wagner
e-mail: wagner at mbox.cesnet.cz  or  wagner at icpf.cas.cz

see also http://www.icpf.cas.cz/wagner/
         http://icebearsoft.euweb.cz






More information about the csTeX mailing list