PDF (PS) to text

Luboš Kloc kloc at ipm.cz
Wed Jan 21 10:30:13 CET 2004


Obavam se, ze vskutku zadate nemozne. Zadny program vam neprevede
"korektne" do ISO-latin-2 kodovani znaky, ktere v tom kodovani nejsou.
Jak by to mel udelat?
PS/PDF muze obsahovat znaky z mnoha ruznych fontu, pricemz
v ruznych fontech mohou byt mapovany do stejneho mista zcela ruzne
znaky.
   Fungovat by to mohlo jen pri prevodu do Unicode, a to jen za
 predpokladu, ze PDF bude obsahovat tabulky ToUnicode pro vsechny
pouzite fonty, coz zatim vubec neni bezne. Nedavno se tu o tom
vedla dost rozsahla diskuse, zkuste se podivat do archivu.

S pranim pekneho dne,

        Lubos Kloc


Vlastimil Ott wrote:

> Dobry vecer vsem,
>
> potrebuji prevest PDF (mozny i PS prevodem ps2pdf) na text v kodovani 
> latin2. Zkousel jsem pdftotext, ps2ascii, pstotext, neznam (a nenasel 
> jsem) neco jako pdf2text (brano mnemotechnicky ;-)).
>
> Pouzite kombinace (vcetne parametru -raw, -enc Latin2, -layout a 
> podobnych) prevedou text
>
> * s nekorektnim zobrazenim nekterych znaku (namisto 'puntiku' v 
> seznamech (generovano plainTeXem - \circle) jsou hacky >>ˇ<<
>
> * 'sazba', resp. text, neni zalomena do rozmeru zrcadla
>
> * objevuji se ridici znaky (i po pouziti -eol unix a podobnych), ktere 
> jsou zobrazeny napr. ^L (less) nebo <np> (nedit)
>
> man jsem cetl, doufam, ze pozorne, ostatne mnoho voleb zminene utility 
> neposkytuji. Acrobat Reader poskytuje textovy vystup jeste horsi 
> (samozrejme nepozna odstavec, ctrl-a --> copy&paste).
>
> Muzete mi poradit utilitu (prip. prepinac?), ktera to zvlada 
> on-the-fly a jejiz vysledek neni nutne upravovat (= je korektni)?
>
> Slackware Linux, TeXLive posledni verze (Huh, ktera to je? ;-) ), 
> pdftex (dvi vystup zatim neni mozny).
>
> Diky za informace,
>
> --vo
>








More information about the csTeX mailing list