Prevod z PDF

Zdenek Wagner wagner at beba.cesnet.cz
Mon Jan 19 14:38:13 CET 1998


On Sun, 18 Jan 1998, Michal Kubecek wrote:

>
> Tezko, v PDF uz prakticky nemate sanci poznat ani co je slovo.
> PDF je v podstate PostScript oskubany o programovaci konstrukce
> a obohaceny o podporu hypertextu. Tato uloha neni IMHO
> algoritmizovatelna. Tim netvrdim, ze neexistuje nejaka aproximace.
> Zkusil bych PDF -> PS a pak hledat neco, co z PostScriptu vydoluje
> cisty text. PostScript je starsi a zavedenejsi, takze je u nej
> vetsi sance, ze neco takoveho bude existovat.
>
Myslim si, ze PDF -> PS umi GhostScript. S nim se taky dodava PS
makro pro prevod PS -> ASCII (snad se nemylim). Je ovsem nutne
uvedomit si, ze mezi pismena se muze pridavat kerning a znaky s
diakritikou jsou zadavany oktalove (a prislusny string pak muze
byt ruzne rozkousany), takze rozpoznani hranic slov nemusi byt
zcela spolehlive.

Jinou moznosti je Acrobat Reader. V nem si muzete (pokud to neni
zakazano) oznacit text, zkopirovat na clipboard a natahnout jej
kamkoliv (ale pokud to neni jen par stranek, pak Vas lituji...).

>
>                                                      Michal Kubecek
>

Zdenek Wagner

E. Hala Laboratory of Thermodynamics,
Institute of Chemical Process Fundamentals
of the Academy of Sciences of the Czech Republic
e-mail:wagner at mbox.cesnet.cz  or  wagner at icpf.cas.cz

Local editor of the Bulletin of the Czech and Slovak TeX Users Group,
member of the CSTUG board
e-mail:Zdenek.Wagner at cstug.cz  or  bulletin at cstug.cz  or  zpravodaj at cstug.cz

see also http://www.icpf.cas.cz/wagner/
         http://www.cstug.cz/




More information about the csTeX mailing list