Konverze PostScriptu (PDF) do TXT

Zdenek Wagner - Ustav chemickych procesu AV wagner at cesnet.cz
Fri Jul 14 17:08:13 CEST 2000


On Fri, 14 Jul 2000, Pavel Hofman wrote:

> No, mate naprostou pravdu. Rozpoznavani cele stranky je drsne. Spise
> jsme myslel zkusit prevest jednotlive znaky fontu, jak jsou ulozene v
> PDF, do bitmapy. Rozpoznani techto znaku by nemelo byt jiz tak slozite a
> verim, ze by bylo spolehlive. Ovsem pouze za predpokladu, ze se opravdu
> jedna o samostatne znaky a ne o nejake shluky pismen (to snad ne).
>
> Zatim se mi vsak nepodarilo zjistit, jak prevest jednotlive znaky fontu
> v PDF do bitmapy.
>
To neni vubec trivialni zalezitost. V PDF muze byt text sazen bud fontem,
ktery je interni pro Acrobat Reader, fontem, ktery si Acrobat Reader vezme
ze systemu, fontem, ktery je v dokumentu vlozen cely, nebo fontem, ktery
je vlozen jako subset (tedy jen potrebne znaky). Musite se tedy naucit
rozumet definici pouzitych fontu. Pak musite umet v PDF najit string a
rozlozit jej na znaky. Pokud je cesky text skladam ze samostatnych
anglickych znaku a samostatnych akcentu, bude nutno nejak rozebirat makra
(a pro kazdy z vyse zminenych typu fontu to makro bude vypadat jinak a v
pripade "embeded subset" bude ruzne v ruznych dokumentech). Kdyz tedy mate
konecne font a znak, radeji bych ho nechal vyrastrovat ghostscriptem,
ovsem presny postup najdete v referencnich manualech PS a formatu Type1.
Pokud skutecne chcete napsat takovy program, pak Vas ceka dukladne studium
nekolika tisic stran manualu...

> Pavel Hofman
>

Zdenek Wagner
e-mail: wagner at mbox.cesnet.cz  or  wagner at icpf.cas.cz

see also http://www.icpf.cas.cz/wagner/
         http://members.xoom.com/z_wagner/




More information about the csTeX mailing list