Konverze PostScriptu (PDF) do TXT

Pavel Hofman pavel.hofman at insite.cz
Fri Jul 14 16:57:29 CEST 2000


Zdenek Wagner - Ustav chemickych procesu AV wrote:

> Na prevedeni do bitmapy potrebujete postscriptovy RIP. Ghostscript ma
> ovladace, ktere umoznujy vystup do nekterych grafickych formatu (z hlavy
> nevim, ktere jsou podporovany, ale to si najdete v dokumentaci). OCR
> zrejme taky ocekava vstup v nejakem grafickem formatu (krome tech
> jednoduchych, ktere to dovedou vzit jen ze skenru), pro prevod mezi
> jednotlivymi formaty lze pouzit napr. pbmplus. Jenze ... mluvil jsem s
> jednou mladou pani, ktera prepisuje texty rucne i pomoci skenovani a OCR
> (kdyz je original kvalitni). Tvrdi, ze je to prijemne zpestreni, ale jinak
> je OCR stejne pracne jako prepisovani (tedy pokud zalezi na tom, aby ve
> vyslednem textu nebyly preklepy).
>

No, mate naprostou pravdu. Rozpoznavani cele stranky je drsne. Spise
jsme myslel zkusit prevest jednotlive znaky fontu, jak jsou ulozene v
PDF, do bitmapy. Rozpoznani techto znaku by nemelo byt jiz tak slozite a
verim, ze by bylo spolehlive. Ovsem pouze za predpokladu, ze se opravdu
jedna o samostatne znaky a ne o nejake shluky pismen (to snad ne).

Zatim se mi vsak nepodarilo zjistit, jak prevest jednotlive znaky fontu
v PDF do bitmapy.

Pavel Hofman



More information about the csTeX mailing list