Konverze PostScriptu (PDF) do TXT

Zdenek Wagner - Ustav chemickych procesu AV wagner at cesnet.cz
Fri Jul 14 16:10:47 CEST 2000


On Fri, 14 Jul 2000, Pavel Hofman wrote:

>
> Tak v tom pripade by tu mozna byla jedna moznost - ale dost drasticka.
> Predpokladam, ze popis jednotlivych znaku fontu jsou v PDF v nejake
> rozumne forme, ktera by se snad dala prevest na bitmapu. Mozna by se
> podarilo nalezt nejaky jednoduchy samoucici OCR program, ktery by umel
> rozpoznat, o jake pismeno se jedna. No a pak bychom vystup treba
> pdftotextu prohnali filtrem, ktery by kody znaku spravne prerovnal.
>
> v podstate se jedna o zakladni typy fontu, nepotrebuji konvertovat psane
> pismo apod.
>
> Co si o tom myslite?
>
> Predem diky za nazory,
>
Na prevedeni do bitmapy potrebujete postscriptovy RIP. Ghostscript ma
ovladace, ktere umoznujy vystup do nekterych grafickych formatu (z hlavy
nevim, ktere jsou podporovany, ale to si najdete v dokumentaci). OCR
zrejme taky ocekava vstup v nejakem grafickem formatu (krome tech
jednoduchych, ktere to dovedou vzit jen ze skenru), pro prevod mezi
jednotlivymi formaty lze pouzit napr. pbmplus. Jenze ... mluvil jsem s
jednou mladou pani, ktera prepisuje texty rucne i pomoci skenovani a OCR
(kdyz je original kvalitni). Tvrdi, ze je to prijemne zpestreni, ale jinak
je OCR stejne pracne jako prepisovani (tedy pokud zalezi na tom, aby ve
vyslednem textu nebyly preklepy).

> Pavel Hofman.
>

Zdenek Wagner
e-mail: wagner at mbox.cesnet.cz  or  wagner at icpf.cas.cz

see also http://www.icpf.cas.cz/wagner/
         http://members.xoom.com/z_wagner/




More information about the csTeX mailing list