Konverze PostScriptu (PDF) do TXT

Pavel Hofman pavel.hofman at insite.cz
Fri Jul 14 16:01:32 CEST 2000


Jiri Osoba wrote:

> Jak pro PostScript, tak pro PDF (PDF je jakysi vykonny derivat PostScriptu v
> tom smyslu, ze je to PostScript bez moznosti programovani maker) plati, ze
> je-li na vystup zapsan znak 65 (dekadicky), pak vubec nemusi platit, ze je
> to pismeno "A", protoze se vezme znak z pozice 65 aktualniho fontu, coz muze
> byt treba sipka nebo i pismeno "r" - vse zalezi na "inteligenci" programu
> pro prevod do PS/PDF. Windowsi drivery obcas pouzivaji metodu ze vsechny
> pouzite znaky daneho fontu sesypou postupne od znaku 0 (nula) a pak je
> jakykoliv prevod nemozny, protoze pismeno "A" v jednom fontu ma pozici 14, v
> jinem 37 a v jinem uplne chybi. Rekonstruovat text z tohoto vystupu je
> algoritmicky prakticky nemozne.

Tak v tom pripade by tu mozna byla jedna moznost - ale dost drasticka.
Predpokladam, ze popis jednotlivych znaku fontu jsou v PDF v nejake
rozumne forme, ktera by se snad dala prevest na bitmapu. Mozna by se
podarilo nalezt nejaky jednoduchy samoucici OCR program, ktery by umel
rozpoznat, o jake pismeno se jedna. No a pak bychom vystup treba
pdftotextu prohnali filtrem, ktery by kody znaku spravne prerovnal.

v podstate se jedna o zakladni typy fontu, nepotrebuji konvertovat psane
pismo apod.

Co si o tom myslite?

Predem diky za nazory,

Pavel Hofman.



More information about the csTeX mailing list