Konverze PostScriptu (PDF) do TXT

Jiri Osoba osoba at jablotron.cz
Fri Jul 14 08:22:31 CEST 2000


From: Pavel Hofman <pavel.hofman at insite.cz>

> Problem je, ze jiz z postscriptoveho souboru nelze text rozumne
> vytahnout (tisk pres originalni MS drivery (Apple LaserWriter, HP
> LaserJet 4M/PS) i pres Adobe PS driver) - ceske znaky zpusobuji, ze na
> vystupu pstotext, ps2ascii jsou naproste nesmysly. Vzdy cast radky je
> OK, ale pak nasleduje i nekolik odstavcu nesmyslu. Po prevodu takoveho
> souboru do PDF Distillerem (nebo ps2pdf ci cimkoliv jinym) je tudiz
> logicke, ze ani PDF soubor nelze tez zkonvertovat.
>
> Proto by me zajimalo, zda ma nekdo s timto nejake zkusenosti, pripadne
> zda by nekdo nevedel:
>
> 1. jake jsou moznosti konverze techto PS souboru vytvorenych ve Windows

Jak pro PostScript, tak pro PDF (PDF je jakysi vykonny derivat PostScriptu v
tom smyslu, ze je to PostScript bez moznosti programovani maker) plati, ze
je-li na vystup zapsan znak 65 (dekadicky), pak vubec nemusi platit, ze je
to pismeno "A", protoze se vezme znak z pozice 65 aktualniho fontu, coz muze
byt treba sipka nebo i pismeno "r" - vse zalezi na "inteligenci" programu
pro prevod do PS/PDF. Windowsi drivery obcas pouzivaji metodu ze vsechny
pouzite znaky daneho fontu sesypou postupne od znaku 0 (nula) a pak je
jakykoliv prevod nemozny, protoze pismeno "A" v jednom fontu ma pozici 14, v
jinem 37 a v jinem uplne chybi. Rekonstruovat text z tohoto vystupu je
algoritmicky prakticky nemozne.

> 2. pripadne jak pod Windows vytvorit z Wordu 95/97 takovy PS soubor,
> ktery by bylo mozno prevest zpet na text s ceskymi znaky (predpokladam,
> ze PDF vyrobeny z tohoto PS by jiz nemel delat problemy).

Nejlepsi je zkopirovat cely obsah dokumentu do schranky (clipboardu) a
prilepit (pastnout:-) zpet do Poznamkoveho bloku.

Jiri





More information about the csTeX mailing list