pdftotext problem

Mon Oct 27 10:52:08 CET 2003

Zdenek Wagner wrote:

> On Mon, 27 Oct 2003, Luboš Kloc wrote:
>
> > Myslim, ze pro nas TeXisty je klicova otazka 2) a musime ji vyresit. Meli
> > bychom
> > byt schopni vytvaret PDF soubory v souladu se standardem.
> >
> Standard PDF ma i nepovinne soucasti a je otazka, ktere z techto
> nepovinnych soucasti chceme z TeXu generovat. Napriklad se do PDF da
> vlozit strukturnu informace, ktera umoznuje, ze se PDF da prevest do XML.
>

I v pripade, ze to je nepovinna soucast standardu, je to soucast natolik
vyznamna, ze bychom meli hledat cesty, jak tuto informaci do PDF
vlozit.

>
> > Otazka 4) patrne zadne obecne reseni nema. (Snad jen aplikace nejake OCR
> > techniky na vykreslene glyfy.) Jedinou cestou muze byt dodani prislusne
> > chybejici
> > informace zvenci, pokud se podari odhadnout, zkusmo urcit nebo vycist
> > z obsazenych informaci kodovani pouziteho fontu.
> >
> Dal by se udelat program, ktery by v prvnim kroku prevedl text na PS jmena
> pouzitych znaku a v druhem kroku by podle informace o kodovani vytvoril
> text. V nekterych pripadech maji tvurci firmu spaten jmena znaku, ale dany
> tvurce to ma u vsech fontu stejne spatne. Pak by se pro fonty tohoto
> tvurce dala udelat jedna prevodni tabulka.
>

To by se jiste dalo a v mnoha pripadech by to problem mohlo resit.
Ostatne nektere programy (TextSpy?) to tak mozna uz delaji. Rozhodne
to ale neni reseni zcela obecne, ktere bude fungovat na jakykoliv PDF
soubor bez pozadavku na dalsi dodatecne informace.

Hlavne ale mne slo o to oddelit diskusi o otazce 4) (jak zachazet se soubory,
ktere informaci /ToUnicode neobsahuji) od diskuse o otazkach 1) az 3)
(jak vytvorit soubor ktery informaci /ToUnicode obsahuje a jak s nim zachazet).

Resi sice stejny problem, ale kazda jinak a maji jen malo spolecneho.

Lubos Kloc