vyhladavanie v pdf

Mon May 5 09:01:36 CEST 2003

Nejsem sice odbornik, ale mam dojem, ze vyhledavani v PDF
se musi vyrovnat s nasledujicimi problemy:

1) kazdy font muze mit jine kodovani, je treba vychazet
z prislusneho encoding vektoru

2) Existuji "zlocinne" Type1 fonty, u nichz jmena glyfu
neodpovidaji obsahu (tusim, ze se pouzivaly k pocestovani
Linuxu).

3) znaky s akcenty nad/pod/pres pismeno mohou byt
kompozitni, t.j. vytvoreny ze samostatneho pismene
a samostatneho akcentu (typicky pripad pri pouziti
virtualnich p...8z fontu v TeXu).

Pokud si ma vyhledavaci program spravne poradit se vsemi uvedenymi situacemi,
musi byt nadan dost znacnou inteligenci.

             Lubos Kloc

Leo Galambos wrote:

> Zdravim!
>
> Tenhle vyhledavaci problem v PDF me zacina zajimat. Delam projekt
> (full-text JAVA vyhledavac) a pokud by nekde existovaly nejake rozumne
> odkazy jak z PDF/PS vytahnout text bez ohledu na pouzitou kodovou sadu,
> tak bych to implementoval ASAP. Tim by byl i Vas problem definitivne
> vyresen. Nasadil bych nad to i synonyma, tz. pri hledani "energie" by to
> hledalo i vzorce s promennou "E" atp.
>
> Nevite tedy jestli nekde existuje uplny popis PDF formatu, prip.
> dalsich, ktere byste chteli (PS, DVI....)?
>