vyhladavanie v pdf

Zdenek Wagner wagner at cesnet.cz
Mon May 5 09:57:39 CEST 2003


On Mon, 5 May 2003, Luboš Kloc wrote:

> Nejsem sice odbornik, ale mam dojem, ze vyhledavani v PDF
> se musi vyrovnat s nasledujicimi problemy:
>
> 1) kazdy font muze mit jine kodovani, je treba vychazet
> z prislusneho encoding vektoru
>
Take je nutno kontrolovat ligatury. TextSpy to dela a najde dobre napr.
"definice".

> 2) Existuji "zlocinne" Type1 fonty, u nichz jmena glyfu
> neodpovidaji obsahu (tusim, ze se pouzivaly k pocestovani
> Linuxu).
>
Nejen v Linuxu, takovych fontu je strasna spousta.

> 3) znaky s akcenty nad/pod/pres pismeno mohou byt
> kompozitni, t.j. vytvoreny ze samostatneho pismene
> a samostatneho akcentu (typicky pripad pri pouziti
> virtualnich p...8z fontu v TeXu).
>
> Pokud si ma vyhledavaci program spravne poradit se vsemi uvedenymi situacemi,
> musi byt nadan dost znacnou inteligenci.
>
Ono by to s temi kompozitnimi fonty slo, napr. dvitype z emTeXu to umi.
Pokud se ale \v{s} jmenuje florin a v jinem pafontu treba quoteleft, pak s
tim asi nic moc nenadelate. Vyhledavani v PDF se da jeste udelat, protoze
format je vlastne jednoduchy a lze vytahnout encoding. V PS je to horsi,
protoze texty mohou vznikat expanzi nejruznejsich maker, takze obecne
potrebujete temer kompletni RIP. DVI ma problem v tom, ze hlavicka fontu
nerika moc o jeho kodovani. Napr. cmr* maji v hlavicce napsano TeX text
font, ale obecne neexistuje pravidlo, jak bezpecne kodovani rozeznat.
Naproti tomu jsou v TFM definovany ligatury i kerningy, takze bezpecne
poznate, co je kerning a co je mezislovni mezera. To nemusi byt v PDF vzdy
zcela jasne. Proto Save As RTF v Acrobatu 5 pouzite na Zpravodaje obcas
selze.

>              Lubos Kloc
>
> Leo Galambos wrote:
>
> > Zdravim!
> >
> > Tenhle vyhledavaci problem v PDF me zacina zajimat. Delam projekt
> > (full-text JAVA vyhledavac) a pokud by nekde existovaly nejake rozumne
> > odkazy jak z PDF/PS vytahnout text bez ohledu na pouzitou kodovou sadu,
> > tak bych to implementoval ASAP. Tim by byl i Vas problem definitivne
> > vyresen. Nasadil bych nad to i synonyma, tz. pri hledani "energie" by to
> > hledalo i vzorce s promennou "E" atp.
> >
> > Nevite tedy jestli nekde existuje uplny popis PDF formatu, prip.
> > dalsich, ktere byste chteli (PS, DVI....)?
> >
>

Zdenek Wagner
e-mail: wagner at cesnet.cz  or  wagner at icpf.cas.cz

see also http://hroch486.icpf.cas.cz/wagner/
         http://icebearsoft.euweb.cz





More information about the csTeX mailing list