vyhladavanie v pdf

Sat May 3 01:07:38 CEST 2003

Zdravim!

Tenhle vyhledavaci problem v PDF me zacina zajimat. Delam projekt
(full-text JAVA vyhledavac) a pokud by nekde existovaly nejake rozumne
odkazy jak z PDF/PS vytahnout text bez ohledu na pouzitou kodovou sadu,
tak bych to implementoval ASAP. Tim by byl i Vas problem definitivne
vyresen. Nasadil bych nad to i synonyma, tz. pri hledani "energie" by to
hledalo i vzorce s promennou "E" atp.

Nevite tedy jestli nekde existuje uplny popis PDF formatu, prip.
dalsich, ktere byste chteli (PS, DVI....)?

-g-

oldfrog.mail.tex1 at volny.cz wrote:

>>
>>
>>> Pokud vim, vyhledavani v pdf neni zatim na 100% vyreseno v zadnem
>>> nastroji. Adobe si to uvedomuje a proto vyvyji zminovany TextSpy. V
>>> GNU svete se pouziva pdftotext z baliku xpdf, vyhledava se pak v cistem
>>> textu. Pdftotext v rade pripadu selze na ceske diakritice nebo pri
>>> nestandardnich mezerach mezi pismeny. Takze rozcarovani jsme
>>> vsichni...
>>
>>
>> diky moc za vysvetlenie. nechapem vsak preco pdftotext rve, ze
>> extracting to text is not allowed (je to uzamcene), ale xpdf je i tak
>> schopne vyhledavat (bez diakritiky).
>
>
> Vida, o tom ani nevim. Zrejme se to uzamceni chova inteligentne, podle
> logiky "hledanim se text ziskat neda, konverzi do textu ano, zakazme tedy
> pouze konverzi".
>
> Pokud chcete hledat v dokumentech jednoho puvodu, lze mozna rozchodit
> i diakritiku. Treba u pdf generovanych pomoci pdfcslatexu diakritika
> funguje
> (pdftotext -latin2 pok.pdf pok.txt), pokud pouzivate Computer Modern
> fonty.
> Pokud pouzijete treba phv Helveticu, diakritika vzdoruje. Pred rokem jsem
> se zde na to ptal a dostal jsem velmi fundovane, nikoli vsak povzbudive
> odpovedi.
>
> Dobrou noc preje
> OldFrog.
>
>
>