pdftotext problem

Luboš Kloc kloc at ipm.cz
Mon Oct 27 10:10:42 CET 2003


"oldfrog.tex at volny.cz" wrote:

> >
> > Mohl byste mi nekdo poradit kde je problem, resp. nejakou univerzalne
> > pouzitelnou metodu?
> >
> > Dik predem,
> > Dan
>
> Pomerne podrobne mi to zkusenejsi objasnili nekdy pred
> rokem v threadu "PDF -> Text". Neco jsem pochopil az nyni
> z threadu "Off topic: LaTeX -> PDF". Zapamatoval jsem si
> z toho, ze jednoduche hotove reseni neexistuje. Neznama
> pdf nelze do textu spolehlive prevadet. Pokud me nekdo
> opravi, budu jen rad.

Podle meho nazoru je diskuse ponekud zmatena, protoze se soucasne
snazi resit ctyri ruzne roviny problemu.

1) Jak PDF standard resi vkladani informaci, umoznujicich jednoznacne
urceni obsahu textu sazeneho vlozenymi fonty. Ktere verze PDF
to reseni obsahuji, jak dalece je jednoznacne? Existuje v PDF standardu
reseni i pro pripad, kdy jsou znaky tvoreny kompozitne?

2) Jak z TeXu vyrobit PDF, obsahujici standardni informace podle bodu 1).

3) Ktere programy zpracovavajici PDF soubory umi s informacemi podle
bodu 1) korektne pracovat?

4) Co si pocit se starsimi nebo cizimi soubory, ktere informace podle bodu 1)

neobsahuji.

Otazka 1) jiz byla castecne zodpovezena, a jiste lze odpoved nalezt studiem
prislusneho standardu. Nicmene pokud by nekdo, kdo standard dobre zna,
byl schopen napsat prehlednou odpoved pro ostatni, bylo by to k uzitku.

Myslim, ze pro nas TeXisty je klicova otazka 2) a musime ji vyresit. Meli
bychom
byt schopni vytvaret PDF soubory v souladu se standardem.

Otazku 3) muzeme vyresit po vyreseni otazky 2) testovanim PDF souboru
odpovidajiciho standardu podle bodu 1).

Otazka 4) patrne zadne obecne reseni nema. (Snad jen aplikace nejake OCR
techniky na vykreslene glyfy.) Jedinou cestou muze byt dodani prislusne
chybejici
informace zvenci, pokud se podari odhadnout, zkusmo urcit nebo vycist
z obsazenych informaci kodovani pouziteho fontu.

Lubos Kloc






More information about the csTeX mailing list