Preklad terminu 'tagged pdf'

Vit Zyka vit.zyka at seznam.cz
Mon Jan 31 12:32:03 CET 2005


Lubos Kloc wrote:
>
> Vit Zyka wrote:
>>
>> Ona i ta teorie je slozitejsi. A kdyz se k ni jeste prakticky prida
>> obchodni strategie...
>>
>> Aplikace potrebuje, krome strukturnich znacek v PDF, aby napriklad
>> rozlisila hranice slov. Bez toho text srozumitelne nepreformatuje. A jak
>>  ma aplikace rozlisit mezislovni mezeru od kerningu?
>>
>> Adobe potrebuje toto rozliseni i pro vyhledavani. Jak vyplyva z
>> paralelni diskuse v pdftex listu, hranici pravdepodobne stanovuje
>> heuristicky analyzou histogramu delek mezer. Pro preformatovani vsak
>> toto nepouziva, tam vyzaduje realnou mezeru. (Asi...)
>>
>> Pokud tomu tak je, tak pdftex by takovy dokument mohl vytvaret POUZE za
>> cenu hrube degradace kvality sazby.
>>
> To snad ne. Je vubec v PDF neco jako "realna mezera" definovano? Ja si to

Realnou mezerou jsem mel na mysli mezeru z fontu. Tu ale TeX nepouziva.

> predstavuji tak, ze kazda mezislovni mezera je oznacena prave tou
> prislusnou
> strukturni znackou, bez vlivu na sazbu.

Vsechny znaky musi byt u tagged PDF obsahu mapovany na Unicode.
Mezislovni mezera je tedy definovana tim, ze se ve streamu objevi kod
mezery. To je pro sazbu TeXem neco nezadouciho.

Ted jsem se dival do specifikace PDF a jde vyuzit /ActualText, jak je
videt z nasledujiciho prikladu nemeckeho deleni:
(Dru) Tj
/Span
<</Actual Text (c) >>
BDC
(k-) Tj
EMC
(ker)

Timto zpusoem si dokazu predstavit, ze by se s tim pdftex mohl poprat.
Zrejme by to znamenalo:
1) Pouzity font mapovat pred CMap na unicode.
2) Vyplnit par PDF slovniku oznamujici, ze PDF je strukture znackovane,
a jakou ma strukturu.
3) Pomoci \pdfliteral vkladat strukturni znacky typu /Document, /Part,
/Sect, /Div a /P, /L, H1, /H2, /Table, ... a pripadne jejich parametry.
4) Doplnit /ActualText alespon u mezislovnich mezer a rozdelovniku.
Mozna by to slo pres aktivni znaky, lepe vsak s vnitrni novou podporou
pdftexu.

A mozna neco dalsiho, co mi pri letmem nahlidnuti do specifikace uniklo.
Pri priprave zdroje takoveho dokumentu by se vsak uz muselo na
znackovani myslit. Hadam, ze nejlepsm zdrojovym formatem by bylo XML.

Mozna to bude pro nekoho vyzva...

Vitek Zyka



More information about the csTeX mailing list