[cstex] Extrakce textu z PDF souboru vytvoreneho ConTeXtem pomoci clipboardu

Zdenek Wagner zdenek.wagner at gmail.com
Tue Mar 25 17:15:28 CET 2008


25.3.08, Jaroslav Hajtmar <hajtmar at gyza.cz>:
> Dobry den
>  Prosim o radu, ktera tady mozna uz zaznela nekolikrat, nicmene nemohu
>  najit rozumne reseni v ConTeXtu.
>  Pri vygenerovani PDF souboru ConTeXtem potrebuji, aby se z PDF dokumentu
>  dalo pomoci clipboardu kopirovat texty.
>  Problem je, ze nektere znaky jsou bez diakritiky. Ovsem zase napr.
>  nadpisy obsahuji kompletni diakritiku a bezny text odstavce ji uz
>  neobsahuje (resp nektera pismenka ano a nektera ne).
>
>  Existuje nejake doporuceni na co si dat pozor, jake pismo pouzivat, jake
>  kodovani pouzivat (mam momentalne cp1250), pomuze UTF kodovani ??
>
>  Muzete me prosim nekdo odkazat na nejaky zdroj nebo nejak poradit?
>
Obecne: musite mit font, ktery obsahuje kompletni znaky, nikoliv
virtualni, kde se znak sklada az v PS/PDF z casti. S takovym fontem
nebude prenos pres clipboard ani vyhledavani nikdy fungovat.

Prenos pres clipboard se pak ridi nasledujicimi informacemi:

1. mapou toUnicode, ktera mapuje znaky z kodovani fontu do Unicode
2. PS jmény znaků

Změna vstupního kódování na to nemá žádný vliv, jde skutečně jen o
záležitost fontu. Mapu toUnicode umím přidat v LaTeXu, v ConTeXtu je
na to možná také nějaký nástroj. Současná situace je taková, že tuto
mapu většina fontů nemá a některé jsou špatně lokalizovány. Když se
male d s hackem nejmenuje dcaron, nebude to fungovat. Tvurci fontu pro
klikaci systemy jsou casto spokojeni, ze jim font spravne reaguje na
klikani, a spravna lokalizace je nezajima. Pridani toUnicode k
takovemu fontu by melo pomoci.
>
>  Diky Zdravi Jarda Hajtmar
>
>
>
>  _______________________________________________
>  csTeX mailing list
>  csTeX at cs.felk.cvut.cz
>  http://lists.felk.cvut.cz/mailman/listinfo/cstex
>


-- 
Zdeněk Wagner
http://hroch486.icpf.cas.cz/wagner/
http://icebearsoft.euweb.cz


More information about the csTeX mailing list