[cstex] Extrakce textu z PDF souboru vytvoreneho ConTeXtem pomoci clipboardu
Zdenek Wagner
zdenek.wagner at gmail.com
Tue Mar 25 17:15:28 CET 2008
25.3.08, Jaroslav Hajtmar <hajtmar at gyza.cz>:
> Dobry den
> Prosim o radu, ktera tady mozna uz zaznela nekolikrat, nicmene nemohu
> najit rozumne reseni v ConTeXtu.
> Pri vygenerovani PDF souboru ConTeXtem potrebuji, aby se z PDF dokumentu
> dalo pomoci clipboardu kopirovat texty.
> Problem je, ze nektere znaky jsou bez diakritiky. Ovsem zase napr.
> nadpisy obsahuji kompletni diakritiku a bezny text odstavce ji uz
> neobsahuje (resp nektera pismenka ano a nektera ne).
>
> Existuje nejake doporuceni na co si dat pozor, jake pismo pouzivat, jake
> kodovani pouzivat (mam momentalne cp1250), pomuze UTF kodovani ??
>
> Muzete me prosim nekdo odkazat na nejaky zdroj nebo nejak poradit?
>
Obecne: musite mit font, ktery obsahuje kompletni znaky, nikoliv
virtualni, kde se znak sklada az v PS/PDF z casti. S takovym fontem
nebude prenos pres clipboard ani vyhledavani nikdy fungovat.
Prenos pres clipboard se pak ridi nasledujicimi informacemi:
1. mapou toUnicode, ktera mapuje znaky z kodovani fontu do Unicode
2. PS jmény znaků
Změna vstupního kódování na to nemá žádný vliv, jde skutečně jen o
záležitost fontu. Mapu toUnicode umím přidat v LaTeXu, v ConTeXtu je
na to možná také nějaký nástroj. Současná situace je taková, že tuto
mapu většina fontů nemá a některé jsou špatně lokalizovány. Když se
male d s hackem nejmenuje dcaron, nebude to fungovat. Tvurci fontu pro
klikaci systemy jsou casto spokojeni, ze jim font spravne reaguje na
klikani, a spravna lokalizace je nezajima. Pridani toUnicode k
takovemu fontu by melo pomoci.
>
> Diky Zdravi Jarda Hajtmar
>
>
>
> _______________________________________________
> csTeX mailing list
> csTeX at cs.felk.cvut.cz
> http://lists.felk.cvut.cz/mailman/listinfo/cstex
>
--
Zdeněk Wagner
http://hroch486.icpf.cas.cz/wagner/
http://icebearsoft.euweb.cz
More information about the csTeX
mailing list