PDF (PS) to text

Wed Jan 21 10:41:51 CET 2004

On Wed, 21 Jan 2004, Luboš Kloc wrote:

> Obavam se, ze vskutku zadate nemozne. Zadny program vam neprevede
> "korektne" do ISO-latin-2 kodovani znaky, ktere v tom kodovani nejsou.
> Jak by to mel udelat?
> PS/PDF muze obsahovat znaky z mnoha ruznych fontu, pricemz
> v ruznych fontech mohou byt mapovany do stejneho mista zcela ruzne
> znaky.
>    Fungovat by to mohlo jen pri prevodu do Unicode, a to jen za
>  predpokladu, ze PDF bude obsahovat tabulky ToUnicode pro vsechny
> pouzite fonty, coz zatim vubec neni bezne. Nedavno se tu o tom
> vedla dost rozsahla diskuse, zkuste se podivat do archivu.
>
Pokud by znaky nemusely byt v Unicode a byl problem jen v tom, ze ruzne
fonty maji ruzne kodovani a ze se akcentovane znaky skladaji ze
smostatneho pismene a samostatneho akcentu, pak je schudna cesta z DVI
pouzitim dvispell z emTeXu (nazev je trochu matouci, je to filtr, ktery
posle data z DVI do spellchecku). Je mozno dvispell nakonfigurovat tak,
aby pro kazdy font pouzil jinou prevodni tabulku.

Zdenek Wagner
e-mail: wagner at cesnet.cz

see also http://hroch486.icpf.cas.cz/wagner/
         http://icebearsoft.euweb.cz