PdfeLateX a extrakce textu z pdf

Zdenek Wagner wagner at cesnet.cz
Tue Aug 29 00:17:43 CEST 2006


2006/8/28, Michal Růžička <xruzick7 at fi.muni.cz>:
> > Moc děkuji! To je přesně to, co jsem potřeboval. V jiných fórech mi
> > tvrdily, že to nejde - je to prý vlastnost LaTeXu :)
> >
> > Jakub
>
> Ještě bych doplnil, že ani balíček cmap.sty ale bohužel neřeší všechny problémy.
>  Viz můj dřívější příspěvek v této skupině. (Podívejte se do nějakého archivu,
> případně momentálně funguje např. tento odkaz:
> http://groups.google.com/group/cz.comp.cstex/browse_thread/thread/218ececfa0f67bb3/362f939092b43399?lnk=st&q=&rnum=1&hl=cs#362f939092b43399).
>
cmap.sty společně s hz algoritmem jsem nikdy nepoužil, takže nevím,
zda je chyba v microtype.sty, nebo přímo v pdfTeXu. Ostatně hz
algoritmus používám s mnoha různými fonty, takže si jeho parametry
nastavuji sám. Pokud jde o češtinu řešenou virtuálním fontem, pak to
nejde principiálně. cmap.sty totiž modifikuje vkládaný font tím, že do
něj vloží tabulku /toUnicode s ohledem na kódování fontu (T1, IL2,
atd.). Při interpretaci virtuálního fontu pochopitelně informace o
kódování nesouhlasí. I kdyby to šlo, stejně by to nefungovalo, protože
posuny, nutné pro umísťování háčků a čárek, by Acrobat interpretoval
jako hranice slov. A ono to skutečně nejde ještě z jiného důvodu.
/toUnicode podporuje mapování (s ohledem na počet bajtů) typu 1->1
nebo 1->mnoho, ale pro virtuální český (slovenský) font bychom
potřebovali mnoho->mnoho. Třeba jednou Adobe tuto možnost do
specifikace přidá, ovšem nebude to kvůli češtině, ale kvůli indickým
jazykům. A stejně se obávám, že si to nikdy nebude umět poradit s
posuny, protože /toUnicode nemapuje libovolný kód, ale jen znaky z
fontu.
> > Jano Kula napsal(a):
> >> Dobry den,
> >>
> >> Jakub Kocourek wrote:
> >>> Již jsem se ptal jinde a bylo mi řečeno, že to nelze řešit. Pak je ale
> >>> výsledné .pdf naprosto nepoužitelné pro elektronickou publikaci.
> >> Zvolte jiny vystupni format, pokud chcete poskutnout text pro dalsi
> >> editaci, nebo zdrojovy text pripojte k vysledenemu PDF. PDF neni format
> >> primarne urceny k dalsi editaci, ale jako finalni vystup pro tisk,
> >> cteni, prohlizeni.
> >>
> >>> Věřím, že nějaké řešení existuje.
> >> Nastesti ano. Balik cmap.sty.
> >>
> >>> Dokument:
> >>> \documentclass[12pt,a4paper]{article}
> >> \usepackage{cmap}
> >>
> >>> \usepackage[T1]{fontenc}
> >>> \usepackage[latin2]{inputenc}
> >>> \usepackage[czech]{babel}
> >>> \begin{document}
> >>> ...
> >>> \end{document}
> >> Jano Kula
>
> --
> PGP key fingerprint: 1CB2 41B9 F029 4B47 EECD  9BDA 90C9 CEB0 524C DACB
>


-- 
Zdeněk Wagner
http://hroch486.icpf.cas.cz/wagner/
http://icebearsoft.euweb.cz




More information about the csTeX mailing list