PdfeLateX a extrakce textu z pdf

Tue Aug 29 11:08:45 CEST 2006

Zdenek Wagner napsal(a):
> 2006/8/28, Michal Růžička <xruzick7 at fi.muni.cz>:
>> > Moc děkuji! To je přesně to, co jsem potřeboval. V jiných fórech mi
>> > tvrdily, že to nejde - je to prý vlastnost LaTeXu :)
>> >
>> > Jakub
>>
>> Ještě bych doplnil, že ani balíček cmap.sty ale bohužel neřeší všechny
>> problémy.
>>  Viz můj dřívější příspěvek v této skupině. (Podívejte se do nějakého
>> archivu,
>> případně momentálně funguje např. tento odkaz:
>> http://groups.google.com/group/cz.comp.cstex/browse_thread/thread/218ececfa0f67bb3/362f939092b43399?lnk=st&q=&rnum=1&hl=cs#362f939092b43399).
>>
>>
> cmap.sty společně s hz algoritmem jsem nikdy nepoužil, takže nevím,
> zda je chyba v microtype.sty, nebo přímo v pdfTeXu. Ostatně hz
> algoritmus používám s mnoha různými fonty, takže si jeho parametry
> nastavuji sám. Pokud jde o češtinu řešenou virtuálním fontem, pak to
> nejde principiálně. cmap.sty totiž modifikuje vkládaný font tím, že do
> něj vloží tabulku /toUnicode s ohledem na kódování fontu (T1, IL2,
> atd.). Při interpretaci virtuálního fontu pochopitelně informace o
> kódování nesouhlasí. I kdyby to šlo, stejně by to nefungovalo, protože
> posuny, nutné pro umísťování háčků a čárek, by Acrobat interpretoval
> jako hranice slov. A ono to skutečně nejde ještě z jiného důvodu.
> /toUnicode podporuje mapování (s ohledem na počet bajtů) typu 1->1
> nebo 1->mnoho, ale pro virtuální český (slovenský) font bychom
> potřebovali mnoho->mnoho. Třeba jednou Adobe tuto možnost do
> specifikace přidá, ovšem nebude to kvůli češtině, ale kvůli indickým
> jazykům. A stejně se obávám, že si to nikdy nebude umět poradit s
> posuny, protože /toUnicode nemapuje libovolný kód, ale jen znaky z
> fontu.

Dobrý den,

velmi děkuji za vysvětlení podstaty problému. I když mě to moc nepotěšilo,
protože jak se zdá, tak s tím nic moc nepůjde udělat. Nevíte náhodou, jestli se
nepracuje na nějakém jiném řešení než je balíček cmap.sty, které by toto umělo
nějakým způsobem obejít (jestli to vůbec nějak půjde)?

S pozdravem
Michal Růžička

>> > Jano Kula napsal(a):
>> >> Dobry den,
>> >>
>> >> Jakub Kocourek wrote:
>> >>> Již jsem se ptal jinde a bylo mi řečeno, že to nelze řešit. Pak je
>> ale
>> >>> výsledné .pdf naprosto nepoužitelné pro elektronickou publikaci.
>> >> Zvolte jiny vystupni format, pokud chcete poskutnout text pro dalsi
>> >> editaci, nebo zdrojovy text pripojte k vysledenemu PDF. PDF neni
>> format
>> >> primarne urceny k dalsi editaci, ale jako finalni vystup pro tisk,
>> >> cteni, prohlizeni.
>> >>
>> >>> Věřím, že nějaké řešení existuje.
>> >> Nastesti ano. Balik cmap.sty.
>> >>
>> >>> Dokument:
>> >>> \documentclass[12pt,a4paper]{article}
>> >> \usepackage{cmap}
>> >>
>> >>> \usepackage[T1]{fontenc}
>> >>> \usepackage[latin2]{inputenc}
>> >>> \usepackage[czech]{babel}
>> >>> \begin{document}
>> >>> ...
>> >>> \end{document}
>> >> Jano Kula
>>
>> -- 
>> PGP key fingerprint: 1CB2 41B9 F029 4B47 EECD  9BDA 90C9 CEB0 524C DACB
>>
> 
> 

--
Michal Růžička <xruzick7 at fi.muni.cz>
http://www.fi.muni.cz/~xruzick7/pgp-klic/
PGP key fingerprint: 1CB2 41B9 F029 4B47 EECD  9BDA 90C9 CEB0 524C DACB