[cstex] word do latexu

Zdenek Wagner zdenek.wagner at gmail.com
Wed Apr 9 23:50:38 CEST 2008


9.4.08, Josef Feit <jfeit at ics.muni.cz>:
> Dobry den,
>
>  prosim o tip na recentni software pro prevod wordu do LaTeXu, free,
>  pokud mozno pro Linux.
>
>  Jde mi predevsim o prevod hladkeho textu, tedy aby zachovaval odstavce
>  a prepinani pisma (bf, it atd.). A snad jeste kovertoval vycty a snad
>  si i poradil s ruznymi urovnemi nadpisu (zda se totiz, ze se
>  spoluautori naucili pouzivat wordovskych stylu pro nadpisy).
>
>  Naopak aby se nesnazil dodrzet nejake formaty vychoziho textu,
>  rozlozeni stran, mezery...
>  Text neobsahuje zadne obrazky ani vzorce.
>
>  Konvertovany text se bude dale upravovat.
>
Ja mam pro tento ucel vlastni SW, ktery chci uvolnit, ale zatim mi
nezbylo dost casu k tomu, abych jej dovedl do nejakeho trochu
pouzitelneho stavu. Funguje tak, ze dokument natahnu do OOo a ulozim
jako SXW (zacal jsem to vyvijet pred mnoha lety, kdy jeste nebyl ODT).
Na to pak pustim perlovsky skript, ktery vytahne content.xml, ten
prozene stylesheetem (potrebuje to Saxon verze 8 nebo jiny procesor
XSLT2) a pomoci Text::Wrap rozseka radky tak, aby to slo editovat.
Jde mi asi o totez, co chcete Vy. Wordovy dokument je pro me rukopis,
z nehoz potrebuji vyhazet formatovani, ktere si dodelam sam. Vysledkem
transformace je tedy LaTeXovsky zdrojak, ktery vsak neni primo
LaTeXovatelny (chybi preambule vcetne \begin{document} apod.) Necetl
jsem celou specifikaci SXW, spise jsem to delal odhadem podle toho, co
jsem potreboval konvertovat, takze napr. jsem s tim zkonvertoval text
pro pana Stedreho, kvuli kteremu jsem pridal podporu pro sanskrt a
hindstinu. Konvertuji \textbf{tucne pismo} a \textit{kurzivu}. Ve
wordu se pouziva podtrzeny text, coz v LaTeXu primo podporovano neni a
typograficky to nevypada dobre. Na vystupu je tedy
\UNDERLINE{podtrzeny text} a predpokladam, ze si uzivatel makro
\UNDERLINE nejak definuje. Dale to umi poznamky pod carou. Taqbulkovy
model SXW se mi nechtelo studovat, ale zatim jsem se pri konverzi
clanku do Prague Bulletin of Mathematical Linquistics setkal jen s tak
primitivnimi tabulkami, ze jsem tech par znacek radeji doplnil rucne.
Jeste jsem nemel wordovy text s vycty a s pouzivanim stylu pro
nadpisy, takze to zatim neumim.

A jeste pro doplneni, proc jsem to vlastne delal. Existuji hotove
konverzni programy, ale i ten nejjednodussi zachovava takovou spoustu
wordoveho formatovani, ze bych pri nasledne rucni editaci zesilel.

>  Zkousel jsem AmiPro (Fedora 8: okamzity pad pri pokusu o nacteni doc),
>  oowriter (vysledek vypada zhruba takto:
>
>  \subsubsection[\ \ \ Karcinomy \v{z}lu\v{c}ov\'ych cest a
>  \v{z}lu\v{c}n\'iku exprimuj\'i ve 3/4 p{\o}\'ipad\`u i cyto{}-keratin
>  20. Imunohistochemick\'a anal\'yza v\v{s}ak potvrdila p\v{r}\'itomnost
>  p\v{r}echodn\'ych forem mezi hepatocelul\'arn\'im a
>  cholangiocelul\'arn\'im karcinomem{}- hepatocholangiokarcinomy.
>  \ \ \ ]{\textrm{\textmd{\ \ \ }}\textrm{Karcinomy \v{z}lu\v{c}ov\'ych
>
>  tedy snazi se zachovavat mezery atd., ja bych chtel spise LaTeXovsky
>  text (odhledneme zatim od spatneho nacitani kodovani doc do OO,
>  napriklad p{\o}\'ipad\`u atd. - tomu nerozumim, mozna je spatny i
>  puvodni wordovsky dokument).
>
Tot otazka. Zalezi na tom, co vidite v OOo. Muj stylesheet konvertuje
cestinu dobre. Ted pouzivam vyhradne UTF-8, dokud jsem to delal v
OS/2, mel sem vystup kodovany v CP852. Ale uz jsem se setkal s
wordovym souborem, kde byla cestina udelana nejak nestandardne a pri
nacteni do OOo to dopadlo spatne. Stava se to velmi vzacne.

V soucasne dobe upravuji sve nastroje tak, aby chodily v mem stolnim
pocitaci doma, v praci i v notebooku a aby muj skript nebyl zavisly na
pevnych cestach k saxon8.jar, ooo2latex.xsl a katalogu (je nutne mit
DTD pro SXW a MathML), ale nacetlo se to odnekud z konfigurace. Pokud
mate zajem, mohu to poskytnout i v nehotovem stavu. A pokud mi
poskytnete vzorovy wordovy soubor, mohu dodelat vycty a styly pro
nadpisy. Nebylo by to sice uplne hned, ale pres vikend bych to udelal
urcite.

Pocitam s tim, ze ten SW budu sirit pod nejakou free licenci, bud GPL,
nebo LPPL.

>  word2x mi nejde prelozit.
>
>  Diky,
>  JF
>  _______________________________________________
>  csTeX mailing list
>  csTeX at cs.felk.cvut.cz
>  http://lists.felk.cvut.cz/mailman/listinfo/cstex
>


-- 
Zdeněk Wagner
http://hroch486.icpf.cas.cz/wagner/
http://icebearsoft.euweb.cz


More information about the csTeX mailing list