jeste jednou devanagari

Zdenek Wagner wagner at cesnet.cz
Wed Apr 19 10:30:38 CEST 2006


On Wed, 19 Apr 2006, Arnost Stedry wrote:

> dobry den,
>
> nakonec jsem se rozhodl pro cestu pres velthusiovu transkribci (s tim, ze
> casem asi udelam balim pro unicode).
>
> problem ktery ted resim je, ze mam kombinovany cesko sanskrtsky text v unicode
> (cesky preklad
> jogasuter) s pomerne velkym procentem aparatu. ten je sice jen v transkribci,
> ale stejne mi napriklad writer2latex u nekterych pismen odmitne provest
> prepis (nahradi je sekvencemi typu: [1E47?])
>
> text je wordu a openoffice je normalne a spravne zobrazi, takze pocitam, ze
> problem bude nekde jinde.
>
> nemate nekdo zkusenost z podobnou konverzi? jedina pouzitelna vec kterou jsem
> nasel je tento konvertor:
>
> http://convert.granthamandira.org/convert-online.php
>
Ja delam koverzi z Wordu do LaTeXu pres OpenOffice tak ze ze souboru
neco.sxw vytahnu content.xml a prozenu je vlastnim stylesheetem. Pouzivam
Saxon 8 a XSLT 2.0. Protoze zpracovavam v zasade jen hole texty s
minimalnim znackovanim, zachovavam tucne pismo, kurzivu a poznamky pod
carou. Vse ostatni vyhazuji, protoze se stejne ode me ocekava, ze to
graficky upravim nejak vhodne. Vyhodou je, ze pomoci <xsl:output-character
... /> mohu znaky, ktere LaTeX na vstupu nezna, prekonvertovat na TeXove
sekvence. Vysledny soubor jeste prozenu perlem, jednak vycistim ruzne
nectnosti (napr. cisto koverzi nekdy dostanu:
\textit{t}\textit{e}\textit{x}\textit{t}
\textit{k}\textit{u}\textit{r}\textit{z}\textit{i}\textit{v}\textit{o}\textit{u}
coz nahradim: \textit{text kurzivou}) a funkci Text::Wrap upravim na radky
rozumne delky pro dalsi editaci.

Vse mohu poskytnout (ale mam to jen doma) a zalezi na Vas, jestli radeji
vysledek doeditujete rucne, nebo nastudujete format souboru a doplnite
sablony. Neni to tak slozite. Popis formatu OpenOffice ma asi 900 stran.
Ja jsem si content.xml otevrel v Mozille a celkem snadno slo vystopovat,
jak je to ulozeno.

Trochu potiz bude s devanagarskym textem. V UNICODE se to zapisuje dost
jinak nez ve Velthuisove transliteraci. Sprezku kra musite v UNICODE
napsat jako ka + virama + ra, zatimco ve V.t. pisete pouze kra. Dve ruzne
verze kta rozlisite ve V.t. pomoci prepinacu @sanskrit, @hindi resp.
@modernhindi, zatimco v U. se sanskrtska verze zapise jako ka + virama +
ta a moderni hindska verze pomoci ka + virama + ZW-J + ta. Lze se s tim
vyporadat pomoci regularnich vyrazu, coz umi i XSLT 2.0.

Ja jsem nedavno zpracovaval text v transliteraci pro ITRANS a navic byly v
textu chyby. Udelal jsem to v perlu a stacilo na to nejakych 15
regularnich vyrazu.

> ktery je vcelku pouzitelny (ve dvou krocich), pouze musim nasledne vse rucne
> doznackovat (cemuz bych se rad vyhnul).
>
> dekuji
>
> Arnost Stedry
>

Zdenek Wagner
e-mail: wagner at cesnet.cz

see also http://hroch486.icpf.cas.cz/wagner/
         http://icebearsoft.euweb.cz




More information about the csTeX mailing list